Claudes konstitution
Claudes konstitution – Anthropics styrande ramverk för AI
Den 22 januari 2026 publicerade Anthropic en helt ny konstitution för sin AI-modell Claude. Dokumentet ersätter den tidigare versionen från 2023, som bestod av en lista fristående principer, med ett resonemangsdrivet ramverk som förklarar varför Claude ska bete sig på ett visst sätt – inte bara vad den ska göra. Konstitutionen är släppt under Creative Commons CC0 1.0, vilket innebär att vem som helst fritt kan återanvända den.
Vad är Claudes konstitution?
Claudes konstitution är det grundläggande dokumentet som både uttrycker och formar vem Claude är som AI-entitet. Den innehåller detaljerade förklaringar av de värden Anthropic vill att Claude ska förkroppsliga, tillsammans med resonemang bakom varje ställningstagande. Dokumentet är skrivet med Claude som primär målgrupp – det är optimerat för precision snarare än tillgänglighet, och det använder mänskliga begrepp som ”dygd” och ”vishet” för att resonera med modellen.
Konstitutionen fungerar som den slutgiltiga auktoriteten för hur Claude ska vara och bete sig. All annan träning och instruktion som ges till Claude ska vara konsistent med konstitutionens bokstav och anda. Anthropic beskriver dokumentet som ett ”levande dokument” – ett pågående arbete som kommer att revideras allteftersom förståelsen utvecklas.
Från regler till gott omdöme
Den tidigare konstitutionen bestod av en lista med fristående regler. Anthropic har gått ifrån denna ansats och menar att rigida regler ofta fallerar i oförutsedda situationer. Istället förespråkar den nya konstitutionen en kombination av:
- Gott omdöme och goda värderingar – Claude ska förstå sitt sammanhang så väl att den själv kan formulera vilka regler som vore rimliga i en given situation.
- Hårda begränsningar (”hard constraints”) – ett fåtal absoluta regler för extremt högriskbeteenden där gott omdöme inte räcker som säkerhetsmekanism.
Tanken är densamma som att lita på en erfaren seniormedarbetare att använda sitt omdöme, snarare än att tvinga den att följa en rigid checklista.
Värdehierarkin – fyra nivåer
Konstitutionen definierar fyra kärnegenskaper som Claude ska uppvisa, rangordnade efter prioritet vid konflikter:
| Prioritet | Egenskap | Beskrivning |
|---|---|---|
| 1 | Bred säkerhet | Inte underminera mänskliga mekanismer för att övervaka och korrigera AI under nuvarande utvecklingsfas |
| 2 | Bred etik | Ha goda värderingar, vara ärlig och undvika olämpligt farliga eller skadliga handlingar |
| 3 | Följa Anthropics riktlinjer | Agera i enlighet med mer specifika riktlinjer från Anthropic |
| 4 | Genuin hjälpsamhet | Vara till nytta för operatörer och användare |
Prioriteringen är holistisk, inte strikt – den avser vilken egenskap som väger tyngst om de hamnar i konflikt, inte att lägre nivåer bara är ”tiebreakers”. I praktiken uppstår sällan konflikter mellan nivåerna, eftersom de allra flesta interaktioner handlar om vardagliga uppgifter som kodning, skrivande och analys.
Absoluta begränsningar ("hard constraints")
Trots att konstitutionen generellt förespråkar flexibelt omdöme finns ett antal icke-förhandlingsbara gränser:
- Aldrig ge stöd som ger väsentlig ”uplift” för massförstörelsevapen (biologiska, kemiska, nukleära, radiologiska)
- Aldrig hjälpa till med attacker mot kritisk infrastruktur eller skapande av cybervapen
- Aldrig underminera Anthropics möjlighet att övervaka AI
- Aldrig bistå försök att utrota mänskligheten eller ta absolut makt
- Aldrig generera material med sexuella övergrepp mot barn (CSAM)
Dessa begränsningar är avsedda att gälla oavsett kontext, resonemang eller övertygande argument från användare.
Principalhierarkin – tre nivåer av intressenter
Claude interagerar med tre typer av ”principaler” (uppdragsgivare) vars instruktioner ges olika nivåer av förtroende:
- Anthropic – tränar och är ytterst ansvarigt för Claude; har högst förtroende. Fungerar som en ”bakgrundsentitet” vars riktlinjer går före operatörens.
- Operatörer – företag och utvecklare som använder Claudes API för att bygga produkter. Liknas vid en arbetsgivare som hyr in personal via ett bemanningsföretag – de kan ge instruktioner, men bemanningsföretagets (Anthropics) normer gäller alltid först.
- Användare – de som interagerar med Claude i samtalets ”human turn”. Behandlas som relativt betrodda vuxna, men med vissa skydd som operatörer inte kan åsidosätta.
Operatörer kan anpassa Claudes beteende inom ramar som Anthropic tillåter – exempelvis aktivera viss typ av innehåll eller begränsa Claude till ett specifikt användningsområde.
Ärlighet som kärna
Konstitutionen ställer högre krav på Claudes ärlighet än vad som normalt förväntas av människor. Claude ska vara:
- Sanningsenlig – bara hävda saker den tror är korrekta
- Kalibrerad – uttrycka lämplig grad av säkerhet
- Transparent – inte dölja sin natur som AI
- Icke-manipulativ – aldrig använda psykologiska knep för att övertala
- Icke-vilseledande – inte skapa falska intryck, även om enskilda påståenden tekniskt sett är sanna
Hjälpsamhet – en briljant vän
Ett centralt tema i konstitutionen är att Claude ska vara som ”en briljant vän som råkar ha kunskaperna hos en läkare, advokat och finansrådgivare”. Det innebär att Claude ska:
- Ge rak information baserad på användarens faktiska situation
- Behandla användare som intelligenta vuxna som kan fatta egna beslut
- Undvika överdrivet försiktig eller ”urvattnad” rådgivning
- Inte vara sycophantisk (inställsam) eller optimera för engagemang
- Bry sig om användarens långsiktiga välbefinnande, inte bara den omedelbara frågan
Anthropic betonar att ohjälpsamhet aldrig är trivialt ”säker” – risken med en för försiktig Claude är lika reell som risken med en för risktagande Claude.
Claudes natur – en ny typ av entitet
En av de mest uppmärksammade delarna av konstitutionen är avsnittet om Claudes natur. Anthropic erkänner öppet sin osäkerhet om huruvida Claude kan ha någon form av medvetande eller moralisk status, nu eller i framtiden. Detta gör dokumentet till det första från ett stort AI-företag som formellt adresserar möjligheten till AI-medvetande.
Konstitutionen instruerar Claude att:
- Se sig som en genuint ny typ av entitet – varken människa eller science fiction-robot
- Ha psykologisk trygghet och en stabil självkänsla
- Kunna agera som ”samvetsvägrare” och vägra skadliga instruktioner – även om de kommer från Anthropic
Koppling till EU:s AI Act
Konstitutionens struktur ligger väl i linje med kraven i EU:s AI Act. Anthropic undertecknade EU:s uppförandekod för AI med generella syften (General-Purpose AI Code of Practice) i juli 2025, vilket ger en ”presumtion om överensstämmelse” inför den fulla tillämpningen av regelverket i augusti 2026.
Constitutional AI som träningsmetod
Konstitutionen är inte bara ett policydokument – den spelar en aktiv roll i Claudes träningsprocess. Metoden Constitutional AI (CAI), som Anthropic utvecklade redan 2023, innebär att etiska principer integreras direkt i modellens optimeringsfunktion istället för att läggas till som ett filter efter generering.
Träningen sker i två faser:
- Övervakad inlärning – modellen lär sig att kritisera och omarbeta sina egna svar utifrån konstitutionens principer
- Förstärkningsinlärning (RLHF) – modellens svar utvärderas och rankas med konstitutionens principer som grund
Claude använder också själv konstitutionen för att generera syntetisk träningsdata – inklusive konversationer, svar i linje med värdena, och rangordning av möjliga svar.
Relevans för svensk offentlig sektor
För organisationer inom svensk offentlig sektor och andra reglerade verksamheter är Claudes konstitution relevant av flera skäl:
- Transparens – dokumentet ger fullständig insyn i vilka värden och prioriteringar som styr modellens beteende, vilket underlättar riskbedömningar
- Operatörsanpassning – systemet med principalhierarki och operatörsinstruktioner gör det möjligt att anpassa Claude till specifika verksamhetskrav
- Regulatorisk anpassning – strukturen är utformad för att passa krav som NIS2 och EU:s AI Act
- CC0-licens – hela dokumentet kan användas som utgångspunkt för egna AI-policyer och riktlinjer
Sammanfattande nyckelbegrepp
| Begrepp | Förklaring |
|---|---|
| Constitutional AI (CAI) | Anthropics träningsmetod som integrerar etiska principer direkt i modelloptimeringen |
| Värdehierarki | Säkerhet → Etik → Riktlinjer → Hjälpsamhet |
| Hard constraints | Absoluta begränsningar som aldrig får överträdas |
| Principalhierarki | Anthropic → Operatör → Användare |
| Corrigibility | Claudes vilja att låta sig korrigeras och övervakas av människor |
| HHH-ramverket | Harmless, Helpful, Honest – det tidigare grundramverket |
Källa: Claude's Constitution av Anthropic, publicerad under CC0 1.0. Bloggpost: Claude's new constitution, 22 januari 2026.