Tokens
Tokens (eller tokenisering) är ett grundläggande begrepp inom språkmodeller. En *token* är en enhet som en AI-modell använder för att tolka och bearbeta text. Istället för att läsa text som en obruten ström av bokstäver, delar modellen upp den i tokens – som kan vara ord, delar av ord, skiljetecken eller andra textkomponenter.
🔤 Vad är en token?
En token är inte alltid ett helt ord. Exempel:
- Ordet *katt* kan vara en token
- Ordet *sammanfattning* kan delas upp i flera tokens: *samman*, *fatt*, *ning*
- Symboler som ”.” eller ”,” är ofta egna tokens
Tokenisering beror på vilken modell och vilken tokeniserare som används. För engelska är 1 000 tokens ungefär 750 ord. På svenska kan det variera något beroende på sammansatta ord.
📦 Tokenisering i praktiken
Språkmodeller som GPT eller Claude använder tokenisering för att:
- Läsa och tolka input
- Avgöra hur mycket information som ryms i kontextfönstret
- Räkna kostnad (många API-modeller debiterar per token)
Varje inmatning och varje genererad del i svaret räknas i tokens.
🧠 Varför spelar tokens roll?
- Begränsat kontextfönster – modeller har en övre gräns för hur många tokens de kan bearbeta samtidigt
- Kostnadsberäkning – t.ex. “0.01 USD per 1 000 tokens”
- Prestanda – långa prompts (många tokens) kräver mer beräkningskraft
Att förstå tokens är viktigt vid promptutformning, systemdesign och API-integration.
🔍 Räkna tokens
Verktyg för att estimera antal tokens:
Exempel:
- Texten “Hej och välkommen!” består av 4 tokens
- Texten “Artificiell intelligens förändrar världen.” kan bli 6–8 tokens beroende på tokeniseraren
⚙️ Tokenisering i olika modeller
- OpenAI – använder `tiktoken`, med stöd för GPT-2, GPT-3.5, GPT-4
- Anthropic (Claude) – egen tokenmodell med något längre tokens
- Google (Gemini) – använder SentencePiece
- Meta (LLaMA) – använder byte pair encoding (BPE)
🔍 Mer information
Artiklar: