Tokens

Tokens (eller tokenisering) är ett grundläggande begrepp inom språkmodeller. En *token* är en enhet som en AI-modell använder för att tolka och bearbeta text. Istället för att läsa text som en obruten ström av bokstäver, delar modellen upp den i tokens – som kan vara ord, delar av ord, skiljetecken eller andra textkomponenter.

🔤 Vad är en token?

En token är inte alltid ett helt ord. Exempel:

  • Ordet *katt* kan vara en token
  • Ordet *sammanfattning* kan delas upp i flera tokens: *samman*, *fatt*, *ning*
  • Symboler som ”.” eller ”,” är ofta egna tokens

Tokenisering beror på vilken modell och vilken tokeniserare som används. För engelska är 1 000 tokens ungefär 750 ord. På svenska kan det variera något beroende på sammansatta ord.

📦 Tokenisering i praktiken

Språkmodeller som GPT eller Claude använder tokenisering för att:

  • Läsa och tolka input
  • Avgöra hur mycket information som ryms i kontextfönstret
  • Räkna kostnad (många API-modeller debiterar per token)

Varje inmatning och varje genererad del i svaret räknas i tokens.

🧠 Varför spelar tokens roll?

  • Begränsat kontextfönster – modeller har en övre gräns för hur många tokens de kan bearbeta samtidigt
  • Kostnadsberäkning – t.ex. “0.01 USD per 1 000 tokens”
  • Prestanda – långa prompts (många tokens) kräver mer beräkningskraft

Att förstå tokens är viktigt vid promptutformning, systemdesign och API-integration.

🔍 Räkna tokens

Verktyg för att estimera antal tokens:

Exempel:

  • Texten “Hej och välkommen!” består av 4 tokens
  • Texten “Artificiell intelligens förändrar världen.” kan bli 6–8 tokens beroende på tokeniseraren

⚙️ Tokenisering i olika modeller

  • OpenAI – använder `tiktoken`, med stöd för GPT-2, GPT-3.5, GPT-4
  • Anthropic (Claude) – egen tokenmodell med något längre tokens
  • Google (Gemini) – använder SentencePiece
  • Meta (LLaMA) – använder byte pair encoding (BPE)

🔍 Mer information


Kunskapstest