Innehållsförteckning

Modul 2

Typer av generativ AI

Lektion 2.1: Textgenererande AI

Textgenererande AI, även känd som stora språkmodeller (LLMs - Large Language Models), är en av de mest framträdande formerna av generativ AI idag.

Hur fungerar stora språkmodeller?

Moderna språkmodeller som GPT (Generative Pre-trained Transformer) bygger på en arkitektur som kallas Transformer, introducerad 2017. Här är en förenklad förklaring av hur de fungerar:

1. **Tokenisering**: Text bryts ner i mindre enheter som kallas tokens (ord eller delar av ord)
2. **Inbäddning**: Varje token omvandlas till en numerisk representation (vektor)
3. **Kontextbearbetning**: Modellen använder "uppmärksamhetsmekanismer" (attention) för att förstå relationer mellan tokens
4. **Prediktion**: Baserat på tidigare tokens förutspår modellen nästa token
5. **Generering**: Denna process upprepas token för token för att skapa text

Det som gör dessa modeller kraftfulla är:

Populära språkmodeller

Flera viktiga språkmodeller har utvecklats de senaste åren:

Användningsområden för textgenerering

Språkmodeller används inom en mängd olika områden:

Begränsningar och utmaningar

Trots imponerande framsteg har språkmodeller fortfarande betydande begränsningar:

Lektion 2.2: Bildgenererande AI

Bildgenererande AI har gjort enorma framsteg de senaste åren och kan nu skapa häpnadsväckande realistiska och kreativa bilder från textbeskrivningar.

Teknologier bakom bildgenerering

Det finns flera teknologier som driver moderna bildgenererande AI-system:

Text-till-bild

Text-till-bild modeller kan skapa bilder baserat på textbeskrivningar:

Detta möjliggörs genom att modellerna tränas på miljontals bild-text par, där de lär sig associationer mellan visuella element och språkliga beskrivningar.

Bild-till-bild

Bild-till-bild-tekniker låter användare modifiera befintliga bilder:

Populära bildmodeller

Flera system har fått stor uppmärksamhet:

Användningsområden

Bildgenererande AI används inom många områden:

Lektion 2.3: Andra generativa modeller

Generativ AI sträcker sig bortom text och bild till många andra modaliteter och kombinationer av dem.

Ljudgenerering

AI kan nu skapa olika typer av ljud:

Videogenerering

Ett snabbt växande område är AI-genererade videor:

Kodgenerering

AI kan nu också skriva programkod:

3D-generering

Ett område med snabb utveckling är generering av 3D-objekt och miljöer:

Multimodala modeller

Den senaste trenden är modeller som kan hantera flera modaliteter samtidigt:

Multimodala modeller representerar nästa steg i utvecklingen mot mer kompletta AI-system som kan interagera med världen på sätt som liknar mänsklig förståelse.

Praktisk övning 2: Experimentera med bildgenererande AI

Dags att testa bildgenerering själv!

Instruktioner

1. Välj en av följande bildgenererande AI-tjänster:
   * [https://labs.openai.com/](https://labs.openai.com/) (DALL-E)
   * [https://playgroundai.com/](https://playgroundai.com/) (gratis alternativ)
   * [https://www.bing.com/create](https://www.bing.com/create) (kräver Microsoft-konto)
2. Skapa följande bilder med hjälp av prompts:
   * En futuristisk stad med flygande bilar och höga skyskrapor
   * En surrealistisk målning i Salvador Dalís stil föreställande en smältande datorskärm i en öken
   * En fotorealistisk bild av en fantasiblomma som inte existerar i verkligheten
3. Experimentera med att förfina dina prompts:
   * Prova att lägga till konstnärsstilar (t.ex. "i stil av Van Gogh")
   * Specifiera kameraegenskaper (t.ex. "taget med en vidvinkelkamera")
   * Lägg till ljussättningsdetaljer (t.ex. "dramatisk belysning" eller "solnedgångsljus")
4. Spara dina genererade bilder och notera vilka prompts som gav bäst resultat

Reflektionsuppgift

Besvara följande frågor baserat på din upplevelse:


< Föregående Nästa >