Modul 2
Typer av generativ AI
Lektion 2.1: Textgenererande AI
Textgenererande AI, även känd som stora språkmodeller (LLMs - Large Language Models), är en av de mest framträdande formerna av generativ AI idag.
Hur fungerar stora språkmodeller?
Moderna språkmodeller som GPT (Generative Pre-trained Transformer) bygger på en arkitektur som kallas Transformer, introducerad 2017. Här är en förenklad förklaring av hur de fungerar:
1. **Tokenisering**: Text bryts ner i mindre enheter som kallas tokens (ord eller delar av ord) 2. **Inbäddning**: Varje token omvandlas till en numerisk representation (vektor) 3. **Kontextbearbetning**: Modellen använder "uppmärksamhetsmekanismer" (attention) för att förstå relationer mellan tokens 4. **Prediktion**: Baserat på tidigare tokens förutspår modellen nästa token 5. **Generering**: Denna process upprepas token för token för att skapa text
Det som gör dessa modeller kraftfulla är:
- Skalning: Moderna modeller har hundratals miljarder parametrar
- Träningsdata: De tränas på enorma textkorpusar från internet, böcker m.m.
- Self-supervised learning: De lär sig språkmönster utan explicit mänsklig handledning
Populära språkmodeller
Flera viktiga språkmodeller har utvecklats de senaste åren:
- GPT-serien (OpenAI): GPT-3, GPT-4 och framåt har visat allt mer imponerande förmågor
- Claude (Anthropic): Designad med fokus på hjälpsamhet och säkerhet
- LLaMA (Meta): En delvis öppen modell som har lett till många derivat
- Gemini (Google): Googles multimodala modellserie
- Lokala modeller: Mindre modeller som kan köras på en vanlig dator utan internetuppkoppling
Användningsområden för textgenerering
Språkmodeller används inom en mängd olika områden:
- Innehållsskapande: Artiklar, marknadsföringstexter, kreativt skrivande
- Kundtjänst: Chatbots som kan svara på frågor på ett naturligt sätt
- Sammanfattning: Kondensera långa texter till konkreta sammanfattningar
- Översättning: Generera översättningar mellan språk
- Kodgenerering: Skriva programkod baserat på beskrivningar
- Konversation: Dialogsystem som kan föra naturliga samtal
- Informationshämtning: Söka och presentera relevant information
Begränsningar och utmaningar
Trots imponerande framsteg har språkmodeller fortfarande betydande begränsningar:
- Hallucinationer: De kan ibland generera felaktig information som låter övertygande
- Kontextbegränsningar: De har en begränsad ”minnesrymd” (kontextfönster)
- Brist på djupare förståelse: De förstår mönster i språk men inte nödvändigtvis innebörden
- Partiskhet: De kan återspegla eller förstärka partiskhet från träningsdata
Lektion 2.2: Bildgenererande AI
Bildgenererande AI har gjort enorma framsteg de senaste åren och kan nu skapa häpnadsväckande realistiska och kreativa bilder från textbeskrivningar.
Teknologier bakom bildgenerering
Det finns flera teknologier som driver moderna bildgenererande AI-system:
- GANs (Generative Adversarial Networks):
- Består av två neurala nätverk: en generator och en diskriminator
- Generatorn skapar bilder, diskriminatorn bedömer om de ser äkta ut
- Tränas tillsammans i ett slags ”spel” som förbättrar kvaliteten
- Exempel: StyleGAN, BigGAN
- Diffusionsmodeller:
- Tränas genom att gradvis lägga till brus till bilder och sedan lära sig att återställa dem
- Vid generering startar processen med brus som gradvis omvandlas till en meningsfull bild
- Dominerar bildfältet idag
- Exempel: DALL-E 2, Stable Diffusion, Midjourney
Text-till-bild
Text-till-bild modeller kan skapa bilder baserat på textbeskrivningar:
- Prompt: ”En realistisk bild av en isbjörn som spelar gitarr i solnedgången”
- Modellen: Analyserar texten, förstår koncept som ”isbjörn”, ”gitarr”, ”solnedgång” och deras relationer
- Resultat: En bild som kombinerar dessa element på ett sammanhängande sätt
Detta möjliggörs genom att modellerna tränas på miljontals bild-text par, där de lär sig associationer mellan visuella element och språkliga beskrivningar.
Bild-till-bild
Bild-till-bild-tekniker låter användare modifiera befintliga bilder:
- Inpainting: Ersätta eller redigera specifika delar av en bild
- Outpainting: Utöka en bild utanför dess ursprungliga gränser
- Stilöverföring: Applicera konstnärliga stilar på fotografier
- Upscaling: Förbättra upplösningen på bilder
Populära bildmodeller
Flera system har fått stor uppmärksamhet:
- DALL-E (OpenAI): Namngiven efter Salvador Dalí och WALL-E, känd för kreativa tolkningar
- Midjourney: Populär för sin estetiska kvalitet och konstnärliga resultat
- Stable Diffusion (Stability AI): Öppen källkod, kan köras lokalt på en kraftfull dator
- Imagen (Google): Känd för fotorealistiska resultat och god textförståelse
Användningsområden
Bildgenererande AI används inom många områden:
- Konst och design: Konceptkonst, illustrationer, mönsterdesign
- Marknadsföring: Produktbilder, annonsmaterial, sociala medier
- Underhållning: Bakgrunder för spel, filmkoncepter, karaktärsdesign
- Produktutveckling: Visualisera produktkoncept snabbt
- Utbildning: Skapa illustrativa bilder för undervisningsmaterial
Lektion 2.3: Andra generativa modeller
Generativ AI sträcker sig bortom text och bild till många andra modaliteter och kombinationer av dem.
Ljudgenerering
AI kan nu skapa olika typer av ljud:
- Text-till-tal: Omvandla text till naturligt låtande röster
- Exempel: ElevenLabs, OpenAI TTS
- Användningsområden: Ljudböcker, tillgänglighet, röstassistenter
- Musikgenerering: Skapa originell musik i olika stilar
- Exempel: MusicLM, Suno, Udio
- Tekniker: Både diffusion och transformerbaserade modeller används
- Ljudeffekter: Generera realistiska miljöljud eller effekter
- Användningsområden: Film, spel, podcast-produktion
Videogenerering
Ett snabbt växande område är AI-genererade videor:
- Text-till-video: Skapa videosekvenser från textbeskrivningar
- Exempel: Runway Gen-2, Pika Labs, Sora
- Användningsområden: Korta videor för sociala medier, konceptvisualisering
- Bild-till-video: Animera stillbilder eller expandera dem till videosekvenser
- Tekniker: Kombinerar diffusion med temporala modeller
- Utmaningar: Tidskonsekvens, realistisk rörelse
Kodgenerering
AI kan nu också skriva programkod:
- Kod-assistenter: Verktyg som hjälper programmerare att skriva och förbättra kod
- Exempel: GitHub Copilot, Amazon CodeWhisperer
- Funktioner: Kodförslag, buggfixar, dokumentationsgenerering
- App-generation: System som kan skapa hela applikationer från beskrivningar
- Framtida potential: Demokratisera mjukvaruutveckling
3D-generering
Ett område med snabb utveckling är generering av 3D-objekt och miljöer:
- Text-till-3D: Skapa 3D-modeller från textbeskrivningar
- Exempel: Point-E, Shap-E, DreamFusion
- Användningsområden: Speldesign, virtuella miljöer, produktprototyper
- Bild-till-3D: Omvandla 2D-bilder till 3D-modeller
- Tekniker: Neural radiance fields (NeRF), diffusionsmodeller
Multimodala modeller
Den senaste trenden är modeller som kan hantera flera modaliteter samtidigt:
- Definition: System som kan förstå och generera innehåll över olika format (text, bild, ljud)
- Exempel: GPT-4V, Gemini, Claude 3
- Förmågor:
- Förstå bilder och svara på frågor om dem
- Generera bilder baserat på text
- Analysera diagram, skärmdumpar och dokument
- Kombinera text och visuell information i svaren
Multimodala modeller representerar nästa steg i utvecklingen mot mer kompletta AI-system som kan interagera med världen på sätt som liknar mänsklig förståelse.
Praktisk övning 2: Experimentera med bildgenererande AI
Dags att testa bildgenerering själv!
Instruktioner
1. Välj en av följande bildgenererande AI-tjänster: * [https://labs.openai.com/](https://labs.openai.com/) (DALL-E) * [https://playgroundai.com/](https://playgroundai.com/) (gratis alternativ) * [https://www.bing.com/create](https://www.bing.com/create) (kräver Microsoft-konto)
2. Skapa följande bilder med hjälp av prompts: * En futuristisk stad med flygande bilar och höga skyskrapor * En surrealistisk målning i Salvador Dalís stil föreställande en smältande datorskärm i en öken * En fotorealistisk bild av en fantasiblomma som inte existerar i verkligheten
3. Experimentera med att förfina dina prompts: * Prova att lägga till konstnärsstilar (t.ex. "i stil av Van Gogh") * Specifiera kameraegenskaper (t.ex. "taget med en vidvinkelkamera") * Lägg till ljussättningsdetaljer (t.ex. "dramatisk belysning" eller "solnedgångsljus")
4. Spara dina genererade bilder och notera vilka prompts som gav bäst resultat
Reflektionsuppgift
Besvara följande frågor baserat på din upplevelse:
- Vilka typer av detaljer i prompten gav mest påverkan på resultatet?
- Var det något i bildgenereringen som överraskade dig?
- Vilka kreativa användningsområden kan du tänka dig för denna teknologi?
- Vilka begränsningar märkte du?