Modul 2
Typer av generativ AI
Lektion 2.1: Textgenererande AI
Textgenererande AI, även känd som stora språkmodeller (LLMs - Large Language Models), är en av de mest framträdande formerna av generativ AI idag.
Hur fungerar stora språkmodeller?
Moderna språkmodeller som GPT (Generative Pre-trained Transformer) bygger på en arkitektur som kallas Transformer, introducerad 2017. Här är en förenklad förklaring av hur de fungerar:
1. **Tokenisering**: Text bryts ner i mindre enheter som kallas tokens (ord eller delar av ord)
2. **Inbäddning**: Varje token omvandlas till en numerisk representation (vektor)
3. **Kontextbearbetning**: Modellen använder "uppmärksamhetsmekanismer" (attention) för att förstå relationer mellan tokens
4. **Prediktion**: Baserat på tidigare tokens förutspår modellen nästa token
5. **Generering**: Denna process upprepas token för token för att skapa text
Det som gör dessa modeller kraftfulla är:
Skalning: Moderna modeller har hundratals miljarder parametrar
Träningsdata: De tränas på enorma textkorpusar från internet, böcker m.m.
Self-supervised learning: De lär sig språkmönster utan explicit mänsklig handledning
Populära språkmodeller
Flera viktiga språkmodeller har utvecklats de senaste åren:
GPT-serien (OpenAI): GPT-3, GPT-4 och framåt har visat allt mer imponerande förmågor
Claude (Anthropic): Designad med fokus på hjälpsamhet och säkerhet
LLaMA (Meta): En delvis öppen modell som har lett till många derivat
Gemini (Google): Googles multimodala modellserie
Lokala modeller: Mindre modeller som kan köras på en vanlig dator utan internetuppkoppling
Användningsområden för textgenerering
Språkmodeller används inom en mängd olika områden:
Innehållsskapande: Artiklar, marknadsföringstexter, kreativt skrivande
Kundtjänst: Chatbots som kan svara på frågor på ett naturligt sätt
Sammanfattning: Kondensera långa texter till konkreta sammanfattningar
Översättning: Generera översättningar mellan språk
Kodgenerering: Skriva programkod baserat på beskrivningar
Konversation: Dialogsystem som kan föra naturliga samtal
Informationshämtning: Söka och presentera relevant information
Begränsningar och utmaningar
Trots imponerande framsteg har språkmodeller fortfarande betydande begränsningar:
Hallucinationer: De kan ibland generera felaktig information som låter övertygande
Kontextbegränsningar: De har en begränsad ”minnesrymd” (kontextfönster)
Brist på djupare förståelse: De förstår mönster i språk men inte nödvändigtvis innebörden
Partiskhet: De kan återspegla eller förstärka partiskhet från träningsdata
Lektion 2.2: Bildgenererande AI
Bildgenererande AI har gjort enorma framsteg de senaste åren och kan nu skapa häpnadsväckande realistiska och kreativa bilder från textbeskrivningar.
Teknologier bakom bildgenerering
Det finns flera teknologier som driver moderna bildgenererande AI-system:
Diffusionsmodeller:
Tränas genom att gradvis lägga till brus till bilder och sedan lära sig att återställa dem
Vid generering startar processen med brus som gradvis omvandlas till en meningsfull bild
Dominerar bildfältet idag
Exempel: DALL-E 2, Stable Diffusion, Midjourney
Text-till-bild
Text-till-bild modeller kan skapa bilder baserat på textbeskrivningar:
Prompt: ”En realistisk bild av en isbjörn som spelar gitarr i solnedgången”
Modellen: Analyserar texten, förstår koncept som ”isbjörn”, ”gitarr”, ”solnedgång” och deras relationer
Resultat: En bild som kombinerar dessa element på ett sammanhängande sätt
Detta möjliggörs genom att modellerna tränas på miljontals bild-text par, där de lär sig associationer mellan visuella element och språkliga beskrivningar.
Bild-till-bild
Bild-till-bild-tekniker låter användare modifiera befintliga bilder:
Inpainting: Ersätta eller redigera specifika delar av en bild
Outpainting: Utöka en bild utanför dess ursprungliga gränser
Stilöverföring: Applicera konstnärliga stilar på fotografier
Upscaling: Förbättra upplösningen på bilder
Populära bildmodeller
Flera system har fått stor uppmärksamhet:
DALL-E (OpenAI): Namngiven efter Salvador Dalí och WALL-E, känd för kreativa tolkningar
Midjourney: Populär för sin estetiska kvalitet och konstnärliga resultat
Stable Diffusion (Stability AI): Öppen källkod, kan köras lokalt på en kraftfull dator
Imagen (Google): Känd för fotorealistiska resultat och god textförståelse
Användningsområden
Bildgenererande AI används inom många områden:
Konst och design: Konceptkonst, illustrationer, mönsterdesign
Marknadsföring: Produktbilder, annonsmaterial, sociala medier
Underhållning: Bakgrunder för spel, filmkoncepter, karaktärsdesign
Produktutveckling: Visualisera produktkoncept snabbt
Utbildning: Skapa illustrativa bilder för undervisningsmaterial
Lektion 2.3: Andra generativa modeller
Generativ AI sträcker sig bortom text och bild till många andra modaliteter och kombinationer av dem.
Ljudgenerering
AI kan nu skapa olika typer av ljud:
Videogenerering
Ett snabbt växande område är AI-genererade videor:
Kodgenerering
AI kan nu också skriva programkod:
3D-generering
Ett område med snabb utveckling är generering av 3D-objekt och miljöer:
Multimodala modeller
Den senaste trenden är modeller som kan hantera flera modaliteter samtidigt:
Definition: System som kan förstå och generera innehåll över olika format (text, bild, ljud)
Exempel: GPT-4V, Gemini, Claude 3
Förmågor:
Förstå bilder och svara på frågor om dem
Generera bilder baserat på text
Analysera diagram, skärmdumpar och dokument
Kombinera text och visuell information i svaren
Multimodala modeller representerar nästa steg i utvecklingen mot mer kompletta AI-system som kan interagera med världen på sätt som liknar mänsklig förståelse.
Praktisk övning 2: Experimentera med bildgenererande AI
Dags att testa bildgenerering själv!
Instruktioner
1. Välj en av följande bildgenererande AI-tjänster:
* [https://labs.openai.com/](https://labs.openai.com/) (DALL-E)
* [https://playgroundai.com/](https://playgroundai.com/) (gratis alternativ)
* [https://www.bing.com/create](https://www.bing.com/create) (kräver Microsoft-konto)
2. Skapa följande bilder med hjälp av prompts:
* En futuristisk stad med flygande bilar och höga skyskrapor
* En surrealistisk målning i Salvador Dalís stil föreställande en smältande datorskärm i en öken
* En fotorealistisk bild av en fantasiblomma som inte existerar i verkligheten
3. Experimentera med att förfina dina prompts:
* Prova att lägga till konstnärsstilar (t.ex. "i stil av Van Gogh")
* Specifiera kameraegenskaper (t.ex. "taget med en vidvinkelkamera")
* Lägg till ljussättningsdetaljer (t.ex. "dramatisk belysning" eller "solnedgångsljus")
4. Spara dina genererade bilder och notera vilka prompts som gav bäst resultat
Reflektionsuppgift
Besvara följande frågor baserat på din upplevelse:
Vilka typer av detaljer i prompten gav mest påverkan på resultatet?
Var det något i bildgenereringen som överraskade dig?
Vilka kreativa användningsområden kan du tänka dig för denna teknologi?
Vilka begränsningar märkte du?
< Föregående
Nästa >