====== Modul 2 ====== * [[:ai:1._nyborjarniva:introduktion_till_generativ_ai|Start]] * [[:ai:1._nyborjarniva:introduktion_till_generativ_ai:Modul 1|Modul 1]] * [[:ai:1._nyborjarniva:introduktion_till_generativ_ai:Modul 2|Modul 2]] * [[:ai:1._nyborjarniva:introduktion_till_generativ_ai:Modul 3|Modul 3]] * [[:ai:1._nyborjarniva:introduktion_till_generativ_ai:Modul 4|Modul 4]] * [[:ai:1._nyborjarniva:introduktion_till_generativ_ai:Modul 5|Modul 5]] ===== Typer av generativ AI ===== ==== Lektion 2.1: Textgenererande AI ==== Textgenererande AI, även känd som stora språkmodeller (LLMs - Large Language Models), är en av de mest framträdande formerna av generativ AI idag. === Hur fungerar stora språkmodeller? === Moderna språkmodeller som GPT (Generative Pre-trained Transformer) bygger på en arkitektur som kallas **Transformer**, introducerad 2017. Här är en förenklad förklaring av hur de fungerar: 1. **Tokenisering**: Text bryts ner i mindre enheter som kallas tokens (ord eller delar av ord) 2. **Inbäddning**: Varje token omvandlas till en numerisk representation (vektor) 3. **Kontextbearbetning**: Modellen använder "uppmärksamhetsmekanismer" (attention) för att förstå relationer mellan tokens 4. **Prediktion**: Baserat på tidigare tokens förutspår modellen nästa token 5. **Generering**: Denna process upprepas token för token för att skapa text Det som gör dessa modeller kraftfulla är: * **Skalning**: Moderna modeller har hundratals miljarder parametrar * **Träningsdata**: De tränas på enorma textkorpusar från internet, böcker m.m. * **Self-supervised learning**: De lär sig språkmönster utan explicit mänsklig handledning === Populära språkmodeller === Flera viktiga språkmodeller har utvecklats de senaste åren: * **GPT-serien** (OpenAI): GPT-3, GPT-4 och framåt har visat allt mer imponerande förmågor * **Claude** (Anthropic): Designad med fokus på hjälpsamhet och säkerhet * **LLaMA** (Meta): En delvis öppen modell som har lett till många derivat * **Gemini** (Google): Googles multimodala modellserie * **Lokala modeller**: Mindre modeller som kan köras på en vanlig dator utan internetuppkoppling === Användningsområden för textgenerering === Språkmodeller används inom en mängd olika områden: * **Innehållsskapande**: Artiklar, marknadsföringstexter, kreativt skrivande * **Kundtjänst**: Chatbots som kan svara på frågor på ett naturligt sätt * **Sammanfattning**: Kondensera långa texter till konkreta sammanfattningar * **Översättning**: Generera översättningar mellan språk * **Kodgenerering**: Skriva programkod baserat på beskrivningar * **Konversation**: Dialogsystem som kan föra naturliga samtal * **Informationshämtning**: Söka och presentera relevant information === Begränsningar och utmaningar === Trots imponerande framsteg har språkmodeller fortfarande betydande begränsningar: * **Hallucinationer**: De kan ibland generera felaktig information som låter övertygande * **Kontextbegränsningar**: De har en begränsad "minnesrymd" (kontextfönster) * **Brist på djupare förståelse**: De förstår mönster i språk men inte nödvändigtvis innebörden * **Partiskhet**: De kan återspegla eller förstärka partiskhet från träningsdata ==== Lektion 2.2: Bildgenererande AI ==== Bildgenererande AI har gjort enorma framsteg de senaste åren och kan nu skapa häpnadsväckande realistiska och kreativa bilder från textbeskrivningar. === Teknologier bakom bildgenerering === Det finns flera teknologier som driver moderna bildgenererande AI-system: * **GANs (Generative Adversarial Networks)**: * Består av två neurala nätverk: en generator och en diskriminator * Generatorn skapar bilder, diskriminatorn bedömer om de ser äkta ut * Tränas tillsammans i ett slags "spel" som förbättrar kvaliteten * Exempel: StyleGAN, BigGAN * **Diffusionsmodeller**: * Tränas genom att gradvis lägga till brus till bilder och sedan lära sig att återställa dem * Vid generering startar processen med brus som gradvis omvandlas till en meningsfull bild * Dominerar bildfältet idag * Exempel: DALL-E 2, Stable Diffusion, Midjourney === Text-till-bild === Text-till-bild modeller kan skapa bilder baserat på textbeskrivningar: * **Prompt**: "En realistisk bild av en isbjörn som spelar gitarr i solnedgången" * **Modellen**: Analyserar texten, förstår koncept som "isbjörn", "gitarr", "solnedgång" och deras relationer * **Resultat**: En bild som kombinerar dessa element på ett sammanhängande sätt Detta möjliggörs genom att modellerna tränas på miljontals bild-text par, där de lär sig associationer mellan visuella element och språkliga beskrivningar. === Bild-till-bild === Bild-till-bild-tekniker låter användare modifiera befintliga bilder: * **Inpainting**: Ersätta eller redigera specifika delar av en bild * **Outpainting**: Utöka en bild utanför dess ursprungliga gränser * **Stilöverföring**: Applicera konstnärliga stilar på fotografier * **Upscaling**: Förbättra upplösningen på bilder === Populära bildmodeller === Flera system har fått stor uppmärksamhet: * **DALL-E** (OpenAI): Namngiven efter Salvador Dalí och WALL-E, känd för kreativa tolkningar * **Midjourney**: Populär för sin estetiska kvalitet och konstnärliga resultat * **Stable Diffusion** (Stability AI): Öppen källkod, kan köras lokalt på en kraftfull dator * **Imagen** (Google): Känd för fotorealistiska resultat och god textförståelse === Användningsområden === Bildgenererande AI används inom många områden: * **Konst och design**: Konceptkonst, illustrationer, mönsterdesign * **Marknadsföring**: Produktbilder, annonsmaterial, sociala medier * **Underhållning**: Bakgrunder för spel, filmkoncepter, karaktärsdesign * **Produktutveckling**: Visualisera produktkoncept snabbt * **Utbildning**: Skapa illustrativa bilder för undervisningsmaterial ==== Lektion 2.3: Andra generativa modeller ==== Generativ AI sträcker sig bortom text och bild till många andra modaliteter och kombinationer av dem. === Ljudgenerering === AI kan nu skapa olika typer av ljud: * **Text-till-tal**: Omvandla text till naturligt låtande röster * Exempel: ElevenLabs, OpenAI TTS * Användningsområden: Ljudböcker, tillgänglighet, röstassistenter * **Musikgenerering**: Skapa originell musik i olika stilar * Exempel: MusicLM, Suno, Udio * Tekniker: Både diffusion och transformerbaserade modeller används * **Ljudeffekter**: Generera realistiska miljöljud eller effekter * Användningsområden: Film, spel, podcast-produktion === Videogenerering === Ett snabbt växande område är AI-genererade videor: * **Text-till-video**: Skapa videosekvenser från textbeskrivningar * Exempel: Runway Gen-2, Pika Labs, Sora * Användningsområden: Korta videor för sociala medier, konceptvisualisering * **Bild-till-video**: Animera stillbilder eller expandera dem till videosekvenser * Tekniker: Kombinerar diffusion med temporala modeller * Utmaningar: Tidskonsekvens, realistisk rörelse === Kodgenerering === AI kan nu också skriva programkod: * **Kod-assistenter**: Verktyg som hjälper programmerare att skriva och förbättra kod * Exempel: GitHub Copilot, Amazon CodeWhisperer * Funktioner: Kodförslag, buggfixar, dokumentationsgenerering * **App-generation**: System som kan skapa hela applikationer från beskrivningar * Framtida potential: Demokratisera mjukvaruutveckling === 3D-generering === Ett område med snabb utveckling är generering av 3D-objekt och miljöer: * **Text-till-3D**: Skapa 3D-modeller från textbeskrivningar * Exempel: Point-E, Shap-E, DreamFusion * Användningsområden: Speldesign, virtuella miljöer, produktprototyper * **Bild-till-3D**: Omvandla 2D-bilder till 3D-modeller * Tekniker: Neural radiance fields (NeRF), diffusionsmodeller === Multimodala modeller === Den senaste trenden är modeller som kan hantera flera modaliteter samtidigt: * **Definition**: System som kan förstå och generera innehåll över olika format (text, bild, ljud) * **Exempel**: GPT-4V, Gemini, Claude 3 * **Förmågor**: * Förstå bilder och svara på frågor om dem * Generera bilder baserat på text * Analysera diagram, skärmdumpar och dokument * Kombinera text och visuell information i svaren Multimodala modeller representerar nästa steg i utvecklingen mot mer kompletta AI-system som kan interagera med världen på sätt som liknar mänsklig förståelse. ==== Praktisk övning 2: Experimentera med bildgenererande AI ==== Dags att testa bildgenerering själv! === Instruktioner === 1. Välj en av följande bildgenererande AI-tjänster: * [https://labs.openai.com/](https://labs.openai.com/) (DALL-E) * [https://playgroundai.com/](https://playgroundai.com/) (gratis alternativ) * [https://www.bing.com/create](https://www.bing.com/create) (kräver Microsoft-konto) 2. Skapa följande bilder med hjälp av prompts: * En futuristisk stad med flygande bilar och höga skyskrapor * En surrealistisk målning i Salvador Dalís stil föreställande en smältande datorskärm i en öken * En fotorealistisk bild av en fantasiblomma som inte existerar i verkligheten 3. Experimentera med att förfina dina prompts: * Prova att lägga till konstnärsstilar (t.ex. "i stil av Van Gogh") * Specifiera kameraegenskaper (t.ex. "taget med en vidvinkelkamera") * Lägg till ljussättningsdetaljer (t.ex. "dramatisk belysning" eller "solnedgångsljus") 4. Spara dina genererade bilder och notera vilka prompts som gav bäst resultat === Reflektionsuppgift === Besvara följande frågor baserat på din upplevelse: * Vilka typer av detaljer i prompten gav mest påverkan på resultatet? * Var det något i bildgenereringen som överraskade dig? * Vilka kreativa användningsområden kan du tänka dig för denna teknologi? * Vilka begränsningar märkte du? ----