====== Modul 2 ======
* [[:ai:1._nyborjarniva:introduktion_till_generativ_ai|Start]]
* [[:ai:1._nyborjarniva:introduktion_till_generativ_ai:Modul 1|Modul 1]]
* [[:ai:1._nyborjarniva:introduktion_till_generativ_ai:Modul 2|Modul 2]]
* [[:ai:1._nyborjarniva:introduktion_till_generativ_ai:Modul 3|Modul 3]]
* [[:ai:1._nyborjarniva:introduktion_till_generativ_ai:Modul 4|Modul 4]]
* [[:ai:1._nyborjarniva:introduktion_till_generativ_ai:Modul 5|Modul 5]]
===== Typer av generativ AI =====
==== Lektion 2.1: Textgenererande AI ====
Textgenererande AI, även känd som stora språkmodeller (LLMs - Large Language Models), är en av de mest framträdande formerna av generativ AI idag.
=== Hur fungerar stora språkmodeller? ===
Moderna språkmodeller som GPT (Generative Pre-trained Transformer) bygger på en arkitektur som kallas **Transformer**, introducerad 2017. Här är en förenklad förklaring av hur de fungerar:
1. **Tokenisering**: Text bryts ner i mindre enheter som kallas tokens (ord eller delar av ord)
2. **Inbäddning**: Varje token omvandlas till en numerisk representation (vektor)
3. **Kontextbearbetning**: Modellen använder "uppmärksamhetsmekanismer" (attention) för att förstå relationer mellan tokens
4. **Prediktion**: Baserat på tidigare tokens förutspår modellen nästa token
5. **Generering**: Denna process upprepas token för token för att skapa text
Det som gör dessa modeller kraftfulla är:
* **Skalning**: Moderna modeller har hundratals miljarder parametrar
* **Träningsdata**: De tränas på enorma textkorpusar från internet, böcker m.m.
* **Self-supervised learning**: De lär sig språkmönster utan explicit mänsklig handledning
=== Populära språkmodeller ===
Flera viktiga språkmodeller har utvecklats de senaste åren:
* **GPT-serien** (OpenAI): GPT-3, GPT-4 och framåt har visat allt mer imponerande förmågor
* **Claude** (Anthropic): Designad med fokus på hjälpsamhet och säkerhet
* **LLaMA** (Meta): En delvis öppen modell som har lett till många derivat
* **Gemini** (Google): Googles multimodala modellserie
* **Lokala modeller**: Mindre modeller som kan köras på en vanlig dator utan internetuppkoppling
=== Användningsområden för textgenerering ===
Språkmodeller används inom en mängd olika områden:
* **Innehållsskapande**: Artiklar, marknadsföringstexter, kreativt skrivande
* **Kundtjänst**: Chatbots som kan svara på frågor på ett naturligt sätt
* **Sammanfattning**: Kondensera långa texter till konkreta sammanfattningar
* **Översättning**: Generera översättningar mellan språk
* **Kodgenerering**: Skriva programkod baserat på beskrivningar
* **Konversation**: Dialogsystem som kan föra naturliga samtal
* **Informationshämtning**: Söka och presentera relevant information
=== Begränsningar och utmaningar ===
Trots imponerande framsteg har språkmodeller fortfarande betydande begränsningar:
* **Hallucinationer**: De kan ibland generera felaktig information som låter övertygande
* **Kontextbegränsningar**: De har en begränsad "minnesrymd" (kontextfönster)
* **Brist på djupare förståelse**: De förstår mönster i språk men inte nödvändigtvis innebörden
* **Partiskhet**: De kan återspegla eller förstärka partiskhet från träningsdata
==== Lektion 2.2: Bildgenererande AI ====
Bildgenererande AI har gjort enorma framsteg de senaste åren och kan nu skapa häpnadsväckande realistiska och kreativa bilder från textbeskrivningar.
=== Teknologier bakom bildgenerering ===
Det finns flera teknologier som driver moderna bildgenererande AI-system:
* **GANs (Generative Adversarial Networks)**:
* Består av två neurala nätverk: en generator och en diskriminator
* Generatorn skapar bilder, diskriminatorn bedömer om de ser äkta ut
* Tränas tillsammans i ett slags "spel" som förbättrar kvaliteten
* Exempel: StyleGAN, BigGAN
* **Diffusionsmodeller**:
* Tränas genom att gradvis lägga till brus till bilder och sedan lära sig att återställa dem
* Vid generering startar processen med brus som gradvis omvandlas till en meningsfull bild
* Dominerar bildfältet idag
* Exempel: DALL-E 2, Stable Diffusion, Midjourney
=== Text-till-bild ===
Text-till-bild modeller kan skapa bilder baserat på textbeskrivningar:
* **Prompt**: "En realistisk bild av en isbjörn som spelar gitarr i solnedgången"
* **Modellen**: Analyserar texten, förstår koncept som "isbjörn", "gitarr", "solnedgång" och deras relationer
* **Resultat**: En bild som kombinerar dessa element på ett sammanhängande sätt
Detta möjliggörs genom att modellerna tränas på miljontals bild-text par, där de lär sig associationer mellan visuella element och språkliga beskrivningar.
=== Bild-till-bild ===
Bild-till-bild-tekniker låter användare modifiera befintliga bilder:
* **Inpainting**: Ersätta eller redigera specifika delar av en bild
* **Outpainting**: Utöka en bild utanför dess ursprungliga gränser
* **Stilöverföring**: Applicera konstnärliga stilar på fotografier
* **Upscaling**: Förbättra upplösningen på bilder
=== Populära bildmodeller ===
Flera system har fått stor uppmärksamhet:
* **DALL-E** (OpenAI): Namngiven efter Salvador Dalí och WALL-E, känd för kreativa tolkningar
* **Midjourney**: Populär för sin estetiska kvalitet och konstnärliga resultat
* **Stable Diffusion** (Stability AI): Öppen källkod, kan köras lokalt på en kraftfull dator
* **Imagen** (Google): Känd för fotorealistiska resultat och god textförståelse
=== Användningsområden ===
Bildgenererande AI används inom många områden:
* **Konst och design**: Konceptkonst, illustrationer, mönsterdesign
* **Marknadsföring**: Produktbilder, annonsmaterial, sociala medier
* **Underhållning**: Bakgrunder för spel, filmkoncepter, karaktärsdesign
* **Produktutveckling**: Visualisera produktkoncept snabbt
* **Utbildning**: Skapa illustrativa bilder för undervisningsmaterial
==== Lektion 2.3: Andra generativa modeller ====
Generativ AI sträcker sig bortom text och bild till många andra modaliteter och kombinationer av dem.
=== Ljudgenerering ===
AI kan nu skapa olika typer av ljud:
* **Text-till-tal**: Omvandla text till naturligt låtande röster
* Exempel: ElevenLabs, OpenAI TTS
* Användningsområden: Ljudböcker, tillgänglighet, röstassistenter
* **Musikgenerering**: Skapa originell musik i olika stilar
* Exempel: MusicLM, Suno, Udio
* Tekniker: Både diffusion och transformerbaserade modeller används
* **Ljudeffekter**: Generera realistiska miljöljud eller effekter
* Användningsområden: Film, spel, podcast-produktion
=== Videogenerering ===
Ett snabbt växande område är AI-genererade videor:
* **Text-till-video**: Skapa videosekvenser från textbeskrivningar
* Exempel: Runway Gen-2, Pika Labs, Sora
* Användningsområden: Korta videor för sociala medier, konceptvisualisering
* **Bild-till-video**: Animera stillbilder eller expandera dem till videosekvenser
* Tekniker: Kombinerar diffusion med temporala modeller
* Utmaningar: Tidskonsekvens, realistisk rörelse
=== Kodgenerering ===
AI kan nu också skriva programkod:
* **Kod-assistenter**: Verktyg som hjälper programmerare att skriva och förbättra kod
* Exempel: GitHub Copilot, Amazon CodeWhisperer
* Funktioner: Kodförslag, buggfixar, dokumentationsgenerering
* **App-generation**: System som kan skapa hela applikationer från beskrivningar
* Framtida potential: Demokratisera mjukvaruutveckling
=== 3D-generering ===
Ett område med snabb utveckling är generering av 3D-objekt och miljöer:
* **Text-till-3D**: Skapa 3D-modeller från textbeskrivningar
* Exempel: Point-E, Shap-E, DreamFusion
* Användningsområden: Speldesign, virtuella miljöer, produktprototyper
* **Bild-till-3D**: Omvandla 2D-bilder till 3D-modeller
* Tekniker: Neural radiance fields (NeRF), diffusionsmodeller
=== Multimodala modeller ===
Den senaste trenden är modeller som kan hantera flera modaliteter samtidigt:
* **Definition**: System som kan förstå och generera innehåll över olika format (text, bild, ljud)
* **Exempel**: GPT-4V, Gemini, Claude 3
* **Förmågor**:
* Förstå bilder och svara på frågor om dem
* Generera bilder baserat på text
* Analysera diagram, skärmdumpar och dokument
* Kombinera text och visuell information i svaren
Multimodala modeller representerar nästa steg i utvecklingen mot mer kompletta AI-system som kan interagera med världen på sätt som liknar mänsklig förståelse.
==== Praktisk övning 2: Experimentera med bildgenererande AI ====
Dags att testa bildgenerering själv!
=== Instruktioner ===
1. Välj en av följande bildgenererande AI-tjänster:
* [https://labs.openai.com/](https://labs.openai.com/) (DALL-E)
* [https://playgroundai.com/](https://playgroundai.com/) (gratis alternativ)
* [https://www.bing.com/create](https://www.bing.com/create) (kräver Microsoft-konto)
2. Skapa följande bilder med hjälp av prompts:
* En futuristisk stad med flygande bilar och höga skyskrapor
* En surrealistisk målning i Salvador Dalís stil föreställande en smältande datorskärm i en öken
* En fotorealistisk bild av en fantasiblomma som inte existerar i verkligheten
3. Experimentera med att förfina dina prompts:
* Prova att lägga till konstnärsstilar (t.ex. "i stil av Van Gogh")
* Specifiera kameraegenskaper (t.ex. "taget med en vidvinkelkamera")
* Lägg till ljussättningsdetaljer (t.ex. "dramatisk belysning" eller "solnedgångsljus")
4. Spara dina genererade bilder och notera vilka prompts som gav bäst resultat
=== Reflektionsuppgift ===
Besvara följande frågor baserat på din upplevelse:
* Vilka typer av detaljer i prompten gav mest påverkan på resultatet?
* Var det något i bildgenereringen som överraskade dig?
* Vilka kreativa användningsområden kan du tänka dig för denna teknologi?
* Vilka begränsningar märkte du?
----