Glem alt du kan om språkmodeller. Det er i alle fall det google tilsynelatende har gjort, med nye Gemini diffusion. De har bygget en helt ny type språkmodell som genererer tekst på en helt annen måte enn normalt, og resultatet er ikke noe annet enn forbløffende. Hvor mye raskere snakker vi? ChatGPT sin standardmodell 4o genererer rundt 60 tokens per sekund. Gemini diffusion er over 200 ganger raskere med 1479 tokens per sekund!

Språkmodeller som ChatGPT er på mange måter en veldig avansert versjon av autokorrekturen på mobilen din. Den er rett og slett ekstremt god til å foreslå det neste ordet som passer i en setning. Den er så god at den kan foreslå ikke bare neste ord, men også neste setning, avsnitt og side. Nøyaktig hvordan de gjør dette krever en egen artikkel, men kort fortalt:

De deler opp ordene i språkbiter representert av tall. Eks er ordet “streife” to tokens: “stre” og “ife”, som også kan representeres av tokenid [26826, 1872]. Disse tallene kan de regnes på.
De gjør mystisk matematikkmagi med disse tallene
Output er det språkmodellen har regnet seg fram til er det som passer mest til å fortsette teksten.

Vi kan si det på en annen måte, med denne illustrasjonen.
1.Tekst blir gjort om til tall.
2. Tallene blir satt i en matrise og multiplisert.
3. Resultatet blir nye tall som kan konverteres tilbake til tekst.

Akkurat tallene til venstre er bare vrøvl (takk til ChatGPT), men illustrerer greit hvordan det ser ut for folk som ikke har peiling på matematikk.

Dette gjør den altså en token av gangen. Den tar deretter alle de foregående tokens pluss den nye, og regner på nytt for å finne neste token. Om og om og om igjen. Dette er det vi kaller en autoregressiv språkmodeller. Denne sekvensielle prosessen kan være treg og begrense kvaliteten og sammenhengen i teksten.

Diffusjonsmodeller fungerer på en annen måte. I stedet for å forutsi tekst direkte, lager de heller umiddelbart en ferdig tekst full av støy, og så vil den gradvis forbedre støy, trinn for trinn. Dette gjør at de raskt kan iterere mot en løsning og rette feil underveis i genereringsprosessen. Dette gjør dem spesielt gode til oppgaver som redigering, også innen matematikk og programmering.

Dette løser flere store problemer med eksisterende språkmodeller:

Det tar lang tid. De beste modellene genrerer tekst tregere enn man kan lese, som er en kjepp i produktivitetens hjul.
Det tar lang tid, og tid brukt er også strøm brukt. Får du samme svar 20x raskere så har du også brukt 20x mindre strøm for å klare det.
Den kan ikke “tenke” før den svarer. Selv “tenkende” modeller som Deepseek, fungerer på samme måte. Den genererer tekst først, og vet ikke hva den har skrevet før den gjør det. Deepseek gjør dette ekstremt tydelig på grunn av den strenge kinesiske sensuren, der den først kan gi deg et svar og så midt i svaret slette det og si at den ikke kan snakke om temaet. En diffusjonsbaser modell vil ikke glemme hva den holder på med på samme måte og har en mye mer holistisk tilnærming til svaret.
Hva tror du blir konsekvensene av dette?

Gemini Diffusion: En ny type språkmodell

Hva er egentlig en språkmodell?

AI-video med lyd: VEO 3 er her.