Hemmeligheden bag GPT-4 er afsløret
GPT-4 var den mest ventede AI-model i historien.
Da OpenAI frigav den i marts, fortalte de os ikke noget om dens størrelse, data, interne struktur eller hvordan de trænede og byggede den. En sand sort boks.
Som det viser sig, skjulte de ikke disse kritiske detaljer fordi modellen var for innovativ eller arkitekturen for unik til at dele. Det modsatte synes at være sandt, hvis vi skal tro de seneste rygter:
Teknisk og videnskabeligt set er GPT-4 næppe en revolution
Det er ikke nødvendigvis dårligt for GPT-4 er trods alt den bedste sprogmodel der findes. Bare ikke hvad folk forventede efter en 3 års ventetid.
Rygterne, som endnu skal bekræftes officielt, giver vigtige indsigter i GPT-4 og OpenAI, og rejser spørgsmål om AI’s sande state-of-the-art – og dens fremtid.
GPT-4: En blanding af mindre modeller
Den 20. juni blev det lækket, at GPT-4 ikke er en enkelt massiv tæt model, men en blanding af 8 x 220-milliard-parametermodeller.
GPT-4 er ikke én stor model, men otte mindre modeller, som klogt er sat sammen. Paradigmet for ekspertblanding, som OpenAI formodes at have brugt til denne sammensatte model, er hverken nyt eller opfundet af dem.
GPT-4 er præcis lige så imponerende som brugerne siger. Detaljerne i den interne og sammensatte modelstruktur kan ikke ændre på den oplevelse. Det virker, og for mange virker det vildt godt! Det betyder ikke noget, om det er en model eller otte bundet sammen. Dens præstation og evne på skrive- og kodningsopgaver er ægte.
Hemmeligholdelsen omkring GPT-4
Man må løfte på hatten for OpenAI’s mesterskab i at håndtere de urimeligt høje forventninger, der omgav GPT-4 ved at dække over de mere utilfredsstillende aspekter af modellen.
OpenAI kendte allerede til GPT-4, som var færdig med træningen i sommeren 2022, og de vidste, at den ikke ville opfylde folks forventninger. Men de ville ikke ødelægge OpenAI’s næsten-mystiske omdømme. Så de skjulte GPT-4 for offentligheden, hvilket yderligere forstærkede mystiskken.
OpenAI havde allerede fastslået sin status med ChatGPT på det tidspunkt. De var markedsledende i de flestes øjne. Derfor kunne de ikke direkte indrømme, at GPT-4 ikke var det ventede gennembrud – og det store spring fra GPT-3 – som folk ønskede.
Ingen offentliggørelse pga. konkurrencetryk
Så de fokuserede på , at den var meget kraftfuld, og forsvarede deres beslutning om ikke at offentliggøre GPT-4’s specifikationer ved at henvise til øget konkurrencetryk.
OpenAI fik hvad de ønskede. GPT-4 ville have været skuffende, men samtidig antydede de subtile signaler noget andet: GPT-4 er magisk.
Det er bare ikke, hvad de fleste ville opfatte som en revolutionerende præstation. Det ser ud til at være bare et gammelt trick genopfundet. Kombinationen af flere ekspertmodeller i én, med hver ekspert trænet til at specialisere sig i separate områder, opgaver eller data var en teknik, der først blev implementeret med succes i 2021.
OpenAI tilføjede sikker ingeniørkreativitet ovenpå (ellers ville Google have deres egen GPT-4, eller bedre), men nøglen til modellens absolutte dominans i konkurrencen er simpelthen, at det ikke er en model, men otte.
OpenAI opnåede succes ved at skjule GPT-4
OpenAI “forhindrede” de andre i at opbygge deres egen GPT-4. Det ville have været nemt for Google eller Facebook at bygge deres egen model med større specs, men OpenAI forhindrede dem i at prøve ved at skabe en illusion om overlegen teknologi. Og indtil nu ser det ud til, at illusionen har virket.
Havde OpenAI afsløret, at GPT-4 blot var en kombination af otte mindre modeller, ville den ikke have syntes så imponerende. Men ved at holde detaljerne hemmelige kunne OpenAI fastholde ideen om, at GPT-4 var en enkelt, overlegen model.
Det manglende kvantespring
GPT-4 er imponerende, og den gør sit job meget godt. Det er bare ikke det videnskabelige eller teknologiske spring, som mange havde forventet.
OpenAI gjorde det rigtige for deres organisation ved at bevare hemmeligheden om GPT-4. De formåede at opretholde den mystiske aura omkring modellen, styre fortællingen og bevare deres position som førende inden for AI-feltet.
Det er en lektion i, hvordan man skaber hype, håndterer forventninger og forbliver relevant i en konkurrencepræget verden. Det er også en påmindelse om, at teknologiske fremskridt ofte er mere inkrementelle end revolutionære.