Het goede, slechte en lelijke van Grok, de nieuwe AI-chatbot van Elon Musk

In de steeds veranderende wereld van de technologie falen de inspanningen van Elon Musk zelden om golven te veroorzaken. Een paar weken na zijn duidelijke oproep om te stoppen met het opleiden van LLM’s die capabeler zijn dan GPT-4, deed Musk zijn kenmerkende zet: precies het tegenovergestelde doen van wat hij predikte. Enter xAI-Musks nieuwste geesteskind en Grok, zijn gloednieuwe LLM die zaterdag werd aangekondigd.

Aankondiging van Grok!

Grok is een AI gemodelleerd naar de Hitchhiker’s Guide to the Galaxy, dus bedoeld om bijna alles te beantwoorden en, veel moeilijker, zelfs te suggereren welke vragen je moet stellen!

Grok is ontworpen om vragen met een beetje humor te beantwoorden en heeft een rebels trekje, dus gebruik hem alsjeblieft niet…

– xAI (@xai) November 5, 2023

De onderneming haalde de krantenkoppen, niet alleen vanwege de betrokkenheid van Musk, maar ook vanwege de geweldige line-up van top-AI-onderzoekers die het bedrijf wist te rekruteren bij toonaangevende startups en techgiganten. xAI werd gepromoot met de verleidelijke allure van een AI die is ontworpen om “de wereld te begrijpen”, maar bleef geheimzinnig over het “hoe” en het “wat” van zijn activiteiten… tenminste tot vorige week.

Is dit weer een klassieke zet van Musk om de status-quo uit te dagen, of gewoon een overhypte chatbot die meelift op de enorme golf van populariteit en hype rond zijn voorgangers?

De goede

Een constante stroom realtime kennis

Doordat Grok toegang heeft tot de hele Twitter-firehose aan content, is het een potentiële game-changer. Zoals xAI benadrukte, zal Grok een “realtime kennis van de wereld” hebben, die wat AI-onderzoekers Reinforcement Learning from Human Feedback (RLHF) noemen, nieuws en divers commentaar over actuele gebeurtenissen verwerkt.

Door te leren over gebeurtenissen vanuit verschillende gezichtspunten en door Twitter-notities (die in wezen annotaties zijn) op te nemen, zal Grok profiteren van een veelzijdige kijk op de wereld.

Volgens recente studies hebben mensen hun gedrag al aangepast om eerst op zoek te gaan naar nieuws op sociale media voordat ze zich tot de reguliere media wenden. De integratie van Grok met Twitter zou dit proces nog verder kunnen versnellen door gebruikers direct commentaar, context en – mits goed uitgevoerd – fact-checking ter plekke te bieden. De realtime kennisfunctie, zoals xAI benadrukte, zorgt ervoor dat Grok op de hoogte blijft van de hartslag van de wereld, waardoor het tijdige en relevante reacties kan geven.

Fun Mode: Elons droom werkelijkheid geworden

De visie van Elon Musk over een AI die van plezier houdt lijkt tot leven te zijn gebracht met de zogenaamde “Fun Mode” van Grok. Met deze functie kan de LLM grappen maken, humoristische maar feitelijk accurate antwoorden geven en gebruikers een grillige en ongedwongen gesprekservaring bieden.

Een van de uitdagingen van bestaande LLM’s, zoals ChatGPT, is dat sommige gebruikers het gevoel hebben dat ze te veel zijn gezuiverd om politieke correctheid te garanderen, waardoor interacties mogelijk minder organisch en spontaan worden. Daarnaast zijn sommige gelokaliseerde LLM’s niet geschikt voor langdurige interacties. Grok, met zijn leuke modus, belooft deze leemte op te vullen en kan dienen als een boeiende tijdverdrijver voor diegenen die zich willen ontspannen.

De

Grok heeft realtime toegang tot informatie via het -platform, wat een enorm voordeel is ten opzichte van andere modellen.

Het is ook gebaseerd op & houdt van sarcasme. Ik heb geen idee wie het zo heeft kunnen sturen ‍♂️ pic.twitter.com/e5OwuGvZ3Z

– Elon Musk (@elonmusk) November 4, 2023

Dit concept is niet helemaal nieuw, want Quora’s Poe biedt een vergelijkbare service met zijn verfijnde chatbots, die elk een unieke persoonlijkheid hebben. Maar door dit in te bedden in een LLM met de mogelijkheden van Grok wordt de ervaring naar een nieuw niveau getild.

Native internet access

Een van de andere onderscheidende kenmerken van Grok is de mogelijkheid om toegang te krijgen tot het internet zonder dat daar een plug-in of andere module voor nodig is.

Hoewel de exacte reikwijdte van de browsemogelijkheden nog moet worden verduidelijkt, is het idee prikkelend. Stel je een LLM voor die de feitelijke nauwkeurigheid kan verbeteren omdat het gegevens in realtime kan vergelijken. In combinatie met de toegang tot Twitter-content zou Grok een revolutie teweeg kunnen brengen in de manier waarop gebruikers met AI omgaan, omdat ze weten dat de informatie die ze ontvangen niet alleen gebaseerd is op reeds bestaande trainingsgegevens, maar voortdurend wordt bijgewerkt en geverifieerd.

Multitasking

Grok is naar verluidt in staat tot multitasking, waardoor gebruikers meerdere gesprekken tegelijkertijd kunnen voeren. Gebruikers kunnen verschillende onderwerpen verkennen, wachten op een reactie op een thread en doorgaan met een andere.

De chatbot biedt ook vertakkingen in conversaties, zodat gebruikers dieper kunnen ingaan op specifieke onderwerpen zonder de hoofddiscussie te onderbreken, en biedt een visuele gids voor alle vertakkingen in conversaties, zodat gebruikers gemakkelijk tussen onderwerpen kunnen navigeren.

Grok biedt ook een ingebouwde markdown-editor, waarmee gebruikers de antwoorden van Grok kunnen downloaden, bewerken en opmaken voor later gebruik. Deze tool, in combinatie met vertakkingen, zorgt ervoor dat gebruikers kunnen werken met specifieke conversatietakken en naadloos opnieuw kunnen inloggen.

Dit zijn enkele van de UI-functies in Grok. Ten eerste kun je multi-tasken. Je kunt meerdere gesprekken tegelijk voeren en ertussen schakelen naarmate ze vorderen. pic.twitter.com/aXAG0M2oPF

– Toby Pohlen (@TobyPhln) November 5, 2023

Minimale censuur: een vrijsprekende AI

De visie van Elon Musk voor Grok was duidelijk: een AI die er niet voor terugschrikt om zijn digitale mening te geven.

Hoewel alle grote AI-chatbots vangrails zijn voorzien om potentiële schade of verkeerde informatie te voorkomen, kan dit soms beperkend aanvoelen. Gebruikers hebben opgemerkt dat modellen zoals ChatGPT, Llama en Claude soms terughoudend zijn met antwoorden, waarbij ze voorzichtigheid betrachten om mogelijke beledigingen te voorkomen. Dit kan er echter toe leiden dat antwoorden die goedaardig zijn of waar echt naar wordt gezocht, worden uitgefilterd.

Grok krijgt meer vrijheid in zijn antwoorden en kan dus mogelijk een meer authentieke en onbeperkte gesprekservaring bieden. Zoals xAI benadrukt, stelt het ontwerp van Grok Grok in staat om pittige vragen te beantwoorden die andere AI-systemen misschien uit de weg gaan.

Aankondiging van Grok!

Grok is een AI die is gemodelleerd naar de Hitchhiker’s Guide to the Galaxy, dus bedoeld om bijna alles te beantwoorden en, veel moeilijker, zelfs om te suggereren welke vragen je moet stellen!

Grok is ontworpen om vragen met een beetje humor te beantwoorden en heeft een rebels trekje, dus gebruik hem alsjeblieft niet…

– xAI (@xai) November 5, 2023

Het is duidelijk dat deze AI een unieke mix biedt van realtime informatie, humor, nauwkeurigheid en vrijheid. Maar zoals bij elke innovatie zijn er ook uitdagingen en potentiële valkuilen om rekening mee te houden.

De Slechte

Gesnelde ontwikkeling en beperkte training

Vanaf het begin heeft de snelle ontwikkeling van Grok de wenkbrauwen doen fronsen. Zoals xAI zegt: “Grok is nog steeds een zeer vroeg bètaproduct – het beste wat we konden doen met twee maanden training.” In de wereld van LLM’s klinken twee maanden en 33 miljard parameters als een druppel in de emmer.

OpenAI is transparant geweest over zijn ontwikkelingsproces en zei: “We hebben zes maanden besteed aan het iteratief uitlijnen van GPT-4.” Het verschil in ontwikkelingstijdlijn suggereert dat de ontwikkeling van Grok is overhaast om mee te liften op de AI-hypegolf.

Bovendien houdt x.AI zich op de vlakte over de hoeveelheid hardware die is gebruikt tijdens de training van Grok, waardoor er ruimte is voor speculatie.

Alles over de parameters

Voor niet-ingewijden staan parameters in LLM’s voor de hoeveelheid informatie of kennis die het model kan bevatten. Ze geven de effectieve hersencapaciteit van de AI aan en bepalen het vermogen om informatie te verwerken en te genereren. Grok, met zijn 33 miljard parameters, klinkt op het eerste gezicht misschien indrukwekkend.

In het competitieve landschap van LLM is het echter gewoon een andere speler. Sterker nog, het aantal parameters zou wel eens tekort kunnen schieten bij het voeden van complexe bedrijfsbehoeften en de hoogwaardige uitvoer die titanen als ChatGPT, Claude en Bard als de gouden standaard hebben gesteld.

Een deel van dit lage aantal parameters is de reden waarom Grok er niet in slaagt om andere mainstream modellen te verslaan in belangrijke benchmarks zoals HumanEval of MMLU:

Bron: x.AI

Naast het aantal parameters is er ook nog de kwestie van contextverwerking – eigenlijk hoeveel informatie een AI-chatbot kan begrijpen in één invoer. Grok is niet bijzonder indrukwekkend op dit gebied. Volgens xAI begrijpt Grok 8.192 tokens aan context, maar GPT-4 kan er maar liefst 32.000 aan en Claude gaat nog een stapje verder met wel 100.000 tokens. OpenAI’s nieuwe GPT-4 Turbo bereikt een contextvenster van 128.000 tokens.

De prijs van innovatie

Kosten zijn een cruciale factor bij het evalueren van de waarde van een product, en Grok is daarop geen uitzondering. De chatbot zal beschikbaar zijn voor gebruikers die bereid zijn om $16 per maand te betalen voor het voorrecht om ermee te kunnen communiceren.

Met gratis aanbiedingen zoals Claude 2 en ChatGPT uitgerust met GPT-3.5 Turbo, zou Grok wel eens moeilijk te verkopen kunnen zijn-vooral als je bedenkt dat deze gratis modellen worden aangeprezen om hun nauwkeurigheid en Grok in bepaalde benchmarks al overtreffen.

Bovendien belooft zelfs de meest krachtige LLM op het blok, GPT-4, beter te zijn dan Grok, met als bijkomend voordeel dat het breed toegankelijk, multimodaal en krachtig is.

De @xAI Grok AI-assistent wordt geleverd als onderdeel van Premium+, dus ik raad je aan om je daarvoor aan te melden.

Slechts $16/maand via het web. https://t.co/wEEIZNjEkp

– Elon Musk (@elonmusk) November 4, 2023

Zou de introductie van Grok grotendeels een strategische zet zijn om abonnementen voor Twitter Blue te stimuleren en zo de inkomstenstroom van Twitter te vergroten?

Deze zorgen benadrukken de uitdagingen van Grok om zich te vestigen als een belangrijke speler in het LLM-domein. En de nadelen stoppen niet bij het prijskaartje

De lelijke

Imitatie van fictie

Een LLM baseren op een fictief personage uit een populaire roman is zonder twijfel een creatieve keuze. Hoewel de charme van een fictieve persoonlijkheid verleidelijk kan zijn, brengt het inherente risico’s met zich mee in een wereld die steeds meer afhankelijk is van accurate informatie. Gebruikers die zich tot AI wenden voor serieuze vragen of advies kunnen op gespannen voet komen te staan met een systeem dat is ontworpen om een komisch personage na te bootsen.

Naarmate de grens tussen fictie en werkelijkheid vervaagt, bestaat bovendien de kans dat gebruikers speelse of satirische reacties verkeerd interpreteren als feitelijke informatie. In een digitaal tijdperk, waarin elk stukje informatie wordt ontleed en gedeeld, kunnen de gevolgen van zulke misvattingen wijdverspreid zijn. Vooral wanneer er meer dan één taal in het spel is.

Hoewel humor en gevatheid hun plaats hebben, is het essentieel om een balans te vinden, vooral wanneer gebruikers op zoek zijn naar kritische inzichten. Voorrang geven aan humor boven nauwkeurigheid is misschien vermakelijk, maar het ondermijnt ook de essentie van wat een LLM zou moeten bieden: betrouwbare informatie.

Overpromised and underdelivered

De grote beloften van Elon Musk over Grok hebben de weg vrijgemaakt voor torenhoge verwachtingen. Als we dieper graven, zien we dat de hype en de realiteit niet op elkaar aansluiten. Het feit dat traditionele LLM-trainingsmethoden worden beperkt door hun trainingsgegevens, onderstreept een kritieke beperking: ze kunnen zich niet echt wagen aan “super-AI”.

De training van Grok, met zijn 33 miljard parameters en een paar maanden ontwikkeling, lijkt in het niet te vallen in vergelijking met andere LLM-reuzen. Hoewel het idee van een speelse, fictieve persoonlijkheid aanlokkelijk klinkt, is het misschien wat overdreven om te verwachten dat het baanbrekende resultaten oplevert met standaard trainingsmethoden.

De AI-gemeenschap is niet vreemd aan overdrijving, maar met de snelle vooruitgang op dit gebied is het cruciaal voor gebruikers om door de hype heen te prikken. Het bereiken van de status van “super AI” is een enorme uitdaging en het is onwaarschijnlijk dat Grok, met de huidige configuratie en training, daarvoor in aanmerking komt.

Sterker nog, om de kracht van Grok te bewijzen, vergeleek Elon Musk zijn conversatiechatbot met een kleine LLM die getraind is in coderen. Het volstaat te zeggen dat het geen eerlijk gevecht was.

Voorbeeld van Grok vs typische GPT, waarbij Grok actuele informatie heeft, maar andere niet pic.twitter.com/hBRXmQ8KFi

– Elon Musk (@elonmusk) November 5, 2023

De dreiging van desinformatie

LLM’s zijn krachtig, maar niet onfeilbaar. Zonder strenge normen wordt het een Hercules-taak om feiten van fictie te onderscheiden. De recente geschiedenis biedt waarschuwende verhalen, zoals chatbots die zijn getraind op 4chan-gegevens of zelfs Tay, een eerdere chatbot van Microsoft die interactie mocht hebben op Twitter. Deze bots spuwden niet alleen haatzaaiende taal uit, maar deden zich ook overtuigend voor als een echt persoon en hielden zo een groot online publiek voor de gek.

Deze week werd een AI model vrijgegeven op @huggingface dat schadelijke + discriminerende teksten produceert en al meer dan 30k gemene reacties online heeft gezet (aldus de auteur).

Dit experiment zou nooit door een ethicscommissie voor menselijk onderzoek komen. Hier zijn mijn aanbevelingen.

1/7 https://t.co/tJCegPcFan pic.twitter.com/Mj7WEy2qHl

– Lauren Oakden-Rayner ️‍⚧️ (@DrLaurenOR) 6 juni 2022

Deze flirt met desinformatie staat niet op zichzelf. Met het imago van Twitter dat klappen krijgt sinds de overname door Elon, kunnen er zorgen zijn over het vermogen van Grok om consistent accurate informatie te leveren. LLM’s vallen af en toe ten prooi aan hallucinaties en als deze verdraaiingen als waarheid worden gezien, kunnen de gevolgen alarmerend zijn.

Het potentieel voor verkeerde informatie is een tikkende tijdbom. Omdat gebruikers steeds meer op AI vertrouwen voor inzichten, kan verkeerde informatie leiden tot gebrekkige besluitvorming. Als Grok een betrouwbare bondgenoot wil zijn, moet hij voorzichtig te werk gaan en ervoor zorgen dat zijn speelse houding de waarheid niet vertroebelt.

Missen we multimodale mogelijkheden?

In de opkomende wereld van AI voelt de alleen-tekst benadering van Grok als een relikwie uit het verleden. Hoewel van gebruikers wordt verwacht dat ze betalen voor de diensten van Grok, kunnen ze zich terecht afvragen waarom, vooral wanneer andere LLM’s rijkere, multimodale ervaringen bieden.

GPT-4-v heeft bijvoorbeeld al vooruitgang geboekt op multimodaal gebied, met de mogelijkheid om te horen, zien en spreken. Google’s nieuwe Gemini belooft een vergelijkbare reeks functies. Tegen deze achtergrond lijkt het aanbod van Grok glansloos, wat meer vragen oproept over de waardepropositie.

Het is een concurrerende markt en gebruikers worden steeds kritischer. Als Grok een niche voor zichzelf wil veroveren, moet het echt iets uitzonderlijks bieden. Zoals het er nu voor staat, met concurrenten die verbeterde functies en een betere nauwkeurigheid bieden – vaak gratis – heeft Grok zijn werk uitgesneden.

Conclusie

De lancering van Brok heeft opwinding veroorzaakt, maar ook heel wat scepsis. De kale MVP-aanpak (minimum viable product) maakt snelle iteratie en verbetering mogelijk op basis van feedback van gebruikers. Maar de concurrentie van AI-giganten met veel meer middelen vormt een zware strijd.

Om Grok te laten slagen, heeft het nieuwe en nuttige mogelijkheden nodig. Alleen amusementswaarde zal niet volstaan in een overvolle markt. AI-mensen laten zich niet afleiden door schattige hondenmemes.

Uiteindelijk hangt het lot van Grok af van de balans tussen innovatie en bruikbaarheid. Hoewel een gezonde scepsis op zijn plaats is, kan het voorbarig zijn om Grok helemaal af te schrijven. Grok kan nog baanbrekend werk verrichten of een voetnoot worden in de evolutie van AI. Hoe dan ook, de onconventionele oorsprong garandeert dat Grok een intrigerend hoofdstuk wordt in het zich ontvouwende verhaal van kunstmatige intelligentie.