Wetenschappers van Stanford ontdekken dat GPT-4 in de loop van de tijd dommer wordt
Gemengde Berichten / / July 20, 2023
De nauwkeurigheid van de betaalde versie van ChatGPT was lager dan die van de gratis chatbot.
Nieuw studie van wetenschappers van Stanford University bevestigden waar netizens al weken over klagen: ChatGPT Plus, gebaseerd op GPT-4 is echt dommer geworden - in tegenstelling tot GPT-3.5, die de gratis versie van de chatbot uitvoert.
In hun onderzoek vergeleken de auteurs de reacties op verschillende verzoeken van een chatbot op basis van GPT-4 en GPT-3.5. Zij ontdekte dat het gedrag van de chatbot en de nauwkeurigheid van antwoorden op sommige verzoeken in de nieuwe versie aanzienlijk zijn verslechterd.
De auteurs vergeleken de taalmodellen GPT-4 en GPT-3.5 die in maart en januari zijn uitgebracht. Ze ontdekten dat gedurende deze tijd de nauwkeurigheid van de GPT-4 merkbaar afnam, terwijl die van de GPT-3.5 juist toenam.
De nauwkeurigheid van het beantwoorden van de vraag of 17077 een priemgetal is, daalde bijvoorbeeld met 95,2%, terwijl GPT-3.5 daarentegen steeg van 7,4% naar 86,8%. Ook is de kans op succesvolle uitvoering van de door het neurale netwerk geschreven code afgenomen in de huidige versies van beide modellen.
Eerder heeft OpenAI Vice President Peter Welinder dat al gedaan beantwoord op de beschuldigingen van ChatGPT Plus-gebruikers:
Nee, we hebben de GPT-4 niet dommer gemaakt. Alles is precies het tegenovergestelde: we maken elke nieuwe versie slimmer dan de vorige.
Nu hebben we deze hypothese: wanneer je iets actiever gebruikt, begin je problemen op te merken die je eerder niet zag.
Peter Welinder
VP van Product bij OpenAI
In een van de reacties op deze tweet, Welinder vroeg bewijs leveren dat de chatbot erger is geworden. Een studie van Stanford-wetenschappers verscheen 5 dagen daarna - en er is nog geen reactie van OpenAI.
Dit is niet de eerste keer dat GPT-4 wordt beschuldigd van het verstrekken van valse informatie. In maart, NewsGuard-analisten ontdektdat ChatGPT op basis van GPT-4 gemakkelijker is om een leugen te laten vertellen - terwijl OpenAI zelf een toename van 40% in de nauwkeurigheid van antwoorden claimt in vergelijking met GPT-3.5. IN met name in de NewsGuard-tests was de nieuwe versie van het neurale netwerk minder geneigd valse informatie te weerleggen - inclusief valse gegevens over moderne gebeurtenissen en theorieën samenzweringen.
Lees ook🧐
- 6 analogen van ChatGPT
- James Cameron over de gevaren van AI: "Ik waarschuwde je al in 1984, maar je luisterde niet"
- 8 mythen over kunstmatige intelligentie die zelfs programmeurs geloven