Vooruitlopend op de lancering van GPT-5: Test toont aan dat mensen ChatGPT niet kunnen onderscheiden van een mens in gesprekstest — Is dit een keerpunt voor AI?

23 juni 2024

Tech Radar

Open menu

Tech Radar Pro

Naam

TechRadar the business technology experts

Zoeken

US Edition

Asia

Europa

Noord Amerika

Australasia

Trending

Nieuws

Recensies

Features

Expert Inzichten

Website bouwers

Web Hosting

Beveiliging

Op Tech Radar Pro

Wanneer je via links op onze site koopt, kunnen we een commissie verdienen. Zo werkt dat.

AHEAD OF THE LAUNCH OF GPT-5, ANOTHER TEST SHOWS THAT PEOPLE CANNOT DISTINGUISH CHATGPT FROM A HUMAN IN A CONVERSATION TEST — IS IT A WATERSHED MOMENT FOR AI?

Nieuws

Published 23 June 2024 Controlled Turing Test delivered interesting results

Populaire AI-tools zoals GPT-4 genereren vloeiende, mensachtige tekst en presteren zo goed op verschillende taalopdrachten dat het steeds moeilijker wordt om te zeggen of de persoon met wie je praat een mens of een machine is.

Dit scenario weerspiegelt Alan Turing's beroemde gedachte-experiment, waarin hij een test voorstelde om te evalueren of een machine mensachtig gedrag kon vertonen, zodat een menselijke rechter niet langer kan onderscheiden tussen mens en machine op basis van hun reacties.

Het Department of Cognitive Science van UC San Diego besloot te zien hoe moderne AI-systemen het deden en evalueerde ELIZA (een eenvoudige op regels gebaseerde chatbot uit de jaren '60 die als basislijn in het experiment was opgenomen), GPT-3.5 en GPT-4 in een gecontroleerde Turing Test. Deelnemers voerden een vijf minuten durend gesprek met of een mens of een AI en moesten daarna beslissen of hun gesprekspartner een mens was.

NO BETTER THAN CHANCE

GPT-4 en GPT-3.5 werden opgedragen hoe te reageren op berichten. Onderzoekers instrueerden het model om "de rol aan te nemen van een jong persoon die heel kort was, het spel niet serieus nam, straattaal gebruikte en af en toe spelfouten maakte". Daarnaast bevatte de prompt "algemene informatie over de opzet van het spel en informatie over recente nieuwsverhalen die na de trainingscut-off van het model waren gebeurd". De twee modellen werden benaderd via de OpenAI API met temperatuur ingesteld op 1 en om te voorkomen dat de AI te snel zou reageren, werden hun berichten met een vertraging verzonden op basis van het aantal tekens in het bericht.

In het onderzoek werden 500 deelnemers toegewezen aan een van de vijf groepen. Ze voerden een gesprek met of een mens of een van de drie AI-systemen. De spelinterface leek op een typische berichtenapp. Na vijf minuten beoordeelden deelnemers of ze geloofden dat hun gesprekspartner een mens of AI was en gaven ze redenen voor hun beslissingen.

De resultaten waren interessant. GPT-4 werd 54% van de tijd als een mens geïdentificeerd, vooropgaand aan GPT-3.5 (50%), waarbij beide significant beter presteerden dan ELIZA (22%), maar achterbleven bij daadwerkelijke mensen (67%). Deelnemers waren niet beter dan toeval in het identificeren van GPT-4 als AI, wat aangeeft dat huidige AI-systemen mensen kunnen misleiden om te geloven dat ze menselijk zijn.

Analyse van de resultaten toonde aan dat ondervragers vaak vertrouwden op linguïstische stijl, sociaal-emotionele factoren en kennisgebaseerde vragen om te beslissen of ze met een mens of een machine spraken.

ARE YOU A PRO? SUBSCRIBE TO OUR NEWSLETTER

Meld u aan voor de TechRadar Pro nieuwsbrief om al het topnieuws, opinies, features en begeleiding te ontvangen die uw bedrijf nodig heeft om te slagen!

Door uw gegevens in te dienen, stemt u in met de voorwaarden en privacybeleid en bent u 16 jaar of ouder. Details van de test en de volledige resultaten zijn te vinden in het artikel gepubliceerd op de arXiv preprint server.

Artikel toegevoegd aan winkelwagen

Vooruitlopend op de lancering van GPT-5: Test toont aan dat mensen ChatGPT niet kunnen onderscheiden van een mens in gesprekstest — Is dit een keerpunt voor AI?

Aivy+ Hub