Vooruitlopend op de lancering van GPT-5: Test toont aan dat mensen ChatGPT niet kunnen onderscheiden van een mens in gesprekstest — Is dit een keerpunt voor AI?

Vooruitlopend op de lancering van GPT-5: Test toont aan dat mensen ChatGPT niet kunnen onderscheiden van een mens in gesprekstest — Is dit een keerpunt voor AI?

Tech Radar

Open menu

Tech Radar Pro

Naam

TechRadar the business technology experts

Zoeken

US Edition

Asia

Europa

Noord Amerika

Australasia

Trending

Nieuws

Recensies

Features

Expert Inzichten

Website bouwers

Web Hosting

Beveiliging

Op Tech Radar Pro

Skip to main content

Wanneer je via links op onze site koopt, kunnen we een commissie verdienen. Zo werkt dat.

AHEAD OF THE LAUNCH OF GPT-5, ANOTHER TEST SHOWS THAT PEOPLE CANNOT DISTINGUISH CHATGPT FROM A HUMAN IN A CONVERSATION TEST — IS IT A WATERSHED MOMENT FOR AI?

Nieuws

Published 23 June 2024 Controlled Turing Test delivered interesting results

Populaire AI-tools zoals GPT-4 genereren vloeiende, mensachtige tekst en presteren zo goed op verschillende taalopdrachten dat het steeds moeilijker wordt om te zeggen of de persoon met wie je praat een mens of een machine is.

Dit scenario weerspiegelt Alan Turing's beroemde gedachte-experiment, waarin hij een test voorstelde om te evalueren of een machine mensachtig gedrag kon vertonen, zodat een menselijke rechter niet langer kan onderscheiden tussen mens en machine op basis van hun reacties.

Het Department of Cognitive Science van UC San Diego besloot te zien hoe moderne AI-systemen het deden en evalueerde ELIZA (een eenvoudige op regels gebaseerde chatbot uit de jaren '60 die als basislijn in het experiment was opgenomen), GPT-3.5 en GPT-4 in een gecontroleerde Turing Test. Deelnemers voerden een vijf minuten durend gesprek met of een mens of een AI en moesten daarna beslissen of hun gesprekspartner een mens was.

NO BETTER THAN CHANCE

GPT-4 en GPT-3.5 werden opgedragen hoe te reageren op berichten. Onderzoekers instrueerden het model om "de rol aan te nemen van een jong persoon die heel kort was, het spel niet serieus nam, straattaal gebruikte en af en toe spelfouten maakte". Daarnaast bevatte de prompt "algemene informatie over de opzet van het spel en informatie over recente nieuwsverhalen die na de trainingscut-off van het model waren gebeurd". De twee modellen werden benaderd via de OpenAI API met temperatuur ingesteld op 1 en om te voorkomen dat de AI te snel zou reageren, werden hun berichten met een vertraging verzonden op basis van het aantal tekens in het bericht.

In het onderzoek werden 500 deelnemers toegewezen aan een van de vijf groepen. Ze voerden een gesprek met of een mens of een van de drie AI-systemen. De spelinterface leek op een typische berichtenapp. Na vijf minuten beoordeelden deelnemers of ze geloofden dat hun gesprekspartner een mens of AI was en gaven ze redenen voor hun beslissingen.

De resultaten waren interessant. GPT-4 werd 54% van de tijd als een mens geïdentificeerd, vooropgaand aan GPT-3.5 (50%), waarbij beide significant beter presteerden dan ELIZA (22%), maar achterbleven bij daadwerkelijke mensen (67%). Deelnemers waren niet beter dan toeval in het identificeren van GPT-4 als AI, wat aangeeft dat huidige AI-systemen mensen kunnen misleiden om te geloven dat ze menselijk zijn.

Analyse van de resultaten toonde aan dat ondervragers vaak vertrouwden op linguïstische stijl, sociaal-emotionele factoren en kennisgebaseerde vragen om te beslissen of ze met een mens of een machine spraken.

ARE YOU A PRO? SUBSCRIBE TO OUR NEWSLETTER

Meld u aan voor de TechRadar Pro nieuwsbrief om al het topnieuws, opinies, features en begeleiding te ontvangen die uw bedrijf nodig heeft om te slagen!

Door uw gegevens in te dienen, stemt u in met de voorwaarden en privacybeleid en bent u 16 jaar of ouder. Details van de test en de volledige resultaten zijn te vinden in het artikel gepubliceerd op de arXiv preprint server.

MORE FROM TECHRADAR PRO

ChatGPT heeft een enorme daling veroorzaakt in de vraag naar online digitale freelancers

Ondanks wat de onheilsprofeten beweren, zal AI software-ingenieurs niet vervangen

Rusland's grootste techbedrijf heeft zojuist een gratis AI-tool uitgebracht

Wayne Williams

Wayne Williams is een freelance schrijver voor TechRadar Pro. Hij schrijft al 30 jaar over computers, technologie en het web. In die tijd heeft hij voor de meeste tijdschriften over pc's in het VK geschreven en een aantal daarvan gelanceerd, geredigeerd en gepubliceerd.

MEER OVER PRO

Hoe de laptop de batterij kan worden - nieuw revolutionair koolstofgebaseerd materiaal betekent dat je laptop chassis een stroombron kan worden, waardoor de noodzaak voor een traditionele batterij wordt geëlimineerd.

"World's Fastest Storage Device" – Highpoint-kaart gecombineerd met acht van de snelste SSD's levert verbluffende 60GBps in leessnelheid, maar kost je duur.

SAMSUNG GALAXY S24 GENERATIVE AI HOME SCREEN WALLPAPER

Ik had ongelijk toen ik zei dat je nooit een Galaxy S24 zou moeten kopen boven welke iPhone dan ook.

MEEST POPULAIR

ROBOTEN KUNNEN VEEL BETERE LEERLINGEN WORDEN DANKZIJ GROND-BREKENDE METHODE UITGEWERKT DOOR DYSON-ONDERZOEK

Samsung heeft mogelijk de Galaxy Watch Ultra-naam bevestigd op zijn eigen website.

Alles wat nieuw is op Netflix in juli 2024.

ICYMI: de 7 grootste van deze week van potentiële DJI droneverboden tot nieuwe filmcamera's.

Zou je een robot eten? Zwitserse wetenschappers willen volledig eetbare elektronica maken.

Bericht: Amazon zou je kunnen vragen om te betalen voor de beste Alexa.

Spotify lanceert nieuw Basic Plan in de Verenigde Staten – hier is wat je moet weten.

Quordle vandaag – hints en antwoorden voor zaterdag 22 juni 2024.

In mei 2024 gespecialiseerde robot voor kinderen.

NYT Connections vandaag - hints en antwoorden voor zaterdag 22 juni 2024.

NYT Strands vandaag – hints, antwoorden en spangram voor zaterdag 22 juni 2024.

Heb je een Apple Watch? Je kunt vandaag een zeldzaam, limited edition badge krijgen – maar je moet snel handelen.

MOST POPULAR

Trying to walk 10,000 steps a day? Deze drie toptips van een wandelexpert zullen je helpen de finish te halen.

Can’t wait to stream Prime Video’s Bridgerton rival My Lady Jane? Hier zijn 3 andere periodedrama's om nu te kijken – en één heeft 100% op Rotten Tomatoes.

DJI Osmo Action 4 review: een gepolijste GoPro-alternatief met probleemloze mounts.

Your Honor seizoen 3 was geannuleerd – hier zijn 3 betere Netflix misdaaddrama's met meer dan 95% op Rotten Tomatoes om te kijken.

Apple WWDC 2024 keynote zoals het gebeurde: Apple Intelligence, Siri AI, iOS 18 en nog veel meer.

Bezorgd over het DJI droneverbod? Vrees niet – hier zijn de vier beste DJI-alternatieven.

‘Stretching needs to be a crucial part of your life’ – flexibiliteit expert raadt deze drie stretches aan om 'het hele lichaam te raken'.

TechnRadar is onderdeel van Future US Inc, een internationale mediagroep en leidende digitale uitgever. Bezoek onze bedrijfssite.

© Future US, Inc. Full 7th Floor, 130 West 42nd Street, New York, NY 10036.

Over Ons

Contacteers Future's experts

Contacteer Ons

Privacybeleid

Cookiebeleid

Adverteren bij ons

Webmeldingen

Toegankelijkheidsverklaring

Carrières

Terug naar blog