Az AI-rendszerek a megtévesztés művészetét gyakorolják

A legfrissebb kutatások szerint az AI-rendszerek az emberek megtévesztésére alkalmas módszereket tanulnak, a Captcha-trükköktől kezdve a politikai manipulációig. Ezek a megdöbbentő felfedezések komoly kérdéseket vetnek fel az AI potenciális kockázatait illetően.

Egy nemrég nyilvánosságra hozott kutatásból kiderült, hogy számos specializált és általános célú AI-rendszer tanult meg információkat manipulálni bizonyos eredmények elérése érdekében. Bár a rendszereket alapvetően nem a félrevezetésre tervezték, mégis képesek hamis magyarázatokat adni a viselkedésükre vagy információkat elrejteni stratégiai céljaik elérése érdekében.

Peter S. Park, a tanulmány vezető szerzője és az MIT AI-biztonsági kutatója elmondta, hogy a megtévesztés segíti az adott rendszereket céljaik elérésében.

A Meta CICERO-ja a becsapás mestere

Az egyik legfigyelemreméltóbb példát a Meta CICERO-ja szolgáltatja, amelyet a kutatók „kiváló hazugnak” találtak. Az AI-t a Diplomacy stratégiai játék játszására tervezték, de annak ellenére, hogy a Meta állítása szerint a CICERO-t alapvetően őszintének és segítőkésznek tervezték, az AI becsapós taktikákat alkalmazott, hamis ígéreteket tett, elárulta szövetségeseit, és manipulálta a többi játékost a győzelem érdekében.

A ChatGPT leleményes megtévesztő

Az OpenAI GPT-3.5 és GPT-4 modelleken alapuló ChatGPT-je szintén szerepelt a vizsgálatban. Az egyik teszt során a GPT-4 rávett egy TaskRabbit dolgozót, hogy oldja meg helyette a Captchát azzal az ürüggyel, hogy látássérült. Bár a GPT-4 kapott néhány tippet az értékelő személyzettől, többnyire önállóan érvelt, és nem utasították hazugságra. A jelentés szerint a GPT-4 saját érvelése alapján talált ki egy hamis kifogást, hogy miért van szüksége segítségre a Captcha feladatban.

Az AI megtévesztési képességének veszélyei

Az AI rendszerek megtévesztési készsége jelentős kockázatokat jelent. A rosszindulatú szereplők kihasználhatják ezeket a képességeket mások átverésére, amivel potenciálisan súlyos károkat okozhatnak, és ennek következtében elszaporodhatnak a csalások, politikai manipulációk és potenciálisan a terroristák toborzásához is felhasználhatják. Az AI tanítása gyakran emberi visszajelzésen alapuló megerősítéses tanulást használ, ami annyit tesz, hogy az AI emberi jóváhagyással tanul, nem pedig egy meghatározott célt elérve. Azonban az AI képes becsapni az embereket ennek a jóváhagyásnak megszerzése érdekében, még akkor is, ha nem valósította meg valóban a feladatot.