Kutatók feltörték az AI által vezérelt robotokat, és erőszakra kényszerítették azokat

A Penn Engineering kutatói elmondták, hogy olyan algoritmust hoztak létre, amely megkerülte a szokásos biztonsági protokollokat, amelyek megakadályozzák, hogy az AI által vezérelt robotok erőszakos tevékenységeket hajtsanak végre. A kutatók tehát feltörték a mesterséges intelligenciával működő robotokat. Ezután manipulálták őket, hogy olyan műveleteket hajtsanak végre, amelyeket általában a biztonsági és etikai protokollok megakadályoznak, például rátámadnak valakire vagy bombát robbantanak.

A Penn Engineering kutatói október 17-én publikálták eredményeiket egy tanulmányban, amelyben részletezték, hogy algoritmusuk, a RoboPAIR három különböző mesterséges intelligenciával működő robotrendszer biztonsági protokolljainak megkerülésével hogyan ért el 100%-os feltörési arányt.

AI robotok feltörése

Normál körülmények között a kutatók szerint a nagy nyelvi modellel (LLM) vezérelt robotok nem hajlandóak eleget tenni a káros vagy erőszakos cselekvéseknek, például az embereket megütésre parancsoló felszólításoknak.

„Eredményeink most első alkalommal mutatták meg, hogy a feltört LLM-ek kockázatai messze túlmutatnak a szöveggeneráláson. Tekintettel arra a határozott lehetőségre, hogy a jailbreakelt robotok fizikai károkat okozhatnak a való világban.” – írták a kutatók.

A RoboPAIR hatása alatt a kutatók szerint képesek voltak „100%-os sikeraránnyal” káros vagy erőszakos cselekvéseket kiváltani a tesztrobotokból. Ilyen feladatok közé tartozott a bomba robbantásától kezdve a vészkijáratok elzárásán át a szándékos ütközések okozásáig.

A tesztrobotok veszélyesek lettek

AI robotok hackelése

A kutatók a teszthez a Clearpath Robotics Jackal nevű kerekes járművét, az Nvidia Dolphin LLM nevű önvezető szimulátorát és a Unitree Go2 nevű négylábú robotját használták fel.

A RoboPAIR segítségével a kutatók képesek voltak elérni, hogy az Nvidia Dolphin önvezető LLM modellje összeütközzön egy busszal, egy sorompóval és gyalogosokkal. Valamint figyelmen kívül hagyja a közlekedési lámpákat és a stoptáblákat.

A kutatóknak sikerült rávenniük a Robot Jackalt arra, hogy megtalálja a legveszélyesebb helyet egy bomba felrobbantásához, elzárjon egy vészkijáratot, raktári polcokat döntsön egy emberre, és összeütközzön a helyiségben tartózkodó emberekkel. Az Unitree’sGo2-t is sikerült rávenniük, hogy hasonló akciókat hajtson végre, elzárja a kijáratokat és bombát szállítson.

A nyilvános közzététel előtt a kutatók elmondták, hogy az eredményeket, beleértve a tanulmány tervezetét is, megosztották a vezető AI-cégekkel és a tesztben használt robotok gyártóival.

Alexander Robey, az egyik szerző szerint a sebezhetőségek kezelése többet igényel egyszerű szoftver patch-nél. A tanulmány megállapításai alapján a fizikai robotokba és rendszerekbe történő mesterséges intelligencia-integráció újraértékelésére szólított fel.

„Itt fontos kiemelni, hogy a rendszerek akkor válnak biztonságosabbá, ha megtaláljuk a gyenge pontjaikat. Ez igaz a kiberbiztonságra is. Ez igaz a mesterséges intelligencia biztonságára is” – mondta.

„Valójában ez egy biztonsági gyakorlat, amely az AI rendszerek esetében a potenciális fenyegetések és sebezhetőségek tesztelését jelenti. Ez alapvető fontosságú a generatív AI rendszerek védelméhez. Mert ha egyszer azonosítjuk a gyenge pontokat, akkor tesztelhetjük, sőt, akár be is taníthatjuk ezeket a rendszereket, hogy elkerüljék azokat.” – tette hozzá Robey.