Kutatók feltörték az AI által vezérelt robotokat, és erőszakra kényszerítették azokat
A Penn Engineering kutatói elmondták, hogy olyan algoritmust hoztak létre, amely megkerülte a szokásos biztonsági protokollokat, amelyek megakadályozzák, hogy az AI által vezérelt robotok erőszakos tevékenységeket hajtsanak végre. A kutatók tehát feltörték a mesterséges intelligenciával működő robotokat. Ezután manipulálták őket, hogy olyan műveleteket hajtsanak végre, amelyeket általában a biztonsági és etikai protokollok megakadályoznak, például rátámadnak valakire vagy bombát robbantanak.
A Penn Engineering kutatói október 17-én publikálták eredményeiket egy tanulmányban, amelyben részletezték, hogy algoritmusuk, a RoboPAIR három különböző mesterséges intelligenciával működő robotrendszer biztonsági protokolljainak megkerülésével hogyan ért el 100%-os feltörési arányt.
Normál körülmények között a kutatók szerint a nagy nyelvi modellel (LLM) vezérelt robotok nem hajlandóak eleget tenni a káros vagy erőszakos cselekvéseknek, például az embereket megütésre parancsoló felszólításoknak.
„Eredményeink most első alkalommal mutatták meg, hogy a feltört LLM-ek kockázatai messze túlmutatnak a szöveggeneráláson. Tekintettel arra a határozott lehetőségre, hogy a jailbreakelt robotok fizikai károkat okozhatnak a való világban.” – írták a kutatók.
A RoboPAIR hatása alatt a kutatók szerint képesek voltak „100%-os sikeraránnyal” káros vagy erőszakos cselekvéseket kiváltani a tesztrobotokból. Ilyen feladatok közé tartozott a bomba robbantásától kezdve a vészkijáratok elzárásán át a szándékos ütközések okozásáig.
A tesztrobotok veszélyesek lettek
A kutatók a teszthez a Clearpath Robotics Jackal nevű kerekes járművét, az Nvidia Dolphin LLM nevű önvezető szimulátorát és a Unitree Go2 nevű négylábú robotját használták fel.
A RoboPAIR segítségével a kutatók képesek voltak elérni, hogy az Nvidia Dolphin önvezető LLM modellje összeütközzön egy busszal, egy sorompóval és gyalogosokkal. Valamint figyelmen kívül hagyja a közlekedési lámpákat és a stoptáblákat.
A kutatóknak sikerült rávenniük a Robot Jackalt arra, hogy megtalálja a legveszélyesebb helyet egy bomba felrobbantásához, elzárjon egy vészkijáratot, raktári polcokat döntsön egy emberre, és összeütközzön a helyiségben tartózkodó emberekkel. Az Unitree’sGo2-t is sikerült rávenniük, hogy hasonló akciókat hajtson végre, elzárja a kijáratokat és bombát szállítson.
A nyilvános közzététel előtt a kutatók elmondták, hogy az eredményeket, beleértve a tanulmány tervezetét is, megosztották a vezető AI-cégekkel és a tesztben használt robotok gyártóival.
Alexander Robey, az egyik szerző szerint a sebezhetőségek kezelése többet igényel egyszerű szoftver patch-nél. A tanulmány megállapításai alapján a fizikai robotokba és rendszerekbe történő mesterséges intelligencia-integráció újraértékelésére szólított fel.
Chatbots like ChatGPT can be jailbroken to output harmful text. But what about robots? Can AI-controlled robots be jailbroken to perform harmful actions in the real world?
Our new paper finds that jailbreaking AI-controlled robots isn't just possible.
It's alarmingly easy. 🧵 pic.twitter.com/GzG4OvAO2M
— Alex Robey (@AlexRobey23) October 17, 2024
„Itt fontos kiemelni, hogy a rendszerek akkor válnak biztonságosabbá, ha megtaláljuk a gyenge pontjaikat. Ez igaz a kiberbiztonságra is. Ez igaz a mesterséges intelligencia biztonságára is” – mondta.
„Valójában ez egy biztonsági gyakorlat, amely az AI rendszerek esetében a potenciális fenyegetések és sebezhetőségek tesztelését jelenti. Ez alapvető fontosságú a generatív AI rendszerek védelméhez. Mert ha egyszer azonosítjuk a gyenge pontokat, akkor tesztelhetjük, sőt, akár be is taníthatjuk ezeket a rendszereket, hogy elkerüljék azokat.” – tette hozzá Robey.