15 másodperc alatt másolja le a hangod ez az új AI

Zsófi

2024. március 31. 18:32 119

15 másodperc alatt másolja le a hangod ez az új AI, kiemelt kép

Az OpenAI új fejlesztésének köszönhetően mindössze 15 másodpercre van szüksége az AI-nak ahhoz, hogy klónozza a beszédet.

Újdonság az AI hang

Egyelőre még zárt tesztelés alatt ál az új AI hang motor, az eszköz azonban jelentős előrelépés lehet sok ember életében. Az AI hang ugyanis visszaadhatja azoknak az embereknek a hangját, akik elvesztették ezt a múltban. Azonban a cég elismeri a visszaélés lehetőségét is.

Beszéd klónozás jöhet a kép másolás után

Az OpenAI, a piac vezető generatív mesterségesintelligencia eszköze, a ChatGPT mögött álló vállalat bemutatta az új hangklónozási technológiát, amelyet „Voice Engine”-nek nevez. Ez a hangmodell képes reprodukálni egy személy hangját, intonációját és más kifejezetten emberi beszédmintákat az eredeti hang viszonylag kis mintája alapján.

A videolejátszó jelenleg egy hirdetést játszik le.

Figyelemre méltó, hogy egy kis modell egyetlen, 15 másodperces mintával érzelmes és valósághű hangokat tud előállítani

— írja a cég pénteki blogbejegyzésében.

A technológia részben már eddig is létezett

Összehasonlításképpen az ElevenLabs mesterséges intelligencia hangplatformja már rendelkezik egy azonnali beszéd klónozást biztosító eszközzel. Azonban ehhez legalább egy perces mintákra van szükség, hogy használható eredményt érjen el a modell. A legjobb eredmény eléréséhez azonban közel 10 perc folyamatos beszédre van szükség és csak ez alapján tud professzionális színvonalú outputot biztosítani az AI hang modell.

Jóra is lehet használni a gépi beszédet

A cég különböző példákat mutatott be arra vonatkozóan, hogy mire képes ez a technológia. Az egyik példa egy fiatal páciens hangját mutatja be, aki vaszkuláris agydaganat miatt elvesztette beszédkészségét. Az ő hangját egy régebbi felvétel segítségével klónozták, amelyet korábban egy iskolai projekthez készített.

Az OpenAI együttműködött a Lifespan nonprofit szervezettel, amely a Brown Egyetem orvosi karához kapcsolódik. Együttműködtek a Livox nevű eszköz fejlesztőivel, amely egy alternatív kommunikációs alkalmazás pont hasonló esetekre.

Az OpenAI azt is bemutatta, hogy a HeyGen miként használja a technológiáját fordításhoz, tolmácsoláshoz. Egy adott nyelven feltöltött beszéd természetes hangzású fordítását hozták létre egy másik nyelven az AI hang modell segítségével.

A vállalat szerint a Voice Enginet először 2022 végén fejlesztették ki, és már használják az OpenAI text-to-speech API-jában is. Itt elérhetőek előre beállított hangok, valamint a ChatGPT hang és felolvasási funkciója is.

Óvatosan bővíti a felhasználói bázist az OpenAI

A legújabb fejlesztések kapcsán a vállalat azt mondja, hogy óvatosabb a szélesebb körű bevezetés kapcsán.

Reméljük, hogy párbeszédet kezdhetünk a szintetikus hangok felelős használatáról, és arról, hogy a társadalom hogyan tud alkalmazkodni majd ezekhez az új funkciókhoz

— írta az OpenAI, elismerve a „deepfake” széles körben elítélt gyakorlatát.

Csoportosan lépnek fel a mesterséges intelligencia ellen

A hírességek, kormányzati tisztviselők és egyre inkább magánszemélyek hangját aljas célokra is fel lehet használni. Politikai kampányoktól, hamis hirdetésekig, akár nyílt bűnözői tevékenységekben is jól hasznosítható az OpenAI fejlesztése.

Joe Biden, az Egyesült Államok elnöke is több biztosítékot sürget a mesterséges intelligencia megszemélyesítésének rosszindulatú használata ellen.

Valójában a Meta tavaly nyáron már nyilvánosságra hozta, hogy a mesterséges intelligencia hangeszközét kifejezetten a helytelen használat lehetséges kockázatai miatt tartják vissza.

A mesterséges intelligencia biztonságával kapcsolatos megközelítésünkkel és önkéntes kötelezettségvállalásainkkal összhangban úgy döntünk, hogy előzetesen megtekintjük ezt a technológiát, de jelenleg nem tesszük közzé széles körben

— magyarázta az OpenAI.

Úgy gondoljuk, hogy a szintetikus hangtechnológia minden széles körű alkalmazását hanghitelesítési gyakorlatnak kell kísérniük, amelyek igazolják, hogy az eredeti beszélő tudatosan adja hozzá a hangját a szolgáltatáshoz.

A Voice Enginet ma tesztelő partnerek elfogadták az OpenAI használati szabályzatát, amely tiltja, hogy egy másik személy vagy szervezet beleegyezés nélküli használja a hang inputját. Ezenkívül a vállalat kifejezetten tájékoztatja és beleegyezését kéri az eredeti beszélőnek.

Ezen beszélgetések és a kis léptékű tesztek eredményei alapján megalapozottabb döntést fogunk hozni arról, hogy alkalmazzuk-e ezt a technológiát széleskörben, és ha igen, hogyan

További projekteken dolgozik az Open AI

A Voice Engine mellett az Open AI több projekten is dolgozik párhuzamosan. Sam Altman vezérigazgató elárulta, hogy a cég már dolgozik a GPT-5 idei kiadásán. A cég bemutatta a Sora generatív videóeszközét is, amelyről azt állítja, hogy a Sora lesz a legfejlettebb videógenerátor a piacon, megelőzve az olyan modelleket, mint a Pika, Stable Video Diffusion és Runway ML.

A Sora jelenleg csak az Open AI által bevont kiemelt csapattagok számára érhető el. Azért, hogy megbizonyosodjanak arról, hogy nem lehet visszaélni vele.

A Voice Engine minden bizonnyal felülmúlhatja a többi hangklónozó eszközt, beleértve a Meta, az ElevenLabs, a WellSaid Labs fejlesztéseit és a nyílt forráskódú modelleket, például az RVC-t.

Az Open AI egy Q* nevű titkos projekten is dolgozik, amelynek eddig csak a neve szivárgott ki. Sam Altman nem volt hajlandó részleteket közölni, de azt mondta, hogy a kutatócsoport nagy hangsúlyt fektet arra, hogy olyan technikákat és megközelítéseket találjon, amelyek jobbá teszik a mesterséges intelligenciát.

Címkék: