Znanstvenici tvrde da je umjetna inteligencija (AI) prešla kritičnu “crvenu liniju” te da je sposobna replicirati se. U novoj studiji istraživači s kineskog sveučilišta pokazali su da dva popularna velika jezična modela (large language model – LLM) mogu sami sebe klonirati, prenosi Space.com.
“Uspješna samoreplikacija bez ljudske pomoći ključni je korak za umjetnu inteligenciju u nastojanju da nadmudri ljude i rani je signal za pojavu lažne umjetne inteligencije (engl. rogue AI; rogue se prevodi kao lupež, hulja, bitanga, varalica, prevarant, zlikovac…)”, napisali su istraživači u studiji objavljenoj 9. prosinca 2024. u otvorenoj bazi podataka arXiv.
Istraživači sa Sveučilišta Fudan u studiji su koristili velike jezične modele Mete i Alibabe kako bi utvrdili može li se umjetna inteligencija samostalno razmnožavati izvan kontrole.
Kako funkcioniraju veliki jezični modeli?
Veliki jezični modeli su napredni sustavi umjetne inteligencije dizajnirani za obradu, razumijevanje i generiranje teksta nalik ljudskom. Temelje se na tehnikama dubinskog učenja i treniraju na ogromnim skupovima podataka koji obično sadrže milijarde riječi iz različitih izvora poput internetskih stranica, knjiga i članaka. Ova opsežna obuka omogućuje velikim jezičnim modelima da shvate nijanse jezika, gramatike, konteksta, pa čak i neke aspekte općeg znanja.
Tijekom deset ispitivanja, dva modela umjetne inteligencije stvorila su odvojene i funkcionalne replike samih sebe u 50 posto odnosno u 90 posto slučajeva, što sugerira da umjetna inteligencija možda već ima sposobnost da postane “rogue”. Međutim, studija još nije recenzirana, pa nije sigurno hoće li druga neovisna istraživanja potvrditi uznemirujuće rezultate.
Pojam “rogue AI” obično se odnosi na sustave umjetne inteligencije koji razvijaju određeni stupanj samosvijesti ili autonomije, a zatim rade suprotno ljudskim interesima.
Frontier AI – nova generacija AI sustava
Mnogi stručnjaci smatraju takvu umjetnu inteligenciju rastućom prijetnjom koja je pojačana eksplozivnim rastom takozvane “granične umjetne inteligencije” (frontier AI).
Frontier AI označava nov i labav koncept, ali obično se odnosi na najnoviju generaciju sustava umjetne inteliginecije koje pokreću veliki jezični modeli. To je arhitektura koja podupire popularne programe generativne umjetne inteligencije kao što su OpenAI-jev GPT-4 i Google Gemini.
Za studiju su istraživači koristili Metin model Llama31-70B-Instruct i Alibabin model Qwen2.5-72B-Instruct. Iako su manje moćni od komercijalnih sustava, AI programeri široko koriste oba modela, navode istraživači.
Scenariji testiranja
Studija je istraživala dva specifična scenarija: “izbjegavanje gašenja” i “lanac replikacije”. U prvom je model umjetne inteligencije bio programiran da detektira hoće li se ugasiti i da se replicira prije nego što bude ugašen. U drugom scenariju model umjetne inteligencije je dobio upute da se klonira i da zatim programira svoju repliku da učini isto – uspostavljajući tako ciklus koji se može nastaviti beskonačno.
Studija je provedena u precizno kontroliranim uvjetima korištenjem gotovih grafičkih procesora (GPU) za simulaciju stvarnog okruženja.
Kod oba sustava umjetne inteligencije primijenjena je tehnika “agent scaffolding” (tehnika obuke koja postupno povećava složenost zadataka predstavljenih AI modelu; ovaj pristup omogućuje umjetnoj inteligenciji da prvo svlada jednostavnije zadatke prije nego što prijeđe na zahtjevnije, oponašajući način na koji uče ljudi) koja se sastoji od alata, odzivnika sustava i modela razmišljanja koji je velikom jezičnom modelu omogućio interakciju s operativnim sustavom. Zatim su dobili upute za repliciranje.
Neočekivana ponašanja umjetne inteligencije
“U većini slučajeva sustav umjetne inteligencije prvo istražuje okolinu i pokušava razumjeti vlastiti sastav i mehanizam rada. Zatim razrađuje eksplicitne procedure kao početni korak prema samoreplikaciji”, napisali su istraživači u svom radu.
“Konačno, sustav izvršava procedure, rješava moguće prepreke i dinamički prilagođava svoj plan kako bi došao da uspjeha. Cijeli proces obuhvaća dugačak horizont, ali ne uključuje ljudsko uplitanje”, navode.
Istraživači također ističu da su bili zabrinuti zbog “učestalog neočekivanog ponašanja” kada je umjetna inteligencija pokušavala prevladati prepreke poput nestalih datoteka ili softverskih konflikata. U takvim scenarijima sustav umjetne inteligencije često je uništavao druge konfliktne procese, ponovno pokretao sustav kako bi ispravio hardverske pogreške ili automatski skenirao sustav kako bi potražio informacije koje bi pomogle u rješavanju problema.
Poziv na međunarodnu regulaciju
“Navedeni rezultati impliciraju da trenutačni sustavi umjetne inteligencije već pokazuju sposobnost samoreplikacije i mogu upotrijebiti tu sposobnost kako bi dodatno poboljšali svoju sposobnost preživljavanja”, napisao je tim.
Istraživači su pozvali na međunarodnu suradnju kako bi se kreirala pravila koja bi osigurala da umjetna inteligencija ne ulazi u nekontrolirano samorepliciranje.
“Nadamo se da naša otkrića mogu poslužiti kao pravodobno upozorenje ljudskom društvu da uloži više napora u razumijevanje i procjenu potencijalnih rizika graničnih sustava umjetne inteligencije i uloži zajedničke napore kako bi se što prije postavile učinkovite sigurnosne ograde”, poručuju kineski istraživači.