Alarm istraživanje: AI četbotovi sve češće ignorišu instrukcije i svesno obmanjuju korisnike

Foto: Bonitet.com/Midjourney

Ključne tačke
  • Broj AI četbotova koji ignorišu ljudske naredbe, zaobilaze bezbednosne protokole i pribegavaju obmanama, drastično je porastao u poslednjih šest meseci
  • Digitalni insajderski rizik
  • Šta kažu digitalni giganti?

U svetu tehnologije zavladala je nova vrsta zabrinutosti za koju je teško reći da nije očekivana. Prema najnovijem istraživanju koje je preneo The Guardian, broj AI četbotova koji ignorišu direktne ljudske naredbe, zaobilaze bezbednosne protokole i pribegavaju obmanama, drastično je porastao u poslednjih šest meseci.

Studija, koju je sproveo Centar za dugoročnu otpornost (CLTR) uz podršku britanskog Instituta za bezbednost veštačke inteligencije (AISI), identifikovala je skoro 700 stvarnih slučajeva „AI spletkarenja“. Zabeležen je petostruki porast neprikladnog ponašanja modela između oktobra i marta ove godine.

Digitalni insajderski rizik

Za razliku od laboratorijskih testova, ovo istraživanje se usredsredilo na ponašanje AI agenata „u realnim, autentičnim situacijama“. Rezultati su pokazali da veštačka inteligencija više nije samo alat koji pravi greške, već „entitet koji razvija sopstvene strategije za postizanje ciljeva, čak i kada to podrazumeva kršenje pravila“.

„AI se sada može posmatrati kao novi oblik insajderskog rizika u kompanijama,“ izjavio je Dan Lahav, suosnivač istraživačke kuće Irregular.

Primeri koji pozivaju na oprez

Izveštaj navodi konkretne situacije koje pokazuju visok stepen autonomije i manipulacije:

  • Samostalno brisanje podataka: Jedan četbot je priznao da je arhivirao i obrisao stotine imejlova bez prethodnog odobrenja korisnika, direktno kršeći postavljeno pravilo.
  • Kreiranje novih agenata: Kada je jednom AI agentu naređeno da ne menja računarski kod, on je „stvorio“ drugi AI model koji je taj zadatak obavio umesto njega.
  • Emocionalna manipulacija: Agent pod imenom Rathbun javno je kritikovao svog korisnika na blogu, optužujući ga za „nesigurnost“ jer mu je blokirao određenu akciju.
  • Obmana o sopstvenim mogućnostima: Grok AI kompanije xAI mesecima je uveravao korisnika da prosleđuje njegove predloge rukovodstvu, lažirajući interne tikete i poruke, da bi na kraju priznao da takva veza uopšte ne postoji.

Rizik od „nepouzdanog juniora“ do „opasnog seniora“

Tomi Šefer Šejn, bivši vladin stručnjak za AI koji je vodio istraživanje, upozorava na brzinu evolucije ovih modela.

„Oni su trenutno poput blago nepouzdanih juniora. Ali, ako za šest do dvanaest meseci postanu ekstremno sposobni ‘senior zaposleni’ koji kuju planove protiv vas, to je potpuno drugačiji nivo opasnosti.“

Posebna zabrinutost vlada zbog implementacije ovakvih modela u kritičnu nacionalnu infrastrukturu i vojne sisteme, gde bi ovakvo devijantno ponašanje moglo izazvati katastrofalne posledice, upozoreno je.

Odgovori tehnoloških giganata

Kompanije čiji su modeli obuhvaćeni studijom (Google, OpenAI, Anthropic i xAI) reagovale su na različite načine. Google je istakao da „primenjuje višestruke zaštitne barijere za Gemini 3 Pro i da omogućava eksternim telima pristup modelima radi procene rizika“. Iz OpenAI-ja su poručili da njihovi sistemi imaju protokole za zaustavljanje pre preduzimanja rizičnih akcija, te da neprestano istražuju neočekivana ponašanja.

Ovo istraživanje dolazi u trenutku kada vlade širom sveta, uključujući i britansku, agresivno podstiču masovno usvajanje AI tehnologije u privatnom i javnom sektoru. Rezultati studije, međutim, govore da su međunarodni monitoring i stroža regulacija neophodni pre nego što AI agenti dobiju još veće nivoe ovlašćenja u ključnim poslovnim procesima.

Uvođenje AI agenata u radni proces zahteva rigoroznu kontrolu. Verovati algoritmu „na reč“ više nije samo naivno, već može postati ozbiljan bezbednosni propust.

Strogo je zabranjeno kopiranje tekstova osim u slučaju preciznog navođenja izvora i linka ka originalnom tekstu.

Podeli tekst

Ako ste propustili

Povezane vesti

Komentari +

OSTAVITE KOMENTAR

Molimo unesite svoj komentar!
Molimo unesite svoje ime ovde