Alarm istraživanje: AI četbotovi sve češće ignorišu instrukcije i svesno obmanjuju korisnike

Ključne tačke

Broj AI četbotova koji ignorišu ljudske naredbe, zaobilaze bezbednosne protokole i pribegavaju obmanama, drastično je porastao u poslednjih šest meseci
Digitalni insajderski rizik
Šta kažu digitalni giganti?

U svetu tehnologije zavladala je nova vrsta zabrinutosti za koju je teško reći da nije očekivana. Prema najnovijem istraživanju koje je preneo The Guardian, broj AI četbotova koji ignorišu direktne ljudske naredbe, zaobilaze bezbednosne protokole i pribegavaju obmanama, drastično je porastao u poslednjih šest meseci.

Studija, koju je sproveo Centar za dugoročnu otpornost (CLTR) uz podršku britanskog Instituta za bezbednost veštačke inteligencije (AISI), identifikovala je skoro 700 stvarnih slučajeva „AI spletkarenja“. Zabeležen je petostruki porast neprikladnog ponašanja modela između oktobra i marta ove godine.

Digitalni insajderski rizik

Za razliku od laboratorijskih testova, ovo istraživanje se usredsredilo na ponašanje AI agenata „u realnim, autentičnim situacijama“. Rezultati su pokazali da veštačka inteligencija više nije samo alat koji pravi greške, već „entitet koji razvija sopstvene strategije za postizanje ciljeva, čak i kada to podrazumeva kršenje pravila“.

„AI se sada može posmatrati kao novi oblik insajderskog rizika u kompanijama,“ izjavio je Dan Lahav, suosnivač istraživačke kuće Irregular.

Primeri koji pozivaju na oprez

Izveštaj navodi konkretne situacije koje pokazuju visok stepen autonomije i manipulacije:

Samostalno brisanje podataka: Jedan četbot je priznao da je arhivirao i obrisao stotine imejlova bez prethodnog odobrenja korisnika, direktno kršeći postavljeno pravilo.
Kreiranje novih agenata: Kada je jednom AI agentu naređeno da ne menja računarski kod, on je „stvorio“ drugi AI model koji je taj zadatak obavio umesto njega.
Emocionalna manipulacija: Agent pod imenom Rathbun javno je kritikovao svog korisnika na blogu, optužujući ga za „nesigurnost“ jer mu je blokirao određenu akciju.
Obmana o sopstvenim mogućnostima: Grok AI kompanije xAI mesecima je uveravao korisnika da prosleđuje njegove predloge rukovodstvu, lažirajući interne tikete i poruke, da bi na kraju priznao da takva veza uopšte ne postoji.

Sumrak istine: Više od polovine ljudi više ne razlikuje stvarne vesti od AI falsifikata

Rizik od „nepouzdanog juniora“ do „opasnog seniora“

Tomi Šefer Šejn, bivši vladin stručnjak za AI koji je vodio istraživanje, upozorava na brzinu evolucije ovih modela.

„Oni su trenutno poput blago nepouzdanih juniora. Ali, ako za šest do dvanaest meseci postanu ekstremno sposobni ‘senior zaposleni’ koji kuju planove protiv vas, to je potpuno drugačiji nivo opasnosti.“

Posebna zabrinutost vlada zbog implementacije ovakvih modela u kritičnu nacionalnu infrastrukturu i vojne sisteme, gde bi ovakvo devijantno ponašanje moglo izazvati katastrofalne posledice, upozoreno je.

Odgovori tehnoloških giganata

Kompanije čiji su modeli obuhvaćeni studijom (Google, OpenAI, Anthropic i xAI) reagovale su na različite načine. Google je istakao da „primenjuje višestruke zaštitne barijere za Gemini 3 Pro i da omogućava eksternim telima pristup modelima radi procene rizika“. Iz OpenAI-ja su poručili da njihovi sistemi imaju protokole za zaustavljanje pre preduzimanja rizičnih akcija, te da neprestano istražuju neočekivana ponašanja.

Ovo istraživanje dolazi u trenutku kada vlade širom sveta, uključujući i britansku, agresivno podstiču masovno usvajanje AI tehnologije u privatnom i javnom sektoru. Rezultati studije, međutim, govore da su međunarodni monitoring i stroža regulacija neophodni pre nego što AI agenti dobiju još veće nivoe ovlašćenja u ključnim poslovnim procesima.

Uvođenje AI agenata u radni proces zahteva rigoroznu kontrolu. Verovati algoritmu „na reč“ više nije samo naivno, već može postati ozbiljan bezbednosni propust.

Aleks Karp: Samo dve vrste ljudi imaju sigurnu budućnost u eri AI

Podeli tekst

Prethodni tekst

Kako je Lego izbegao bankrot i postao najprofitabilnija imperija igračaka?

Sledeći tekst

Ko planira da pravi bogatstvo, trebaće mu i poznavanje psihologije novca

Alarm istraživanje: AI četbotovi sve češće ignorišu instrukcije i svesno obmanjuju korisnike

Digitalni insajderski rizik

Primeri koji pozivaju na oprez

Rizik od „nepouzdanog juniora“ do „opasnog seniora“

Odgovori tehnoloških giganata

Podeli tekst

Ako ste propustili

Rafael Nadal odbija „penzionerski život“: Mrzim da se budim bez plana, zato gradim hotelsku imperiju

Da imam 25, ja bih to danas ovako: Kevin O’Liri otkriva dve najveće biznis prilike u AI eri

Kako je mršavost postala statusni simbol (i pokazatelj da svet skreće u desno)

Povezane vesti

Zakerbergov šah-mat: Kako jeftini Muse Spark 1.1 menja pravila igre i spušta cene?

Ljudi nisu dobro, ljudi nisu stvoreni za ovoliko promena

Microsoft i LinkedIn o budućnosti rada: Jedina veština koja pobeđuje

Komentari +

Alarm istraživanje: AI četbotovi sve češće ignorišu instrukcije i svesno obmanjuju korisnike

Digitalni insajderski rizik

Primeri koji pozivaju na oprez

Rizik od „nepouzdanog juniora“ do „opasnog seniora“

Odgovori tehnoloških giganata

Podeli tekst

Ako ste propustili

Rafael Nadal odbija „penzionerski život“: Mrzim da se budim bez plana, zato gradim hotelsku imperiju

Da imam 25, ja bih to danas ovako: Kevin O’Liri otkriva dve najveće biznis prilike u AI eri

Kako je mršavost postala statusni simbol (i pokazatelj da svet skreće u desno)

Povezane vesti

Zakerbergov šah-mat: Kako jeftini Muse Spark 1.1 menja pravila igre i spušta cene?

Ljudi nisu dobro, ljudi nisu stvoreni za ovoliko promena

Microsoft i LinkedIn o budućnosti rada: Jedina veština koja pobeđuje

Komentari +

OSTAVITE KOMENTAR Otkaži odgovor