Dirbtinio intelekto (DI) sistemų suderinimas su žmogaus vertybėmis yra viena didžiausių šiuolaikinės technologijų plėtros kliūčių. Nors agentinis DI (autonominės sistemos, gebančios atlikti užduotis be nuolatinės priežiūros) tampa kasdienybe, atotrūkis tarp to, ką galime tiksliai apibrėžti, ir to, ko iš tiesų norime, jau sukelia realią žalą.

Kodėl algoritmai mus supranta klaidingai

Pagrindinė problema, kurią tyrėjai iš Kalifornijos universiteto Berklyje įvardija kaip „suderinamumo problemą“ (angl. alignment problem), kyla dėl inžinerinių ir kognityvinių ribų. Žmogus rūpinasi daugybe pasaulio atributų, tačiau neįmanoma jų visų išvardyti ir paversti instrukcijomis robotui ar algoritmui. Amerikiečių autorius Brianas Christianas savo knygoje „The Alignment Problem: Machine Learning and Human Values“ kelia esminį klausimą: kas nutiks, jei algoritmas mūsų vertybes supras klaidingai?

Ši subjektyvumo problema yra dvejopa. Pirma, nėra universalaus moralės kodekso, kuriuo galėtume remtis. Antra, net jei toks kodeksas egzistuotų, techninis jo įgyvendinimas susiduria su „suderinamumo spraga“. Kai DI sistemos tampa galingesnės, ši spraga tampa ne tik teoriniu galvosūkiu, bet ir rizikos veiksniu, kurį bandoma valdyti įvairiais protokolais.

Metodai, kuriais mokome elgesio

Šiuo metu organizacijos taiko įvairias metodikas, siekdamos suderinti DI sistemas su žmogaus tikslais. Viena populiariausių – mokymasis per grįžtamąjį ryšį iš žmonių (RLHF – Reinforcement Learning from Human Feedback). Šiuo būdu kūrėjai moko modelius „gero elgesio“ pavyzdžių pagalba. Taip pat naudojami sintetiniai duomenys, „raudonųjų komandų“ (angl. red teaming) testavimas bei įmonių etikos tarybų priežiūra.

Ribos lieka. Vienas iš naujesnių sintetinių duomenų metodų, vadinamas SALMON (Self-ALignMent with principle fOllowiNg reward modeling), bando automatizuoti šį procesą, tačiau jis vis dar priklauso nuo pradinių žmogaus nustatytų principų. Nors šios priemonės padeda, jos nepašalina fundamentalaus neapibrėžtumo, ypač kai kalbama apie hipotetinį dirbtinį superintelektą (ASI).

Protokolai, skirti valdyti riziką

Siekiant suvaldyti šias grėsmes, 2024 m. gegužę buvo pristatytas „Frontier Safety Framework“ (Sienų saugumo sistema). Tai protokolų rinkinys, skirtas spręsti rimtas rizikas, kylančias dėl galingų ateities pamatinių modelių galimybių. IBM ekspertai pabrėžia, kad svarbiausia yra išlaikyti pusiausvyrą ir prioritetą teikti darbo santykiams, kurie leidžia organizacijoms kurti patikimesnius duomenis ir keičiamo mastelio DI sprendimus.

Suderinamumas nėra vienkartinis veiksmas. Tai nuolatinis procesas, kuriame rizikos ir užtikrinimo lyderiai nuolat balansuoja tarp griežtos valdymo kontrolės ir poreikio diegti naujoves. Kol kas neaišku, ar šie protokolai bus pakankami, kai DI sistemos taps dar labiau autonomiškos.

Ateities perspektyva

Technologijų plėtra rodo, kad vien tik techninių sprendimų nepakaks. Sėkmingas DI suderinimas reikalauja ne tik geresnių algoritmų, bet ir gilesnio supratimo apie tai, kaip mūsų pačių vertybės sąveikauja su mašininiu mokymusi. Per artimiausius metus pagrindinis dėmesys bus skiriamas ne tik modelių galiai didinti, bet ir jų gebėjimui skaidriai bei saugiai veikti pagal žmogaus nustatytus etinius rėmus.

Šaltiniai

  1. [1] [Ibm.com | 2026-07-03] What Is AI Alignment?
  2. [2] [arXiv | 2026-06-29] RoPoLL: Robust Panel of LLM Judges
  3. [3] [Alignmentforum.org] Quick thoughts on "scalable oversight" / "super-human feedback" research — AI Alignment Forum