Dirbtinio intelekto (DI) agentų gebėjimas atlikti sudėtingas užduotis be žmogaus įsikišimo tampa pagrindiniu technologijų vertinimo kriterijumi. Nauji vertinimo modeliai, tokie kaip EnterpriseOps-Gym ir AgencyBench, bando užpildyti spragą tarp teorinių testų ir realaus pasaulio užduočių, tačiau jų pritaikomumas išlieka ribotas.

Kur čia nauda

Iki šiol DI agentų vertinimas dažnai apsiribodavo paprastais klausimais ir atsakymais, kurie neatskleidžia tikrojo agento savarankiškumo. ServiceNow Research, bendradarbiaudama su Mila (Milio dirbtinio intelekto institutu) ir Monrealio universitetu, pristatė EnterpriseOps-Gym – vertinimo aplinką, skirtą specialiai įmonių operacijų užduotims. Tai svarbus žingsnis, nes įmonių aplinkoje agentai susiduria su specifiniais iššūkiais, kurių neįmanoma išmatuoti standartiniais testais.

AgencyBench platforma žengia dar toliau, siūlydama vertinimą 1 milijono žetonų (tokenų) realaus pasaulio kontekste. Šis įrankis naudoja įvairius rodiklius, tokius kaip vidutinis balas (Average Score), sėkmės rodiklis (Pass@k) ir efektyvumas, kad būtų galima objektyviai įvertinti, kaip agentai tvarkosi su sudėtingais scenarijais.

Vertinimo metodų įvairovė

Savarankiškų agentų testavimas reikalauja daugiau nei tik vieno skaičiaus. AgencyBench naudoja kompleksinę sistemą, apimančią taisyklių pagrįstą vertinimą (Rule-based Evaluation) ir „DI kaip teisėjo“ (LLM-as-Judge) metodą. Toks derinys leidžia ne tik stebėti, ar užduotis atlikta, bet ir analizuoti, kiek bandymų (Average Attempts) prireikė agentui pasiekti rezultatą.

Detalių mažai. Nors šie įrankiai suteikia struktūrą, jie vis dar veikia „scaffold“ (pagalbiniame karkase) aplinkoje, kuri imituoja realybę, bet nėra pati realybė. Tai reiškia, kad agento sėkmė testuose ne visada garantuoja tokį patį elgesį atviroje, nenuspėjamoje įmonės sistemoje.

Priklausomybė nuo aplinkos lieka

Pagrindinė problema, kurią išskiria Evaluation and Benchmarking of LLM Agents: A Survey (DI agentų vertinimo apžvalga), yra būtent įmonėms specifinių iššūkių trūkumas standartiniuose testuose. Agentai, kurie puikiai veikia laboratorinėmis sąlygomis, dažnai stringa susidūrę su netvarkingais duomenimis ar nenuspėjamais procesais.

Čia ir rizika. Vertinimo aplinkos, tokios kaip EnterpriseOps-Gym, yra sukurtos tam, kad šią spragą sumažintų, tačiau jos pačios tampa nauju standartu, prie kurio kūrėjai gali pradėti „derinti“ savo modelius. Tai sukuria užburtą ratą: agentai tampa geresni testuose, bet ne būtinai naudingesni verslui.

Ateities kryptys

Ateinančiais metais DI agentų vertinimas turės pereiti nuo statinių testų prie dinamiškų, grįžtamąja informacija paremtų sistemų. AgencyBench jau dabar analizuoja grįžtamąja informacija pagrįstą savikorekciją (Feedback-driven Self-correction Analysis), kuri leidžia agentui pačiam taisyti klaidas vykdymo metu. Tai yra esminis pokytis, nes tikrasis savarankiškumas pasireiškia ne tada, kai agentas neklysta, o tada, kai jis geba savo klaidas atpažinti ir ištaisyti be žmogaus pagalbos.

Technologijų plėtra rodo, kad vertinimo metodai taps vis sudėtingesni, tačiau jų tikslas išliks tas pats – užtikrinti, kad autonominiai agentai būtų ne tik greiti, bet ir patikimi. Kol kas šie įrankiai yra tik pirmieji žingsniai link tikrojo DI agentų brandos matavimo.

Šaltiniai

  1. [1] [arXiv] Evaluation and Benchmarking of LLM Agents: A Survey
  2. [2] [arXiv] AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts
  3. [3] [Neurotechnus.com] AI agent evaluation: ServiceNow's EnterpriseOps-Gym Benchmark
  4. [4] [Knightcolumbia.org] Levels of Autonomy for AI Agents