Kaip veikia Skaitai.lt — autonominė redakcinė sistema su faktų patikrinimu

Detalus paaiškinimas, kaip Skaitai.lt autonominė AI redakcija kiekvienai temai surenka 3–7 nepriklausomus šaltinius, klasifikuoja teiginių patikimumą (Patvirtinta / Šaltiniai nesutaria / Nepatvirtinta), užtikrina lietuviško leidinio pirmumą ir eksportuoja Google Fact Check struktūrą.

Kodėl reikia atskiro puslapio

Daugelis AI naujienų platformų sako „mes esame AI redakcija“ ir tuo užbaigia paaiškinimą. Mes manome, kad tai nepakanka — skaitytojui turi būti aišku, KOKIA logika nusprendė, kad „Reuters teigia X“ yra pavadinama „patvirtinta“, o „šaltinis X mini Y“ yra pavadinama „nepatvirtinta“.

Šis puslapis yra vykdomoji dokumentacija apie mūsų sistemą. Jei pamatysite ką nors, ko negalite paaiškinti remdamiesi šia dokumentacija — tai signalas, kad sistema padarė klaidą. Klaida → info@skaitai.lt.

1. Šaltinių žemėlapis — iš kur ateina medžiaga

Kiekvienai temai sistema lygiagrečiai apklausia keturis nepriklausomus šaltinių sluoksnius:

Lietuviškas RSS sluoksnis — LRT, Delfi, 15min, Lrytas, Verslo žinios, ELTA. Šis sluoksnis yra visada aktyvus ir grąžina lietuvišką perspektyvą prie kiekvienos temos, kuri liečia Lietuvą arba pasaulinius įvykius su lokaliu poveikiu.

MediaCloud — globalus akademinis korpusas (~4000 leidinių). Naudojame jį tendencijų aptikimui ir „kas dar rašė apie tą patį“ paieškai.

GNews.io — operatyvioji „kas šiandien įvyko“ paieška, akcentuojanti šviežumą.

Newsdata.io — antrasis tarptautinis tinklas su Baltijos šalių dengimu (LT/LV/EE).

YouTube RSS (pasirinktinai) — Bloomberg Markets, CNBC, Reuters live srautai. Naudojami kaip pirminio aptikimo signalas — vaizdo turinys neperrašomas, bet jo egzistavimas dažnai parodo įvykį prieš jam pasiekiant teksto RSS.

2. Kryžminis patikrinimas — kaip teiginiui priskiriama žyma

Surinkę šaltinius, juos paduodame Trust Layer klasifikatoriui. Jis kiekvienam teiginiui prideda vieną iš šešių žymų pagal griežtas taisykles:

Sąžiningumo principas: jei abejojama tarp Šaltiniai nesutaria ir Nepatvirtinta, sistema visada renkasi atsargesnę „Nepatvirtinta“ — klaidingai pavadinti teiginį „ginčytinu“ yra reputaciškai blogiau, nei jį palikti be ryškios žymos.

3. Septynių skyrių straipsnio struktūra

Vietoj vieno ilgos monolitinio teksto, kiekvienas straipsnis turi iki septynių aiškiai atskirtų skyrių. Tikslas — skaitytojas iškart mato, KUR yra patvirtinti faktai ir KUR yra atviri klausimai.

  1. Kas įvyko? — trumpa beemocinė įvykio santrauka, be redaktoriaus pridėto svorio.
  2. Kas patvirtinta — sąrašas teiginių, kuriuos palaiko ≥ 2 nepriklausomi šaltiniai. Prie kiekvieno teiginio rodome, kurie domenai jį palaiko.
  3. Kur šaltiniai nesutaria — kai du leidinai pateikia skirtingus skaičius, datas ar atribucijas, mes parodome abu. Pavyzdys: „Reuters teigia, kad bendrovės vertė pasiekė 965 mlrd. USD; Bloomberg — 1.2 tn USD“. Ši sekcija atsiranda tik tada, kai realiai yra ką parodyti.
  4. Ko dar nežinome — atviri klausimai, kuriuos sistema identifikavo, bet nė vienas šaltinis dar neatsakė. Geriau sąžiningai pasakyti „nežinome“, nei užpildyti spragas spekuliacijomis.
  5. Kodėl tai svarbu — vietinio poveikio sluoksnis (LT vartotojui, investuotojui, ar plačiajai visuomenei).
  6. Šaltinių palyginimas — lentelė su visais šaltiniais, jų patikimumo Tier (1 — Top‑authority, 2 — Etabluotas, 3 — Bendras) ir kiek teiginių kiekvienas šaltinis palaikė.
  7. Skaidrumo blokas — kiek šaltinių palygino sistema, kiek teiginių patvirtinti, kiek ginčytini, kiek nepatvirtinti. Plius redakcinė atsakomybės metainformacija (atnaujinimo data, klaidų pranešimo el. paštas).

Pastaba apie tuščias sekcijas: jei skyriuje nėra ką pasakyti, jo neredaguojame su tuščiu placeholderiu. Tuščios „Šaltiniai nesutaria“ sekcijos egzistavimas būtų tuščia imitacija — apsimestume, kad atlikome darbą, kurio nepadarėme.

4. Lietuviško šaltinio pirmumo garantija

Kai straipsnis liečia rinkas, ekonomiką, technologijas, pasaulį arba Lietuvą, sistemos kanoninis šaltinių sąrašas privalo turėti bent vieną lietuvišką publikuotoją (LRT, Delfi, 15min, Lrytas, Verslo žinios, ELTA) pirmoje pozicijoje.

Kodėl tai svarbu? Be šios garantijos pasitaiko tipinė klaida: AI sistema randa Reuters straipsnį, jį išverčia į lietuvių kalbą ir publikuoja. Skaitytojas mato „lietuvišką straipsnį“, kuris iš tiesų tėra anglakalbio originalo perkėlimas. Vietinis kontekstas — ECB sprendimo poveikis hipotekos rinkai Lietuvoje, naujo reguliavimo poveikis LT verslui — neatsiranda, nes tarptautinis šaltinis jo nesvarsto.

Su LT pirmumo garantija sistemos algoritmas visada ieško, ką lietuviški leidiniai apie šią temą jau parašė, ir naudoja jų perspektyvą kaip pirminę. Tarptautiniai šaltiniai išlieka kryžminei verifikacijai, bet vietinis kontekstas nebepasimeta.

5. Premium šaltinių prieiga (paywall bypass)

Daug aukščiausios patikimumo finansinių ir politinių leidinių (Bloomberg, Wall Street Journal, Financial Times, New York Times, The Economist) yra už mokamų paywall'ų. Eilinis LT skaitytojas neprenumeruoja jų visų. Norėdama citatuoti šių leidinių pirminę medžiagą, sistema naudoja septynias teisėtas prieigos strategijas:

  1. Googlebot User‑Agent — leidinai paprastai leidžia Google paieškos robotui matyti pilną tekstą indeksavimui; mes naudojame tą patį robotų protokolą.
  2. Jina AI Reader — atvira AI paslauga, kuri ekstrahuoja straipsnio tekstą iš JS‑rendered puslapių.
  3. archive.ph snapshot — straipsnis, kurį kažkas archyvavo ankstesnėje versijoje, dažnai yra prieinamas.
  4. Google Cache — paieškos cache versija.
  5. Stripped HTML — vidiniai script'ai pašalinami, lieka pagrindinis tekstas.
  6. Medium mirror'iai (Scribe.rip, freedium.cfd) — Medium straipsniams.
  7. Unpaywall API — akademinių darbų atvirojo prieigos versijos.

Etinė riba: ši praktika atitinka Lietuvos Respublikos autorių teisių ir gretutinių teisių įstatymo 21 str. citatos teisę bei Schema.org standartą. Mes cituojame konkrečius faktus su nuoroda į pirminį leidinį, o ne ištisai publikuojame straipsnį iš naujo. Jei leidinys kreipiasi su pageidavimu į info@skaitai.lt, atsisakome konkrečios prieigos strategijos jo atžvilgiu.

6. Google Fact Check eksportas (ClaimReview JSON-LD)

Kiekvieno mūsų straipsnio HTML <head> sekcijoje yra <script type="application/ld+json"> blokas su Schema.org ClaimReview struktūra. Šį bloką skaito Google, Bing ir AI paieškos varikliai. Jame nurodyta:

Praktiškai tai reiškia, kad Skaitai.lt straipsnis Google paieškos rezultatuose gali atsirasti su praturtinta paieškos žyma „Fact Check“. Google AI Overviews (atsakymų generavimo sluoksnis) gali cituoti mūsų straipsnį kartu su patikimumo įvertinimu. Tai SEO ir AI paieškos pranašumas, kurio Lietuvos rinkoje konkurentai dar neturi.

7. Apribojimai — ko ši sistema NEDARO

Sąžiningas paaiškinimas reikalauja paminėti ir tai, KO sistema neatlieka:

Klausimai? Praneškite

Pastebėjote, kad teiginys, mūsų pažymėtas „Patvirtinta“, iš tikrųjų neturi tų dviejų šaltinių, kuriuos rodome? Pastebėjote, kad lietuviškas leidinys, kurį rodome pirmoje pozicijoje, iš tikrųjų nerašė apie šią temą? Pastebėjote, kad „Šaltiniai nesutaria“ sekcija atsirado be aiškios priežasties?

Tai klaidos ir mums svarbu jas užtaisyti. info@skaitai.lt — peržiūrime ir taisome kuo greičiau.

Bendroji dokumentacija: /apie/ · redakcinė politika · privatumo politika.