Mašininio mokymosi spąstai: kodėl AI modeliai klysta ir kaip žmonės gali juos tikrinti (praktinis gidas)

2018 metais Amazon atsisakė savo sukurtos dirbtinio intelekto įdarbinimo sistemos. Priežastis buvo paprasta ir nemaloni: sistema diskriminavo moteris. Modelis buvo treniruotas ant dešimties metų įdarbinimo duomenų, kuriuose dominavo vyriški kandidatai (nes technologijų sektorius istoriškai buvo vyrų dominuojama sritis). Sistema „išmoko”, kad vyriški CV yra „geresni”, ir pradėjo automatiškai mažinti balus kandidatėms, kurių CV buvo paminėtas žodis „moterų” (pvz., „moterų šachmatų klubo pirmininkė”) arba moterų kolegijos pavadinimas.

Amazon inžinieriai neįprogramavo diskriminacijos. Jie sukūrė sistemą, kuri pati „atrado” šališkumą duomenyse ir pavertė jį sprendimu.

Ši istorija puikiai iliustruoja pagrindinę šio straipsnio temą: AI modeliai nėra nešališki, neklysta ir visažiniai. Jie yra galingi įrankiai, kurie atspindi savo treniravimo duomenis, savo kūrėjų sprendimus ir savo architektūros ribas. Ir jie klysta. Reguliariai, kartais pražūtingai, dažnai sunkiai pastebimais būdais.

Šiame straipsnyje nagrinėsime, kodėl AI modeliai daro klaidas, kokių tipų tos klaidos būna, kuriose srityse rizika didžiausia ir, svarbiausia, kaip eilinis žmogus – ne programuotojas, ne duomenų mokslininkas – gali atpažinti ir patikrinti AI pateikiamą informaciją.

Kaip veikia mašininis mokymasis: trumpa anatomija

Prieš kalbant apie klaidas, verta suprasti bazinį principą, kaip AI modeliai „mokosi”. Tai nėra mokymasis ta prasme, kaip mokosi žmogus. Tai yra statistinis šablonų atpažinimas.

Procesas atrodo taip:

Duomenys. Modeliui pateikiamas didelis kiekis duomenų: tekstų, nuotraukų, skaičių, garso įrašų – priklausomai nuo užduoties.
Treniravimas. Modelis analizuoja šiuos duomenis ir ieško statistinių ryšių. Pavyzdžiui, kalbos modelis „mokosi”, kokie žodžiai dažniausiai eina vienas po kito; vaizdų atpažinimo modelis „mokosi”, kokie pikselių šablonai atitinka katę, o kokie – šunį.
Parametrai. Modelio „žinios” saugomos kaip milijardai skaitinių parametrų (svorių), kurie nulemia, kaip modelis reaguoja į naują įvestį.
Prognozavimas. Kai modeliui pateikiate naują užklausą, jis naudoja savo parametrus ir generuoja atsakymą, kuris statistiškai „labiausiai tikėtinas” pagal jo treniravimo duomenis.

Čia slypi pagrindinė įžvalga: AI modelis nedaro sprendimų ta prasme, kaip juos daro žmogus. Jis nesvarsto, neabejoja, neturi intuicijos. Jis skaičiuoja tikimybes. Ir kiekviename šio proceso žingsnyje gali atsirasti klaidų.

Septynios pagrindinės priežastys, kodėl AI modeliai klysta

1. Šališki treniravimo duomenys (Data Bias)

Tai dažniausia ir plačiausiai aptarinėjama AI klaidų priežastis. Principas paprastas: jei modelis treniruojamas ant šališkų duomenų, jis „išmoks” tą šališkumą ir atkartos jį savo sprendimuose.

Kaip tai atrodo praktikoje:

Rasinis šališkumas veidų atpažinime. 2018 m. MIT tyrėja Joy Buolamwini parodė, kad populiarios veidų atpažinimo sistemos (Microsoft, IBM, Face++) šviesiaodžių vyrų veidus atpažino su 99% tikslumu, tačiau tamsiauodžių moterų veidus – tik su 65% tikslumu. Priežastis: treniravimo duomenų rinkiniai buvo sudaryti daugiausia iš šviesiaodžių vyrų nuotraukų.

Geografinis šališkumas. DI modeliai, treniruoti ant Šiaurės Amerikos ir Vakarų Europos duomenų, blogiau atpažįsta objektus, žmones ir kontekstus iš kitų regionų. Vaizdo atpažinimo sistema gali puikiai identifikuoti Amerikos kelio ženklą, tačiau suklysti matydama Indijos ar Afrikos kelio ženklą.

Kalbinis šališkumas. Kalbos modeliai, treniruoti daugiausia ant angliškų tekstų, geriau veikia anglų kalba nei kitomis. Lietuvių kalba, turinti santykinai mažą atstovavimą treniravimo duomenyse, gauna mažiau tikslių rezultatų – ypač specifinėse terminologijos srityse.

Istorinis šališkumas. Kai treniravimo duomenys atspindi istorinius visuomeninius stereotipus, modelis juos perima. Kalbos modeliai, treniruoti ant senesnių tekstų, gali asocijuoti profesiją „slaugytoja” su moterimis, o „inžinierius” – su vyrais, atspindėdami ne dabartinę realybę, o praeities tendencijas.

Svarbu suprasti: šališkumas duomenyse ne visada yra akivaizdus. Kartais jis slypi subtiliose koreliacjose, kurių net duomenų kūrėjai nepastebėjo. Ir kuo didesnis duomenų rinkinys, tuo sunkiau jį pilnai patikrinti.

2. Haliucinacijos (Hallucinations)

Terminas „haliucinacijos” AI kontekste reiškia situaciją, kai modelis generuoja informaciją, kuri skamba įtikinamai, atrodo logiška, tačiau yra visiškai išgalvota.

Tai ypač aktualu dideliems kalbos modeliams (Large Language Models, LLM), tokiems kaip GPT, Claude ar Gemini. Šie modeliai generuoja tekstą žodį po žodžio, rinkdamiesi statistiškai „labiausiai tikėtiną” kitą žodį. Jie neturi vidinės „tiesos tikrinimo” sistemos. Jiems vienodai „lengva” sugeneruoti teisingą ir klaidingą teiginį, jei abu skamba natūraliai.

Realūs haliucinacijų pavyzdžiai:

Išgalvotos citatos ir šaltiniai. Kalbos modeliai reguliariai „sukuria” neegzistuojančius mokslinius straipsnius su įtikinamais autoriais, pavadinimais ir žurnalų vardais. 2023 m. JAV advokatas pateikė teismui briefinį su šešiomis bylų nuorodomis, kurias sugeneravo ChatGPT. Nė viena iš tų bylų neegzistavo. Advokatas buvo nubaustas.

Klaidingi faktai, pateikti užtikrintai. Paklauskite kalbos modelio apie specifinę istorinę datą, statistinį rodiklį ar mažiau žinomos asmenybės biografiją – ir gausite atsakymą, kuris skamba visiškai patikimai, tačiau gali būti dalinis arba visiškas prasimanymas. Modelis neparašo „nežinau” – jis visada sugeneruoja „atsakymą”.

Neteisingi skaičiavimai. Nors kalbos modeliai gali atrodyti kaip universalūs asistentai, jų matematiniai gebėjimai yra riboti. Jie ne skaičiuoja – jie „spėja”, koks skaičius turėtų sekti, remdamiesi šablonais. Paprastos aritmetikos jie paprastai neklysta, tačiau sudėtingesnėse situacijose klaidos pasitaiko reguliariai.

Neegzistuojantys produktai ir funkcijos. Paprašykite DI rekomenduoti specifinę programinę įrangą su konkrečiomis funkcijomis, ir jis gali „sukurti” produktą, kuris neegzistuoja, arba priskirti esamam produktui funkcijas, kurių jis neturi.

Kodėl haliucinacijos yra ypač pavojingos? Nes jos pateikiamos tuo pačiu užtikrintu tonu kaip ir teisingi atsakymai. Modelis neskiria savo „žinojimo” nuo savo „spėjimo”. Žmogus, skaitantis AI generuotą tekstą, dažnai negali iš teksto stiliaus ar tono atpažinti, kurios dalys yra tikslios ir kurios – išgalvotos.

3. Perteklinis mokymasis (Overfitting)

Perteklinis mokymasis – tai situacija, kai modelis per daug „prisitaiko” prie savo treniravimo duomenų ir praranda gebėjimą veikti su naujais, nematytais duomenimis. Tai panašu į studentą, kuris mokosi egzaminui, iškalęs visus praėjusių metų testų atsakymus, tačiau negeba atsakyti į naują klausimą.

Praktinis pavyzdys: Tarkime, kuriate modelį, kuris turi atpažinti kates nuotraukose. Treniravimo duomenyse visos katės nuotraukos yra su žaliu fonu. Modelis gali „išmokti”, kad žalias fonas = katė, užuot išmokęs atpažinti kačių formą, kailį ir bruožus. Kai pateiksite katės nuotrauką su mėlynu fonu, modelis pasakys: „Tai ne katė.”

Perteklinis mokymasis yra ypač pavojingas, nes jis gali būti nematomas testavimo metu. Jei testuojate modelį su duomenimis, kurie panašūs į treniravimo duomenis, rezultatai atrodys puikiai. Klaidos paaiškės tik tada, kai modelis susidurs su realiomis situacijomis, kurios skiriasi nuo treniravimo aplinkos.

4. Duomenų nuodijimas ir manipuliacijos (Data Poisoning)

Tai tyčinis bandymas sugadinti modelio veikimą, įterpiant klaidingus ar klaidinančius duomenis į treniravimo rinkinį.

Kaip tai veikia: Jei modelis treniruojamas ant internete esančių duomenų (o dauguma didelių modelių taip treniruojami), kenkėjas gali sukurti svetaines ar turinį, kuris tyčia pateikia klaidingą informaciją, tikėdamasis, kad ši informacija pateks į treniravimo rinkinį ir paveiks modelio „žinias”.

Realūs pavyzdžiai:

2023 m. tyrimas parodė, kad Microsoft Bing chatbotas kartais pateikdavo informaciją, kurios šaltinis buvo SEO šiukšlėms sukurtos svetainės, o ne patikimi šaltiniai.
Automatinio vairavimo sistemoms bandoma kenkti fiziniais metodais: lipdukai ant kelio ženklų, kurie žmogaus akiai atrodo nereikšmingi, tačiau AI sistemą gali suklaidinti atpažinti STOP ženklą kaip greičio ribojimo ženklą.

5. Konteksto ribos ir „žinių ribos” (Knowledge Cutoff)

Kiekvienas AI modelis turi fiksuotą „žinių ribą” – datą, iki kurios jis buvo treniruotas. Viskas, kas nutiko po tos datos, modeliui yra nežinoma, tačiau jis ne visada tai pripažįsta.

Kaip tai pasireiškia:

Paklauskite apie įvykius po treniravimo datos, ir modelis gali arba atsakyti „nežinau” (geriausiu atveju), arba sugeneruoti atsakymą, paremtą senesniais duomenimis, kuris gali būti pasenęs ar neteisingas.
Informacija apie greitai besikeičiančias sritis – technologijų naujienos, politiniai pokyčiai, moksliniai atradimai – gali būti pasenusi net keliais mėnesiais.
Modelis gali „sumaišyti” laikotarpius: pateikti seno straipsnio informaciją kaip dabartinę, nes neturi supratimo apie laiko tėkmę.

Be žinių ribos, kalbos modeliai turi konteksto lango ribą – maksimalų teksto kiekį, kurį jie gali „matyti” vienu metu. Jei pokalbis ar dokumentas viršija šią ribą, modelis pradeda „pamiršti” ankstesnę informaciją.

6. Juodosios dėžės problema (Black Box Problem)

Daugelis pažangių AI modelių veikia kaip „juodoji dėžė”: duomenys eina į vidų, rezultatas išeina, tačiau niekas – net modelio kūrėjai – tiksliai nežino, kaip modelis priėjo prie konkretaus sprendimo.

Modernus gilus neuroninis tinklas gali turėti šimtus milijardų parametrų. Suprasti, kodėl tiksliai modelis priėmė vieną ar kitą sprendimą, yra panašu į bandymą suprasti, kodėl smegenys sugeneravo konkrečią mintį, tiriant atskirus neuronus.

Kodėl tai problema:

Medicinos srityje. AI modelis gali tiksliai diagnozuoti ligą iš rentgeno nuotraukos, tačiau negali paaiškinti, kodėl taip nusprendė. Gydytojas negali patikrinti modelio „mąstymo” ir turi arba aklai pasitikėti, arba aklai atmesti.

Teisėsaugoje. Kai kuriose JAV valstijose naudojami AI modeliai, kurie prognozuoja recidyvo tikimybę ir daro įtaką teismo sprendimams dėl lygtinio paleidimo. Jei modelis nusprendžia, kad asmuo turi aukštą recidyvo tikimybę, bet negali paaiškinti kodėl, tai kelia rimtų etikos ir teisės klausimų.

Finansų sektoriuje. Bankas, naudojantis AI modelį kredito sprendimams, privalo pagal ES reguliacijas paaiškinti klientui, kodėl jo paskolos paraiška buvo atmesta. Jei modelis yra juodoji dėžė, šis reikalavimas tampa labai sunku įgyvendinti.

7. Priešiški pavyzdžiai (Adversarial Examples)

Tai specialiai sukurtos įvestys, skirtos suklaidinti AI modelį. Jos atrodo normaliai žmogaus akiai, tačiau AI jas interpretuoja visiškai kitaip.

Klasikiniai pavyzdžiai:

Pridėjus nežmogaus akiai nematomą triukšmą prie pandos nuotraukos, vaizdų klasifikavimo modelis atpažįsta ją kaip giboną su 99% tikimybe.
Specialiai sukonstruotas lipdukas ant STOP ženklo gali priversti autonominio vairavimo sistemą jį atpažinti kaip „45 km/h greičio ribojimą”.
Nežymūs teksto pakeitimai (pvz., vietoj raidės „o” naudojant vizualiai identišką graikų raidę „ο”) gali apgauti šlamšto filtrus ir turinio moderavimo sistemas.

Priešiški pavyzdžiai atskleidžia fundamentalų skirtumą tarp žmogaus ir AI suvokimo. Žmogus atpažįsta objektus pagal kontekstą, formą, prasmę. AI atpažįsta pagal matematinius šablonus, kuriuos galima apgauti, pakeitus tuos šablonus nepastebimu būdu.

Konkrečios sritys, kuriose AI klaidos kelia didžiausią riziką

Medicina ir sveikatos priežiūra

AI diagnostikos įrankiai gali aptikti vėžio požymius rentgeno nuotraukose, prognozuoti ligos eigą, rekomenduoti gydymo planus. Tačiau klaidos šioje srityje turi tiesioginę įtaką žmonių gyvybėms.

Realios problemos:

IBM Watson for Oncology, vienas pirmųjų AI onkologijos asistentų, kai kuriais atvejais rekomendavo gydymo planus, kurie buvo „nesaugūs ir neteisingi”, kaip vėliau parodė vidiniai dokumentai. Problema buvo ne tik duomenyse, bet ir tame, kad sistema buvo treniruota ant nedidelio, specifinio pacientų rinkinio ir blogai generalizavo kitoms populiacijoms.
Dermatologijos AI, treniruotas daugiausia ant šviesios odos nuotraukų, prastai atpažįsta odos ligas tamsesnės odos pacientams.
Pacientai, gavę AI sugeneruotus „diagnozes” iš ChatGPT ar panašių įrankių, priima medicininius sprendimus be gydytojo priežiūros. Kalbos modelis negali atlikti diagnostikos – jis gali tik sugeneruoti tekstą, kuris „atrodo kaip” diagnostika.

Teisinė sistema

AI naudojimas teisinėje sistemoje kelia ypatingą nerimą dėl kelių priežasčių:

Prognozinis policijos darbas (Predictive Policing). Kai kurie miestai naudoja AI sistemas, prognozuojančias, kur tikėtini nusikaltimai. Tačiau jei istoriniai duomenys atspindi šališkus policijos praktikas (pvz., daugiau patruliavimo tam tikruose rajonuose), modelis „išmoks” rekomenduoti dar daugiau patruliavimo tuose pačiuose rajonuose, sukurdamas savęs stiprinantį ciklą.
Recidyvo prognozavimas. COMPAS sistema, naudojama JAV teismuose, buvo kritikuojama už tai, kad juodaodžiams teisiamiesiems priskirdavo aukštesnę recidyvo tikimybę nei baltiesiems, net kai kiti rizikos faktoriai buvo identiški.
Teisiniai tyrimai. Advokatai, naudojantys ChatGPT precedentų paieškai, rizikuoja gauti neegzistuojančias bylas ir citatas (kaip minėta ankstesniame pavyzdyje).

Autonominis vairavimas

Savarankiškai vairuojantys automobiliai yra viena sudėtingiausių AI pritaikymo sričių, kurioje klaidos gali būti mirtinos.

Pagrindinės problemos:

Kraštutiniai atvejai (Edge Cases). AI sistema gali puikiai veikti 99,9% situacijų, tačiau ta 0,1% – neįprastas apšvietimas, nestandartinis pėsčiojo elgesys, sniegu padengtas kelio ženklas – gali sukelti avariją.
Perdavimas žmogui. Kai autonominė sistema susiduria su situacija, kurios nesupranta, ji bando perduoti valdymą žmogui. Tačiau tyrimai rodo, kad žmogus, kuris ilgai nedalyvavo vairavimo procese, reaguoja lėčiau ir blogiau nei tas, kuris vairavo visą laiką.
Treniravimo duomenų ribos. Sistema, treniruota Kalifornijos saulėtame ore, gali blogiau veikti Lietuvos žiemos sąlygomis su sniegu, ledu ir trumpa dienos šviesa.

Finansai ir kreditavimas

AI modeliai naudojami kredito vertinimui, sukčiavimo aptikimui, algoritminiame treidinge ir rizikos valdyme.

Problemos:

Algoritminis šališkumas kreditavime. Modeliai gali netiesiogiai diskriminuoti pagal rasę, lytį ar socialinę grupę, naudodami koreliuojančius kintamuosius (pvz., pašto kodą kaip rasės proxy).
Blyksnio katastrofos (Flash Crashes). Kai keli algoritminiai treideriai vienu metu reaguoja į tą patį signalą, gali įvykti momentinis, staigus rinkos nuosmukis, kuris trunka minutes, tačiau gali sukelti realių nuostolių.
Klaidingo sukčiavimo aptikimas. Per jautrios sukčiavimo aptikimo sistemos blokuoja teisėtas transakcijas, sukeldamos nepatogumus klientams ir prarasdamos pajamas verslui.

Turinio moderavimas ir dezinformacija

Socialinės medijos platformos naudoja AI turiniui moderuoti – atpažinti ir šalinti neapykantą kurstantį turinį, dezinformaciją, smurtą.

Problemos:

Konteksto nesupratimas. AI sistema gali pašalinti satyrą, ironiją ar meninę išraišką, nes nesugeba atskirti jos nuo tikros neapykantos kalbos.
Kalbos ir kultūros ribos. Moderavimo sistemos veikia gerokai prasčiau mažesnėse kalbose (įskaitant lietuvių), nes turi mažiau treniravimo duomenų ir mažiau kultūrinio konteksto supratimo.
Deepfake turinys. Generatyvinis DI leidžia kurti vis sunkiau atpažįstamus klastotus vaizdo ir garso įrašus. Deepfake aptikimo AI ir deepfake kūrimo AI yra nuolatinėse „lenktynėse”, ir aptikimo pusė ne visada laimi.

Kaip patikrinti AI pateikiamą informaciją: praktinis gidas

Principas nr. 1: Niekada nepriimkite AI atsakymo kaip galutinės tiesos

Tai pats svarbiausias principas. AI modelis yra patarėjas, ne autoritetas. Jo atsakymas yra pradinis taškas, ne galutinis sprendimas. Tai taikoma visiems AI modeliams – nuo ChatGPT iki specializuotų medicininių ar teisinių sistemų.

Galvokite apie AI kaip apie labai apsiskaičiusį, greitai kalbantį kolegą, kuris kartais visiškai užtikrintai pasako netiesą. Toks kolega gali būti labai naudingas, tačiau jo žodžiais negalima aklai pasitikėti.

Principas nr. 2: Kryžminis tikrinimas (Cross-verification)

Kiekvieną svarbią AI pateiktą informaciją patikrinkite bent vienu nepriklausomu šaltiniu:

Faktams: patikrinkite originalius šaltinius. Jei AI teigia, kad tam tikras mokslinis tyrimas parodė X, suraskite tą tyrimą ir perskaitykite patys. Jei AI pateikia statistiką, ieškokite originalaus duomenų šaltinio.

Citatoms: patikrinkite, ar žmogus tikrai pasakė tai, ką AI jam priskiria. Klaidingas citavimas yra viena dažniausių AI haliucinacijų.

Datoms ir skaičiams: ypač tikrinkite konkrečius metus, procentus, sumas ir kitus kiekybinius duomenis. AI modeliai dažnai „apytiksliai atspėja” skaičius, kurie skamba tikėtinai, tačiau yra netikslūs.

Asmenims ir organizacijoms: patikrinkite, ar AI minimi žmonės, organizacijos, produktai ar įvykiai tikrai egzistuoja. Kalbos modeliai sugeba sukurti visiškai fiktyvias, tačiau labai realiai skambančias nuorodas.

Principas nr. 3: Ieškokite „per didelio tikrumo” ženklų

Paradoksaliai, vienas geriausių AI klaidos požymių yra per didelis tikrumas. Kai AI pateikia labai konkretų, detalų atsakymą su tiksliais skaičiais ir datomis srityje, kurioje tikslumas yra sunkiai pasiekiamas, tai turėtų kelti įtarimą.

Pavyzdžiai:

„Šis augalas buvo naudojamas medicinoje nuo 3247 m. pr. Kr.” – labai konkretus metai srityje, kurioje tokie tikslūs duomenys retai egzistuoja.
„Šis produktas padidina produktyvumą 47,3%.” – pernelyg tikslus skaičius, kuriam greičiausiai nėra patikimo šaltinio.
„Mokslininkai įrodė, kad…” – žodis „įrodė” moksle naudojamas daug rečiau, nei AI jį vartoja. Mokslas paprastai „rodo”, „siūlo” arba „palaiko hipotezę”, o ne „įrodo”.

Principas nr. 4: Atpažinkite AI „kalbėjimo šablonus”

AI modeliai turi atpažįstamus stilistinius šablonus, kurie gali padėti atpažinti generuotą turinį:

Struktūrinis vienodumas. AI mėgsta simetriškas struktūras: tris punktus, penkis žingsnius, septynias priežastis. Realus pasaulis retai pasiduoda tokiam tvarkingam skirstymui.

Kvalifikatorių trūkumas. AI dažnai pateikia teiginius be pakankamų kvalifikatorių: „tai yra”, kai teisingiau būtų „kai kuriais atvejais tai gali būti”. Pernelyg kategoriškas tonas dažnai yra generuoto turinio ženklas.

„Subalansuotas” požiūris be nuomonės. AI modeliai yra treniruoti būti neutralūs, todėl jie dažnai pateikia „abi puses” kiekvieno klausimo, net kai viena pusė turi gerokai daugiau įrodymų. Šis dirbtinis balansas gali klaidinti.

Principas nr. 5: Supraskite konkrečias silpnąsias vietas

Skirtingi AI modeliai turi skirtingas silpnąsias vietas. Žinodami jas, galite tikslingiau tikrinti:

Kalbos modeliai (ChatGPT, Claude, Gemini):

Faktų tikslumas (ypač datos, skaičiai, mažiau žinomos temos)
Šaltinių patikimumas (dažnai „išgalvoja” šaltinius)
Matematiniai skaičiavimai (naudokite skaičiuoklę sudėtingesniems veiksmams)
Naujausių įvykių žinojimas (priklauso nuo treniravimo datos)

Vaizdų generavimo modeliai (Midjourney, DALL-E):

Rankos ir pirštai (dažnai generuojami su per daug ar per mažai pirštų)
Tekstas vaizduose (raidės dažnai deformuotos)
Fizikos dėsniai (atspindžiai, šešėliai, perspektyva kartais nelogiški)
Nuoseklumas tarp vaizdų (tas pats objektas gali atrodyti kitaip skirtinguose vaizduose)

Vertimo modeliai:

Idiomų ir kultūrinių nuorodų vertimas (dažnai pažodinis)
Techninės terminologijos nuoseklumas
Formalumo lygio išlaikymas
Niuansuotų prasmės atspalvių perdavimas

Principas nr. 6: Naudokite „raudonosios komandos” (Red Team) metodą

Tai technika, pasiskolinta iš kibernetinio saugumo. Vietoj to, kad priimtumėte AI atsakymą, aktyviai bandykite jį sugriauti:

Paklauskite to paties klausimo kitais žodžiais. Jei atsakymai prieštarauja vienas kitam, bent vienas iš jų yra neteisingas.
Paprašykite AI pateikti šaltinius. Paskui patikrinkite, ar tie šaltiniai egzistuoja.
Pateikite modeliui žinomai klaidingą teiginį ir pažiūrėkite, ar jis jį sutiks, ar pataisys. Jei sutinka su akivaizdžia klaida, tai rodo, kad modelis yra „pataikūniškas” (sycophantic) ir linkęs sutikti su vartotoju, užuot pataisęs.
Paklauskite modelio, kuo jis nesitiki ir ko nežino. Geras modelis pripažins savo ribas, blogas – generuos atsakymą bet kokia kaina.

Principas nr. 7: Kontekstualizuokite riziką

Ne visi AI naudojimo atvejai reikalauja vienodo tikrinimo lygio. Galite prisitaikyti savo tikrinimo intensyvumą pagal riziką:

Žema rizika (mažesnis tikrinimo poreikis):

Brainstormingo sesija – generuojate idėjas, kurias paskui vertinsite patys
Kūrybinis rašymas – ieškote įkvėpimo, ne faktų
Mokymasis apie naują temą – naudojate AI kaip įvadą, po kurio gilinsite žinias iš patikimų šaltinių

Vidutinė rizika (rekomenduojamas tikrinimas):

Verslo el. laiškai ir prezentacijos – turinio faktai ir tonas turi būti tikslūs
Marketingo turinys – klaidingi teiginiai gali pakenkti prekės ženklo reputacijai
Akademiniai darbai – citatų ir faktų tikrinimas yra privalomas

Aukšta rizika (privalomas kruopštus tikrinimas):

Teisinė informacija – klaidingas teisinis patarimas gali turėti rimtų pasekmių
Medicininė informacija – klaidinga diagnozė ar gydymo rekomendacija kelia tiesioginę grėsmę sveikatai
Finansiniai sprendimai – klaidingi duomenys gali lemti finansinius nuostolius
Žurnalistika – klaidinga informacija kenkia visuomenės pasitikėjimui

Ką daro pramonė, kad AI klaidos mažėtų

RLHF – mokymasis iš žmogiško grįžtamojo ryšio

RLHF (Reinforcement Learning from Human Feedback) yra metodas, kuriuo AI modeliai „derinami” pagal žmonių vertintojų atsiliepimus. Žmonės peržiūri modelio atsakymus, įvertina juos pagal tikslumą, naudingumą ir saugumą, o modelis „mokosi” iš šių vertinimų.

Tai padeda sumažinti haliucinacijas, šališkumą ir neadekvatų turinį, tačiau nėra tobulas sprendimas:

Žmonių vertintojai patys gali būti šališki
Procesas yra brangus ir lėtas
Modelis gali „išmokti” atrodyti saugesnis, nepakeisdamas savo vidinės logikos

RAG – informacijos paieška prieš atsakymą

RAG (Retrieval-Augmented Generation) yra technika, kurioje kalbos modelis prieš generuodamas atsakymą, pirmiausia ieško informacijos išorinėje duomenų bazėje ar internete. Tai sumažina haliucinacijas, nes modelis remiasi konkrečiais šaltiniais, o ne tik savo „atmintimi”.

Daugelis modernių AI asistentų (pvz., Bing Chat, Perplexity) naudoja RAG principą: pirmiausia ieško informacijos, paskui generuoja atsakymą su nuorodomis į šaltinius.

RAG yra žingsnis teisinga kryptimi, tačiau jis nesprendžia visų problemų: modelis vis dar gali neteisingai interpretuoti surastą informaciją arba atsirinkti nepatikimus šaltinius.

Interpretabilumo tyrimai (Explainable AI)

Vis daugiau tyrimų skirta „juodosios dėžės” atidarymui – bandymui suprasti, kaip tiksliai AI modeliai priima sprendimus. Kelios kryptys:

Dėmesio žemėlapiai (Attention Maps). Parodo, į kurias įvesties dalis modelis „žiūrėjo” priimdamas sprendimą. Pavyzdžiui, jei vaizdų atpažinimo modelis diagnozuoja plaučių uždegimą iš rentgeno nuotraukos, dėmesio žemėlapis gali parodyti, į kurią nuotraukos dalį modelis „žiūrėjo”. Jei jis žiūrėjo ne į plaučius, o į aparato pavadinimo etiketę kampe – tai rodo problemą.

LIME ir SHAP metodai. Šie statistiniai metodai bando paaiškinti modelio sprendimus, testuodami, kaip keičiasi rezultatas, keičiant atskirus įvesties elementus. Jie ne visada tikslūs, tačiau suteikia bent dalinį supratimą apie modelio „mąstymą”.

Konceptų testavimas. Tyrėjai bando identifikuoti, kokius „konceptus” modelis naudoja sprendimams. Ar veidų atpažinimo sistema tikrai atpažįsta veido bruožus, ar remiasi odos spalva? Ar teksto klasifikavimo sistema supranta turinio prasmę, ar tiesiog reaguoja į tam tikrus raktinius žodžius?

Reguliavimas ir standartai

ES AI Act. Europos Sąjungos dirbtinio intelekto reglamentas, įsigaliojęs 2024 m., klasifikuoja AI sistemas pagal rizikos lygį ir nustato atitinkamus reikalavimus:

Aukštos rizikos sistemos (medicina, teisinė sistema, kreditavimas, kritinė infrastruktūra) turi atitikti griežtus skaidrumo, tikrinimo ir dokumentavimo reikalavimus.
Ribotų ribų sistemos (chatbotai, turinio generavimas) turi informuoti vartotojus, kad jie bendrauja su AI.
Draudžiamos sistemos (socialinis kreditavimas, neleistinas biometrinis atpažinimas) yra uždraustos ES teritorijoje.

NIST AI Risk Management Framework. JAV Nacionalinis standartų ir technologijos institutas sukūrė AI rizikos valdymo gaires, skirtas organizacijoms, kuriančioms ir naudojančioms AI sistemas.

ISO/IEC 42001. Tarptautinis standartas AI valdymo sistemoms, nustatantis gaires organizacijoms, kaip atsakingai kurti, diegti ir naudoti AI.

Dešimt klausimų, kuriuos reikėtų užduoti kiekvienam AI rezultatui

Kai gausite AI sugeneruotą atsakymą – tekstą, vaizdą, rekomendaciją ar analizę – pereikite per šį trumpą kontrolinį sąrašą:

Ar šie faktai patikrinami nepriklausomu šaltiniu? Jei ne, traktuokite juos kaip nepatvirtintus.
Ar atsakyme yra konkrečių skaičių, datų ar citatų? Jei taip, patikrinkite kiekvieną atskirai – tai dažniausia haliucinacijų vieta.
Ar modelis pripažįsta neapibrėžtumą? Jei atsakymas skamba 100% užtikrintai sudėtingoje temoje, tai turėtų kelti įtarimą.
Ar atsakyme yra galimų šališkumų? Pagalvokite, ar modelio atsakymas galėtų būti paveiktas treniravimo duomenų šališkumo.
Ar informacija aktuali? Patikrinkite, ar tai nėra pasenę duomenys.
Ar suprantu, kokiais duomenimis remiasi šis modelis? Jei ne, traktuokite rezultatą atsargiau.
Kokios pasekmės, jei šis rezultatas klaidingas? Kuo didesnės pasekmės, tuo griežtesnis tikrinimas.
Ar gavau panašų atsakymą pakartotinai? Jei modelis duoda skirtingus atsakymus į tą patį klausimą, bent vienas iš jų yra neteisingas.
Ar atsakymas nėra „per gražus, kad būtų tiesa”? AI modeliai linkę pateikti optimistiškai skambančius atsakymus.
Ar tikrinčiau šią informaciją, jei ją man pasakytų nepažįstamas žmogus gatvėje? Jei taip – tikrinkite ir AI.

AI klaidos, kurios pakeitė industrijas: pamokos

„Google Flu Trends” pamoka

2008 m. Google pristatė „Google Flu Trends” – sistemą, kuri bandė prognozuoti gripo protrūkius pagal žmonių paieškos užklausas. Iš pradžių sistema atrodė stebėtinai tiksli ir sulaukė didelio entuziazmo.

Tačiau 2013 m. sistema prognozavo dvigubai daugiau gripo atvejų nei buvo realybėje. Kas nutiko? Sistema buvo „perkalibruota” pagal istorinius duomenis (perteklinis mokymasis) ir nepritaikyta naujoms situacijoms. Kai žmonės pradėjo daugiau ieškoti informacijos apie gripą dėl žiniasklaidos pranešimų (o ne dėl realių simptomų), sistema tai interpretavo kaip gripo protrūkį.

Pamoka: Koreliacjia nėra priežastingumas. Tai, kad žmonės ieško „gripo simptomų”, nereiškia, kad jie serga gripu.

Autonominio vairavimo tragedijos

Kelios mirtinos autonominio vairavimo avarijos atskleidė specifines AI silpnąsias vietas:

2018 m. Uber autonominis automobilis mirtinai partrenkė pėsčiąją Arizonoje. Sistemos jutikliai ją aptiko, tačiau klasifikavimo algoritmas „perklasifikavo” ją kelis kartus (iš pradžių kaip nežinomą objektą, paskui kaip dviratį, paskui kaip pėsčiąją) ir per tą laiką prarado brangias sekundes, reikalingas stabdymui.

Pamoka: Realaus pasaulio situacijos yra sudėtingesnės nei treniravimo scenarijai. AI sistema gali veikti puikiai kontroliuojamoje aplinkoje ir žlugti susidūrusi su nestandartine situacija.

ChatGPT ir teisinės bylos

2023 m. atvejis, kai advokatas panaudojo ChatGPT sugeneruotas neegzistuojančias teismo bylas, tapo plačiai nuskambėjusiu perspėjimu. Tačiau tai nebuvo izoliuotas incidentas – panašių atvejų buvo užfiksuota keliose šalyse.

Pamoka: AI modeliai yra „generatoriai”, ne „žinomos tiesos šaltiniai”. Jie generuoja tikėtiną turinį, kuris gali būti teisingas arba ne. Atsakomybė už tikrinimą visada lieka žmogui.

Ateitis: ar AI klaidos mažės?

Trumpas atsakymas: tam tikros klaidos mažės, tačiau naujos atsiras.

Kas gerėja:

Haliucinacijos mažėja su kiekviena nauja modelių karta. GPT-4 haliucinuoja rečiau nei GPT-3.5, o naujesnės versijos – dar rečiau. Tačiau nulinis haliucinacijų lygis greičiausiai yra nepasiekiamas dabartinėje architektūroje.
RAG ir paieškos integracija mažina faktinių klaidų skaičių, nes modelis gali pasitikrinti informaciją prieš atsakydamas.
Reguliavimas verčia įmones rimčiau vertinti klaidų prevenciją, ypač aukštos rizikos srityse.
Interpretabilumo tyrimai leidžia geriau suprasti modelių sprendimų logiką.

Kas lieka problema:

Šališkumas duomenyse yra giluminė problema, kuri negali būti išspręsta vien technologinėmis priemonėmis – ji reikalauja visuomeninio supratimo ir sąmoningų sprendimų.
Sudėtingėjant modeliams, sudėtingėja ir jų klaidų tipai. Paprastesni modeliai darė paprastesnes klaidas, kurias buvo lengviau pastebėti. Sudėtingesni modeliai daro subtilias, sunkiai aptinkamas klaidas.
Priešiškas naudojimas (deepfake, dezinformacija, manipuliacijos) auga kartu su technologijos galimybėmis.
„Automatizavimo šališkumas” – žmonių tendencija pernelyg pasitikėti AI rezultatais – yra psichologinė, ne technologinė problema.

Praktinė rekomendacija: žmogaus ir AI bendradarbiavimo modelis

Efektyviausias AI naudojimo modelis nėra nei „visiškai pasitikėti AI”, nei „visiškai atmesti AI”. Tai yra sąmoningas bendradarbiavimas, kuriame kiekviena pusė daro tai, ką geba geriausiai:

AI stiprybės:

Greitis: apdoroja didžiulius informacijos kiekius per sekundes
Nuoseklumas: neatsipalaiduoja, nepavargsta, nedaro „neatsargumo” klaidų
Šablonų aptikimas: randa ryšius, kurių žmogus gali nepastebėti
Mastelis: gali dirbti su tūkstančiais atvejų vienu metu

Žmogaus stiprybės:

Konteksto supratimas: supranta niuansus, kultūrinį kontekstą, emocines potekstes
Kritinis mąstymas: gali įvertinti, ar informacija prasminga ir patikima
Etinis vertinimas: gali nuspręsti, ar sprendimas yra teisingas, ne tik tikslus
Adaptabilumas: gali reaguoti į visiškai naujas, nematytas situacijas

Geriausias rezultatas pasiekiamas tada, kai AI generuoja, o žmogus vertina. AI pasiūlo, o žmogus sprendžia. AI apdoroja, o žmogus interpretuoja.

Tai reiškia, kad AI amžiuje žmogaus kritinio mąstymo įgūdžiai tampa ne mažiau, o daugiau reikšmingi. Gebėjimas klausti, tikrinti, abejoti ir interpretuoti yra tai, kas skiria sąmoningą AI naudotoją nuo to, kuris aklai pasitiki kiekvienu sugeneruotu žodžiu.

Žodis pabaigai

AI modeliai yra galingi, sparčiai tobulėjantys ir vis plačiau naudojami. Jie padeda gydytojams, verslininkams, mokslininkams, kūrėjams ir eiliniams žmonėms daryti daugiau per mažiau laiko. Tačiau jie nėra neklystantys, nešališki ir visažiniai.

Klaidos yra neišvengiama AI sistemos dalis – ne dėl to, kad technologija būtų bloga, o dėl to, kad ji yra sukurta žmonių, treniruota ant žmonių duomenų ir naudojama žmonių pasaulyje, kuris yra chaotiškas, prieštaringas ir nuolat besikeičiantis.

Geriausias būdas naudoti AI yra su atviromis akimis: žinoti, ką jis gali, žinoti, kur jis klysta, ir turėti įprotį tikrinti tai, kas svarbu. Ne iš baimės, o iš pagarbos sau pačiam ir tiems, kurie remiasi jūsų sprendimais.

Ar esate susidūrę su AI klaida, kuri turėjo realių pasekmių – darbe, mokymesi, kasdieniniame gyvenime? Kaip ją atpažinote ir kaip reagavote? Kokius tikrinimo metodus taikote savo kasdienėje praktikoje?