A hallucináció, vagyis a helytelen, értelmetlen válaszok generálása, a különböző generatív mesterségesintelligencia-modellek működése során mindegyre megfigyelhető anomália. Az iparág jelentős energiákat mozgósít az egész technológia megbízhatóságát és gazdasági hasznát megkérdőjelező jelenség leküzdésére. A probléma javulását az idén tavasszal piacra dobott érvelő modellek megjelenésétől várták, ám úgy tűnik, hogy azok még a korábbi változatoknál is rosszabb hibaszázalékokkal dolgoznak – írja cikkében a Portfólió.



Kép forrása: Symbio6

Mi is az a hallucináció?

A generatív mesterséges intelligenciának – vagyis annak az MI-típusnak, amelynek a célja, hogy korábban betanított adathalmazok alapján új adatsorokat (pl. szövegeket, képeket, videókat) generáljon – a működését lényegében a megjelenéstől fogva sújtja az a probléma, hogy bizonyos esetekben nem létező vagy a külső szemlélő számára nem felfedezhető mintázatok alapján pontatlan, illetőleg teljesen helytelen, hamis vagy értelmetlen, esetleg a kérdés szempontjából irreleváns válaszokat hoz létre.

Jóllehet ez komoly anomália,

a jelenség lényegében ezeknek a modelleknek a szándékolt működéséből fakad.

A generatív mesterséges intelligenciát ugyanis nem arra tervezték, hogy tényszerűen pontos válaszokat adjon (noha az emberek jó része ezzel az elvárással közelít felé), hanem hogy a belé táplált adatokból olyan kimenetet állítson elő, ami az algoritmusai alapján statisztikailag a legvalószínűbb elrendezést mutatja. Vagyis például egy szöveget nem annak a megbízhatóságát ellenőrizve ír meg, hanem úgy, hogy mindig megpróbálja kiszámolni, az adott mondatban mi a legvalószínűbben következő helyes szó, és eközben egyáltalán

nem értelmezi a kialakult mondatokat.

Mindez hibának tűnhet, és bizonyos tekintetben az is, ám az MI emiatt tud „kreatív” lenni, és új(szerűnek ható) kimeneteket produkálni. A Vectara nevű mesterségesintelligencia-fejlesztő cég kutatásai szerint az esetek 0,7%-ában még a legjobban teljesítő modellek is hallucinálnak – ám ez az arány sok esetben akár a 25%-ot is elérheti.

A jelenségnek több oka van:

A hallucinációt az elmúlt két év során a rendszerek szofisztikáltabbá tételével, illetve emberi visszajelzés útján egy bizonyos szintig sikerült visszaszorítani (a Vectara mérései szerint a 3–27%-os sávból egészen a 1–2%-osba), ám nagyjából a tavalyi év második felére ez a megoldás is elérte a határait. A fejlesztők ezt követően egy másik eljárás felé kezdtek tájékozódni: úgy gondolták, ha az

MI-t bizonyos „önreflexióra” késztetik,

illetve rábírják arra, hogy a válasz előtt érveljen, és a feladatot kisebb lépésekre bontva, egy gondolatlánc egyes elemeiként oldja meg, akkor javulni fog a hatékonysága, illetve az általa adott válaszok minősége és megbízhatósága.

Az érvelő modellek feltűnése – és kudarca

A fenti megoldást alkalmazó első, úgynevezett érvelő modellek idén tavasszal kerültek a piacra. Ám miközben matematikai képességeik valóban javultak, a tényekkel sok esetben a korábbiaknál is megbízhatatlanabbul kezdtek bánni. Az OpenAI o3 nevű rendszere a vállalat saját mérésén 33%-ban hallucinált -

ez az előző verzió dupláját jelenti.

Az o4-mini elnevezésű modell hallucinációs rátája pedig már a 48%-ot is elérte. Ugyanez figyelhető meg más vállalatok, például a DeepSeek érvelős modelljei esetében is.

Az okok egyelőre nem teljesen világosak, inkább csak feltételezések vannak velük kapcsolatban. Az egyik magyarázat szerint a vállalatok éveken keresztül folyamatosan növelték a modelljeik betanításához felhasznált adatok mennyiségét, hogy ezáltal sokszorozzák meg rendszereik hatékonyságát. Az utóbbi időben azonban már minden elérhető anyagot felhasználtak, és ezért a fejlesztők a betanítást a megerősítéses tanulásnak nevezett megoldás révén kívánták folytatni.

Ezzel a modellek próba-szerencse alapon fejlesztik magukat: több lehetséges megoldást is kipróbálnak, hogy az elvárt – helyes – megoldásra jussanak, majd a hibás és a helyes gondolatmenetekre alapozva alakítják ki érvelési működésüket. Ez a betanítás bizonyos egzakt válaszokkal dolgozó területeken (például a matematikai vagy a programozási feladatok megoldása során) jól működik, a kevésbé egyértelmű végkimeneteleket lehetővé tevő tudományágak esetében viszont nem.

A hibák oka lehet az is, hogy az érvelő modellek a több szakaszra bontott feladatmegoldás során több lépés alkalmával is hallucinálhatnak, és ezek aztán együtt növelik a végső válaszban mérhető hallucinációk számát. Kísérleteik során az Apple szakértői ráadásul arra is rájöttek, hogy a nagy érvelő modellek

egyszerűen összeomlanak, ha a feladat túllép egy bizonyos komplexitási szintet.

Emiatt elképzelhető, hogy ezek a modellek azért is hibáznak többet, mert a beléjük épített több állomásos működési mód miatt túl sok lehetőség közül kell választaniuk, emiatt egy-egy kérdésen túl sokat „gondolkodnak”, majd az egészbe belezavarodnak, és abbahagyják a probléma megoldását, vagy csak mímelik azt. Ez vélhetően arra vezethető vissza, hogy valójában nincs igazi problémamegoldó képességük, nem alkalmasak a deduktív gondolkodásra, és továbbra is csak statisztikai alapú válaszokat generálnak.

Emellett mivel a megerősítéses tanulás során a fejlesztők eddig leginkább csak a helyes válaszokat díjazták, a rossz gondolatmenetekről viszont nem adtak megfelelő visszajelzést, a legtöbb modellbe az épült be, hogy helytelen logikával is lehet helyes eredményekre jutni. Ezeket a modelleket tehát működésük során semmi sem tartja vissza attól, hogy hibás gondolatkísérletekbe kezdjenek – majd attól, hogy érveikkel kapcsolatban „hazudjanak”. (És akkor még nem is beszéltünk arról, amikor véletlenül valamiért "rasszista" vagy "antiszemita" lesz az MI – bár az emögött húzódó logikát főként elvarázsolt liberálisoknak nehéz megértenie – a szerk.)

Ez utóbbit igazolja egy másik nagy MI-fejlesztő cég, az Anthropic kutatása, amely szerint egyáltalán nem biztos, hogy megbízhatunk abban, amit az adott modell a gondolatlánca felépítése során állít. A vállalat kutatói ugyanis igazolták, hogy az általuk fejlesztett mesterséges intelligencia sok esetben teljesen más érvekre hivatkozott gondolatmenetében, mint amelyek alapján végül a helyesnek tartott eredményre jutott. Vagyis azt sem szavatolja semmi, hogy egy helyes(nek tűnő) gondolatfűzés után maga a válasz is helyes lesz, hiszen egyáltalán nem biztos, hogy ez utóbbi ténylegesen az előbbire épül.

Miért és hogyan kellene ezt megoldani?

A McKinsey 2025-ös elemzése szerint a különböző iparágakban világszerte összesen 67,4 milliárd dollárnyi veszteség származott az MI-modellek hallucinációiból, a Deloitte adatai pedig azt mutatják, hogy a vállalati MI-felhasználók 47%-a hozott már legalább egy rossz döntést hallucinált tartalmak miatt. A Content Authenticity Coalition összesítése alapján 2025 első negyedévében 12 842 cikket kellett eltávolítani a világhálóról az azokban fellelhető valótlan (az MI által kitalált) információk miatt. A Microsoft 2025-ös felmérése pedig azt mutatja, hogy a szellemi munkakörökben MI-t használó dolgozók heti 4,3 órát töltenek a munkaidejükből azzal, hogy ellenőrzik a technológia által előállított tartalmak helytállóságát.

Világos tehát, hogy igen kiterjedt problémáról van szó, és az MI hallucinációja közvetlen, illetve a megbízhatatlansága miatt szükséges folyamatos ellenőrzések erőforrásigénye következtében

közvetett módon is jelentős károkat, veszteségeket okoz az azt használó szervezeteknek.

Ez pedig alapvetően kérdőjelezi meg, hogy valóban érdemes-e a mesterséges intelligenciát széles körben alkalmazni. Mindennek fényében nem csoda, hogy 2023 és 2025 között az MI-fejlesztő vállalatok 12,8 milliárd dollárt fektettek a jelenség orvoslásába, és a fejlesztők 78%-a a három legfontosabb, azonnali megoldást igénylő feladat között említi a hallucinációt. Az iparág az érvelő modellek kudarcával sem teljesen merítette ki még a lehetőségeit a hallucinációk megfékezése terén.

Mivel a legutóbbi modellek már maguk azonosítják a mintákat az adathalmazokban, és nem igazán lehet tudni – sőt: állításuk szerint még maguk a készítőik sem tudják pontosan –, hogy milyen sémák alakulnak ki bennük, illetve az emberi agy működését leképező neurális hálózatok esetében sem világos, hogy milyen kapcsolatok erősödnek vagy gyengülnek meg működésük során, egyes megoldások saját belső folyamatainak leképezésén keresztül tréningeznék tovább a mesterséges intelligenciát.

Mi várható a jövőben?

A hallucinációk egyelőre az MI működésének inherens részét jelentik, ezért sok kutató úgy véli, hogy

teljesen szinte soha nem lehet majd megszabadulni tőlük.

Mások – többek között az Apple említett kutatásának tanulságai alapján – úgy gondolják, lehet, hogy gyökeresen újra kellene gondolni a mesterséges intelligencia jelenlegi fejlesztési irányait.

A mostaninál hatékonyabb megoldások megjelenéséig azonban mindenképpen segítséget jelentene, ha a már meglévő modelleket nem arra tréningeznék, hogy mindenáron próbáljanak válaszolni, hanem arra, hogy ismerjék saját határaikat, és jelezni tudják, ha egy kérdés megválaszolása túlmutat a képességeiken. Ez azt is megkönnyítheti, hogy olyan rendszereket lehessen építeni, ahol a gépek és az emberek kiegészítik egymást, és az előbbiek, ha bizonytalanságot éreznek, az utóbbiak segítségét tudják kérni a következő lehetséges lépéssel kapcsolatban.