Magyar nyelven is működő MI-szövegfelismerőt fejlesztetett Kiss Mihály, a Szegedi Tudományegyetem (SZTE) programtervező informatikus mesterszakos hallgatója, a megoldás a tesztek alapján kiemelkedően pontosan képes megkülönböztetni az ember által írt és a nagy nyelvi modellek által generált szövegeket - tájékoztatta a felsőoktatási intézmény közkapcsolati igazgatósága csütörtökön az MTI-t.
A közlemény szerint a fejlesztés ötlete 2023 közepén született, amikor a ChatGPT és más nagy nyelvi modellek látványosan megjelentek a köztudatban. A jelenséget Kiss Mihály témavezetője vetette fel szakdolgozati kutatásként, de hamar kiderült: nem kizárólag elméleti kérdésről van szó.
Egyre többen használják ezeket az eszközöket, és hosszú távon ez biztosan problémát jelent majd az oktatásban és más területeken. A felismerő modellek működését az teszi lehetővé, hogy a nagy nyelvi modellek lábnyomokat hagynak maguk után, nem adaptálódtak teljesen az emberi íráshoz. Korábban azért nem létezett minőségi MI-detektor magyar nyelvre, mert nem volt hozzá megfelelő adat. Míg angol nyelven hatalmas, jól tisztított tanító adatbázisok állnak rendelkezésre, magyar szövegekből ilyen korábban nem létezett - áll a közleményben.
Kiss Mihály ezért több mint 350 ezer szövegből álló adathalmazt hozott létre: irodalmi művekből, szakdolgozatokból, cikkekből, fórumokról, közösségi médiából és általános internetes forrásokból. A cél az volt, hogy a rendszer valódi, sokféle nyelvhasználattal találkozzon, ne csak "tankönyvi" példákkal.
Noha a felismerés is MI-alapú megoldásra épül, az architektúrája alapján nem tartalmat generál, hanem döntéseket hoz. A megoldás egy encoder alapú modellt használ, amely kifejezetten osztályozási feladatokban erős, hasonlóan ahhoz, ahogyan egy spamszűrő működik. A program megbecsüli, hogy mekkora eséllyel készült mesterséges intelligenciával az adott szöveg. Az eszközt bárki használhatja, napi három detektálás ingyenes, akár egy Facebook-bejegyzés szövege is kielemezhető egy pillanat alatt - áll a közleményben.
Kiss Mihály szövegfelismerőjének teljesítményét ezer különböző magyar nyelvű szövegen vetette össze olyan detektorokkal, amelyek állításuk szerint támogatják a magyar nyelvet. Az eredmények alapján modellje 0,98 pontossággal dolgozik, míg a többi eszköz 0,6 körüli pontossággal bír. Különösen fontos a nagyon alacsony falspozitív-arány: a rendszer ritkán mondja emberi szövegre, hogy mesterséges intelligencia írta, ami az oktatásban kulcskérdés, hiszen veszélyes lenne azzal gyanúsítani egy hallgatót, hogy beadandóját az MI írta, miközben ez nem igaz.
Bár az elsődleges felhasználók az oktatás szereplői lehetnek, nemcsak egyetemi környezetben lehet hasznos az eszköz: a médiában, szerkesztőségekben, könyvkiadóknál is használhatják, például minőségellenőrzési céllal. Ha felmerül a mesterséges intelligencia használatának gyanúja, akkor egyfajta fake news detektorként is használható, mivel a nagy nyelvi modellek sokszor "hallucinálnak" hamis információkat. Használhatják jogi területen, ahol egy MI által generált, pontatlan szöveg komoly kockázatot jelenthet, de akár HR-részlegek is alkalmazhatják az MI-eszközzel írt jelentkezések kiszűrésére. Kiss Mihály munkáját az SZTE hallgatói innovációs díjjal ismerte el.