Az ELTE PPK kutatói mesterséges intelligencia (AI) alapú szoftverek verbális intelligenciáját vizsgálták. Kiderült, hogy a programok még a doktori fokozattal rendelkező anyanyelvi beszélőknél is több szót ismernek.
Embereknek tervezett teszttel vizsgálták az AI-t
A nagy nyelvi modellek (large language models) olyan mesterségesintelligencia-típusok, amelyek képesek ember alkotta szövegekhez hasonló tartalmak létrehozására.
Ilyen modellen alapul az egyik legismertebb AI-program, a ChatGPT is.
A szakembereket régóta foglalkoztatja, mennyire intelligensek a gépek az emberekhez képest. Ám a klasszikus összehasonlító tesztekkel (mint például a Turing-teszt) csak azt lehet mérni, hogy a gépek mennyire képesek utánozni az emberi kogníció univerzális aspektusait, például a kommunikációs készséget. Ezzel szemben az emberi intelligencia vizsgálata épp az egyéni különbségekre fókuszál – maga az IQ is egy relatív mutató.
Egyes kutatók szerint az AI intelligenciáját úgy lehet a legjobban mérni, ha a modellekkel embereknek tervezett pszichometriai teszteket végeztetünk el. Ezért aztán Kovács Kristóf, az ELTE PPK tudományos főmunkatársa, a Kognitív Képességek Kutatócsoport vezetője és a tesztező platformokkal foglalkozó Klein Balázs vizsgálatukban két mesterséges intelligencia alkalmazás,
a ChatGPT és Bing verbális intelligenciáját hasonlították össze több mint 9000 emberével.
Ehhez egy számítógépes adaptív szókincstesztet használtak, ahol kilenc felsorolt szó közül mindig azt a kettőt kellett kiválasztani, amelyek jelentésben a legközelebb álltak egymáshoz. Az adaptív tesztelés során egy algoritmus választja ki az elemeket egy kérdésbankból úgy, hogy a nehézségi szint mindig közel legyen az alany képességeihez. Ezáltal pontosabb eredményt kaphatunk, mint egy fix kérdésekből álló teszt esetén.
Kiemelkedően intelligens gépek
A teszten mindkét nyelvi modell kiemelkedő teljesítményt nyújtott: 20-ból 19 embernél – azaz az emberek 95%-ánál – jobb eredményt értek el, és jobban teljesítettek a doktori fokozattal rendelkező anyanyelvi beszélőknél is. Ha ezek a gépek emberek lennének, különleges tehetségnek számítanának – állítják az ELTE kutatói. Kovács és Klein szerint valószínű, hogy
az AI alkalmazásoknak a közeljövőben az emberek 100%-ánál jobb szókincsük lesz.
A gépek azonban vétettek néhány hibát is. Az ismétlődő kérdések 42%-ánál eltérő válaszokat adtak az egyes alkalmakkor – ilyen embereknél nem szokott előfordulni. Ráadásul néhány esetben olyan szavakkal válaszoltak, amelyek nem szerepeltek a megadott opciók között. Ezek a hibák azonban nem a szoftverek hiányosságaira utalnak, csupán arra, hogy az embereknek szánt pszichometriai teszteknek az AI esetében vannak korlátai.
De hogyan különböztessük meg a mesterséges intelligencia által generált tartalmakat és az ember által írt szövegeket, ha már a gépek is ilyen magas verbális teljesítményre képesek? Az ELTE kutatói azt tanácsolják,
ne a túl felszínes, hanem épp a túl szofisztikált fogalmazásmód esetén fogjunk gyanút
– hiszen könnyen előfordulhat, hogy egy AI szoftver színesebb szókincsből dolgozik, mint mi.
A teljes kutatási összefoglalóa PLOS One nevű folyóiratban olvasható.
Illusztráció: Jason Leung / Unsplash