„Súlyos probléma”: az MI által írt bírálatok nehezen feli...

Már szinte lehetetlen megállapítani, ha egy tudományos bírálatot mesterséges intelligencia készített – erre világít rá egy friss kutatás, amely az MI-felismerő eszközök hatékonyságát tesztelte.

Egy kínai kutatócsoport az Anthropic nevű szilícium-völgyi vállalat Claude 2.0 típusú nagynyelvi modelljét használta arra, hogy 20, a neves eLife folyóiratban megjelent rákbiológiai tanulmányhoz bírálatokat és egyéb dokumentumokat generáljon. Az eLife a cikkeket szabadon hozzáférhető, úgynevezett „áttekintett preprint” formában teszi közzé, együtt a bírálatokkal és az eredeti kéziratokkal.

A kutatók az eredeti cikkeket táplálták be a Claude 2-höz, és arra kérték, hogy készítsen szakértői véleményeket. Az így keletkezett bírálatokat összevetették az eLife által publikált szakmai értékelésekkel.

A mesterséges intelligencia által írt dokumentumok "professzionálisan hatottak, de nem tartalmaztak mélyreható, részletes visszajelzést" – mondja Lingxuan Zhu, a tanulmány egyik társszerzője, aki onkológusként dolgozik Kínában. Ez a tapasztalat rávilágított egy komoly problémára.

A kutatás kimutatta, hogy a Claude képes hihető hivatkozási javaslatokat készíteni, illetve meggyőző elutasító ajánlásokat megfogalmazni, arra ösztönözve a szerkesztőket, hogy elutasítsák egyes kéziratokat. Ez pedig veszélyt jelent arra, hogy jó cikkeket is indokolatlanul visszautasítanak. Zhu szerint egy szerkesztő nem lehet szakértő minden témában, így egy meggyőző, mesterséges intelligencia által írt negatív bírálat könnyen befolyásolhatja döntését.

Ráadásul a tanulmány azt is megállapította, hogy a mai AI-felismerő eszközök többsége megbukik: a ZeroGPT például a kéziratok 60 százalékát ember által írottnak minősítette tévesen, míg a GPTzero több mint 80 százalékban nem ismerte fel az MI által készített szöveget.

A helyzet még bonyolultabbá válik, mert a nagynyelvi modellek sokféleképpen alkalmazhatók a bírálatok elkészítéséhez, és az is vita tárgya, melyik felhasználás számít elfogadhatónak. Egy idei Nature-felmérésben a válaszadók 66 százaléka ellenezte, hogy az egész bírálat teljes egészében mesterséges intelligenciával készüljön, ugyanakkor 57 százalék támogatja, hogy segítséget nyújtson az MI kérdések megválaszolásában.

Bár az AI-felismerő rendszerek folyamatosan fejlődnek, nehezen mérik fel, mennyiben készült az adott dokumentum MI által. Egy korábbi elemzés szerint a számítástechnika területén beadott bírálatok körülbelül 17 százalékát jelentősen átdolgozták chatbotok – bár nem tudni, hogy csak javításról vagy teljes írásról volt szó.

Jeroen Verharen, kaliforniai idegkutató szerint meglepő, hogy a Zhu csapata által használt felismerők nem voltak hatékonyabbak, ugyanakkor úgy véli, az MI által írt bírálatok nem jelentenek majd széleskörű problémát, hiszen az értékelők, ha nem akarnak dolgozni, egyszerűen nem fogadnak el felkérést.

Ezzel szemben Mikołaj Piniewski lengyel hidrogeológus szerint a jelenség növekvő baj: már számos alkalommal kapott olyan bírálatot, amelyről gyanítja, hogy mesterséges intelligencia írta. „A kollégáimmal egyetértésben mindannyian legalább egy ilyen esettel találkoztunk az elmúlt két évben – mondja. – Az AI-felismerő programok pedig több ilyen gyanús értékelést is jeleztek.”

Piniewski szerint egyes szerkesztők – hibájuk vagy kényelmük okán – elfogadják az AI által készült bírálatokat. A globális bírálói hiányhelyzet miatt azonban hajlamosabbak lehetnek engedékenységre, ami veszélyes tendencia. „Attól tartok, ez elsősorban a könnyebbség iránti vágy vezérli őket” – teszi hozzá.

„Súlyos probléma”: az MI által írt bírálatok nehezen felismerhetők

Címkék

Eredeti cikk