HVG STÍLUS https://www.nature.com

Nagy nyelvi modellek torzításai – helyi kezdeményezések változásért küzdenek

Az AI nem mindenkinek szól egyformán; latin-amerikai és afrikai szakemberek helyi nyelvű, kultúraközpontú modellekkel veszik fel a harcot a torzítások ellen.
Nagy nyelvi modellek torzításai – helyi kezdeményezések változásért küzdenek
Forrás: https://www.nature.com
Álvaro Soto már 2023 elején szembesült azzal a problémával, amit sokan az AI világában megtapasztalnak: a nagy nyelvi modellek gyakran nem értik meg az adott kultúra finomságait. Amikor az egyik kedvenc írója, Jorge Luis Borges egy történetét kereste, a ChatGPT egy számára ismerős könyvet ajánlott, pedig a keresett mű nem is volt benne. Soto szerint ezek az AI rendszerek nem a megfelelő, minőségi, helyi adattal lettek betanítva, így, ha konkrét információ nincs az adatbázisukban, egyszerűen kitalálnak válaszokat.

A világon mintegy 7000 nyelv létezik, ám ezeknek kevesebb mint 5 százaléka érvényesül megfelelően online. A globális AI fejlesztések túlnyomórészt angol, spanyol és francia adatokra épülnek, amely a gyarmati múltból fakadó nyelvi dominancia. Ez a hiányosság komoly akadályt jelent az AI igazi, globális elterjedésében, hiszen sok ember nem angolul beszél, és nem az angolszász kultúrához igazodó módon kommunikál.

Egyes szakemberek, mint Leslie Teo Szingapúrból, azt hangsúlyozzák, hogy az AI-nak nem elég egyszerűen fordítani, hanem meg kell értenie a helyi közösségek társadalmi és kulturális sajátosságait is. Nem mindegy, hogy miként beszélünk az anyósunkhoz, vagy az édesanyánkhoz, hiszen a nyelv sokszor a társadalmi viszonyokat is tükrözi.

Afrikában, Latin-Amerikában és Délkelet-Ázsiában is egyre több kutató gyűjt össze kifejezetten helyi nyelvű és kulturális adatokat, hogy ezekből tudjanak saját nyelvi modelleket készíteni. Ezek ugyan gyakran az amerikai fejlesztésekhez kötődő architektúrákra épülnek, ám a helyi anyagok beépítése előrelépésnek számít a torzítások enyhítésében. Mint Mpho Primus, a dél-afrikai Johannesburgi Egyetem kutatója írta: a mesterséges intelligencia fejlesztése immár nem pusztán a technológiai újításokról szól, hanem arról is, hogy kik szólalhatnak meg a digitális jövőben.

A mesterséges intelligencia egy kiemelten fontos építőeleme, a transformer architektúra 2017-ben a gépi fordítás fejlődéséhez indult, majd erről nőtt ki a nagynyelvi modellek egész sora, mint a GPT, Gemini vagy Claude. Ezek az eszközök hatalmas webes adattömegekből „tanulnak”, melyeknek jelentős része angol nyelvű. Ez a kiegyensúlyozatlanság pedig megjelenik a modellben: az angol különféle dialektusait használó beszélők is gyakran panaszkodnak, hogy a chatbotok nem értik meg vagy sztereotip válaszokat adnak.

A Cornell Egyetem kutatói azt is feltárták, hogy az AI modellek bizonyos kulturális értékeket jelenítenek meg, amelyek főként az angolul beszélő, protestáns európai országokéhoz igazodnak. Ugyanakkor a „kulturális irányítás”, vagyis amikor egy adott ország nézőpontjából kérdezik meg a modellt, csökkenti ezt a torzítást.

A chilei CENIA kutatói például egy „kulturális mércét” hoztak létre latin-amerikai ismeretek alapján, amivel tesztelik, mennyire képesek a modellek visszaadni a helyi tudást. Az eredmények egyértelműek: bár a nagy modellek tudják, hogy Buenos Aires Argentinország fővárosa, olyan helyi sajátosságokkal, mint a „porotos con rienda” - egy hagyományos étel – vagy Carlos Caszely, ismert chilei futballista, már nem boldogulnak.

A SEA-HELM nevű délkelet-ázsiai értékelő rendszer pedig azt mutatta ki, hogy a helyi adatokon finomhangolt modellek jobban teljesítenek, mint a nemzetközi nagyok, sőt, az AI Singapore által fejlesztett SEA-LION nevű modellben a délkelet-ázsiai tartalom aránya már 40 százalék körüli, jelentősen javítva az eredményeket.

A Meta és más nagy techvállalatok is kínálnak egyre több nyelvű fordítási lehetőséget, de gyakran ezek gépi fordításokon vagy olyan weboldalakról származó, távoli forrásokon alapulnak, amelyek nem tükrözik hitelesen a nyelvek használatát, így a minőség és kulturális relevancia korlátozott marad.

Az AI Singapore 2023 végén indította SEA-LION nevű modellt, amely részben Common Crawl adatokat használ, ám ezekből megpróbálják kiszűrni és megőrizni a délkelet-ázsiai nyelveket. Ez jelentős átdolgozást igényel a folyamatban, ismerteti Leslie Teo.

A chilei CENIA-nál Omar Florez vezeti a Latam-GPT modell betanítását, amely nem csak webes adatokat használ, hanem egyetemi dolgozatokat, könyveket és akár a kolumbiai kongresszus jegyzőkönyveit is. „A kultúra ezekben az anyagokban él,” vallja Florez.

Afrikában a Masakhane kezdeményezés több mint 1000 szakembert tömörít 30 országból, hogy afrikai nyelvi adatok gyűjtésével támogassák a helyi AI fejlesztést. Különösen fontos feladatuk például a nevük, helyszínek, dátumok azonosítása a különféle, szabályaiban eltérő afrikai nyelveken, ami a hagyományos algoritmusok számára összetett kihívás.

Az African Next Voices projekt 9000 órányi mindennapi beszélgetést rögzített Kenyában, Nigériában és Dél-Afrikában, nyíltan elérhetővé téve ezeket az adatokat az AI fejlesztők számára. Ezek az erőfeszítések azt mutatják, hogy a helyi nyelvekbe és kultúrába való befektetés javítja a modellek lefedettségét és arculatát.

Ám az afrikai és latin-amerikai szakértők is figyelmeztetnek: a legfejlettebb modellek sem tudják teljesen felszámolni a torzításokat, amíg a domináns nyelvek továbbra is túlsúlyban vannak az adatbázisokban.

A valódi változáshoz tehát elengedhetetlen, hogy a helyi közösségek aktívan részt vegyenek a mesterséges intelligencia fejlesztésében. Leslie Teo szerint egyre gyakoribb, hogy létezik hit a saját eszközök építésében, amelyeket mi magunk használunk és alakítunk.

A Latam-GPT például, amely a Llama 3 modellen alapul, már több éves adatgyűjtést követően készül, s célja, hogy 2026 januárjától nyílt forráskódú, mindenki számára hozzáférhető legyen. A magyar származású Florez hangsúlyozza: „Nem a nagy globális modellekkel versenyzünk, hanem egy olyan eszközt építünk, amely Latin-Amerikának, latin-amerikaiaknak szól.” Az ő munkájuk során nemcsak helyi adatokat használnak, hanem a kisebbségi bennszülött nyelvek, mint a Mapudungun, Náhuatl vagy Quechua fordításait is beépítik, hogy megőrizzék és integrálják a regionális tudást.

Ami különlegessé teszi ezeket a regionális kezdeményezéseket, az a közösségi együttműködés és a helyi hagyományok tisztelete. A jövő digitális eszközei már nem csupán lokalizáltak lesznek, hanem közösen alkotottak, ahol a helyi nyelv és kultúra egyenrangú helyet kap az AI világában.

Eredeti cikk

https://www.nature.com/articles/d41586-025-03891-y

Megnyitás