Az AI a gépi fordításban komoly eredményekre képes

Ha megnézzük azt, hogy nem is oly rég honnan indult a gépi fordítás technológiája, rácsodálkozhatunk a fejlődésre.

Az ezzel foglalkozó kutatók, régészek nem kevés olyan, különféle hordozókon tárolt szövegeket találtak meg az elmúlt századokban, melyek megértését két dolog nehezíti: nem ismert az írásmód kódja és/vagy nem ismert az, hogy milyen nyelven írták a szöveget.

Ezekben az esetekben hallatlanul nehéz a tudósok dolga, mivel nincs támpontjuk arra, miképp is indulhatnának el, milyen analógiákat, összehasonlításokat, kapcsolatokat használhatnának fel a megfejtéshez tartó úton – nem úgy, mint a leghíresebb esetben, amikor a 19. században Jean-François Champollionnak egy háromnyelvű kőtábla, a rosette-i kő segítségével sikerült megfejteni az egyiptomi hieroglifák írásmódját.

Az AI segíthet

De egy friss kutatás szerint talán mégis van esély, ha bevetjük az egyre fejlettebb módszereket használó mesterséges intelligenciát (AI) – a világ egyik vezető egyeteme, az MIT hivatalos közlönye számolt be egy olyan projektről, melyben két kutatójuk, Jiaming Luo és Regina Barzilay, valamint a Google mesterséges intelligenciával foglalkozó szakértője, Yuan Cao egy olyan gépi tanuláson alapuló rendszert hozott létre, amely már elfeledett nyelveket is képes dekódolni. Az erről szóló közleményt a Qubit munkatársa, Bodnár Zsolt dolgozta fel alaposan.

A részletek iránt érdeklődőknek az MIT és a Qubit cikkét egyaránt ajánljuk, itt most csak röviden a lényeg.

MIT

[+]

A 19. század végén találták meg azokat a szövegeket tartalmazó köveket Krétán, melyeket senki sem tudott elolvasni, sőt azt sem tudták, milyen nyelven íródtak. A legendás brit régész, Arthur Evans kezdett hozzá feldolgozásukhoz, aki a több ezer évesre datált köveken a „legrégebbinek gondolt tárgyakon található képszerű írásjeleket hieroglifikusnak nevezte el, míg az egyszerűbb szerkezetűeket lineárisnak. És mivel ebből egyértelműen meg tudott különböztetni két önálló típust, az írásfajták a lineáris A és a lineáris B nevet kapták.”

A lineáris B-t egy amatőr, de zseniális nyelvész 1953-ban dekódolta, ugyanis Michael Ventris rájött a B logikájára. Idézzük Bodnár Zsoltot: „Mivel teljesen ismeretlen karakterkészletről volt szó, jobb híján matematikai módszerekkel fogott neki a nyelv megfejtésének. Először megállapította, hogy szótagírással van dolga, a megszámlált 90 jel ugyanis fogalomjelölő írásnak kevés, betűírásnak viszont sok. Ennyiből viszont még nem jött volna rá arra, hogy az ógörög egy változatát rejti a titokzatos írás, miután azonban a pusztán grafikus szókincset megvizsgálta, kikövetkeztette, hogy az egyes ismétlődő szavak Kréta különböző helyeinek a nevét takarják. Ez alapján már ógörögként vizsgálhatta tovább a nyelvet, sikerrel, így végül bebizonyította, hogy a nyelv írásban már évszázadokkal korábban megjelent, mint azt addig hitték.”

De van egy nagy probléma

Ám ha a gépi fordításhoz nem állnak rendelkezésre nagy nyelvi adatbázisok, a módszer nem működik. De: „Az MIT és a Google kutatói szerint ebben az esetben a nyelvi evolúció elméletét kell segítségül hívni. Luóék szerint minden nyelv csak egy bizonyos módon képes változni az idők során – az egymással rokon nyelvekben a szimbólumok hasonlók, az azonos jelentésű szavakban ugyanolyan sorrendben fordulnak elő a betűk stb. Ha ezeket a szabályokat megismertetjük a gépekkel, sokkal egyszerűbbé válik egy ismeretlen nyelv megfejtése is – feltéve, ha tartozik hozzá egy referencianyelv.”

Innentől újra Bodnár Zsoltnak adjuk át a szót: „A kutatók így két olyan halott ősi nyelven tesztelték le az elméletet, amelynek ismert a rokonsága: a lineáris B az ógörög egy korai változata, míg az 1929-ben felfedezett ugariti nyelv a héber őse. »Sikerült a lineáris B rokon kifejezéseit 67,3 százalékos pontossággal lefordítanunk a görög megfelelőire ezzel a technikával. Tudomásunk szerint ez volt az első kísérlet a lineáris B automatikus megfejtésére« – írják tanulmányukban a kutatók.

Ez persze felveti a kérdést, hogy mi a helyzet azokkal az ősi, elfeledett nyelvekkel, amelyeket a modern civilizációban még nem sikerült megfejteni, például a lineáris A-val. Mivel az ismeretlen nyelvnek a rokonsága sem ismert, nincs meg az új technológiához szükséges referencia, így az a lineáris A esetén nem használható – bár a tanulmány nem tesz említést erről a nyelvről, az MIT Technology Review szerint nem kizárt, hogy az összes ismert nyelvre lefuttatva megtalálható lenne a lineáris A rokona is.”

Azóta történt

Előzmények