Mikor lesz csupán egy rossz emlék a bábeli zűrzavar? – A gépi fordítás rétegei

MI Stúdió S02E26

  2020-09-15

Hallgass minket a YouTube-on!

Intro: Ez az MI Stúdió, ahol a legmenőbb szakértők segítségével fejtjük meg a mesterséges intelligencia rezdüléseit és követjük le a legújabb MI trendeket. Hörömpöli-Tóth Levente vagyok,  tartsatok velünk!

H-T. L.: – A nyelvtanulás idehaza még mindig forró téma, hát még mennyire az volt a vasfüggöny mögött, a kötelező orosz tanulás világában. Talán többen emlékeznek még arra a reklámra a 80-as évek végéről, amely a kézzel-lábbal mutogatás és az egyre hangosabban beszélés kommunikációs zsákutcájából igyekezett kilendíteni a tömegeket ezzel a szlogennel: a magyar világnyelv, de amíg ezt a többi 5 milliárd ember elhiszi, tanuljon inkább idegen nyelveket. Egy korabeli rendőr vicc még plasztikusabban ábrázolja a rideg valóságot. Eszerint egy külföldi rendszámú autó gördül a járőrök mellé; ablak lemegy, majd a sofőr négy nyelven kérdezi meg egymás után, hogy vajon tudnak-e neki segíteni, de mivel mindannyiszor csak értetlenkedés a válasz, a sofőr megunja és elhajt. Mire így szól a rendőr a társához: „Látod mennyi nyelvet tud, aztán mire megy vele?” Nos, a gépi fordítás eljövetelével elképzelhető, hogy előbb-utóbb mégiscsak a rendőrnek lesz igaza, hiszen végre lebonthatjuk a nyelvi korlátokat és minden idegennyelvű szöveget valós időben fordít majd nekünk egy okos alkalmazás. De hol tartunk most és mikor dőlhet le a Bábel torony egyszer és mindenkorra? Ennek eredtünk a nyomába.

H-T. L.: – Mindenkinek óriási üdv, innen az MI Stúdióból, ahol visszatérünk a rendes kerékvágásba és futószalagon szállítjuk a jobbnál jobb témákat a nagy őszi újra indulásban . De még mielőtt belevetjük magunkat a mai témákba, emlékeztetőül szóljanak a fanfárok ismét, hiszen mint arról a médiában és a közösségi felületeinken is értesülhettetek, bejelentettük Magyarország Mesterséges Intelligencia Stratégiáját. Ez a stratégia ugyebár az elkövetkezendő tíz évre határozza meg azokat a nagy ívű intézkedéseket, amelyek a gazdaság és a társadalom MI transzformációjához szükségesek. A részletekről ugyebár egy korábbi epizódunkban beszélgettünk Jakab Roland Elnök Úrral, illetve Szertics Gergő MI guru, állandó szakértőnkkel. Mindenesetre a lényeg, hogy megvannak tehát a fő csapásirányok, megvan, hogy merre megyünk MI vonalon. Mind erről részleteiben új gyűjtőoldalunkon, az AI-Hungary.com oldalon tudhattok meg többet. Tehát AI kötőjel Hungary.com, itt találhattok meg mindent, ami a mesterséges intelligenciával kapcsolatos. Most, hogy így megadtuk az alaphangot az országstratégiával és az AI-Hungary.commal azt gondolom, hogy ideje rákanyarodnunk mai témánkra. Unatkozni márpedig nem fogunk, az biztos, hisz egy forró MI topikkal, a gépi fordítással fogunk foglalkozni. Ez alkalomból köszöntöm tehát nagy örömmel Dr. Prószéky Gábort a Nyelvtudományi Intézet igazgatóját, a MorphoLogic alapítóját, nagyon köszönjük, hogy elfogadtad a meghívást Gábor! Hát valljuk be, hogyha gépi fordításról kezdünk el beszélgetni, vagy ezt a kifejezést halljuk akkor sokaknak elsőre egy kicsit sajnálkozva az a bizonyos Google Translate  jut eszébe, és a maga olykor faramuci és esetlen megoldásai. Kezdjük talán azzal, hogy mennyire van itt igaza a fanyalgóknak, mennyit fejlődött az iparág a kezdetek óta?

P.G.: – Ez egyből sok kérdés volt. Az egyik, hogy rengeteget fejlődött, de én azt gondolom, hogy ma egészen más a helyzet, mint amikor mondjuk én kezdtem a pályát és úgy beszéltem a gépi fordításról, hogy valahol vannak gépek, amik valamit csinálnak azoknak, akik ott ülnek körülötte. Most meg hát mindenki kipróbálhatja, tehát ez az előnye vagy hátránya annak, aki már nagyon régóta fiatal, tehát emlékszik olyan időkre, amikor ez el volt dugva az emberek elől. Na most a mai világban azt azért lehet érezni, hogy változott a dolog, de nyilván a probléma oda megy vissza, amikor ez az egész elindult, mert akkor inkább a misztifikálódás volt. Szóval az volt a lényege a dolognak, hogy a számítógép, az egy olyan jószág, ami ugye tud konvertálni bármilyen információt más típusú információra, és tulajdonképpen, ha így kicsit történelmileg nézzük, ez volt az ötlet, hogy gépi fordítás legyen, hogy a II. világháborúnak a kódolási dekódolási játékai, amikor mindenféle titkosírásokat kellett fejteni. Nyilván sokan látták most már nem olyan régen a Kódjátszma című filmet, ugye az Enigmáról szól, amiben Alan Turingról van szó, aki hát meg tudta ezt fejteni és gyakorlatilag az ötlet az volt, hogy ilyen kódrendszereket kell átültetni egyikből a másikba, és ez inspirálta magának a számítógépnek a létrejöttét. Tehát csak azért mondom, mert mindenki a „compute” tőből azt gondolja, hogy kizárólag a számolás volt a cél, pedig valójában egy ilyen konverzió két kódrendszer között. Az ötlet az volt, hogy egyik kódrendszer mondjuk az orosz, – ugye itt már háború van, majd hidegháború – a másik az angol és a kettő között kell valamit csinálni. Ez a dolog átváltott mára egy olyanba, hogy nem csak ez a két nyelv, sőt a mi nyelvünk is ott van és még nagyon sok más nyelv is ebbe a világba és nyilván ezek közötti fordításról van szó, de a mindenféle eszközöket befolyásolja a mai adat vezérelt világunkban, hogy mennyi és milyen adatunk van, tehát nyilván a minőséget nemcsak azt szabja meg, hogy milyen volt a program, hanem, hogy mit etetünk a tanuló gépekkel, hiszen azért ma már tudjuk, hogy mindenféle tanuló algoritmusok futkosnak ezeken a gépeken és a mély tanulás és neurális hálók, amik ma nagyon divatos kifejezések, mesterséges intelligencia is előjött megint. Ugye volt ez már 50-60 éve is, csak akkor picit úgy gondolták, akik ezt létrehozták, hogy ott az emberi agyat fogjuk modellálni. Mi tudjuk, hogy már nem egészen, de ötleteket veszünk az emberi idegrendszerből, és itt csinálunk valamit, de bizony a konkrét adat befolyásolja, tehát csak, hogy így előrevetítsem a dolgot. Mondjuk a máltai és a magyar nyelv közötti fordítás ugyanolyan egyszerű vagy bonyolult, mint mondjuk az angol és a magyar közötti, csak a máltai magyarra, ha az összes adatot, amit valaha ember csinált odaadom a gépnek, akkor az 0. Hiszen olyan kevés ilyen van, hogy abból egy gép nem tudja megtanulni. Angol és magyar közt meg több van, tehát van esély, hogy az a nyelvpár jobban fog működni, és nyilván kínai és angol vagy spanyol is angol közt pedig nagyon-nagyon sok van.

H-T. L.: – Nagyszerű, akkor egy kicsit kapargassuk meg itt a technológiának a felszínét anélkül, hogy így elvesznénk a technikai részletekben. Hiszen itt is egy nagyon komoly evolúció zajlott, ha úgy tetszik. Mit kell tudni ezekről a különböző módszerekről megközelítésekről? Most mi az, ami előre viszi ezt a technológiát?

P.G.: – A szabályalapú gépi fordítás, ahol a nyelvész szabályokat írt le. Ez volt a kiindulás, hogy átírjuk bizonyos szabályok alapján az egyik nyelvben levő információt a másikra. Ennek is sokféle formája volt. Először tényleg a karakterek szintjén matattak, később intelligensebb megoldások már szintaktikai, tehát nyelvtani elemzést végeztek a mondaton és az elemzett szerkezeteket vitték át másik elemzett szerkezetbe és ott laposították ki olyan formára, amit az emberek már el tudnak olvasni a célnyelven. A probléma ott jelentkezett először, hogy ugye a szavak, mint betű sorozatok még valahogy átvihetők, de honnan tudjuk elmondani neki, hogy most nem arra gondolunk, tehát amikor le van írva kedvenc példám az, hogy daru. Akkor a számítógép fejében, amelyik nem létezik, de mégis, ugye megjelenik egy olyan madár amelyik betontömböket emelget, mert ugye hát hol így használom, hol úgy. Azt én tudom csak, hogy ez két dolog, hogy az egyik daru ilyen, a másik meg olyan, de ez a szövegben nekünk nincs jelezve. Mindig elmondom, hogy miközben a több értelmiségről mindenki tud, mert iskolában azért tanult ilyet, hogy vannak többértelmű szavak. Soha nem érzi azt, ha nem vicc vagy szándékos félrevezetés áldozata, hogy ne értené, tehát amit szoktam mondani azt, hogy nem tudom én: a „nap nap után” senkinek nem jut eszébe ennél a kifejezésnél, hogy a "sun" meg a "day” között két nap értelmezést megkülönböztesse. Mindenki tudja, hogy miről van szó. Mindig mondom, hogy a csillagászoknál, esetleg megy egy űrhajó és akkor nap nap után van, de hát azért ritka. Tehát ugyanígy tudjuk, hogy mit értünk rajta, a gép meg nem. Tehát maradt az, hogy a több értelműség feloldhatatlan, akkor bevezették a jelentést. Ezt már nagyon nehéz formalizálni és egyre jobban elmélyültek a nyelvészeti elemzésbe ezek, a gépi fordítással foglalkozó számítógépes nyelvészek és úgy tűnt, hogy ezen az úton bármennyire sok eredményt értünk el, hát nagyon hatékonyak nem tudunk lenni. Amikor körülbelül elért a világ mondjuk, a múlt század 90 és éveibe, ahol megjelentek az adatmennyiségek. Tehát amikor egyszerre sok adat volt elérhető, később ez a sok adat már interneten keresztül is elérhetővé vált és akkor felmerült annak a régóta meglévő gondolatnak a használhatósága, hogy a statisztika az fog segíteni. Iszonyú sok ellenzővel mert ugye hát egy olyan nyelvész, aki halálpontos szabályokat írt, egy statisztikai rendszere úgy tudott tekinteni, hogy ha sokszor így van, néha meg nem úgy van, és hogyha a sok győz a kevés ellen, akkor az mindig a sok javára fog eldőlni, tehát nem tudja a finomságokat fordítani. És akkor kiderült, hogy ha nagyon-nagyon sok szövegünk van, tényleg nagyon sok, akkor elő fognak fordulni a finomságok is akkora mennyiségben, hogy már a gép ezt érzékelni tudja tehát nincs itt baj csak az a baj, hogy ezek a korpuszok, szövegkorpuszok, amiből tanul a gép ezek, nemcsak végesek, hanem hát kevesek. Tehát egyszerűen nincs az a mennyiség, amelyikben biztos, hogy minden nyelvi fordulat előfordul. Nyilván az van, hogy a szabályalapú világban egyszer leírtam egy szabályt, akkor az mindig működött. Itt viszont, ha nem kerül elő egy különleges, de azért emberek által használt eset, akkor azt a gép garantáltan rosszul fordítja. Itt a legegyszerűbb példa arra kell gondolni, – hát már jó régen volt olyan tízen évvel ezelőtt – amikor ijedten telefonáltak valamilyen médiától, hogy azt látják, hogy ezek a fordítóprogramok, amik ott vannak a weben azt fordították azt hiszem, hogy a Kecskemétből Las Vegas-t csinált és hogy hát ez, hogy van? És ez egy eléggé triviális példa, hogy hát, ha van egy tulajdonnév át kell írni. Kecskemét, az minden nyelven Kecskemét. A Las Vegas meg, hogy kerül oda? Úgy kerül oda, hogy a gép, ezek a statisztikai eszközök, ezek nem a szavakat fordítják, hiszen neki nincsen olyan szövege mondjuk, nincs annyi angol fordítása, amiben Kecskemét olyan sokszor előfordult volna, hanem azt a környezetet, amiben valamilyen értelemben a Kecskemét előfordult és legtöbbször hasonló környezet valami különleges okból az angol szövegekbe, amit ők megtanítottak abban Las Vegas került ilyen helyzetbe, mert mit tudom én Kecskeméten játszott valaki szerencsejátékot és valami olyan szöveg állt elő, ami ezt hozta. Na most nyilván ezt nagyon nehéz elmagyarázni, hogy itt nincs baj, csak ezek a rendszerek nem a mi logikánkkal a dolgoznak, hanem hát a gyakorisággal.

H-T. L.: – Nyelvspecifikus nehézségek vannak egyébként? Hogy látjátok? Az ugye feltűnő, hogy a sci-fikben az alienek nagyon jól tudnak angolul.

P.G.: – Angolul azért tudnak, mert ugye az angol az a nyelvnek a szinonimája a világban, ahol ugye valami miatt egy angol dominancia van. Érdekes módon magyarul nem tudnak, tehát azért pedig mondanak ilyeneket, hogy az 50-es évek magyar atomtudósai, azok ugye a Marsról jöttek és lehet, hogy az akkori alienek, azok tudtak magyarul, csak aztán ma már mindenki megtanult angolul. Egyébként igen, nyelvspecifikus, de azért hozzátenném, ha már az angolról beszélünk, van egy ilyen kedvenc vesszőparipám, hogy nagyon sokan egy picit úgy siratják vagy sajnálják a magyar nyelvet, hogy az kicsi volna, meg hogy veszélyben van. Szóval ezt én most itt ünnepélyesen mondom, se nem kicsi, se nincs veszélyben. Egyik dolog, hogy ha megnézzük, hogy Európában lélekszámra, beszélőre a dán, a svéd, a görög és sorolhatnám, kevesebb, mint a magyar, tehát mi nem vagyunk kevesen. Kettő, a nyelvünket olyanfajta nyelvtechnológiai eszközökkel állandóan támogatjuk, ami szinte a garanciája annak, hogy a 21. század vagy az ezt követő időszakban ezek fennmaradjanak. Nemcsak a beszélők száma, hanem ezek az eszközök megléte is segít a nyelv fenntartásában.

H-T. L.: – Ami egyébként elvezet bennünket egy újabb nagyon izgalmas kérdéshez, hogy amikor ugye valós időben kell valamit fordítani, tehát ugye eddig elsősorban itt a szöveges fordításokról beszéltünk, de amikor ugye valaki beszél egy konferencián, amit most említettél.

P.G.: – Tolmács?

H-T. L.: – Így van a tolmácsolásra gondolok, de ugye van a másik része, ami most például a járvány kapcsán ugye jött előtérbe, hogy ezek a virtuális meetingek és ott is egyre nagyobb igény mutatkozik arra, hogy adott esetben egyrészt a megszólalókat legalábbis feliratozzák, ugye ott nincs benne fordítás rész, de adott esetben ugye vannak olyan igények is, hogy fordítsák le mondjuk angolra vagy pedig az ő anyanyelvére a virtuális meetingen előadónak a mondandóját, ez mennyire nehéz?

P.G.: – Hú! Ez nagyon. Egyébként érdemes visszamenni az időben, hogy a 70-es évek végén 80-as évek elején Japánba bedobták az 5. generációs számítógép fogalmát és az akkori mesterséges intelligencia kutatók mind nagyon igyekeztek, és az volt a terv, akkor tehát 20 évvel az ezredforduló előtt, hogy ezredfordulóra már beszédfordító gépek lesznek, és a japánok nagy erővel dolgoztak ezen, mindenki utána rohant és hát nem lett ilyen. Na most miért nem lett? Mert a beszélt nyelv és nemcsak a hangfelismerő, beszédfelismerő, beszédet szöveggé alakító rendszerek, nagyon sokan vannak és hála isten magyarra is és meg lehet nézni a nem tudom én televízió feliratozása ma már valós időben magyar beszédfelismerővel, magyar kutatók beszédfelismerőjével történik, tehát nagyon sokat fejlődött ismét csak ennek a statisztikai világnak a segítségével a beszéd felismerése. Na de az a beszéd, amit mi le akarunk fordítani, az nem olyan szép mondatokból áll, amiről beszéltünk az előbb, hogy hát leírva nagy betűvel kezdődik, ponttal végződik, hanem hát úgy beszélgetünk most nem konferencián, de mondjuk egymás közt, hogy hát most idéznék egy ilyen mondjuk ilyen, amit nekem le kéne fordítani: "Szia te jaj, jaj most látunk… bocs…. egy pillanat… várjá. Na holnap akkor neked. Jaj, nem, várjál, 3-kor akkor mégis jó?" Na most itt egy értelmes mondatot nem hallottunk, de mi pontosan ismerjük azt a helyzetet, amikor ismerős emberek, na most, ha nem ismerős emberek, akkor nyilván formalizálják a mondandójukat és nem így egymás szavába vágva beszélgetnek, de még mindig megmarad a beszédnek az a formája, aminek a nagy százalékában nem befejezett mondatok a tartalma. Tehát egyszerűen félmondatok, a másik folytatja, itt nagy probléma az, ha egymás szavába vágunk, tehát egymás felé kerülő hangjelek, akkor a gép nem érti. De mondjuk, ha egy ilyen fölolvasás szerű előadást tartok, tehát így beszélek, ez a gépi fordítás működik, tehát én egy konferencia előadást így mondok, figyelve arra, hogy jól lehessen hallani, amit mondok, akkor ezt átírja magyar szöveggé, azt lefordítja angollá. Ilyet láttam is már és kiírja az előadó háta mögött mondjuk a magyar előadást angol nyelven. Jól, rosszul, persze még van benne hiba, de ahhoz képest, hogy sokan semmit se értenének belőle. Egyébként egészen konkrétan tegnap előtt este fordult elő az, hogy kiküldtem egy levelet egy olyan grémiumnak, amiben vannak külföldiek, de mivel hirtelen kellett, én magyar levelet küldtem ki. És akkor az amerikai kolléga visszaírta, – természetesen angolul – hogy gyorsan megpróbálta megérteni, mi ez, és hogy ez-e az a tartalom, és az volt az. Tehát, hogy most láttam, hogy ijedtében, mert tudta, hogy nem neki szól, de ő is rajta volt a listán, és kíváncsi volt, és rögtön jelezte.

H-T. L.: – A lényeg átjött.

P.G.: – Átjött, és akkor mondtam neki, hogy igen, azért cizelláljuk a dolgot, de ő megértette és tájékoztassam. Tehát, hogy erre azért nagy igény lehet, ilyesmire. Viszont nagyon érdekes, hogy az Európai Unióban gépi fordítással rengeteg mindent fordítanak, pedig hát azok az emberek, akik ott ülnek a közösségnek a legfontosabb pozícióin, azok mind két-három nyelvet kiválóan beszélnek. És mégis segítség, mert millió szám jön a szöveg és az ember jobban szereti az anyanyelvén olvasni, ha az elér egy szintet. És pont ezt akartam mondani, mert nem zártuk le az evolúciót, hiszen a statisztika átvette az uralmat, de a statisztikai rendszerek a 2010-es évek elejéig azt mutatták, hogy soha nem lesz elég szöveg ahhoz, hogy ez a több győz a kevéssel szemben algoritmus jól működjön, és akkor pont nekem volt szerencsém egy előadást tartani egy olyan konferencián, ahol arra kértek meg, hogy foglaljam össze, hogy mi a helyzet és én arra jöttem rá, hogy tulajdonképpen olyan pillanatba van – ez 2012 végén volt – a világ, mint az a jól ismert történet, hogy a 19. századi közlekedés alapján azt gondolták, hogy a 20.-ban annyi lesz a lóürülék az utcán, hogy nem fog tudni működni a közlekedés és közben született meg az autó és én azt mondtam, hogy most várjuk, hogy egy autó megszülessen, mert lovakkal nem fogunk tudni átmenni a következő évtizedbe. És ez 2012 végén volt és akkor indult meg az, ami miatt mi most itt vagyunk, hogy a mesterséges intelligencia, hogy a neurális hálók, hogy a mélytanulás. Bejött egy olyan új eszköz, amelyik ugyan gépi tanuló - a statisztikaiak is ilyenek voltak - , de nem az az egyetlen szempont, hogy miből van több, miből van kevesebb, tehát a sok győz a kevés ellen, hanem egy sokkal cizelláltabb dologról van szó, és innentől kezdve a gépi fordítás elkezdett értelmessé válni. Ezt lehet egyrészt a mindenfajta fordítókon követni, amik elérhetőek a weben, hiszen mind átállt az utolsó öt-hat évben ilyenre. A másik, amivel lehet követni, hogy a magyar nyelv visszakerült a „világ nyelvei közé”, – ezt most macskakörömben mondom – mert ugye mi benne voltunk egy olyan nemzetközi projektben, egy európai uniós projektben, amiben hát megpróbáltak a legtipikusabb nyelvcsaládokból, nyilván az angol benne volt, egy germán nyelv, egy szláv, egy neolatin és hát legyen egy-két ilyen mondjuk magyar az reprezentálja ugye a finnt, az észtet tehát így. És akkor az első kör után az derült ki, hogy a hagyományos statisztikai módszerrel a magyar olyan rossz eredményeket hozott, érthető módon, hiszen nálunk a szórend viszonylag szabad, ez nem áll jól ezeknek a statisztikai rendszereknek, hogy el kell mondani, arra kértek minket, hogy a projekt folytatásában ne legyünk benne, mert az uniós vezetés nem örülne annak, hogyha ezeket a számokat látná. Ez nagyon nem tudományos, de ez a helyzet, és ezért a magyart, a finnt meg az észtet mindig kitolták a szélére, hogy „ezekkel csak baj van”. Van még sok ilyen nyelv, de ők az unióban is benne vannak és az történt, hogy amikor megjelentek ezek a neurális modellek kedves kollégáim, akik kint dolgoznak az Európai Uniós gépi fordító Központban, elkezdték ezeket használni és azt vették észre, hogy a magyar is szépen tud működni, polgárjogot nyert a magyar, a finn meg az észt pusztán azért, mert ez a módszer már nem arra a gyakoriságra épített, ahol a magyar rosszul teljesített. Itt ismét macskakörömben vagy zárójelben mondanám, hogy „arról van szó, hogy a szavak, amik hát borzasztó esetleges, hogy mi van két betűk között, hiszen a magyarból toldalékolt sorozatok vannak ugye asztalainkra, poharatokból stb. és ez volt a fő probléma, hogy a magyarban nem lehet. Tehát az asztal vagy a pohár összes alakját önálló szóként kell felsorolni a toldalékok miatt. A másik nyelv pedig akárhogy is nézzük, van egy szó egy főnév és előtte van prepozíció meg a névelő, tehát gyakorlatilag nekünk sokkal nagyobb szövegkorpuszt kellett volna mutatni, ahol a poharatokból, poharainkból, poharainkra szintén ugyanolyan gyakori, mint a másik nyelven a pohárnak megfelelő egység. Na most ez nem ment. Itt viszont nem erről van szó és hirtelen boldog lett az uniós vezetés is, hogy lám a magyar statisztikai kimutatás már a számszerű kimutatásból sokkal jobb minőségű, mint bármikor volt, őket kitüntették, mármint kollégáimat. Egyszerűen csak azért, mert egy olyan eszközt alkalmaztak, ami alkalmas volt arra, hogy ezt a nyelvet is jól kezelje. Tehát ez nekünk egy picit szerencse is, hogy a neurális modellek a modern mesterséges intelligencia segítségével működő gépi fordítás, újra pályára állította a magyart, a finnt, meg az észtet és így most már van remény, hogy ezek a fordítások is egyre jobbak, sőt szerintem érdemes megnézni az ismert fordítókat a weben, tényleg jobbak.”

H-T. L.: – Hát ennek azért örülünk, hogy a magyar is megugrotta ezt a lécet, illetve valahol ugye ez várható volt, hiszen a mi nyelvünk annyira különleges és összetett, hogy nem lehet csak úgy ráhúzni egy ilyen kényszerzubbonyt. Ugyanakkor ugye elvisz minket ez az egész abba az irányba, hogy vajon a technika ki fogja húzni a szőnyeget a fordítok alól? Ugye ez mindig egy örök téma és már most fordító kollégáktól ugye hallom, kvázi sértésnek veszik, hogy őket, már csak poszteditálásra használják. N agyon-nagyon szép nevet kapott ez a munkafolyamat gyakorlatilag.

P.G.: – Hát én azt gondolom, hogy a Achillesz mindig kicsit előbb van, mint a teknősbéka. Szóval, hogy ez valahogy, hogy mi ötleteket adunk a gépi fordító rendszernek is ezek tényleg egyre jobbak, de azt gondolom, hogy az a fordító, aki tényleg azt a tudását adja be és azt a kulturális ismeretét, ami nélkül ez nem menne. Ő egyrészt arra használtatik, hogy az ő általa készített fordításokból tanuljon a gép, tehát egyre jobban közelítse őt, és mindig ottmarad ő a végén, hogy javítson. Ami viszont nagyon igényes munka ott mindig az ember megmaradt, tehát én egyáltalán nem féltem a fordítókat. Nyilván a fordítói feladatok alakulnak át, csak jelzem, hogy egy 30-40 évvel ezelőtti fordítanak nem kellett tudnia mondjuk szépre szerkeszteni a szöveget mert ő fordított és valaki majd megcsinálta a végén. Ma már az a része a dolognak, hogy ő valami szövegszerkesztőbe adja át, rendes formába a dolgot, hiszen rendes formába is kapta és, ami piros volt az itt is piros.

H-T. L.: – Térjünk akkor rá egy picit az országstratégiára. Ugye itt a nyelvtechnológia, magyar nyelv ápolása, AI kompatibilissé tétele, ez egy nagyon fontos pillér. Itt mik a tervek, mire számítsunk?

P.G.: – Hát nemcsak, hogy tervek, hanem már részben valóság is. Persze nyilván mindig vannak tervek, de ugye ez a neurális világ ez óhatatlanul létrehozza azt, hogy mindennek megadjuk, fölépítjük a neurális modelljét. A magyar nyelvnek létezhetne egy olyan modellje, amelyik kiterjed mindenre, de ezt eddig meg se mertük, nem is mertük gondolni, hogy ilyen lehet. Ebben a világban, ahol ekkora mennyiségű szövegből, összefüggő szövegből tanítjuk a rendszert föl lehet építeni a magyar nyelv egy meglehetősen pontos neurális modelljét, tehát neurális hálós reprezentációt adni a magyar nyelvnek. És a magyar nagyon jó helyen van, mert viszonylag korán, hiszen mondtam csak pár éve indultak ezek a kísérletek még az angolra, spanyolra, kínaira is. Tehát mi ezért jó időben vagyunk és azt ünnepélyesen mindig elmondom, hogy nemcsak az előbb elmondott okokból van a magyar jó helyzetben, hogy sem lélekszámban, sem a stabilitásában nincs probléma, hanem a nyelv technológiai eszközeink is elég jók. Erről már van az Európai Uniónak egy ilyen kimutatása. Nyilván angolra mindenki dolgozik, ennek előnye, hátránya is van, hiszen az előbb beszéltünk, hogy milyen angol ez az angol. Viszont, utána vannak a német, francia, olasz, spanyol, tehát Európában a nagy nyelvek és rögtön ott utána a következő blokk elején ott van a magyar, mert a mindenfajta eszköz és mindenfajta olyan, amit nyelvtechnológus csinálhat a magyar esetében elkészült vagy készülőben van. Tehát, hogy nemhogy lemaradva nem vagyunk, hanem hogy ezzel az előbb említett különleges nyelvvel ott vagyunk Európa élbolyában. Amit persze nem szabad a pozíciót elveszteni. Mindenki dolgozik a magáén, csak jelzem, hogy további támogatás esetén egy nagyon megbecsült helyen lehetünk és azért van nekem egy ilyen személyes tapasztalatom, hogy ennek mi az előnye, azon kívül, hogy az embernek van egy ilyen nemzeti büszkesége, hogy megcsináltam valamit a magyar nyelvre. Hogyha valami erre a nyelvre működik ennek a komplexitása lehetővé teszi, hogy más nyelveknél az itt levő ötleteket adaptáljuk tehát, amikor mi elkezdtük a pályánkat még 90-es évek elején, akkor a helyesírási programoknál nemcsak az volt az érdekes, hogy csináltunk magyarra egyet, hanem hamar kiderült, hogy ha erre a nyelvre tudnak csinálni, akkor tudnak ezek még csehre, szlovákra, románra, lengyelre hiszen ezeket a nyelveket angolból jövet nehéz megközelíteni, mert azért bonyolultak. Magyarból jövet meg nem biztos, sőt inkább egyszerűek. Tehát, hogy ez egy olyan kulcs nyelv, hogyha nekünk erre vannak megoldásaink, akkor már ezeket a kidolgozott ötleteket vagy, ami belekerül a rendszerbe, ezt esetleg máshol is lehet használni, tehát mintául szolgálhat sok mindenre.

H-T. L.: – Nagyszerű, és akkor talán zárjuk azzal a beszélgetést egy ilyen AI-hoz illő predikcióval, ha úgy tetszik, ha ebbe bele merünk menni, hogy mikorra várható, hogy majd egy okosszemüveggel és egy ilyen fülben elhelyezett is pöcökkel felszerelkezve fogunk rohangálni a világban, ahol a fülünkbe duruzsolónak gépi hangon szimultán bármit, amit nekünk mondanak, idegen nyelvű és számukra nem ismert nyelven beszélő emberek és akár valós időben fordítja nekünk az okosszemüveg az összes feliratot, mikor jöhet el ez az idő? Lesz ilyen?

P.G.: – Technikailag szerintem hamar, minőségében talán nem. Tehát én azt gondolom, hogy eleve tudjuk, hogy van Google szemüveg, meg vannak ilyenek. Van ilyen, hogy szövegeket elolvas tehát: kutya harap vagy nem tudom mi. Tehát rá megyek a mobiltelefonommal csak még a kezemben van az eszköz. Azt, hogy ezt integráljuk technikailag egy szemüvegbe, az szerintem, egyrészt van, másrészt egyre jobb lehet. Azt, hogy ez igazán mikor lesz úgy használható vagy nem zavaró, mert azért azt megint látni kell, hogy mi vagyunk az ember és ezek az eszközök minket zavarnak, hogy a fordítót zavarja, hogy a gép előre fordít és neki csak javítgatni kell. Azt, hogy olyan információkat kapok, amikhez nem szoktam hozzá az így fantasztikum szintjén nagyon jó, de azért gyakorlatban megyek az utcán és mindenkinek a neve oda van írva a fejére nem biztos, hogy erre szüksége van, tehát az ügyes adaptáció az még szerintem várat magára, és hát nyilván a tökéletes fordítás is várat magára, de az eszközök összekapcsolása az itt van a kapuba.

H-T. L.: – Nagyszerű hát ennél szupereb zárszóval azt gondolom, hogy nem is tehetnénk pontot ennek a beszélgetésnek a végére rengeteg mindent sikerült érintenünk, de természetesen ez is egy végtelen téma, úgyhogy egyáltalán nem lennénk meglepve hogyha Gábort a közeljövőben megint köszönhetnénk itt, vendégeink között. Most nagyon szépen köszönjük, hogy velünk voltál.

P.G.: – Köszönöm, szívesen jövök máskor is.

H-T. L.: – Nagyon szépen köszönjük a hallgatóknak pedig a figyelmet a technikát továbbra is Nőthig Ádám kollégám varázsolja, mint ahogy fogja a következő adásban is. Találkozunk legközelebb kövessétek minket kedvenc podcast lelőhelyeteken! Sziasztok!

Outro: Ez volt az MI Stúdió, ahol a legmenőbb szakértők segítségével fejtjük meg a mesterséges intelligencia rezdüléseit. Az MI Stúdió az MI Koalíció podcastja, amely a hazai mesterséges intelligencia ökoszisztéma szakmai fórumaként működik. Még több tartalomért kövesd az MI Stúdiót a nagyobb podcast platformokon és ne felejtsd el értékelni az adást. Az észrevételeket, megjegyzéseket az [email protected] e-mail címre vagy a Mesterséges Intelligencia Koalíció közösségi médiafelületen várjuk. Találkozunk a következő epizódban.

Podcastunkat a SpeechTex technológiájával leiratozzuk.

Hallgass minket a Spotify-on!

Hallgass minket Anchor-on!

Házigazda

Hörömpöli-Tóth Levente

MI Koalíció kommunikációs vezető

Vendége

Dr. Prószéky Gábor

Nyelvtudományi Intézet igazgatója