Áttörés a magyar nyelvi mesterségesintelligencia-kutatásban
2022.12.01
A Nyelvtudományi Kutatóközpont kutatói két, világszínvonalon is jelentős nyelvmodellt fejlesztettek ki az ELKH infrastruktúra-fejlesztési pályázatán elnyert szuperszámítógépeken, neurális technológiát használó gépi tanulási algoritmusok segítségével.
A magyar nyelvre elkészült első GPT-3 típusú mesterséges intelligencia, a HILANCO-GPT, a Nyelvtudományi Kutatóközpont és a Pécsi Tudományegyetem közös fejlesztéseként született meg. Az angol és magyar nyelven egyaránt folyékony kommunikációra és szövegelőállításra is alkalmas rendszer betanításához, a fejlesztők egy 102 milliárd szavas angol és egy 25 milliárd szavas magyar szövegkorpuszt használtak fel. A három hónapon át tartó gépi tanulás eredményeképpen létrejött nyelvi mesterséges intelligencia mindkét nyelven jól szerkesztett mondatokat képes alkotni, sőt akár még fordítani is tud a két nyelv között.
A Nyelvtudományi Kutatóközpont munkatársai a fenti technológiát és szuperszámítógép-rendszert használva elkészítettek egy az előzőnél is nagyobb magyar nyelvű anyagon tanított nyelvmodellt, a PULI GPT-3SX-et. Ez egy 32 milliárd szóból álló, csak magyar nyelvű szövegeket tartalmazó anyagon tanult magyarul.
Mindkét nyelvmodell nonprofit kutatásfejlesztési célokra ingyenesen elérhető. Demó változatuk a HILANCO-GPTX és a PULI GPT-3SX felületeken kipróbálhatók.
A két rendszerről és egyéb új kutatási eredményekről a Nyelvtudományi Kutatóközpont kutatói, a Magyar Tudomány Ünnepe alkalmából előadásokat és bemutatókat tartottak a Mesterséges intelligencia és a magyar nyelv című rendezvényen, 2022. november 23-án az MTA Székház Dísztermében. Az eseményről készült videófelvétel a linkre kattintva visszanézhető.