CAP és POLTEXT Incubator projektekhez kapcsolódó szövegosztályozási projekt az MTA TK PTI és az MTA SZTAKI együttműködésében
2019.08.21
A felhasználói kör a politikatudomány kutatóinak nemzetközi szervezetei, különös tekintettel a nemzetközi Comparative Agendas Projectre.
Körülmények
A nemzetközi Comparative Agendas Project keretében számos országban dolgoznak nagy szöveges korpuszok (jogi, média, stb) közpolitikai témák szerinti osztályozásán. A POLTEXT Inkubátor projekt keretében ezt a szövegosztályozási feladatot próbálják minél hatékonyabbá tenni a gépi tanulás segítségével az emberi kódolási munka minimalizálása mellett.
Kihívás
Olyan nagyságú korpuszokat kell feldolgozni, melyek emberi feldolgozása csak rendkívüli költségek mellett és kétséges megbízhatóság mellett oldható meg.
Megoldás
Az MTA SZTAKI Párhuzamos és Elosztott Rendszerek Laboratóriumának (PERL) munkatársai kidolgoztak egy olyan cloud környezetet, amiben a Spark klaszterek gyorsan és automatikusan kiépíthetők Amazon és OpenStack felhőkben. Ennek segítségével a korpuszok hatékony és gyors feldolgozásához szükséges Spark klasztert igény szerinti számú workerrel és időszakra lehetett létrehozni az MTA Cloudban. Így a nagy korpuszok feldolgozásához szükséges nagy számítási kapacitást igénylő MI megoldásokat elfogadható időn belül lehetett kikísérletezni és végrehajtani. A SZTAKI által létrehozott cloud környezet a következő fő komponenseket tartalmazza: 1. Occopus cloud orchestrator (URL: http://occopus.lpds.sztaki.hu/) 2. Jupyter notebook felhasználói interfész 3. Python programozási környezet 4. Rstudio Web Server és R programozási környezet 5. Spark klaszter ML (machine learning) könyvtárral és HDFS-sel (Hadoop Distributed File System) A 2., 3. 4. és 5. komponenseket tartalmazó MI platform automatikus felállítása a cloudban az Occopus cloud orchestrator feladata. Ehhez elő kell állítani az Occopus számára azokat az infrastruktúra leírókat, amik alapján az MI platform automatikus kiépítése a cloudban elvégezhető. A SZTAKI PERL ezeket a leírókat kidolgozta és nyilvánosan elérhetővé tette (URL: http://occopus.lpds.sztaki.hu/tutorials). Így a fenti MI platform általánosan elérhető a magyar cégek számára is. Sőt, az MI platform nyelvi környezete rugalmasan lecserélhető Java és Scala programozási környezetekre is.
Hatások, eredmények
Support vector machine alapú felügyelt gépi tanulásos eljárás használata. A word2vec súlyozás előállítása neurális háló alkalmazásával. A fenti MI technikák a fent említett sokprocesszoros Spark környezetben futnak az MTA Cloud rendszeren. Ez lehetővé teszi a nagy méretű korpuszokon való futtatást, ill. az optimális paraméter értékek keresését a gépi tanulásos eljárásoknál is és a neurális hálókon alapuló eljárásokban is.