Alrite - Beszédfelismerés a magyar nyelvre optimalizálva
2020.03.25
Vállalkozások, magánszemélyek és nonprofit szervezetek
Körülmények
A Régens Zrt. több mint 25 éves tevékenysége alatt kiemelt hangsúlyt fektetett a legújabb technológiák felkutatására, hasznosítására és továbbfejlesztésére, amelynek részeként több mint 5 évet töltött a mesterséges intelligencia területén kutatva. K+F tevékenységének kiemelt innovációja a vállalat saját mesterséges intelligencia alapú beszédfelismerő rendszere, az Alrite, amelyet elsőként a magyar nyelvre optimalizált.
Kihívás
Fejlett deep learning algoritmusok alkalmazásával és nagy mennyiségű tanító adat felhasználásával a Régens Zrt.-nek sikerült egy olyan AI rendszert megalkotnia, amely kimagasló pontossággal ismeri fel a számos sajátsággal rendelkező magyar nyelvű beszédet, és a magyar nyelvtan szabályainak megfelelően iratozza azt le.
Megoldás
Az Alrite beszédfelismerő rendszer akár az alkalmazásba történő közvetlen diktálással, akár már korábban felvett hang- vagy videófájl feltöltését követően is elvégzi a hangleirat elkészítését. A leiratfájl mellett akár milliszekundumra időzített feliratfájl (.srt) is generálható az alkalmazásban, így videók feliratozásához is gyors és egyszerű megoldást kínál. Az elkészült hangleiratok az alkalmazáson belül is szerkeszthetők, a szöveg módosításai az eredeti verzió megtartása mellett menthetők, illetve a szövegfájlok .docx, a hanganyagok pedig .mp3 formátumban exportálhatók. Az Alrite komplex keresési lehetőségekkel lett ellátva, amelyek segítségével egyszerű feladat egy kifejezés helyének azonosítása adott fájlban, vagy akár az összes fájlban egyidejűleg. A kifejezés fájlban való előfordulását másodpercre pontosan meg tudja határozni a rendszer, így az adott résztől játsza le a hangfájlt. A megoldás kiemelt előnyei közé tartozik, hogy az képes azonosítani a tulajdonneveket, kezeli a kis- és nagybetűket, a mondathatárokat és az írásjeleket is. Az alkalmazás továbbá képes megkülönböztetni a különböző beszélőket egymástól, és ezt jelölni a hangleiratban. A háttérzaj, hadarás, dadogás, tájszólás vagy külföldi akcentus sem okoz gondot a rendszernek a szövegfelismerésben.
Hatások, eredmények
Az alkalmazás sokoldalú funkcionalitásának köszönhetően több területen számos felhasználási lehetőséggel rendelkezik: tökéletesen alkalmazható médiaszereplők, televíziós és rádiótársaságok számára tartalmaik feliratozásához; szerkesztőségek, újságírók számára a cikkek, interjúk leiratozásához; call centerek, ügyfélszolgálatok számára az ügyfelekkel folytatott telefonbeszélgetések szöveges tárolásához; továbbá bármely vállalat számára a megbeszélések jegyzőkönyvének elkészítéséhez, illetve az irodai munka hatékonyságának növeléséhez a gépelés szükségességének minimalizálásával.