Dokumentumok automatikus kulcsszavazása
2019.08.23
origo.hu hírportál
Körülmények
Az origo.hu 2009-ben bevezette az újságcikkek manuális címkézését/kulcsszavazását a tartalmak rendszerezettségének javítása érdekében. Cél volt a megelöző 10 év archívumának címkézése is.
Kihívás
Az archivum nagyságrendileg 500 ezer hírének kézi címkézése nagyon költséges lett volna, ezért automatikus megoldást keresett a hírportál. Címkék automatikus rendelése egy cikkhez számítógépes nyelvészeti megoldásokat igényel, hiszen azonosítani kell a fő témákat és szereplőket (személyek, szervezetek, helyek) a folyó szövegben.
Megoldás
Két különálló megoldást dolgoztunk ki, egyet a cikkek tartalmát leíró kulcsszavak (több szavas kifejezések) kiemelésére és normalizálására, és egyet a legfontosabb személy-, szervezet- és helynevek azonosítására.
Hatások, eredmények
Az automatikus címkézés minőségét a hírportál mintavételezéssel ellenőrízte és megfelelőnek találta, arra hogy a teljes archívum címkéjeként megjelenítse oldalán. Ezzel megspórolta a az archívum manuális címkézését.