Dokumentumok automatikus kulcsszavazása

Calendar  2019.08.23     Calendar  origo.hu hírportál    

Körülmények

Az origo.hu 2009-ben bevezette az újságcikkek manuális címkézését/kulcsszavazását a tartalmak rendszerezettségének javítása érdekében. Cél volt a megelöző 10 év archívumának címkézése is.

Kihívás

Az archivum nagyságrendileg 500 ezer hírének kézi címkézése nagyon költséges lett volna, ezért automatikus megoldást keresett a hírportál. Címkék automatikus rendelése egy cikkhez számítógépes nyelvészeti megoldásokat igényel, hiszen azonosítani kell a fő témákat és szereplőket (személyek, szervezetek, helyek) a folyó szövegben.

Megoldás

Két különálló megoldást dolgoztunk ki, egyet a cikkek tartalmát leíró kulcsszavak (több szavas kifejezések) kiemelésére és normalizálására, és egyet a legfontosabb személy-, szervezet- és helynevek azonosítására.

Hatások, eredmények

Az automatikus címkézés minőségét a hírportál mintavételezéssel ellenőrízte és megfelelőnek találta, arra hogy a teljes archívum címkéjeként megjelenítse oldalán. Ezzel megspórolta a az archívum manuális címkézését.

Ügyfél

origo.hu hírportál

Szolgáltató

Üzleti funkció

Termelés