Dokumentumok automatikus kulcsszavazása

  23/08/2019       origo.hu hírportál    

Conditions

Az origo.hu 2009-ben bevezette az újságcikkek manuális címkézését/kulcsszavazását a tartalmak rendszerezettségének javítása érdekében. Cél volt a megelöző 10 év archívumának címkézése is.

Challenge

Az archivum nagyságrendileg 500 ezer hírének kézi címkézése nagyon költséges lett volna, ezért automatikus megoldást keresett a hírportál. Címkék automatikus rendelése egy cikkhez számítógépes nyelvészeti megoldásokat igényel, hiszen azonosítani kell a fő témákat és szereplőket (személyek, szervezetek, helyek) a folyó szövegben.

Solution

Két különálló megoldást dolgoztunk ki, egyet a cikkek tartalmát leíró kulcsszavak (több szavas kifejezések) kiemelésére és normalizálására, és egyet a legfontosabb személy-, szervezet- és helynevek azonosítására.

Effects and results

Az automatikus címkézés minőségét a hírportál mintavételezéssel ellenőrízte és megfelelőnek találta, arra hogy a teljes archívum címkéjeként megjelenítse oldalán. Ezzel megspórolta a az archívum manuális címkézését.

Client
Provider
Business function
Production