04 augusti, 2006

Topic modeling

Forskare vid University of California-Irvine har analyserat 330 000 stycken nyhetsartiklar och lyckats att kategorisera dem med hjälp av en ny typ av text mining. Exempelvis så om en artikel innehåller orden "zidane", "germany" samt "fotball" så är rubriken troligen fotbolls-vm. Allt detta helt automatiserat.

Hur kan detta vara applicerbart i den verkliga världen? Jo exempelvis inkommande E-post till företag kan automatiskt skickas vidare till rätt avdelning: supportärenden till support och ekonomiärenden till ekonomiavdelningen.

Tidigare har metoder såsom N-gram använts.

Abstract. Statistical language models can learn relationships between
topics discussed in a document collection and persons, organizations and
places mentioned in each document. We present a novel combination
of statistical topic models and named-entity recognizers to jointly analyze
entities mentioned (persons, organizations and places) and topics
discussed in a collection of 330,000 New York Times news articles. We
demonstrate an analytic framework which automatically extracts from a
large collection: topics; topic trends; and topics that relate entities.


Läs deras paper här: http://psiexp.ss.uci.edu/research/papers/isi2006.pdf

Nyhetsartikel finnes här: http://arstechnica.com/news.ars/post/20060802-7408.html

Via slashdot.


Andra bloggar om: , , , , .

Inga kommentarer: