Topic modeling
Forskare vid University of California-Irvine har analyserat 330 000 stycken nyhetsartiklar och lyckats att kategorisera dem med hjälp av en ny typ av text mining. Exempelvis så om en artikel innehåller orden "zidane", "germany" samt "fotball" så är rubriken troligen fotbolls-vm. Allt detta helt automatiserat.
Hur kan detta vara applicerbart i den verkliga världen? Jo exempelvis inkommande E-post till företag kan automatiskt skickas vidare till rätt avdelning: supportärenden till support och ekonomiärenden till ekonomiavdelningen.
Tidigare har metoder såsom N-gram använts.
Abstract. Statistical language models can learn relationships between
topics discussed in a document collection and persons, organizations and
places mentioned in each document. We present a novel combination
of statistical topic models and named-entity recognizers to jointly analyze
entities mentioned (persons, organizations and places) and topics
discussed in a collection of 330,000 New York Times news articles. We
demonstrate an analytic framework which automatically extracts from a
large collection: topics; topic trends; and topics that relate entities.
Läs deras paper här: http://psiexp.ss.uci.edu/research/papers/isi2006.pdf
Nyhetsartikel finnes här: http://arstechnica.com/news.ars/post/20060802-7408.html
Via slashdot.
Andra bloggar om: topic modeling, n-gram, text mining, data mining, matematik.
Inga kommentarer:
Skicka en kommentar