15 januari, 2006

Språkidentifikation

Upptäckte idag att det finns en perl-modul som heter Lingua::Identify som bl.a använder Ngram för att identifiera det språk som används i en textmassa. Jag bestämde mig för att testa denna modul lite.

Först installera modulen:

perl -MCPAN -e 'install Lingua::Identify'

Sedan skrev jag ett litet program som heter langof.pl:

#!perl
use Lingua::Identify qw(:language_identification);
($language, $probability) = langof_file($ARGV[0]);
print "$probability,$language,$ARGV[0]\n";

Och testade på en fil som innehåller engelsk text:

0.231387275941993,en,./linux-2.6.15/Documentation/svga.txt

Och sedan på en 31K fil som innehåller svensk text:

0.140212956325435,bg,./svenska.txt

Belgiska?? Så resultatet är såklart inte alltid 100% korrekt. Istället för att skriva ett eget program så kan man använda det medföljande programmet langident.

Ska även testa denna perl-modul när tid finnes: http://search.cpan.org/dist/Text-NSP/NSP.pm

1 kommentar:

Anonym sa...

Det e nog ingen som förstår vad du skriver...=) Iallafall inte jag, får liksom dyslexi av allt konstigt!!!! Hihihihi....