Språkidentifikation
Upptäckte idag att det finns en perl-modul som heter Lingua::Identify som bl.a använder Ngram för att identifiera det språk som används i en textmassa. Jag bestämde mig för att testa denna modul lite.
Först installera modulen:
perl -MCPAN -e 'install Lingua::Identify'
Sedan skrev jag ett litet program som heter langof.pl:
#!perl
use Lingua::Identify qw(:language_identification);
($language, $probability) = langof_file($ARGV[0]);
print "$probability,$language,$ARGV[0]\n";
Och testade på en fil som innehåller engelsk text:
0.231387275941993,en,./linux-2.6.15/Documentation/svga.txt
Och sedan på en 31K fil som innehåller svensk text:
0.140212956325435,bg,./svenska.txt
Belgiska?? Så resultatet är såklart inte alltid 100% korrekt. Istället för att skriva ett eget program så kan man använda det medföljande programmet langident.
Ska även testa denna perl-modul när tid finnes: http://search.cpan.org/dist/Text-NSP/NSP.pm
1 kommentar:
Det e nog ingen som förstår vad du skriver...=) Iallafall inte jag, får liksom dyslexi av allt konstigt!!!! Hihihihi....
Skicka en kommentar