12 oktober, 2006

Intel har en bloggsite. N-gram

Processortillverkaren Intel har nu en blogg! Äntligen! Som Gert Fylking hade sagt (skrikigt kanske) och nu återstår det bara att se om de skriver något intressant.

Hittade även att Google har en avdelning som heter Google Research som bl.a har publicerat lite intressanta N-gram "All Our N-gram are Belong to You" är ett trevligt inlägg där de skriver att de har släppt 1 biljoner ord med tillhörande N-gram:

We believe that the entire research community can benefit from access to such massive amounts of data. It will advance the state of the art, it will focus research in the promising direction of large-scale, data-driven approaches, and it will allow all research groups, no matter how large or small their computing resources, to play together. That's why we decided to share this enormous dataset with everyone. We processed 1,024,908,267,229 words of running text and are publishing the counts for all 1,176,470,663 five-word sequences that appear at least 40 times. There are 13,588,391 unique words, after discarding words that appear less than 200 times.

Detta återfinns på 6 st DVD-skivor. Mer information om N-gram hittar du på Wikipedia eller på håkank bloggen.

Inga kommentarer: