2007-11-03から1日間の記事一覧

Googleが日本語N-Gram辞書を公開した話

Google Japan Blog: 大規模日本語 n-gram データの公開 Googleが日本語N-Gram辞書を公開した話。 抽出対象となった文数は約200億文で、出現頻度20回以上の1〜7グラムを収録している。(中略)6 DVD-R (26GB gzipで圧縮済み) gzipだと60-70%なので、圧縮前で4…