2007-11-03 Googleが日本語N-Gram辞書を公開した話 Google Japan Blog: 大規模日本語 n-gram データの公開 Googleが日本語N-Gram辞書を公開した話。 抽出対象となった文数は約200億文で、出現頻度20回以上の1〜7グラムを収録している。(中略)6 DVD-R (26GB gzipで圧縮済み) gzipだと60-70%なので、圧縮前で40G前後。まあ、公開分がこれだけでGoogleで使っているのはもっと大きいのかもしれないが、日本語処理とか詳しくないが、実は意外と小さいなと思った。Googleならこういうデータファイルの類の標準単位はTBだと思っていたよ。が、一応MeCabについているIPA辞書のサイズを見てみた。12M位だった。桁が違うな。十分でかいな。 意外と小さいなとか気軽に思いました。ごめんなさい。