Googleが日本語N-Gram辞書を公開した話

Googleが日本語N-Gram辞書を公開した話。

抽出対象となった文数は約200億文で、出現頻度20回以上の1〜7グラムを収録している。

(中略)

6 DVD-R (26GB gzipで圧縮済み)

gzipだと60-70%なので、圧縮前で40G前後。まあ、公開分がこれだけでGoogleで使っているのはもっと大きいのかもしれないが、日本語処理とか詳しくないが、実は意外と小さいなと思った。Googleならこういうデータファイルの類の標準単位はTBだと思っていたよ。

が、一応MeCabについているIPA辞書のサイズを見てみた。12M位だった。桁が違うな。十分でかいな。
意外と小さいなとか気軽に思いました。ごめんなさい。