N-gramデータの作成方法

以前、無知なことを晒したこのエントリに関連して、このデータを作ったときのことが紹介してある。

「日本語n-gramデータの作成方法は?どこが大変だったのか?」→「特に大変ではなかった.Googleではサードパーティのライブラリを置けるディレクトリがあるので,そこにプログラムと辞書をインストールしておいて,あとはMapReduceのプログラムを書いてGoogleの巨大な計算機クラスタで処理した.約一日ぐらい
(中略)
現在,学会に行くと,この手のテキスト処理に数日?数十日掛かったとか,大変という話を聞くことが多いのだが,彼らにとっては何も大変じゃないのだ…そもそもスタートポイントが違うのである.

なんというかね。世に言うGマシンの凄さですか。。びっくりするね。