自然言語処理こそが今世紀最後の錬金術 - やねうらおブログ(移転しました)

『日本語入力を支える技術　~変わり続けるコンピュータと言葉の世界』(asin:4774149934)が発売された。PFI(株式会社Preferred Infrastructure)のなかの人が書いた本だ。

日本語入力を支える技術という本を書きました
http://d.hatena.ne.jp/tkng/20120203/1328248554

以下、どうでもいいことをつらつらと。

最近、ソーシャルゲーム界隈が賑わっているのでIT系の優秀な人材がそっちに大量に流れてしまっていて、IT業界自体の空洞化が起きようとしていて本当に嘆かわしい限りである。私は自然言語処理こそが今世紀最後の錬金術だと思っているのだが、この分野はなかなか大きな進歩がないのが実状だ。

例えば、2chのまとめサイトが収益を生み出すのだから、機械によって自動的にどこかの記事のまとめ(要約etc..)を生成できれば、これが自動的にお金を生み出すことは自明なのだが、現代の自然言語処理の技術はそんなレベルには全く到達していない。

「テキスト自動要約」についての専門書として「テキスト自動要約」(asin:4274200426)と「自動要約」(asin:4320120736)とが挙げられるが、前者はさわり程度のことしか書いていないし、後者もいささか内容が古すぎる。(2003年に出版された本だ)

正直言うと実用には程遠いと思う。こんな本を数冊読んだぐらいで実用的な自動要約のプログラムが書けるならば、いまごろとっくにWebは自動要約で生成された文章で溢れている。そうなっていないのは自動要約の質が低いからだ。

また、上の二冊ぐらいしか自動要約の本が出ていないのは、この分野に大きな進歩がないことと、人気がないことも示唆している。自動要約が“金の成る木”であることが自明であるとしても、まだ“金の成る木”レベルの自動要約のプログラムは誰も作れておらず、それゆえ、現状ではほとんど金にならないからである。

日本語文章の自動要約の場合、その自動要約の礎(いしずえ)として、まず日本語文章のparse(かな表記になっている部分を適切な漢字に変換したり)が必要になるが、それはIMEで使われている技術にも共通するものがある。GoogleやPFIのような先見性があり目先の利益にとらわれない企業が、IMEの開発や自然言語処理に注力するのは、当然のことである。

ちなみに広辞苑の辞書データは(画像や音声ファイルを除き圧縮すれば)50MBにも満たない。意味情報をいろいろ持たせるとしても日本語の知識に関して言えば10GB程度あれば十分収まるのではないかと思う。つまり、いまどきのPCならばオンメモリで処理できる。ハード的な制約から日本語を理解するソフトウェアが書けないという時代はとうに過ぎ去っており、いまはソフトウェアの進歩のほうが遅れをとっているのが自然言語処理の実状なのではないだろうか。近年の機械学習の分野の進歩は目覚しいものがあるので、そういう結果を利用すると自然言語処理はもっと発展するのではないかと私は思う。

ともかく、自然言語処理のうち意味理解をするようなプログラムはなかなかお金にならず、研究者も少なく、進歩も遅いのが実状なのだが、優秀な研究者にこそ、こういう道無き道を切り拓いて行ってもらいたいと思う。