ことばパティオ

第13回 Web研究の深化からWeb環境の発展へ ―Yahoo! JAPANが日本語コーパスへデータを提供した理由―


岡本 真(おかもと まこと)
ヤフー株式会社検索事業部企画部所属。1997年、国際基督教大学卒業。1999年ヤフー株式会社入社。これまで「Yahoo!知恵袋」や「Yahoo!検索ランキング」の企画・設計・開発に携わる。情報処理学会データベースシステム研究会運営委員。京都大学大学院情報学研究科非常勤研究員。


   「『風景』と『光景』という言葉は一見似ていますが、実は大きな違いがあります。では、どのような違いがあるのでしょうか。その違いを教えてくれるのが、この日本語コーパスなのです。」

   2007年5月、東京ミッドタウンの記者会見場で、前川喜久雄先生がよく通る声で語りだした。記者たちの食い入るような視線を浴びながら、前川先生が「現代日本語書き言葉均衡コーパス」のデモンストレーションを始めた。このときの様子を日経パソコンの八木記者が的確にまとめている。


「風景」は「授業風景」や「食事風景」のように他の名詞と結びついた複合語として使われている例が246種類もあるが、「光景」はたった3種類。それも「日常的光景」「神話的光景」など「的」を伴っていることから、複合語にはなりにくい言葉であることがはっきりと分かる。
ITpro(日経BP社)より


   八木記者に限らず、会場にお越しいただいた記者陣の多くに、当日の模様を記事にしていただいた。その反響の大きさにあらためて「言葉」への関心の高さを実感したものである。

   さて、なぜ我々は、Web上の日本語データ―Yahoo! JAPANが運営する知識検索サービス「Yahoo!知恵袋」に投稿された質問300万件と回答1300万件―を日本語コーパスへ提供したのだろうか。しばしば尋ねられるこの質問に、今回この場で答えてみたい。なお、本稿はヤフー株式会社の組織としての正式な見解を示すものではなく、担当者の私個人の思いを中心につづったものである。

   データ提供を担当した私自身の個人的な経験から始めよう。インターネットの仕事をして10 年。最先端の情報技術寄りの人間にみられることがあるが、大学入学時の専攻は言語学だった。とはいえ落第生である。最初に受講した「言語学概論」の講義で「カレーライスとライスカレーの違い」をおもしろいと思う感性に欠けていたため、すぐに専攻を変えてしまったからだ。しかし、言語学との関わりが途切れたわけではない。大学4年生のときには、インタビュー形式による日本語会話データベースの構築をお手伝いすることで、かろうじて言語学とのつながりを保っていた。

   このようなバックグラウンドを持っていたからであろう。当時の同僚で、現在は東京大学に転じた木戸冬子氏を経由して、前川喜久雄先生から日本語コーパスの計画をうかがったときは、大いに胸が躍ったものである。東京は立川市の国立国語研究所にお邪魔して、前川先生の構想をうかがうこと数度。社内での検討の末、社会貢献の一環として、当時私がプロジェクトリーダーを務めていた「Yahoo!知恵袋」のデータを提供することとなった。

   利用者間で質問と回答をやりとりする「Yahoo!知恵袋」から抽出・提供した日本語データは、約16億文字分。約24万人の利用者によって投稿された約300万件の質問と、約1300万件の回答のセットである。このうち、500万語が日本語コーパスに組み込まれ、冒頭の記者会見のようなお披露目につながっていくわけである。

   さて、日本語コーパスへのデータ提供は社会貢献の一語に尽きるのだが、この理由にはなかなかご納得いただけないようだ。時折、同業の方々から、真の狙いは何か、と問われることがある。しかし、別に隠し立てするでもなく、裏の目的が潜んでいるということでもない。Yahoo! JAPANは、「Yahoo!きっず」や、「Yahoo!ボランティア」のように、社会貢献を目的とするサービスを運営するなど、企業としての社会貢献活動に少なからず力を入れている。これらの事業と同様、日本語コーパスへのデータ提供は企業としての社会貢献の一環であって、それ以上でもそれ以下でもない。だが、あえてつけ加えれば、我々がデータを提供することによって、Webを対象とした研究が深化し、そしてその研究成果に基づいて日本のWeb環境が発展するのであれば、それは嬉しいことだ。

   最近は、インターネットの負の側面ばかりが極端に注目される傾向にある。しかし、我々の生活をインターネットと切り離すことはもはやできないだろう。であれば、正の側面を引き出す努力、たとえば、日本語コーパスに基づくWeb上の日本語研究を進めることの重要性はいうまでもない。そこに貢献するということは、インターネット企業にとっても他人事ではないのである。

   試験公開から1年以上。今年2008年7月には、日本語コーパスのモニター向け公開が開始されるところまできた。プロジェクトとしてはひとつの区切りを迎えるのかもしれない。だが、重要なのは、上に述べたように、多大な努力によって構築された日本語コーパスをどう活かすかだろう。実際、Web上の日本語に限っても、すでに多数の研究成果がまとめられているが、この流れがさらに加速していって欲しい。

   ちなみに、その一助となることを期待して、Yahoo! JAPANでは、情報社会学会との共催で「知識共有コミュニティワークショップ」を来る2008年11月に開催する。プログラム委員には前川喜久雄先生にも加わっていただき、言語学的な観点からの研究発表も募っている。投稿の締めきりは2008年8月末と直前に迫っているが、大勢の方々にご投稿、あるいはご参加いただきたい。
(2008年8月8日 )