ことばパティオ

第11回 常識と非常識(もしくはコーパスの存在意義について)


前川 喜久雄(まえかわ きくお)
京都生まれ。上智大学大学院(言語学)中退。国立国語研究所研究開発部門言語資源グループ長として、『現代日本語書き言葉均衡コーパス』の開発を総括している。文部科学省科学研究費特定領域研究「日本語コーパス」代表者、一橋大学大学院連携教授。


  人の世を生きていると、Aさんの常識はBさんの非常識なのだと思うことがある。夫婦や同僚の間でもそうだから、世間全般となると、これはもう常識などあるのかないのか知れたものでない。

   言葉の世界も似たようなもので、ある人にとって正しい表現が別の人にとっては誤った表現になることがある。「昨晩、あるいは昨夜おそく、このあたりは雨が降ったです」という文は正しい日本語だろうか。「降ったです」はおかしいと感じる人が多いだろうが、これは江戸川乱歩編『世界短編傑作集2』(東京創元社刊)からひろった実例である。気をつけて観察していると「動詞+です」の形で終わる文は、座談会の記録などでは結構用いられている。

   「僕たちは警察に信頼して好いと思う」はどうだろう。「~に信頼する」はおかしいと判断する人が多いだろうが、これも作家今東光のエッセイからひろった実例である。その気になって探すと、漱石、寅彦、龍之介などにも類例がみつかり、日本国憲法前文にも「平和を愛する諸国民の公正と信義に信頼して」という一節がある。

   ところで、こうした表現が実際に生じていることを知っている人が書き手かどうかによって、日本語の文法はずいぶん形のちがったものになるにちがいない。文法については様々な立場があることを承知のうえで言うのだが、「動詞+です」をはなから認めない文法は、十分に正確とは言えないように思う。あるがままの日本語の全体像をできるかぎり正確に把握したうえで、それをコンパクトに整理した文法があってほしい。

   そこで問題になるのが、どうすれば日本語の全体像を把握できるかである。従来、文法研究者は、調査を要する現象のひとつひとつについて、日常接する日本語のなかから用例をひろいあげてきたのだが、それは偶然に頼った、効率の悪い方法だった。また、より本質的な問題として、個人の接する言語資料は量的に限られているうえ、個人の読書傾向や生活態度による傾きが存在するために、対象の全体をもれなく把握していることを担保できないという困難があった。

   これを解決するために考案されたのが、コーパスと呼ばれる言語データベースである。コーパス(corpus)とは、対象とする言語や方言において実際に用いられたことが保障されている用例を一定の方法で大量に収集して、電子的に検索可能な状態に編集した言語データのことである。なかでも対象言語の全体像を歪みなく反映するための設計が施されているコーパスは、均衡コーパス(balanced corpus)と呼ばれる。

   以下は半分宣伝となるが、私たちの研究グループでは、2006年度から5年計画で『現代日本語書き言葉均衡コーパス』 という均衡コーパスの構築を進めている。規模は1億語を目標としており、現在までにおよそ5000万語分の入力が終わっている。

   均衡コーパスは様々な目的で利用できるが、辞書作りでも用例検索に威力を発揮するものと期待されている。一例として「ことばパティオ」第8回でとりあげられている「萌え」を検索してみた。

   「萌え」という文字列は、私たちが試験公開している2200万語規模のコーパスには全部で 47 回出現している。そのうち41 回がインターネット掲示板(Yahoo!知恵袋)のデータであり、残りは一般の書籍である。ただし後者には「花の霞のあいだから萌え出でたようであった」(円地文子『円地文子の源氏物語』集英社刊)のような伝統的な用例が4例含まれている。

   伝統的な用例を除いたうえで、「萌え」の前後それぞれ20文字の範囲を形態素解析(単語に区切って品詞をあたえること)し、「萌え」と一緒に用いられやすい体言を調べてみた。

   まず目につくのは「系」が非常に多いことだが、これは「萌え系」という複合語がよく使われていることによる。ほかに上位にならんでいるのは「サンバ」「メガネ」「ロボット」「娘」あたり。さもありなんという感じがする。

   『現代日本語書き言葉均衡コーパス』のうち著作権処理が終了したサンプルは検索デモサイトで試験公開している。是非お試しいただきたい。 (2008年6月10日)




ことばパティオ連載一覧へ