豪鬼メモ

一瞬千撃

英和辞書の類語検索とコロケーションの拡充

統合英和辞書のWeb検索機能でより簡単に類語検索ができるようにしてみた。また、句動詞の拡充を頑張ってきたが、それ以外のコロケーション(連語)の拡充にも取り組んでいる。その経過報告。例によってKindle用英和辞書の最新版も更新して結果を反映させている。


まずは類語検索の話をしよう。とりあえず検索システムを使ってみてほしい。「happy」の検索結果を見て、語義の欄の右上にある相似アイコン(∽)を押してみてほしい。「happy」と似た意味の語句とその日本語訳が山のように出てくる。試しにその中で「satisfied」を選ぶと、その語義が表示されるが、そこでまたアイコンを押すだけで類似検索ができる。このように連想で言葉をたどることで、和英辞典では面倒すぎて到底探せない言葉を探すことができる。いわゆるシソーラス辞典として使えるということだ。

類語検索をどうやって実現しているのか説明する。統合英和辞書に収録されている各々の見出し語は、以下の種類の関係性で結ばれて、語句のネットワーク構造を構成している。

  • WordNetの意味ネットワーク(同義語、類義語、上位語、下位語、対義語、派生語)
  • Wiktionaryの語源情報と派生語情報
  • WordNet日本語版やWiktionary等から取得した共通訳語
  • 英文コーパスから取得した共起語

例えば、「pinkish」という語は、WordNetにより、同義語として「pink」が、類義語として「chromatic」が関連づけられる。また、Wiktionaryの語源情報で「pink」の派生語として関連づけられる。さらに、訳語「ピンク色の」が共通である「pink」「pinkness」「garden pink」とも関連付けられる。とどめに、共起語として「floyd」「flower」「dianthus」などとも関連づけられる。それらの関連を幅優先探索で辿りつつ、重複した経路に得点をつけていくと、類義語検索が成立する。四種類の全てでかなりたくさんのヒューリスティックを入れて拡充しているので、ほぼ全ての語句でそれなりの関連情報が得られるようになっている。

類義語は英語のスピーキングやライティングで言葉を選ぶ際に非常に便利だ。例えば、転職する同僚のためのメッセージカードを書かなきゃいけない時には、「I've been happy for working with you.」なんて書いてから、もうちょい気の利いた感じにしたいと思うことだろう。「happy」の類語検索をすると、「blessed」「joyful」「fortunate」とか言った言葉で言い換えることができるようになる。「幸せ」と日本語で検索しても同じことができる。検索フォームの「検索条件」のところで「類語展開」を選ぶと、英語でも日本語でも類語に展開してから検索を行ってくれる。日本語で検索して訳語に着目すると、日本語シソーラス辞書としても機能することになる。英語話者の日本語学習者にとっても便利かもしれない。

語義に表示される「∽」アイコンは単なるショートカットだ。従来から類語検索は実装されていたのだが、今回このアイコンを追加したことで、なかなか使いやすくなった。マウスクリックするだけで次々と類語を渡り歩いていくのがなかなか新感覚で楽しい。ブラウジングに必要な操作をできるだけ簡略化するのは重要だ。そうしないと日常的に使う気にならない。

コロケーションの話に移る。日本での英語教育における「英熟語」という言葉は英語圏での英語教育におけるコロケーション(collocation)という概念に近い。コロケーションは「同じ場所に置かれる言葉」という意味だが、連語と訳すのが一般的らしい。「catch a cold」(風を引く)とか、「have a nice day」(ごきげんよう)とかいった定型句である。イディオム(idiom=熟語)はコロケーションの一種とも言えるが、単語からの文字通りの解釈がしにくい、諺のような表現を指すことが多い。「break a leg」(頑張れよ)とか、「apples and oranges」(別物)とかだ。日本の英語教育における英熟語はコロケーションやイディオムの中でも日常的によく使われるものを指すことが多い。特にphrasal verb(句動詞=群動詞)は英熟語の中で重要な部分を占めるが、それ以外の群前置詞、複合名詞、句形容詞、句副詞などのコロケーションも英熟語の範囲となり得る。言い換えれば、学習者が能動的に習得しておかないと読解に困るようなコロケーションは、イディオムであろうがなかろうが、英熟語の範囲となる。

さて、統合英和辞書でもコロケーションを拡充したい。とはいえ、データ量の上限や読みやすさの観点から、何でもかんでも収録するわけにはいかない。いわゆる英熟語に相当するような、ESL学習者にとって重要なコロケーションのみを厳選しなければならない。そして、ESL学習者にとってのコロケーションの重要性は二つの側面で考えられる。一つは使用頻度であり、すなわち、よく出現するものは覚えておくのが重要であると考える。もう一つは推測難易度であり、構成単語の意味からだけでは句全体の意味が推測しづらいものほど覚えておくのが重要であると考える。

句動詞は、in、at、of、aboutなどなどの不変化詞(particle)を伴い、その多くは多義的であるから、推測難易度が高い傾向にある。よって、動詞に不変化詞をつけた句を句動詞として扱い、その中で頻度の高いものを収録対象にするという従来のアルゴリズムは有効に機能している。群前置詞も不変化詞を伴うので、同じアルゴリズムが有効だ。以前の記事で述べたように、不変化詞でない方の中心語を選択すると、その語義の付録として、英熟語とその意味がわかる仕組みになっている。

となると、次に、不変化詞を伴わない英熟語も収録対象にしたくなる。例えば「flat tire」(パンク)という英熟語を「tire」の項に収録したい。「tire」の出現率は0.04853%であり、「flat tire」の出現率は0.00041%であるから、「tire」の前に「flat」が来る確率は0.8%だ。しかし、この程度の割合のものを全て収録すると、辞書が大きくなりすぎてしまう。句動詞や群前置詞の場合のように不変化詞を伴う場合には、それらは推測難易度が高いだろうし、組み合わせも不変化詞の数で限られるので、閾値を甘くすることで多くの英熟語を収録できていた。だが、使用頻度だけでのフィルタリングでは「flat tire」を収録できない。

さて、コロケーションであると広く認識されている語句は、WordNetWiktionaryにも収録されている可能性が高い。とはいえ、WordNetWiktionaryは人名や地名などの固有名詞も多く収録しているため、それらに載っている語を全て収録対象にするわけにもいかない。とはいえ、固有名詞は大文字で始まることがほとんどなので、それらを除外すれば、コロケーションっぽい語句が残ることになる。そして、その中でさらに頻度が高めのものを残せば、高頻度のコロケーション、すなわち英熟語が残る。それに相当するものを優先して収録すれば良さそうだ。

さらに、コロケーション内の共起語の単体での出現頻度も加味したい。単に共起頻度だけを集計すると、不変化詞や助動詞や基本動詞を含んだ表現が上位を占め、それ以外の語は埋もれてしまう。そこで、共起語の単体での出現頻度の逆数(IDF)を重み付けとして用いた共起語ランキングを各語に予め付与しておいて、その上位の語とコロケーションを構成していた場合には閾値を下げることにした。「tire」が「flat tire」になる確率は0.8%に過ぎないが、「tire」にとって「flat」は重要共起語の一つなので、確率が低くても採用するという設定ができる。それ以外の語の閾値を下げずに済めば、関連性の薄い語とのコロケーションをいたずらに収録するのを防げる。

しかし、それでもまだ収録語が多すぎて、Kindle Previewerが落ちてしまった。なので、推測難易度を加味してさらに厳選するべきだ。そこで、コロケーションの訳語に構成単語の訳語を含むものを捨てることにした。例えば、「flat tire」の訳語がもし「平らなタイヤ」である場合には、それは「flat」の「平らな」や「tire」の「タイヤ」を含むために、推測難易度が低いとみなして捨てる。しかし、訳語が「パンク」であるならば、それは推測難易度が高いとみなして残す。同様にして、「absolute ablative」(絶対奪格)、「absentee landlord」(不在地主)、「acrylic adhesive」(アクリル接着剤)とかの、確かにコロケーションには違いないが推測難易度が低いものは捨てられる。ついでに、「work station」(ワークステーション)とか、「pink lady」(ピンクレディー)などの、片仮名音写も捨てられる。このような学習する必要のないコロケーションを捨てることで、語義が短くなって読みやすさも向上する。

以上の条件を満たすコロケーションを各単語に付与したところ、合計80510語のコロケーションを収録できた。もちろん「flat tire」も収録されている。というか、「flat tire」が収録されていないのが悔しかったので今回の更新をしたのだ。以前からも句動詞や群前置詞以外のコロケーションは収録していたのだが、出現頻度の閾値がかなり高くせざるを得なかったのだが、データソースと種類と訳語によるフィルタを加えたところ、閾値を甘くすることができ、より多くのコロケーションを収録できたというわけだ。

コロケーションが拡充されると、統合英和辞書の自動注釈機能のカバー率も向上する。これはKindleのWordWiseと同じような機能でだ。適当な英文を入力すると、利用者の語彙力に応じて、難しいであろう単語に訳語の注釈をつけてくれる。単語だけでなく複数語からなるコロケーションにも対応するアルゴリズムなので、コロケーションの辞書データが強化されればそれだけカバー率が上がる。

まとめ。類語検索を使いやすくして、コロケーションの拡充をした。前者はスピーキングやライティングの際に役立ち、後者はリスニングやリーディングの際に役立つ。実装上で両者の直接的な関係はないのだが、両者とも共起語や訳語の拡充によって強化される姉妹的な機能だ。地道に辞書の内容を磨いてきた努力の集大成とも言えるので、ここで同時に紹介してみた。それにしても、洋書を読みながら辞書を引いたついでに辞書自体の強化作業を始めちゃうと、いつまで経っても肝心の本が読み終わらないというのは因果なものだ。