豪鬼メモ

一瞬千撃

派生語の例文選択の調整

"collected"という単語は、"collect"の過去分詞であり、「集められた」という意味で使われると同時に、「冷静な」という意味の派生語としても機能する。ならば、"collected"の例文には、なるべく「冷静な」という意味での用例を含んでいて欲しい。そのように辞書を改善し、Kindle用英和例文辞書も更新した。


人が辞書検索で"collected"と入力する場合、なぜわざわざ屈折形を入力するのか。3%くらいの確率で、"collect"という語を知らない人が"collected"という単語をどこかで見かけて、それをそのまま入力したのかもしれない。しかし、残り97%くらいの確率で、"collected"が派生語として独自の意味を持っていると期待してそれを入力しているだろう。また、ポップアップ辞書で"collected”を検索した場合、"collect"と"collected"の双方が該当するので、その二つはできるだけ相互補完する別の情報を提示することが望ましい。ゆえに、"collect"という見出し語が提示する例文と"collected"という見出し語が提示する例文も異なることが望ましい。特に例文辞書の場合、わざわざ"collect"から"collected"に切り替えたのに同じ例文が表示されてはがっかりしてしまう。

以上の理由で、"collected"という見出し語とともに提示する例文は、「集めた」「集められた」ではなく「冷静な」という意味の用例であることが望ましい。"collected"の他にも、分詞が元の言葉と微妙に異なる意味を持つようになって成立した派生語は多い。そういう場合には、微妙に異なる方の用法を優先的に提示したい。

  • attempt(試みる)-> attempted(未遂の)
  • build(建てる)-> building(建物)
  • halt(停止する)-> halting(たとたどしい)
  • lead(導く)-> leading(第一人者の)
  • provide(提供する)-> providing/provided(もし...なら)
  • charm(魅了する)-> charming(魅力的な)
  • touch(触れる)-> touching(感動的な)
  • end(終わる)-> ending(結末、死)
  • season(味付けする)-> seasoning(調味料)
  • demand(要求する)-> demanding(きつい)
  • command(命令する)-> commanding(威厳のある)
  • interest(興味を引く)-> interesting(面白い)
  • challenge(挑戦する)-> challenging(難しい)、challenged(障害のある)

動詞の分詞の派生語は名詞か形容詞であることが多いので、例文を構文解析して、該当の派生語の品詞が名詞か形容詞だとみなされるものを優先するという方法もある。しかし、構文解析の精度はイマイチだし時間もかかるので、その方法は採用しなかった。次に考えたのは、英文の単純な文字列比較で重複を避ける方法だ。派生語を扱う際には、派生元を特定した上で、派生元で採用されている例文は採用しないというものだ。しかし、それだけでは不十分であった。"collected"は派生語としての用法よりも"collect"の過去形や過去分詞としての用法が圧倒的に多いので、完全一致の重複は削れても、似たような用法は削りきれない。

そこで、訳語の重複を避ける方法を考えた。例えば、"collect"の訳である「集める」「収集する」などを訳文に含む例文を"collected"の訳文候補から除外することにした。これがまた面倒であった。過去形や過去分詞としての"collected"の訳語としては「集める」ではなく「集めた」「集められた」になり、「収集する」ではなく「収集した」「収集された」になるからだ。つまり、日本語を正規化した上で扱わなければならない。よって、派生語において個々の訳語の一致でスコアリングする際に、その訳語を以下のルールで正規化した上で、それが派生元の訳語のいずれかと一致した場合、スコアにペナルティをかける。

  • 末尾が助詞、助動詞、補助的動詞の場合、それを削られるだけ削る
    • 集めた = 集め + た(助詞)-> 集める
    • 走っていた = 走っ + て(助詞)+ いる(動詞非自立)+ た(助動詞)-> 走る
    • 集められた = 集め + られ(助動詞)+ た(助詞) -> 集める
  • サ変接続名詞の場合、後ろに「する」「している」「される」等を付ける
    • 収集 -> 収集する、収集している、収集される

スコアにペナルティをかけるだけで、候補から削るわけじゃないというのが要点だ。"collected"を「集めた」「集められた」という意味で使う用例も妥当ではあるので、「冷静な」という意味の用例とともに、できればその次あたりに提示すべきだからだ。同じ訳語の用例は二番目以降にペナルティがかかることになっているので、結果として多様な用例が採録できるようになるはずだ。

結果として、"collected"には以下の例文を集められた。ちゃんと「冷静な」という意味と「集める」という意味に両方が採録できている。「余裕綽々」って訳語は例文でないとなかなか出てこないので、興味深い。

  • The butler was standing very pale but very collected before us. (執事は青ざめながらも、とても落ち着いた表情で私たちの前に立っていた。)
  • Cool and collected, the narrator leads them through the premises, even into the basement. (クールで落ち着いたナレーターは、彼らを敷地内、さらには地下室へと導きます。)
  • Tom has collected a great many butterflies. (トムは非常にたくさんのチョウを集めている。)
  • Statistics deals with collected numbers representing facts. (統計学は事実を表す数を取り扱うものである。)
  • You're pretty calm cool and collected for somebody who has a major presentation tomorrow. (明日、大事なプレゼンがあるって言うのに、余裕綽々だね。)
  • He has collected twice as many stamps as I have. (彼は切手を私の二倍集めている。)

話は少しずれるが、構文解析の結果を使った別の方法での辞書の改善も行なった。WordNetの語義は各語に対して順不同で定義されているので、つまりどの用法がその語において最も典型的かという情報がない。なので、以前から訳語を使ってその順位付けをしていた。例えば「hit」は「打つ」という意味の動詞であるとともに「該当」という意味の名詞でもあるわけだが、対訳コーパスを見て数えると「打つ」と訳される確率の方が高いことがわかるので、「打つ」を訳語に持つ語義を優先させる。「punch」は「殴る」という意味の動詞であるとともに「殴打」という意味の名詞でもあるわけだが、こちらは「殴る」の方が優先されることになる。この方法でうまくいくことも多いのだが、訳語の揺れで投票が分散するので、全ての場合でうまくいくとは言えない。訳語ではうまく順位づけができなかった場合でも、せめて品詞だけは典型的なものを選びたい。「hit」や「punch」は動詞でも名詞でも同じような意味だが、「concrete」(具体的な vs コンクリート)とか「die」(死ぬ vs サイコロ)とか「active」(活発な vs 能動体)とかは品詞で意味がかなり異なるため、よく使われる方の品詞の語義を優先的に表示するのは重要だ。なので、英語コーパス構文解析の結果を集計して、各語に対して品詞の統計をとり、それをスコアリングに取り入れた。これでWordNetの語義がさらに読みやすくなったと思う。

まとめ。派生語の例文選択方法を改善し、派生元と同じ意味のものにペナルティを与えることで、より使用者の要求に叶うようにした。特に例文辞書の利便性が向上したと思う。つか、ここ二ヶ月くらいはかなり辞書開発に取り組んだので、さすがに飽きたというか、もうこんなもんで十分だろうという領域に来た。英文を読むのにもっと時間を使いたい。