豪鬼メモ

一瞬千撃

ChatGPTに英語の語義を推測させる

和英辞書の見出し語と語義から英英辞書の語義を生成できるかどうか、ChatGPTに頑張らせてみた。結論としては、普通に実用できるレベルの語義が生成できることがわかった。


オープンソースの和英辞書であるEdict2を統合英和辞書に加えたことで、和英方向のカバレッジが著しく上がっている。Edict2は日本語の熟語に関してめっぽう強く、おかげで「入力欄」「終電」「学校給食」「大器晩成」とかを英語で何て言えばいいか簡単に調べられるようになった。漢語だけでなく、「胡麻すり」「取り巻き」「片手落ち」「お調子者」みたいな和語もカバーされている。

それはいいのだが、統合英和辞書は本来は英英辞書なので、和英辞書を転置するだけでは英語の語義説明が無くて統一感に欠けるのが玉に瑕だった。例えば「入力欄 → input field」という和英辞書のレコードがあったとすると、「input field → 入力欄」という英和辞書のレコードが作れる。しかし、本来欲しいのは「input field → part of a data input screen where the user types text」であり、そのおまけで「入力欄」という訳語がつくのが望ましい。

この手の一問一答的な仕事はLLMの十八番だ。上のスクショのように、ChatGPTに「Detect the part of speech of the given phrase and its meaning. The meaning of the phrase should represents the given Japanese translations.」とか聞いてみると、品詞と語義をうまいこと推定してくれる。例によってfew-shotでいくつかの例を示すと、それにつられていい感じの答えを出してくれるようになる。生成させた例をいくつか示す。

  • phrase: front side
    • Japanese translations: アウトコース
    • part of speech: noun
    • meaning: the first nine holes on a golf course
  • phrase: at any time
    • Japanese translations: いつでも; 常に
    • part of speech: adverb
    • meaning: at any moment; whenever; on any occasion; no matter when it happens
  • phrase: for two
    • Japanese translations: 二人前
    • part of speech: adjective
    • meaning: involving two people; made or intended for two people
  • phrase: wireless communication
    • Japanese translations: 無線通信
    • part of speech: noun
    • meaning: transmission of a signal over a distance without using wires

てなわけで、だいたいうまくいくっぽい。ゴルフの用語まで知っているとは、LLMさんもなかなかやりおる。英和辞書さえあれば英英辞書なんて要らないと思う人も多いだろうし、英文読解をするだけなら英和だけでも足りるのは事実だ。しかし、わざわざ「front side」を調べた人には、ちゃんとした語義説明をしてあげるのが筋というものだ。「アウトコース」ってだけ言われても意味がわからないこともあるだろうから、語義説明があると役立つ。また、英語話者が日本語の作文をする際にも英和辞書は使われるので、その際に和訳の意味が意図通りかどうかを知るには英語の語義説明は必須だ。「for two」みたいな多義的なフレーズの場合、日本語訳も複数あり得るので、たまたま辞書に採用されている「二人前」が意図通りのものかどうかを確認したくなるだろう。

欲を言えばEdict2の全てのレコードをChatGPTにかけたかったのだが、さすがに金がかかりすぎる。よって、Edict2の見出し語(日本語)の中で、自前の言語モデルにおいて出現率が高かったものを選定して、さらにその訳語の中で自前の言語モデルにおいて出現率が高かったものを選定して、その両方の条件に合った上位数千フレーズのみをChatGPTで処理した。結果は統合英和辞書に反映させておいた。それはKindle英和辞書和英辞書英和例文辞書英和フォールバック辞書にも反映される。ただし、それぞれのKindle用辞書は容量ギリギリまでデータを詰め込んでいるため、今回追加されたマイナーな見出し語が既存の収録語を上回る優先度になって収録される可能性はそんなに高く無い。

まとめ。英語のフレーズと和訳を与えて英語の語義説明を生成させるというタスクをChatGPTにやらせたところ、そこそこまともな語義を生成してくれた。精度が完璧とは言えないだろうが、無いよりは遥かにマシな語義が生成できたので、英英辞書の語義として採用した。