豪鬼メモ

一瞬千撃

中華なイパネマ vs 中華のイパネマ

Kindle用の英和辞書を自動生成するにあたり、形容動詞の訳語の表現方法をちょっと改良したという話。辞書データはこちらからダウンロードできるので、興味があれば使ってみてほしい。
f:id:fridaynight:20211117111412j:plain


Kindleで英文書籍を読むのに最適な英和辞書を構築するという話を前回の記事で書いた。3週間ほど実際に使ってみているが、やっぱり使いやすい。詳細な語義説明よりも、それっぽい訳語のリストが最初に見られるというのが、読書のリズムを崩さない上で重要だ。put outとかgive inとかgo throughとかの数多の句動詞が調べられるのも嬉しい。惜しむらくは、give it upみたいに途中に目的語が挟まってしまうとKindleの能力では検索できないところだが、それは辞書の工夫ではどうにもならない。これなんとかしてよAmazonさん。

この辞書データに対してちょっと違和感を感じていたのは、形容動詞の訳語についてだ。英語の見出し語の品詞が形容詞の場合、その訳語は日本語の形容詞句または形容動詞句であることが望ましい。例えば、beautifulの訳語は「美しい」という形容詞句であるべきだし、quietの訳語は「静かな」という形容動詞句であるべきだ。ところで、英語の形容詞の訳語は、英和辞書においては連体形で表されることが通例である。形容詞の場合は終止形と連体形が同じなので良いのだが、形容動詞の場合は終止形と連体形で異なるので、ちょっと面倒くさい。「豪華」でも「豪華だ」でもなく、「豪華な」として収録すべきだ。

ところで、WordNet日本語版やWiktionaryにおいて、英語の形容詞の訳語は日本語の名詞として表現されていることが多い。luxuriousとかgorgiousとかdeluxeとかの訳語が「豪華」と書かれているのだ。でも「豪華」は名詞なので、形容詞の訳語としては最適ではない。なので、その名詞が、形容動詞の活用語幹であるとみなせる場合は、「な」をつけて、「豪華な」などとしたい。

ここで問題が起きる。Mecab形態素解析をして品詞を判定しているが、「豪華」は「名詞・一般」であり、形容動詞活用語幹とは判定されない。「豪華な」を解析してはじめて、「名詞・形容動詞活用語幹」として判定される。ならば、英語の形容詞の訳語はとりあえず「な」をつけて Mecabにかけてみて、「名詞・形容動詞活用語」が得られたら形容動詞として扱えばよい。ここまでは以前から実装していた。

このアルゴリズムに不満があった。形容動詞活用語幹であっても、名詞としての性質が強い語は、「の」に接続する方が自然なこともあるからだ。例えば、「至高」「究極」「大型」「同一」「同格」「未読」「擦れ擦れ」のような語は、「な」と接続して形容動詞として使うよりも、「の」と接続して名詞として使う方が自然だ。「至高な」よりは「至高の」が自然だし、「同一な」よりも「同一の」が自然だ。つまり、Mecabが形容動詞活用語幹と主張する場合にも、辞書の訳語にする際には「な」でなく「の」をつけた方が良いこともあるということだ。

ところで、「中華なイパネマ」は、一般的には名詞とみなされる「中華」に敢えて「な」をつけて形容動詞として用いて、「中華っぽい、中華風の」という意味を表す意図がある。だから思いっきり日本人であるところの島崎和歌子がやっていても良いのだ。もし「中華のイパネマ」だったなら、中国出身であることが期待されてしまうだろう。同じ理屈で「ナイルなトトメス」もエジプトっぽいというだけで、必ずしもエジプト出身でなくて良い。このように、「な」と「の」は文脈と意図によって使い分けられるべきなので、本来は語幹の字面だけで判断できるものではない。とはいえ、一般論としては、コーパスでよく現れるものがより適切であるとは言えそうだ。Mecabの辞書はそれを知っていて、「中華な」を解析しても形容動詞とはみなさないでくれる。

話を戻す。英語の形容詞の訳語を選定するにあたり、Mecabにとって「な」をつけると形容動詞活用語幹であった場合には「な」をつけて収録するが、それに例外規定を設けたい。「な」をつけると形容動詞活用語幹とみなされる場合であっても’「の」をつけると「名詞・一般」などとみなされる場合には「の」をつけることにする。「至高」などの上述の例は全てこのルールで「の」接続として処理できる。

「な」と「の」の違いなんて、単なる表記ゆれだから、どうでも良いと思うかもしれない。しかし、和英辞書として使う際には、転置して訳語がキーになるので、表記ゆれがそれなりに大きな問題になる。類語検索などでも訳語の正規化は重要になる。

形容動詞以外にも、名詞、動詞、形容詞で正規化による照合を実装し、それを使って訳語を伝搬させるアルゴリズムを実装した。結果として、訳語付きの見出し語は12万語弱に増えた。唯一気になっていた不満点を解消したので、「俺の考える最強の辞書」としてはこれで完成かな。

余談だが、最近は「青春ブタ野郎」シリーズの英語版「Rascal does not dream of ...」を読んでいる。カジュアルな表現で話が進んでいくので、翻訳書の割には読みやすい。しかし、決定的に読解を阻害する要素がある。英語では役割語が貧弱なことだ。日本語の’原文だったら、「わ」とか「よ」が語尾につくと女性のセリフだとわかるので、それを前提として「と舞は言った」とかいうフレーズを省くことで、テンポよく読むことができる。「です」「ます」が付けば後輩のセリフだとわかるし、その他にも、キャラごとの口癖を設けることで読みやすくする工夫がなされているのだ。一方で、翻訳するとそのほとんどが失われてしまうので、誰の台詞かの判断に迷うことがよくある。その意味で、日本語は素晴らしい。「君」「さん」などの呼び方や、方言やスラングなどの機微も、原文の日本語でないと表現しづらいものがあるが、青春ブタ野郎はまさにその機微を味わう作品でもある。そんな中で、このRasalの翻訳者は、かなり頑張っていると思った。日本語でないと面白くない部分はスパッと削るし、英語でも伝えられる部分はうまいこと工夫して置き換えている。

いきなり英語を読んで読解するのも楽しい。一方で、日本語の原作を読んでから英語の訳文を読むのも利点がある。テンポよく読めるし、言語比較文化論みたいな知見が得られる。「put out」が「性行為に同意する」って意味であることは、Wictionaryの語義の一番最後にやっと出てくるくらいだが、そういうスラングはカジュアルな文章にこそ頻出する。それらが使われている文をいきなり英語で読むと理解できないが、先に大まかな話を知っていれば辞書を引かなくても分かる。というか、辞書を引いてもどの語義を選べばいいかわからないので、簡単な語の組み合わせのスラングは予め知ってないと厳しい。なので、英文読解を始めたい人は、日本語で読んで面白かった作為を英語で読み直すというのがいいんじゃないかと思う次第である。