豪鬼メモ

一瞬千撃

対訳電子書籍その5 LLMによる日英方向の対訳本

英語学習のための対訳本を生成するにあたって、日本語の小説を英語に翻訳して、その英文を学ぶというのはどうだろうか。実際に作ってみて使用感を確かめてみよう。


英語の小説に機械翻訳をかけて英日対訳本を作ったのが前回の記事だが、今回は逆の方法を検討する。普通に考えれば、英語学習用の対訳本を作るにあたっては、英語のネイティブ話者が書いた英文を題材にする。英語の原文だけだと日本人には読解しづらいので、理解の補助のためにその英文を和訳した文をつけるという意図だ。それを敢えて逆にして、日本語のネイティブ話者が書いた和文機械翻訳して作った英文で対訳本を作ったらどうだろう。直感的には無駄に迂遠なことをしているようだが、機械翻訳の精度が一定以上であればそれなりに実用的なものが出来そうな気もする。とりあえずやってみよう。

例えば、夏目漱石の「吾輩は猫である」をLLMで英語に翻訳すると、以下のようになる。

吾輩は猫である。
    (I am a cat.)
名前はまだ無い。
    (I don't have a name yet.)

どこで生れたかとんと見当がつかぬ。
    (I have no idea where I was born.)
何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。
    (I only remember that I was crying in a dim and damp place.)
吾輩はここで始めて人間というものを見た。
    (I saw a human for the first time here.)
しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。
    (Moreover, I heard later that it was a student, the most ferocious tribe of humans.)
この書生というのは時々我々を捕えて煮て食うという話である。
    (I heard that this student sometimes catches us and boils us to eat.)
しかしその当時は何という考もなかったから別段恐しいとも思わなかった。
    (However, I didn't think much at that time, so I didn't think it was particularly scary.)

日本人なので原文の日本語が普通に読めるのはもちろんだが、機械翻訳による英訳も普通に読める程度の精度になっている。所詮は機械翻訳の結果であり、正しい英語もしくは自然な英語かどうかは非英語話者である我々には判定できないが、なんとなく通じそうな英語が生成されている気はする。誤りや不自然さを含む可能性があり、その有無を判定できないというのは、日英方向の対訳を読むことの明確な欠点だ。しかし、和文を翻訳した英文を学ぶのにも利点がないわけではない。日本文化にしかない概念を英語で何と表現すればいいかが学べるからだ。「よろしく」「いただきます」「ごちそうさま」「三枚目」「同期」「合コン」「運動会」「三者面談」「血眼になる」「踏んだり蹴ったり」などなど、英語の小説を読んでも出てこない概念は、その英訳を学ぶ機会がない。英訳した日本の小説を再翻訳するとしても、日本語独自の概念は復元できない可能性が高い。欧米で生活するならそんな概念は使わないでも生活できるだろうが、日本国内で英語を使う場合や、外国人に日本について話す場合には、日英翻訳によって得られた語彙が有用なことも多い。つまり、「それ英語で何て言うの?」を学ぶのに一定の効果があるということだ。

学習効果とは別に、日英方向の最大の利点がある。それは、日本語の原文が読めるので、原作の良さを完全に堪能できることだ。したがって、英語学習の効果としては英日方向に劣るものの、楽しんで取り組めるという点では優れている。初学者が英文に慣れるために取り組んだり、中上級者がお気楽に英語力を維持したいという場合に便利かもしれない。

そもそも原文と人間の翻訳家による訳文のアラインメントを取って対訳本を作ればいいじゃないかという話もある。実際にそれをやってみたのだが、それはそれで独自の問題がある。人間による訳本は、意訳どころか文構造まで変わってしまうことも多々あり、フレーズ単位でのアラインメントが取れないだけではなく、文単位のアラインメントも怪しくなってくる。よって、昨今のLLMによる翻訳精度であれば、機械翻訳の結果を使っても利便性はそんなに変わらないと思う。

現代で使う語彙を扱うには現代の小説から対訳本を作って公開したいところだが、著作権の都合でそれはできない。とりあえず、だいたいの使用感と有用性を示すために著名な近代小説から対訳本を作ってみた。

翻訳にはChatGPTとGeminiを使った。プロンプトは以前の記事で書いた英語版とほぼ同じ構造だ。作業の指示を与えてから、書式を示すための固定の具体例をいくつか挙げて、さらに最後に現在の文の前にある文とその翻訳結果をいくつか置く。そうすると、固定例から鉤括弧の使い方などを学ぶとともに、前の文例から文脈を学んでくれて、それっぽい翻訳結果が生成される確率が高まる。

実際に日英対訳本を読んでみると、機械翻訳の結果にはそれなりに粗が目立つ。とはいえ、日本語を読んでから英訳を読めば、読解に支障がでることはない。翻訳精度に関してもう少し掘り下げると、語彙力に関してはかなり高いことが分かる。吾輩は猫であるには古い言い回しもちょくちょくでてくるが、全く問題なく訳せる。難読漢字や熟語も普通に訳してしまう。一般的な日本の現代の若者よりもLLMの方が語彙力は高いだろう。

吾輩は波斯産の猫のごとく黄を含める淡灰色に漆のごとき斑入りの皮膚を有している。
    (I have a light gray skin with yellow and lacquer-like spots like a Persian cat.)
...
「全てえどこに住んでるんだ」随分傍若無人である。
    ("Where do you live?" He's so rude.)
....
「右の如く謡曲会、俳句会、短歌会、新体詩会等、会の連発にて当分の間は、のべつ幕無しに出勤致し候為め、不得已賀状を以て拝趨の礼に易え候段不悪御宥恕被下度候。......」
    ("As mentioned above, there will be a series of meetings such as Noh chanting, haiku, tanka, and new style poetry, so I will be attending them continuously for the time being. I hope you will forgive me for sending you a New Year's card instead of visiting you in person...")

日英方向の機械翻訳で致命的なのは、日本語で省略された主語や目的語の推測に失敗することだ。日本語では自明な主格や目的格や所有格は省略されることが多いが、英語では代名詞を使って文型を整えなければならない。その際の代名詞の選択は日本語で省略された語に対応せねばならない。「私」なら "I" や "me" などだし、「彼」なら "he" や "him" などだし、同様に「彼女」「彼ら」「それら」「私たち」「あなた」であればそれらに応じた代名詞を使うことになる。それに失敗したのが以下の例だ。

「何でも天璋院様の御祐筆の妹の御嫁に行った先きの御っかさんの甥の娘なんだって」
    ("He is the daughter of the nephew of the lady who married the sister of the lady-in-waiting of Tenshoin.")
そう言う雪ノ下こそ顔は可愛いが中身がもう相当アレだ。
    (The one who said that, Yukinoshita, has a cute face, but her personality is quite something.)
目つきなんか完全に犯罪者だ。
    (His eyes are completely like a criminal’s.)

一番目の例の"he"を正しく"she"にするのは、「娘」って言ってるんだから楽勝そうにも思えるが、おそらく「甥の娘」ってあたりで混乱したのだろう。二番目の例の"his"を正しく"her"にするには、「雪ノ下が女であること」と「目つきが雪ノ下のものであること」の両方を知っておく必要がある。最新のLLMは前の文をいくつか与えればそれをうまくやってくれる場合もあるが、失敗することも多い。原文に対応がない代名詞が訳出された場合には手戻りしてChain-of-thoughtで代名詞に対応する名詞を当てさせる過程を挟むという案も考えたが、あまりにコストが高いので断念した。

英日翻訳で日本語を生成する際に人称代名詞(「俺」「あたし」「お前」「君」など)や呼称(「さん」「先輩」「閣下」など)や敬語(「です」「だ」など)や語尾(「だわ」「だぜ」など)の選択に失敗するという話を前回書いたが、それらの失敗は文意をほとんど変えないので読解に問題を発生させない。一方で、今回のように日英翻訳で英語を生成する際に起こる代名詞や時制の選択の誤りは文意を大きく変えてしまうので、それが何度も起こるとイラッとする。先に日本語を読めばすぐに英語側の誤りに気づくので読解に支障はないが、英語だけを読んで作品を味わうのは辛そうだ。

物は試しに、英語と日本語を入れ替えて、機械翻訳の英文をあたかも原文のように表示するデータも作ってみた。

実際に読んでもらうと分かるが、辛い。文意が分かる日本語が生成されてはいるが、それらをつなげて文学として味わうには流石に厳しい。各文の意味は分かっても、文同士の繋がりがズタズタというか、脈絡を繋げるのに脳内で一手間かかる感じだ。

結論としては、現状における機械翻訳の結果は文学としての鑑賞には耐えないということだ。まあ、当然っちゃあ当然の結論なのだが、昨今のLLMの進化によって、もしかしたらいけるかなと期待した部分もある。でもやっぱりダメだった。文学先品の翻訳というのはそれ自体が文学なので、機械にはまだまだ難しいだろう。"The Long Goodbye" を何人もの翻訳者が翻訳しているのはなぜかというと、きっと各人が「俺のほうがもっと素敵な翻訳ができるぜ」と思ったからに違いない。プロの翻訳家同士でさえやり直しを繰り返す世界なのだから、機械がそれに追いつくのは簡単ではないだろう。そのプロ達によるデータから学べばいずれ比肩するものを出してくる可能性はあるが、現状では時期尚早だ(現状のモデルでも既存の訳文を単に覚えているんじゃないかと思える例はちらほら出してくるが)。

個人的にはラノベの日英対訳本を作って遊んでいるのだが、それが結構楽しい。ハルヒの有名な台詞の公式訳は「I'm not interested in ordinary humans. If there are any aliens, time travelers, sliders, or espers here, come join me.」だが、機械が全く同じ結果を出してきて驚いた。これは偶然じゃない。「きさま!見ているなッ!」っと思わず呟いてしまった。涼宮ハルヒとか俺ガイルとかの、同世代ネタと言葉遊びで楽しませる趣向の作品は、公式英訳を日本語に機械翻訳して英和方向の教材として使うのではなく、原文を英語に機械翻訳して日英方向の教材として使った方が楽しめる。日本のラノベや漫画やアニメが存分に楽しめるのは日本語話者であることの特典なのだ。

まとめ。日本語の文学作品の日英機械翻訳の結果で英語学習ができるかと思って対訳本を作ってみたが、それなりに実用になることは分かった。とはいえ、学習効果は英日方向の対訳本には劣る。日本人にとって、特に初学者にとって、楽しく英語学習が進められるという点では、日英方向の対訳本にも意味があるだろう。