豪鬼メモ

MT車練習中

対訳電子書籍その4 LLMで作った著名文学作品の対訳本を公開

前回までの議論で、LLMを使って任意の英文書籍の対訳本を半自動生成するシステムについては完成を見た。実際のデータを見れば、対訳の品質が機械がつけたとは思えないような高さになっていて、最新技術を賛美せずにはいられない。日英対訳本があれば、英文読解に慣れていない場合でも、適宜訳文を参照することで、読解を進めることができる。単語集の断片的な文章ではなく、小説を楽しく読み進めることで英語力の増強が図れるのだ。あとは、自分にとって楽しい小説をいかに集めてライブラリを作るかが重要だ。パブリックドメインのものはここで公開するので、世の皆様にもぜひ試していただきたい。Webブラウザで見られるサイトと、Kindle用のMOBIファイルがある。

各文各行形式のHTMLデータ

これらの対訳本の特徴は、原文の文単位で訳文が挿入されていることだ。なので、わからないフレーズがあったらすぐに対応箇所の訳を調べられる。章毎とかページ毎とかだと対応する文を探すのが手間だが、文毎だとそれがない。とはいえ、基本的には英文だけを読んで、訳文は見ないか、困った時だけチラ見する感じで進めると良い。対訳本をWebブラウザで見るには、以下のリンクをクリックされたい。ChromeSafariで動作確認している。WindowsでもMacでもLinuxでも各種スマホでも利用できるはずだ。

本文のページでは、デフォルトでは原文と訳文の両方が表示されている。しかし、原文だけに集中して読解を進めつつも、指定した文の原文だけを適宜表示したいということもあるだろう。その場合、ページ右上の [≡] ボタンを押すと、原文だけを表示してくれる。その状態で、個々の文の右側にある [⊿] アイコンをクリックすると、その文の訳文が表示される。再びクリックすると隠せる。慣れてきたらこのモードの方が使いやすいだろう。精読ではなく多読をしたい場合、できるだけ訳文は見ないで、なんとなく文意が理解できたら訳文を確認せずにどんどん読み進めた方がいい。ただし、読解に躓いた時にはさっさと訳文を見るべきだ。多読に重要なのは量だ。理解できないと面白くなくて続けられないので最低限の理解の質は必要なのだが、多読において質は量に奉仕する手段に過ぎない。

一方で、精読したい場合には、原文を自分なりに解釈して、文法や語法を把握してから、確認のために訳文に眼を通すという手順になる。読解の際にわからない語句があれば、訳文を見る前にポップアップ辞書で調べると良い。対象の語句をダブルクリックやドラッグで選択すると、その語句の意味が表示される。この機能は統合英和辞書のChrome拡張スクリプトをページ内に埋め込んだものだ。よって、拡張機能をインストールせずとも、ポップアップ辞書が利用できる。調べた語句を覚えていなかったり忘れていたりしたなら、メモに書き留めるなり、ポップアップ辞書の星機能を使うなりして、後で復習するのが有用だ。

英文の読解力を高めるにあたって多読が良いのか精読が良いのかという議論があるが、その二元論はあまり重要じゃない。多読(速読)と精読はスペクトルであって、どちらかという話ではなく、基本的には中間のどっち寄りかという話だ。個々人の性格や熟練度や英文の内容によって適切な位置は異なるのだから、適宜バランスを調整して取り組めば良い。多読を続けていれば精読も早めにできるようになるし、精読をしばらくやれば読む速度が上がって多読もしやすくなってくる、はずだ。

表形式のHTMLデータ

多読に特化するなら、表形式のUIの方が望ましいかもしれない。訳文をなるべく視界に入れずに原文だけを読みつつ、必要な時だけは目線をずらして訳文を見ればよい。対話的操作を必要とせず、最小限の視線移動で対訳の利点を享受できることになる。私の考える最強の対訳本がここに実現する。表形式がお好みならば、以下のリンクをお使いいただきたい。

おまけの機能だが、各文の右側(表形式の場合は左側)に半透明の「🎵」アイコンが密かに存在している。それをクリックすると、その文の自動読み上げをしてくれる。これは単にブラウザの音声読み上げAPIを呼び出しているだけだ。現状のChromeの音声読み上げ機能はいかにも人工的な抑揚で喋るのでずっと聴いているのは辛いものがあるが、発音を確認するには十分な性能なので、ワンクリックで使えるのは便利だろう。そのうちブラウザも進化してもうちょい自然な読み上げをしてくれることだろう。余談だが、発音の記号の習得には拙作の発音記号検定をぜひ試していただきたい。

さらにおまけの機能だが、マウスやトラックパッドでページを操作するのが面倒くさい人のために、キーボードでも一通りの操作ができるようになっている。Tabキーを押すとフォーカスを各文に順に移していくことができる。[≡] で訳文を隠している場合、Enterキーを押すと現在の文の訳文を表示したり隠したりできる。また、Backspaceキーを押すと現在の原文の読み上げをしてくれる。慣れてくるとキーボード操作の方が思考を邪魔しないので読解に集中しやすくなるだろう。

Kindle用MOBIデータ

Kindleの実機またはPC上やMac上のKindleアプリをお使いのかたは、以下のデータをダウンロードしていただきたい。実機の場合、USBケーブルで繋げてからdocumentsというフォルダの中に置けば良い。アプリの場合、ファイルをダブルクリックすると勝手にインポートされる。あとは、普通の英文書籍として読んで、分からなくなったら訳文をチラ見すればいい。

Kindleの場合、対話的な操作はできないので、訳文はかなり薄めの色で目立たない表示をしている。それでも最初は訳文に目が入ってしまうだろうけど、慣れてくると原文だけに集中できるようになる。そのための文字サイズや文字色の塩梅には拘った。Kindleで洋書を読む場合、統合英和辞書のKindle版も併用すると読解が捗る。訳文は所詮は機械の産物なので、誤訳かと思ったら辞書を引いて確認した方がいい。しつこいようだが、訳文は参考に留めて、自分の解釈を優先していただきたい。

Kindleは設定で行間の間隔を変えられるが、対訳本を読む際には行間を最小にするのがおすすめだ。文毎に挿入される対訳によって文の切れ目が明白になるとともに、各文が切られて連続する行数が少なくなるため、行間が狭くても読解に問題がない。そして、行間が狭い方が多くの文を1ページに表示できるので、ページめくりの回数が減って読みやすい。

入力データの整形は私が手作業でやっている。個々の作品の元データの構成に合わせてシェルなりPythonなりのスクリプトで荒方整形してから、emacsで結果を開いて細かい修正をするという手順だ。なので、もしかしたら章立てにミスがあったり、特定の段落が抜け落ちたり、イラストの文字起こしができていなかったりするかもしれない。不具合を見つけたらご報告いただきたい。

四方山話

プロジェクトグーテンベルクではパブリックドメインの小説等のデータが無料で公開されている。書籍の場合、原則的には作者の死後50年経つと著作権保護期間が切れ、自由に配布することができるようになる。著作財産権は切れても著作人格権は永久に保護されるので、公表権、氏名表示権、同一性保持権を侵害してはならず、また名誉声望を害する方法での利用は禁止される。逆に言えば、既に公表された作品の内容を改変せずに利用するのは合法だ。翻訳本を出版するのも自由に行われているので、対訳本を生成して公表するのも問題ない。ということで、ここでは準古典作品を扱うことになる。文法や語法が現代英語と変わらない範囲なら、多少古くても現代英語の学習に差し支えない。その中で、私の独断と偏見で、初学者でも楽しく読めて、かつ英語学習に向いていそうなものを選んだ。

これらがなぜ面白いと分かるかというと、和訳本を読んだからだ。なので、私は話の筋を既に知ってしまっているのだが、それでも原文を読み直すと、なお面白い。さすがは名著といったところか。特にアンシリーズは何度読んでも泣ける。一方、大草原シリーズは明確に子供向けに書かれているので、読みやすく、初学者にもとっつきやすいと思う。リストの最後の三つは小説ではなく論文だが、社会学では定番の本だし、筋道立てた文章を読むのも大事なので入れてみた。最初はアルファベットだらけだし分量も多いしで面食らうだろうが、内容が理解できれば、面白いので、続けられる。重要なのは、訳文が命綱になることで、読解に詰まって迷子になることがないということだ。英文読解に慣れた人は訳文をなるべく見ないように読み進めるだろうし、初学者は毎回訳文を見て自分の解釈と相違ないかどうか確認しながら読み進めることができる。

初学者は短めのものから始めるのがおすすめだ。各本の目次に文数や単語数が書いてあるので、それを参考にしていただきたい。公開した中で最も短いのはアリスとユートピアなのだが、アリスは支離滅裂な内容が理解しづらいことがあり、ユートピアは内容が高尚すぎるので、初学者向きではない。となると、最初のおすすめは「老人と海」と「オズの魔法使い」である。それらは全体が短いし、文の長さもちょうど良いし、ミステリーやサイケや風刺や学術の要素が無くて話がわかりやすい。

アン、大草原、ピーターパン、オズあたりは大きめの図書館の洋書コーナーになら大抵あるので、ある程度の英文読解力がついてきたら、紙で読んでもいいかも。辞書が引きづらい環境に敢えて身を置くことで、未知語の意味を推測で済ませて読み続けることを強制できる。逆に、精読する場合、紙版で読んでから電子版を読むと辞書引きの楽さと和訳の便利さに感動するだろう。私は図書館にKindleを持ち込んで読書することがよくある。現代の図書館は学習者や教養人のコミュニティスペースなので、そういう利用法もありなのだ。わざわざ書店で買った本を図書館で読む人もいるらしいので、私は可愛い方かもしれない。喫茶店よりも図書館の方が読書や勉強が捗るというのは、やった人なら分かるだろう。

文分割はChatGPTにやらせた。長い段落が一行になっているとそれだけでアルファベットの洪水に飲まれそうになるが、文毎に行が分けられているだけでもずいぶんと読みやすくなる。会話文の中で個々の文が短すぎる場合、それらを一行に結合する処理も入れている。いわゆるスラッシュリーディングのために適当な文節のまとまり毎に何かマークを入れることも考えたが、結果の見栄えが美しくなかったのでやめた。文毎に行を分けると行による段落区切りがわからなくなるので、段落区切りの行間は少し大きめに取るとともに、段落の最初の行にはインデントを入れた。そうすると、今度は原文にあるインデントや中寄せによるレイアウト情報が表現できなくなるが、それはきっぱりと諦めた。あと、原文でイラストの中に文字がある場合、分かる範囲で私が文字起こしした。

Web版では、ポインタを原文や訳文の上に載せるかTabキーでフォーカスを移すと、その文が薄い青や黄色にハイライトされるようになっている。これは紙の本の上にスリットを置いて現在の行だけを見せるリーディングトラッカーの機能を模倣したものだ。リーディングトラッカーは本来はディスクレシア(読み書き困難)や視野狭窄障害の人が使うもので、速読をする上では邪魔な存在でしかない。しかし、長い英文だとどこを読んでいるか見失ってしまうことがあるのは私だけではあるまい、私は紙の本だとリーディングトラッカーを使うまではしないが、今読んでいる行の行頭に指を当てる癖があり、それはこの迷子問題への対策である。それが行単位ではなく文単位でできると利便性がより高まる。文分割の情報があるのがここでも生きてくる。英文読解に慣れて速読をする上ではハイライトは必要ないだろうが、ゆっくりと精読をする上では文の区切りが見やすくなるのは便利だろう。

翻訳は全て機械翻訳でやっていて、グーグル翻訳とDeepL翻訳とChatGPTとGeminiを使ったものが混在している。それらの精度はかなり良く、少なくとも私が訳すよりはましだろうし、平均的な日本の大学生の英語力より上だろう。ただし、文脈が読めているわけではないので、多義語や曖昧な表現の解釈が妥当でないことは散見される。"Are you up to it?" みたいな文を適切に訳すのは周囲の文を見ないと難しいし、見たとしても難しい場合もある。

あと、日本語においてはセリフの口調に役割語を使って話者を示すのが一般的だが、機械はそれも苦手だ。敬語や丁寧語で喋るのは目下の者であるべきだし、「わ」「わよ」などを語尾につけるのは女性であるべきだし、「俺」「僕」を一人称に使うのは男性であるべきだ。二人称は対象との関係によって「あなた」「君」「お前」「お客様」など使い分けるべきだ。ということは、セリフの話し手と聞き手が誰なのか判断できないと適切な訳ができない。軍記物の翻訳だと、話し相手の階級を推定せねばならないことも多い。"captain" は大尉の階級かもしれないし艦長(階級は少佐だったり中佐だったり大佐だったりする)や機長かもしれない。呼びかけに用いる"colonel"は中佐にも大佐にも使う。"sir" や "ma'am" は上官には誰でも使うが、日本語では「中尉」「中隊長」などの階級や役職を呼称に使う。つまり、話し手と聞き手が誰なのかによって適切な翻訳が変わるのだが、これは人間にすら難しいことがあり、機械ならなおさらだ。

小説というか口語の翻訳は本質的に難しい。その文化での常識がないと適切な解釈ができないからだ。例えば、以下の図を見ていただきたい。"“Number two,” Sakuta said." という文は「『うんこです』と咲太は言った」と訳すべきところだが、ChatGPTにもGeminiにも無理だった。「学校の話です」「話者は若者です」などとプロンプトに書いてもダメなものはダメだ。一方で、その次の文の"A laugh went round the room." という文は「教室に笑いが広がった」と訳していて、"room"が教室であることを前後の文脈から把握しているのは素晴らしい。つまり、文脈を把握して適切な訳語を選択する努力はしてくれる一方、あまりにスラングじみた表現には対応できないことがこの例から分かる。

他にも、二重否定が苦手だとか、方言が苦手だとか、オノマトペや反復修辞法を訳そうとすると発狂することがあるとか、流石のLLMにも欠点はいろいろある。AIによる機械翻訳は概して高精度だし、近年の精度向上には驚くばかりだが、まだまだ完璧ではないということだ。なので、訳文はあくまで原文が理解しにくい場合の参考にするにとどめて、基本的には原文だけを読むというのがこの対訳本の使い方になる。口調に関してはマジで当てにならない。中年男性のセリフが「許されるわけないわよ!」とか訳されていたりしてびっくりするが、機械の微笑ましい間違いだと思っていただきたい。むしろ、機械の翻訳に対して「馬鹿かよ」とか「やるじゃん」とかツッコミを入れながら読み進めるのが楽しむコツだ。

「自然な英文」「生きた英文」を読んで自分の脳内英語言語モデルを鍛えるという意味では、単語集の例文のような断片的かつ作為的なものを読むよりも、小説や随筆を読んだ方が良い。一方で、基本語彙のカバレッジを上げるならば、統計処理を経て編まれた単語集や熟語集に取り組むのは必須だ。小説や随筆を読んでいるだけではどうしても偏りが出てしまう。なので、どちらが良いという話ではなく、どちらにも取り組むべきということだ。普段英語を使わない日本人としては、単語集の方を先にやるのが王道だろう。それを卒業したら、ここで挙げたような小説も読みたいところだ。10冊も読めば、流石に英文読解にも慣れるだろう。その頃には、訳文がない普通の英文でも、辞書さえあれば読めるようになっているはずだ。文学だけじゃなく、新聞や雑誌やブログ等も読めることだろう。蛇足だが、社会契約論の原文はフランス語で、ユートピアの原文はラテン語なので、それらの英訳文が生きた英文と言えるのかどうかは微妙なところだ。

語彙はロングテール(頻度が少ないものが無数にある状態)なので、カバレッジを100%にするのは無理だ。しかし、95%くらいあれば、辞書を併用することで英文読解は進められる。それより低いと、類推や辞書引きに疲れてしまって進めなくなってしまう。98%くらいの語彙を知っていれば、辞書を引かずに未知語を類推するだけでも読解は進められる。多くの英文で98%にするためには、多読するしかない。単語集は95%に到達するのを早めてくれるが、それ以降は統計が意味をなさなくなるので、単語集をやり続けるのと他の資料を読むのとで差が無くなってくる。その先は、どのジャンルの英文を読んでも問題ないし、順番もどうでもいい。自分が面白そうだと思ったものを読めばいい。続けるのが大事で、続けるには楽しむのが大事だ。対訳本ならば、カバレッジが95%より低くても何とか読み進められるし、98%に達していたとしても訳文は理解の補助になり続ける。

そもそも何でこの対訳本プロジェクトを始めたかというと、単語集を復習するのに飽き飽きしたからだ。覚えた単語やフレーズは使わないとどんどん忘れてしまうが、仕事で使う語彙なんて限られているために、その他の語彙は定期的に復習しないといずれ忘れてしまう。だから単語集や文法書など60冊くらいが私の本棚に残っていて、どれかを日替わりなり週替わりなりで読むことにしていたのだが、さすがに同じ内容を何度も読むのは飽きた。もっと楽しく学べないものか。そして、語学学習を通じて知識や教養がつけられる方法はないものか。そこで考えたのが、任意の英文を単語集の代わりにするという作戦だ。

Web版とKindle版のどちらがいいかは悩ましいところだ。Web版のテーブル形式はとても見やすいので気に入っているのだが、液晶画面をずっと見ていると目がチカチカしてくるので、個人的にはKindle版を読む時間の方が長い。Kindle版でも慣れれば原文だけに集中できるようになるし、やはり目が疲れないのが良い。また、PCやタブレットだとSNSとかゲームとか余計なことをしてしまう誘惑があるが、Kindleだとそれがないので集中力が保ちやすい。Kindleでテーブル表示ができればいいのだけれど、いろいろ努力したが実現できなかった。ところで、上のリストにあるHTMLのデータはKindle用のEPUBモドキ形式のデータそのものなので、wgetで全部のXHTMLCSSをダウンロードしてから、同一ディレクトリのpackage.opfを保存すると、それをKindle Previewer 3に読み込ませてKindle用のMOBIファイルを作れるようになる。データをちょっといじれば他の電子書籍リーダ用の真のEPUB形式に変換するのも容易だろう。適当にいじって自分好みの対訳電子書籍を作っていただきたい。公開したデータは元々私の著作物ではないし、私がやった整形作業や機械翻訳の適用に創造性はないので私の著作権は加わらない。つまり依然としてパブリックドメインなので、加工も再配布も無許可で自由にしてかまわない。

私は"Sophies' World"とか"Charlie and the Chocolate Factory"とか"Harry Potter"シリーズとかのジュブナイル文学が結構好きなので、公開はできないけれど、自炊データから対訳本を作ったついでにまた読んでいる。それらは対訳がなくてもなんとか読める難易度なので、興味があれば自分で購入して読んでみて欲しい。あと、個人的には日本のラノベの英訳本も好きで、「涼宮ハルヒ」「俺ガイル」「青春ブタ野郎」「幼女戦記」シリーズの各英訳本を読んでいる。元々の日本語版を読んでから英訳本を読めば、たとえ対訳がなくても読解は容易だ。良い作品は何度読んでも面白い。日本語ならではの表現をどうやって英語で表現するかの翻訳者の創意工夫を垣間見るのも楽しい。それに、ラノベの原文は国語力が低いかもしれない読者層に合わせて簡単になっていて、各文は短くパラグラフも短い傾向にあるので、英語に翻訳されても読みやすい。役割語の消失による話者の判定の困難さは難点だが、日本語版を先に読んでいれば推測しやすい。翻訳者は役割語の代わりに適宜 "He said ..." とか "..., yelled Tanya" とか挿入すべきと思うのだが、そこまで読者思いの翻訳者はなかなか居ないのが現状だ。ともあれ、日本語を英訳した文だと、日本の話だから文脈が推測しやすいのみならず、翻訳で敢えて高度な修辞法を使うことは稀であるため、文構造や語彙は理解しやすい。そういう意味では、日本語を英語に訳したものだけを読んでいると、英語話者の語語法の学習にはなりづらいとも言えそうだ。とはいえ、やっぱ日本のラノベの方が面白いんだからしょうがない。ハルヒと俺ガイルは日本語依存の言葉遊びが多くて英訳だと面白さが半減してしまうが、青ブタと幼女戦記は英訳でも八割方の面白さは味わえると思う。ということは、多くの人が和訳で読んでいる英米文学の作品は、いくら翻訳者が頑張っていたとしても、面白さの何割かは削られてしまっているということだ。好きな作品を十全に味わいたいなら、原文を読みたいところだ。蛇足だが、ラノベ読んでから国富論とか読むと、文の長さと難解さで死にそうになる。スミス氏の想定する読者層の知的水準に私が全く追いついていないのは認めざるを得ないが、そもそも彼は読者を楽しませようと思って書いていないだろう。

準古典も現代文学ラノベ英訳も含めて、私が当面読みたい作品の対訳本はしこたま作り溜めたので、しばらくはPCを封印して、Kindleだけ持ってチェアリングの旅に出ようと思う。単車や自転車でぶらぶらして良さげな場所を発見したら、適当な場所に椅子を置いて読書なり何なりの暇つぶしをするという、地味だが文武両道かつコスパ最強の活動である。何百冊入れても端末一台で持ち運べて、どこでも読書に耽られるのだから良い時代だ。

おそらく5年か10年以内には、AI技術がもっと発達して携帯端末上で高度な処理ができるようになり、KindleやPC上の電子書籍リーダに十分な精度の自動翻訳機能が組み込まれるだろう。そうなれば、今回のような対訳本を作る必要はなくなる。そして、既に将棋の棋士がAIによる最善手から学んで練習しているように、英語学習者がAIによる翻訳から学ぶという時代が確実に来る。AIが人間から学ぶのではなく、人間がAIから学ぶというのが本末転倒な感じはするが、その方が効率的なのだから仕方がない。それまでに今のデータを読み尽くしてしまったら、また作ることになるかもしれないが、その頃には対訳本が要らないほど私の英語力が上がっていることを期待したい。

まとめ

大規模言語モデルのAIを駆使して著名文学作品の対訳本を作った。行形式のHTML版と表形式のHTML版と行形式のKindle版があるので、お好みのものを利用してほしい。機械翻訳の割には対訳の精度が高くて、普通に実用になる。適宜対訳を参照することで、英文読解の初学者でも、ちゃんとした文章を読み進めることができる。単語集や各種学習参考書以外の英文を読みたくなった人におすすめしたいし、英語力の維持向上を楽しく続けたい人にもおすすめできる。