豪鬼メモ

一瞬千撃

対訳電子書籍その6 ChatGPTに重要語句を解説させる

任意の英語の文章における各文の重要フレーズの語義をChatGPTに解説させるという鬼の所業をした。この方法だと、全ての英語の本が例文付き単語集として使えるようになる。


前前回の記事にて、対訳電子書籍Kindle用データを大量に作ったことを述べた。単語集を卒業した次のステップとして英語の書籍を読む際の補助として、文毎の対訳があるというのは便利だ。私個人としてはこの時点で満足していて、暇な時にそれらの対訳本を読むのを日課にしている。一方で、単語集をまだ卒業していない人や、語彙力に不安がある人や、文法が苦手な人は、対訳を見るだけでは原文の解釈が十分にできない可能性がある。自分で原文の解釈をしながら読まないと、対訳ばかり追う癖がついてしまって意味がない。以下の動画では、きちんと文構造を把握した上で読解することの重要性が説かれていて、なるほどと思う。
www.youtube.com

文構造を把握するということは、主語や述語動詞とそれ以外の要素を特定し、それらが構成する文型を把握するということだ。主語や述語動詞などの格(文法的な役割)を特定するには、少なくとも各語の品詞を特定する必要がある。そして、各語がどの品詞として扱われ、どのような意味を持つかは事前に知っておく必要がある。これが語彙力だ。よって、語彙力が不足していると文構造の把握は難しくなる。さて、各文における単語や複数語で構成される句の品詞と語義を機械が教えてくれれば、多少語彙力が不足していたとしても読解が進められるはずだ。読解するには語彙力が必要であり、語彙力を強化するには読解が必要であるという循環関係を、「語彙チートシート」の補助によって打破するというのが今回の試みだ。

文構造を把握するには、脳内で構文解析をする必要がある。各単語の品詞とその修飾関係を推定して、構文解析木を構築し、主語や述語動詞などの格を見出すということだ。例えば、"The shock from being caught off guard is immense" という文を解析すると、以下のようになる。

ID 表層 原形 品詞 修飾対象
1 The the 冠詞 2
2 shock shock 名詞 8
3 from from 前置詞 2
4 being be 動詞の動名詞 3
5 caught catch 動詞の過去分詞 4
6 off off 前置詞 4
7 guard guard 名詞 6
8 is be 動詞 -
9 immense immense 形容詞 8

修飾関係をS式で書けば (is (shock the (from (being caught (off guard)))) immense) てことになる。文の根である述語動詞は "is" であり、何かの存在や状態を示そうとしているとわかる。述語は主語で修飾するのが普通だが、主語は "shock" である。そしてbe動詞は連結語として補語を伴うことがあり、その補語は "immense" である。つまり第一階層の式だけにすると (is shock immense) だ。この時点で「衝撃は甚大だ」という文の大意が掴める。この文は主語(主部)が長いのが特徴だ。"shock" には "the" が前置して、話者と聴者が共通に認識するものであることが示され、前置詞 "from" が後置されて何かに起因することが示される。その何かとは "being" であり、何かの存在や状態を示していて、具体的な状態はその補語である "caught" だ。さらに、"being" は前置詞 "off" にも修飾されていて、何かから外れた状態であることが示される。その何かとは "guard" だ。つまり、「警戒が外れた状態で補足されることに起因する、あなたと私が認知しているところの、衝撃」が主語の意味だ。述語動詞と補語の "is immense" は「甚大な状態である」という意味だ。全ての要素を総合して小慣れた和文に訳すと、「不意を突かれた衝撃は大きいな」となる。

構文解析の過程を言語として書き出すと非常に難解なことをやっているような気がしてビビるが、実際に英語話者は脳内でこれを一瞬でやっているのだから凄いものだ。もちろん日本語話者は日本語で同等のことを一瞬でやっている。英文をスラスラ読み進めたいのなら、このような構文解析を一瞬で、感覚的に、後戻りなしで、できるようにならないといけない。そのためには、各単語の意味だけではなく、品詞も思い浮かべる必要がある。品詞毎にどの格になれるかが違うからだ。例えば名詞なら主語や目的語になれるが述語にはなれない。動詞は主に述語になる。形容詞は名詞を修飾するか述語を修飾する補語になる。副詞は動詞か形容詞を修飾する。単語毎に辞書を引く方法だと、意味にも品詞にも複数の候補があるので、組み合わせ問題になりがちだ。その膨大な組み合わせの中から、常識に照らして最尤なものを選ぶ作業も必要になる。脳内に辞書を構築するのが語彙力の訓練であり、それを使って尤もらしい解釈を推定するのが読解力の訓練である。言語モデルがやっていることと一緒だ。

語彙力の不足が甚だしいと、それに依存する読解力の訓練にならない。頑張って読解に取り組んだとしても、辞書を引くのに時間がかかりすぎて嫌になってしまうだろう。とはいえ読解をすることが実践的な語彙力の訓練にもなるので、鶏と卵の問題である。そのような場合、完璧でも十分でもなくても、できることから始めるしかない。「shock=衝撃」みたいな一対一の暗記からはさっさと卒業して、例文を見ながら語彙力と読解力を同時に訓練していきたい。そのためには、例文に含まれる語彙に対して、そこでの品詞と意味を簡単に把握できるようにすればいい。品詞と意味さえわかっていれば、最低限の文法知識を適用することで、大抵の場合で正確な解釈ができるはずだ。例えば以下のような情報を提示する。

The shock from being caught off guard is immense.

- shock [名詞] 衝撃
- be caught [動詞] 捕まる
- off guard [副詞] 不意を突かれて
- immense [形容詞] 大きい

"the"、"is"、"from" などの機能語の説明は煩いので省く。また、"be caught" や "off guard" のように、名詞句、動詞句、副詞句などとしてまとめて解釈した方が良いものは、そうする。これはまさに市販の対訳文付きの単語集が実現していることだ。辞書を引く作業が省略できるので、読解の訓練に集中できるというわけだ。さて、これを任意の英文で自動生成できたら、文学作品そのものが単語集になるじゃないか。それができれば、文法書と単語集をそれぞれ1、2冊くらいやったら、もう実際の英文を読み始めてもいいんじゃないか。

もっと長い例も見てみよう。かなり長くて難解そうな文でも、個々のフレーズの品詞と意味が事前に提示されていれば、じっくり読めばきちんと解釈できるだろう。もちろん、関係代名詞とかの基本的な文法知識は前提となるが。

Mrs. Rachel Lynde lived just where the Avonlea main road dipped down into a little hollow, fringed with alders and ladies’ eardrops and traversed by a brook that had its source away back in the woods of the old Cuthbert place;

- Mrs. Rachel Lynde (レイチェル・リンド夫人) [名詞]
- live [動詞] 住む
- Avonlea [名詞] アヴォンリー
- main road [名詞] 街道
- dip down [動詞] 下る
- little hollow [名詞] 小さな窪地
- fringe [動詞] 縁取る
- alder [名詞] ハンノキ
- lady's eardrop [名詞] オダマキ
- traverse [動詞] 流れる
- brook [名詞] 小川
- source [名詞] 源
- back [名詞] 奥
- wood [名詞] 森
- old Cuthbert place [名詞] 古いカスバート家

学習の流れとしては、まずは原文だけを見て解釈しようと試みて、それに手こずったら語彙のリストを見ることになる。せっかく語彙の訳と品詞を提示するなら、英語による語義説明もつけておこう。訳語を見れば品詞も分かることが多いので、訳語、品詞、語義説明の順番で配置しようか。さらに、自分の解釈が正しいかどうか判定するために、語彙のリストの下に和訳文もつける。

Mrs. Rachel Lynde lived just where the Avonlea main road dipped down into a little hollow, fringed with alders and ladies’ eardrops and traversed by a brook that had its source away back in the woods of the old Cuthbert place;

- Mrs. Rachel Lynde (レイチェル・リンド夫人) [名詞] a woman who lives in Avonlea
- live (住む) [動詞] have your home in a particular place
- Avonlea (アヴォンリー) [名詞] a fictional town in Prince Edward Island, Canada
- main road (街道) [名詞] a major road
- dip down (下る) [動詞] go down
- little hollow (小さな窪地) [名詞] a small depression in the ground
- fringe (縁取る) [動詞] be on the edge of something
- alder (ハンノキ) [名詞] a tree or shrub of the genus Alnus
- lady's eardrop (オダマキ) [名詞] a plant of the genus Dicentra
- traverse (流れる) [動詞] go across or through something
- brook (小川) [名詞] a small stream of water
- source (源) [名詞] the place where something comes from
- back (奥) [名詞] the furthest part of something
- wood (森) [名詞] a large area of land covered with trees
- old Cuthbert place (古いカスバート家) [名詞] the house owned by the Cuthbert family

(レイチェル・リンド夫人は、アヴォンリーの街道がハンノキやオダマキに縁取られ、古いカスバート家の森の奥に源を発する小川が流れる小さな窪地に下るちょうどその場所に住んでいた。)

これ、完璧じゃね。このデータなら辞書を一切引かずに読解ができるし、必要であれば対訳を見て文意の確認もできるし、話が面白ければ飽きずに続けられる。精読したい場合には語義説明を読んでもいいし、各フレーズを辞書で引いて文法や語法や関連情報を把握してもいい。既にある対訳本に語彙のリストの注釈をつければこれが実現できそうだ。

試行錯誤の結果、ChatGPTに以下のようなプロンプトを投げるとうまくいくことが分かった。いつも通り、作業内容を先に指示してから、few-shotの具体例を書いて、最後に入力データを置く。入力データは原文と訳文のペアだ。訳文を与えないで同時に生成させることもできるのだが、それよりは事前に文脈をも読ませて生成しておいた訳文を与えた方が精度が高まる。手間は二倍かかるけど。

Given a translation pair from English to Japanese, extract important English phrases which are necessary to interpret the sentence.
The sentences are from the story "Anne of Green Gables" by Lucy Maud Montgomery.
For each important English phrase, output the Japanese translation, the part of speech, and the meaning in the context.
The English phrase should be in the base form even if it appears inflected in the sentence.
Pick up phrasal verbs and other set phrases proactively.

Sentence: The student came up with a way to avoid the conflict.
Translation: その学生は衝突を避ける方法を考え出した。
Phrase 1: student (学生) : noun : a learner who is enrolled in an educational institution
Phrase 2: come up with (考え出す) : verb : to manage to produce, deliver, or present something by inventing, creating, thinking of, or obtaining it
Phrase 3: way (方法) : noun : how something is done or how it happens
Phrase 4: avoid (避ける) : noun : prevent the occurrence of; prevent from happening
Phrase 5: conflict (衝突) : noun : a state of opposition between persons or ideas or interests

Sentence: John makes up his mind to proceed to higher education and learn physics.
Translation: ジョンは高等教育に進むことを決心する。
Phrase 1: make up one's mind (決心する) : verb : reach, make, or come to a decision about something
Phrase 2: proceed (進む) : verb : follow a certain course
Phrase 3: higher education (高等教育) : noun : education provided by a college or university
Phrase 4: learn (学ぶ) : verb : gain knowledge or skills
Phrase 5: physics (物理学) : verb : the science of matter and energy and their interactions

Sentence: When King George III of England learned that George Washington was going to voluntarily resign the presidency, he said “if he does that, he will be the greatest man in the world .”
Translation: ジョージ・ワシントンが自発的に大統領職を辞任することをイングランドのジョージ3世王が知った際に、「彼がそうするなら世界で最も偉大な男になるだろう」と言った。
Phrase 1: King George III (ジョージ3世) : noun : King of Great Britain and Ireland from 25 October 1760
Phrase 2: England (イングランド) : noun : a division of the United Kingdom
Phrase 3: learn (知る) : verb : get to know or become aware of, usually accidentally
Phrase 4: George Washington (ジョージ・ワシントン) : noun : the first president of the U.S.
Phrase 5: be going to (する予定である) : auxiliary verb : have something already planned or arranged; have something that is bound to happen; will
Phrase 6: voluntarily (自発的に) : adverb : out of your own free will
Phrase 7: resign (辞める) : verb : leave a job, post, or position voluntarily
Phrase 8: presidency (大統領職) : noun : the office and function of president
Phrase 9: great (偉大な) : adjective : of major significance or importance
Phrase 10: world (世界) : noun : the 3rd planet from the sun; the planet we live on
  
Sentence: Green Gables was built at the furthest edge of his cleared land and there it was to this day, barely visible from the main road along which all the other Avonlea houses were so sociably situated.
Translation: グリーン・ゲイブルズは、彼が開拓した土地の一番端に建てられ、今日に至るまで、他のすべてのアヴォンリーの家々が社交的に建ち並ぶ幹線道路からはほとんど見えなかった。

出力はこんな感じだ。人間が書いた単語集と言われても納得してしまうくらい、それっぽいのが生成される。いかにも言語モデル向けのタスクだとは思っていたが、ここまでうまくいくとは驚きだ。

Phrase 1: Green Gables (グリーン・ゲイブルズ) : noun : the name of a house
Phrase 2: be built (建てられる) : verb : to be constructed
Phrase 3: furthest (一番端) : adjective : the most distant
Phrase 4: edge (端) : noun : the outside limit of an object
Phrase 5: cleared land (開拓した土地) : noun : land that has been cleared of trees and other vegetation
Phrase 6: this day (今日) : noun : the present day
Phrase 7: barely (ほとんど~ない) : adverb : only just; almost not
Phrase 8: visible (見える) : adjective : able to be seen
Phrase 9: main road (幹線道路) : noun : a major road
Phrase 10: other (他の) : adjective : different from the one or ones already mentioned or implied
Phrase 11: Avonlea (アヴォンリー) : noun : a fictional town in Prince Edward Island, Canada
Phrase 12: house (家) : noun : a place where people live

とりあえずいくつかの英文を処理した結果をここに置いておく(末尾が-annotated.tsvのもの)。ざっと見た感じ、精度はかなり高く、ほとんどのフレーズの品詞と語義は妥当な水準に達しているように見える。もちろん機械なので間違いもあるのだが、それと分かって実用する上では許容範囲だと思う。他の巻や他のシリーズも気が向いたら作る。このデータを使ってどのような表示をするのかは、次回以降に議論する。

こうして抽出した重要語句とその語義説明は、そのまま統合英和辞書にも取り込めそうな気がした。冗長になるのを避けて既存の見出し語と被らないものだけを採用すれば、小説を読むのに必要だが今まで漏れていた語句のカバレッジが上がることになる。しかし、今のところそれは控えている。"be told" (言われる) とか、"when she was little (小さい頃は) とか "cleared land" (開拓した土地) とかも全部収録すると、辞書の容量が大きくなりすぎてしまう。辞書として収録すべき複合語は、その構成要素となる語の意味からは複合語の意味が想像し辛いものに限定すべきだ。それをどう判定するかは、目下検討中である。

余談だが、今回文法の話を書くにあたって、久しぶりにForest(今はEvergreen)を読み直した。世の中にいろいろ英文法の参考書はあるけど、やっぱこれが最も分かりやすいと思う。じっくり学びたいのであれば、大学受験の頻出問題を解かせるタイプのものではなく、ネイティブがよく使う表現を思い付きのように並べたタイプのものでもなく、基本から応用まで体系的に英文法を解説してくれる本が望ましい。毎日1時間で1章読めば1ヶ月で読破できる。一度読んだだけだと内容を右から左に忘れていくが、それでもいいから気楽に読めばいい。それを3周くらいすれば、大体の文法知識は身に付くと思う。それと並行して、英文の多読をすれば、読解力は爆上がりだ。

まとめ。英語の原文と対訳文のペアをChatGPTに与えると、重要語彙の訳語と品詞と語義説明をうまいこと生成できる。これを使えば、任意の英文を単語集っぽく加工できるはずだ。