豪鬼メモ

一瞬千撃

重要句動詞とKindle用英和辞書

「check out」などの句動詞の出現頻度別ランキングを改めて算出してみた。「check it out」などのように間に代名詞を含むパターンも集計対象に加えたので、より妥当な結果になったと思う。さらに、Kindle用英和辞書で、重要句動詞が調べやすいように改良した。


Web上から適当に集めた文書をコーパスとして、句動詞のフレーズが文中に現れる確率を集計した。その結果をここにアップロードしておく。上位を20件を示すと以下のようになる。

phrase self middle pronoun trailing pronoun self+middle
go to 0.0057 0.0000865 0.0001278 0.0057865
show in 0.0043467 0.0000443 0.0000859 0.004391
be on 0.0031491 0.0000349 0.0000989 0.003184
come to 0.0023579 0.0000725 0.0001297 0.0024304
look at 0.002373 0.0000291 0.0002941 0.0024021
live in 0.0020684 0.0000538 0.000071 0.0021222
carry out 0.0020823 0.0000121 0.0000572 0.0020944
depend on 0.0020193 0.0000602 0.0000601 0.0020795
consist of 0.0019278 0.0000552 0.0004081 0.001983
go on 0.0018625 0.0000839 0.000061 0.0019464
focus on 0.0018298 0.0000394 0.0000694 0.0018692
add to 0.0016967 0.0000994 0.0002489 0.0017961
work in 0.001696 0.0000612 0.0000704 0.0017572
find in 0.0016355 0.000053 0.0000542 0.0016885
deal with 0.0015146 0.0000497 0.0001942 0.0015643
work on 0.0015055 0.0000557 0.0001412 0.0015612
come from 0.0014771 0.0000691 0.0000522 0.0015462
set up 0.0015018 0.0000374 0.0000604 0.0015392
set to 0.0013924 0.0000389 0.0002238 0.0014313
talk about 0.0012553 0.0000239 0.0001308 0.0012792
get to 0.00111 0.0001103 0.0000823 0.0012203

結論としては、「go to」が最重要ということになる。ただ、それって「go」という動詞と「to」という前置詞の意味をそのまま持った表現なので、あまり熟語的ではない。いかにも熟語という感じのフレーズでは、「carry out」が最重要ということになろうか。「depend on」「consist of」「go on」あたりもいかにも受験の参考書に出てきそうだ。

句動詞は、動詞と不変化詞(particle)の組み合わせからなる。「go for it」のように不変化詞が目的語を取ればその不変化詞は前置詞(preposition)と呼ばれ、「check it out」のように動詞が目的語を取ればその不変化詞は副詞(adverb)と呼ばれる。その区別は結構微妙で、「get over it」(乗り越える)。「get it over」(理解させる)のように意味によって両方を切り替えて使うケースもあるので、我々学習者を悩ませる。

動詞が目的語を取って副詞が付く副詞的句動詞の場合、「check the song out」のように動詞-目的語-副詞の語順になる場合と、「check out the song」のように動詞-副詞-目的語の語順になる場合がある。「check it out」のように目的語が代名詞の場合、代名詞は間に挟まなければならない。そこで、今回の集計では、「check out」を集計する際に、「check it out」「check them out」「check me out」などのように間に代名詞が挟まるパターンも加算した。理想的には普通名詞が挟まるパターンも加算したいのだけれど、判定が難しいので割愛した。結果として、「take (it) back」「sum (them) up」「see (him) off」「walk (you) around」といった、いかにも代名詞と一緒に使う副詞的句動詞の順位を著しく上げることができた。

一方で、前置詞的句動詞であるところの「take to」(愛好する)の順位が「take him to the office」などの表現を拾うことで上がってしまう副作用もある。このノイズを切るには不変化詞の後に名詞や代名詞が来る確率を調べねばならない。一応、「take to it」「take to him」などの後ろに代名詞が来るパターンだけを集計してみて上記の表に乗せているが、これはあまり意味がなかった。本来は「take him to it」などの4-gram以上のパターンを検出しないといけないのだが、リソースの問題で諦めた。

さて、なぜ句動詞の再集計をしたかというと、Kindle用英和辞書で、「check」の項目に「check out」などの重要句動詞を乗せる際の重要度判定に代名詞が挟まるパターンを加味したかったからだ。この目的では、上述の偽陽性を拾ってしまう問題は許容できる。拾えないよりは、多めに拾ってしまう方がマシだからだ。

Kindleのポップアップ辞書検索の欠点として、完全一致じゃないと検索できないというのがある。本文に「He checked it out」と書いてあった場合、「checked it out」を選択しても、「check out」の検索はできない。ならば「check it out」「check them out」などの代名詞付きの表現も屈折(inflection)として登録してしまおうと考えたが、これは現実的ではない。「check」には「checking」や「checked」という元来の屈折があるので、それと代名詞との組み合わせは掛け算になってしまい、あまりに容量を圧迫するからだ。90MBを超えるような辞書データはKindle Previewer 3でmobiファイルを生成する際にエラーになるので、これ以上データ量を増やしたくない。この暗黙の制限というかバグにはマジで困っている。とはいえ、「check it」が重要句動詞として検出できるならば、「check」の項目に乗ることになるので、本文中の「check」だけを選択すれば「check out」の意味を知ることができるようになる。「checked」を調べた際に形容詞「checked」が見出し語として該当して動詞「check」が表示されない問題には別途対処する必要があるが。

ということで、改めてオープンソースKindle用英和辞書の宣伝。WordNetWiktionaryを解析して英文読解に必要な17万語を厳選し、必要十分な訳語と語義を掲載し、句動詞やその他の熟語までサポートした辞書である。英和辞書と、それを転置した和英辞書がある。Wiktionaryのデータは先週の最新の版に更新したので、コロナ関係とか時事ネタの語彙もかなり拡充している。以下のMOBIファイルをダウンロードして、Kindleバイス上の「documents」フォルダの下に置けば、設定メニューの辞書選択で選べるようになる。

Webブラウザで検索できるオンライン検索システムやそれをブラウザ上のポップアップ辞書として使うためのChrome拡張もあるよ。

この辞書に載っていない語句は知らなくても読解に問題ないと言い切ってもいい。よって、基本的な文法知識があれば、ポップアップ辞書に頼りつつもKindleで洋書が読める。私が毎日実際に使いながら改良しているので間違いない。クソ寒くてバイクも自転車も釣りも辛くなってきたこのシーズン。引き籠もりのお供に洋書を読み漁ってみてはいかがだろうか。