豪鬼メモ

一瞬千撃

英和辞書 の検索結果:

対訳電子書籍その6 ChatGPTに重要語句を解説させる

…説明は、そのまま統合英和辞書にも取り込めそうな気がした。冗長になるのを避けて既存の見出し語と被らないものだけを採用すれば、小説を読むのに必要だが今まで漏れていた語句のカバレッジが上がることになる。しかし、今のところそれは控えている。"be told" (言われる) とか、"when she was little (小さい頃は) とか "cleared land" (開拓した土地) とかも全部収録すると、辞書の容量が大きくなりすぎてしまう。辞書として収録すべき複合語は、その構成…

対訳電子書籍その4 LLMで作った著名文学作品の対訳本を公開

…れる。この機能は統合英和辞書のChrome拡張のスクリプトをページ内に埋め込んだものだ。よって、拡張機能をインストールせずとも、ポップアップ辞書が利用できる。調べた語句を覚えていなかったり忘れていたりしたなら、メモに書き留めるなり、ポップアップ辞書の星機能を使うなりして、後で復習するのが有用だ。 英文の読解力を高めるにあたって多読が良いのか精読が良いのかという議論があるが、その二元論はあまり重要じゃない。多読(速読)と精読はスペクトルであって、どちらかという話ではなく、基本的…

対訳電子書籍その3 Kindle用のmobiファイルを作る

…になる。まてよ。統合英和辞書のKindle版を作っている時には、少なくとも薄い文字色は使えていたぞ、と思った。そこから推測して、裏技を発見した。辞書としてレンダリングさせれば、なぜか一部のスタイルの設定が効くらしい。既存の辞書との整合性を取るためなのかどうかは知らないが、とにかくレンダリングのモードは一つではないっぽく、辞書は抜け穴の一つとして使える。そのためには、body要素のepub:type属性の値をdictionaryにして、かつ各段落をidx:entry要素で囲めば…

対訳電子書籍その1 ChatGPTに英文の文分割をさせる

…出てくる未知語は統合英和辞書で調べればいいし、それも面倒な時は未知語アノテーションシステムに投げることもできるので、読み進めることは可能だ。Kindleならポップアップで辞書検索できるし、紙の本を読んでいる時にも、スマホのデスクトップに辞書のブックマークを作っておけばすぐ調べられる。だだし、辞書引きだと限界があり、句動詞や熟語などの理解が難しかったり時間がかかったりすることがある。対訳コーパスだったら対訳文を見れば一発なのだが、残念ながらそれは存在しない。著名な作品は和訳本が…

ChatGPTに英語の共起語のリストを生成させる

統合英和辞書には各見出し語の典型的な共起語のリストを収録しているが、その生成をChatGPTにやらせてみた。結構まともな結果が得られ、類語検索や連想単語帳の精度が上がった。さらに、例文を選択する際にその共起語を含むものを優先することで、より典型的な例文を提示できるようにした。 「knife」の典型的な共起語として「stab」「kitchen」「edge」「blade」「sharp」などを人間は想起するだろう。それを辞書にも収録したい。共起語のリストを見ると、たとえ語義や訳語を…

ChatGPTに英語の語義を推測させる

…るEdict2を統合英和辞書に加えたことで、和英方向のカバレッジが著しく上がっている。Edict2は日本語の熟語に関してめっぽう強く、おかげで「入力欄」「終電」「学校給食」「大器晩成」とかを英語で何て言えばいいか簡単に調べられるようになった。漢語だけでなく、「胡麻すり」「取り巻き」「片手落ち」「お調子者」みたいな和語もカバーされている。それはいいのだが、統合英和辞書は本来は英英辞書なので、和英辞書を転置するだけでは英語の語義説明が無くて統一感に欠けるのが玉に瑕だった。例えば「…

ChatGPTに英単語の主要語義を選ばせる

…やらせてみた。 統合英和辞書において最重要のデータソースはWordNetである。WordNetは、同じ意味の単語のグループ(synset)に対して複数の語義を結びつけたデータベースである。残念ながら、その語義は順不同なので、各語にとってどの語義が最も重要かはわからない。そこで、日本語WordNetによって各語義に与えられる和訳が各単語の和訳と一致するものを典型的な語とみなして上位に表示するようにしていた。ただし、この方法だと翻訳精度に影響を受けるし、訳語のちょっとした表記揺れ…

ChatGPTで英語の基本動詞と句動詞を自動抽出する

英和辞書における句動詞のカバレッジを上げるべく、基本動詞を自動的に抽出し、基本動詞を含む句動詞の一覧とそれぞれの語義をChatGPTに生成させた。 統合英和辞書における単語のカバレッジはもう十分過ぎるのだが、複数語からなるフレーズのカバレッジにはまだ改善の余地がある。特に、英文読解に重要な、基本動詞から構成される句動詞のカバレッジを上げたい。例えば、基本動詞「make」は「make for」(≒bring)、「make up」(≒compose)、「make out」(≒un…

ChatGPTに和英辞書の漢字読み仮名を生成させる

…プンなKindle用英和辞書を転置してオープンなKindle用和英辞書を生成するにあたり、読み仮名をChatGPTに生成させて精度向上を図った。 統合英和辞書のKindle用英和辞書は、「draconian」などの英語のフレーズに「厳格な」などの和訳を結びつけた構造である。その並びは見出し語の辞書順(Unicodeのコードポイント順)にすれば良い。一方で、Kindle用和英辞書は「厳格な」などの日本語のフレーズに、それに訳せる「draconian」などの英語のフレーズを結びつ…

Chrome拡張ポップアップ辞書の先読み英熟語検索

…e拡張のポップアップ英和辞書機能にて、選択語句の周囲の語句を先読みして、関連する英熟語の検索結果を追加するようにした。例えば「The plane bursts into flames at Haneda.」という文の「bursts」を選択するだけで、「burst」(破裂する)の意味だけではなく、「burst into」(突入する)や「burst into flames」(炎上する)の意味も教えてくれる。これによって、どこからどこまでが英熟語なのかを事前に知る必要がなくなり、初…

Kindle用英和フォールバック辞書

Kindle用英和辞書の45万語収録のバージョンを作った。メインの英和辞書は容量制限の都合で収録語数を13万語程度に絞っているが、その収録内容を簡易化することで語数を増やしたものだ。 統合英和辞書はWiktionaryとWordNetやその他のコーパスを統合したおかげで45万語の収録語数を誇るが、その全部をKindle用英和辞書に収録することはできない。辞書のデータが100MBちょいを超えると、mobiファイルを作成するKindle Previewer 3が落ちてしまうからだ…

ChatGPTに発音記号と語義毎の例文を作らせる

統合英和辞書にて発音記号がない見出し語や例文がない語義が結構あったので、ChatGPTに生成させて、それらを収録した。Kindle用の英和辞書にも反映させてある。(追記:発音記号クイズも作った) 統合英和辞書はWiktionaryやWordNetやその他のオープンなデータを統合して作られているが、発音記号は主にWiktionary英語版とWiktionary日本語版から抽出している。それらによって主要な語はカバーできているのだが、派生語やマイナーな語は発音記号がないことの方が…

追記型データベースと転置インデックス

…自前のKindle用英和辞書を作るのにも使っていたりする。 HashDBMの追記モード 転置インデックスはMapReduce的なバッファリングをした上でソートされた結果をスキップリストに保存することで構築するのが最善であるという答えはもう出ていて、それ以上に効率的な方法はない。とはいえ、スキップリストの部分を追記型のハッシュデータベースに替えるという代替案もある。HashDBMを追記モードで作成すると、レコードの更新操作ログが全てデータベースに追記され、その個々のキーの最新ロ…

ChatGPTで日本語WordNetモドキを作る

…また、その結果を統合英和辞書に組み込んで、語義と訳語の対応の精度を向上させた。最新版の検索サイトはこちらで利用でき、Kindle版の英和辞書はこちらでダウンロードできる。 WordNetは英語の言葉を意味ごと20万個ほどのクラスタに分類してそれぞれに語義説明をつけたものだ。また、日本語WordNetというプロジェクトがあり、それはWordNetの個々の語義に簡潔な日本語訳をつけてくれるものだ。双方を組み合わせると簡潔な英和時点を作ることができ、私の統合英和辞書でもそのデータを…

ChatGPTで英語の類義語を生成して英和辞書を鍛える

…。このデータを使って英和辞書の利便性を向上させる手法についても述べる。 ChatGPTのプロンプトに「12 shortest synonyms of "dash"」とか入力すると、「dash」の12個の類義語を教えてくれる。結果は以下のようになる。 Sprint Rush Bolt Scamper Dart Gallop Hasten Charge Zip Flash Whisk Fly 「shortest」は付けなくてもいいが、付けないとたまにやたら長いフレーズが出力される…

ChatGPT+DeepLで無料で対訳例文コーパスが作れる

…pL翻訳を併用して、英和辞書の重要語見出し語13.5万語の対訳例文27万文を生成した。この13.5万語には複数語からなる連語も含むが、日常生活はもちろん、大学入試やTOEIC、TOEFL、英検等の受験に必要なレベルの語彙はほぼ全て網羅しているはずだ。「rodent」(げっ歯類)、「mollusk」(軟体動物)、「vagabond」(漂流者)などのちょっと難易度高めの単語も網羅しているし、「class action」(集団訴訟)、「make a complaint」(苦情を言う…

統合英和辞書の改善

統合英和辞書システムにいくつか改善を加えた。オンライン検索で検索結果の二度引きができるようにして、特にChrome拡張ポップアップ辞書での利便性が向上した。また、オンライン検索とKindle用英和例文辞書の双方で例文の表示を改善した。さらに、オンライン検索で例文の全文検索ができるようにした。Kindle辞書の最新版は以下でダウンロードできる。 英和辞書MOBI 英和例文辞書MOBI 和英辞書MOBI まず、Kindle用の英和例文辞書での改善点について述べる。以前はこのような…

Tkrzw-Python/Ruby/JavaのProcess系メソッドとSearch系メソッド

…テムに仕上げた。統合英和辞書を構築運用するための大規模データを使った処理が、分散処理もせずに私のボロいノートPC上だけで完結しているのは、ひとえにTkrzwとその周辺でのチリツモの最適化のおかげである。そんなこんなで、統合英和辞書の検索システムで例文の全文検索が可能になっている。「索引」のプルダウンで「例文」を選んでから、検索窓に適当な文字列を入れて検索されたい。英語でも検索すれば単語境界を加味して英文を検索してくれるし、日本語を入力すれば単に中間一致で訳文を検索してくれる。…

Kindle用英和例文辞書

Kindle用の英和辞書の亜種として、英和例文辞書を作った。読書中に出会った言葉の他の用法がどうしても気になってしまった場合に便利だ。以下のMOBIファイルをダウンロードしてKindle実機にインストールしてほしい。通常の英和辞書と併用するとお得だ。 英和例文辞書MOBI Kindle用の英和辞書は絶賛公開中であるが、そこに例文も載せたくなった。Chrome拡張のついでに強化した例文機能が意外に便利だったからだ。基本的に読解の際には本文に例文があるので辞書の例文を読む必要性は…

Chrome extension for pop-up English-Japanese/Japanese-English dictionary

…hrome拡張は統合英和辞書のメインサイトの機能をポップアップ上で利用できるようにしただけだ。辞書を集中的に使いたい場合にはそこにアクセスする方がよいかもしれない。You can use the same pop-up dictionary on Kindle devices by installing these MOBI files (English-Japanese, Japanese-English). 同じ辞書をKindle上のポップアップ辞書としても使うことができ…

JESCの例文を英和辞書に付与

…ら抽出した対訳文を、英和辞書の例文として付与した。クリーンアップやフィルタの面倒だった話をメモ。 JESCの公式ページに書いてあるが、スタンフォード大学やらが279万個の字幕文とその対訳を収集してコーパスとして公開している。データはTSVファイルなので、扱うのも簡単だ。ただ、字幕なので、意訳、省略、追加が激しいのと、アラインメントがずれがちなので、そのまま辞書の例文として使うには厳しい。適切なものをだけを選択するフィルタを書かなければならない。また、なぜか英文が全て小文字に正…

英和辞書に田中コーパスの対訳例文を付与

統合英和辞書に対訳例文を付与した話。対訳コーパスを元にしたので、英語の例文だけではなく、その訳も読める。実際の用例とそこでの意味が把握できるようになったので、英作文やスピーキングの際により便利な辞書になった。 まずは実際に使ってみてほしい。「get carried away」の検索結果を見てみよう。訳語のリストから、「調子に乗る」という意味であることは理解できるが、実際にどんな文脈で、どんなニュアンスで使われ得るのかはそれだけでは分からない。そこで例文の方に目を移すと、「Ho…

英和辞書の類語検索とコロケーションの拡充

統合英和辞書のWeb検索機能でより簡単に類語検索ができるようにしてみた。また、句動詞の拡充を頑張ってきたが、それ以外のコロケーション(連語)の拡充にも取り組んでいる。その経過報告。例によってKindle用英和辞書の最新版も更新して結果を反映させている。 英和辞書MOBI 和英辞書MOBI まずは類語検索の話をしよう。とりあえず検索システムを使ってみてほしい。「happy」の検索結果を見て、語義の欄の右上にある相似アイコン(∽)を押してみてほしい。「happy」と似た意味の語句…

英単語の屈折を扱うPythonライブラリ

…、せっかくオープンな英和辞書を持っているのだから、そこから自前の屈折データベースを抽出して、ライブラリも書いみた。まあそういうわけで、使ってみてほしい。Python3が動くマシンであれば、どこでも動くはずだ。このTSVファイルenglish_inflections.tsvとソースコードenglish_inflections.pyをダウンロードして適当な場所に置けばインストール完了だ。このライブラリはコマンドとしても動くので、まずはそれを使ってみよう。「go」の屈折形を知るには…

中心語判定による英熟語の単語への付与

英和辞書の各単語の説明において、その単語を含む熟語を載せるにあたり、今までは前方一致と後方一致のみをサポートしていた。例えば、「dry」に関しては前方一致の「dry ice」などや後方一致の「make dry」などを収録していた。それだと「part」に関して「take part in」を収録できないという問題があった。今回はこれを解決した。 英和辞書MOBI 和英辞書MOBI 英和辞書で熟語や句動詞の意味を調べる際には、中心となる語を選択するのが一般的な作法である。「part…

Kindle用英和辞書の未収録派生語転送

Kindle用英和辞書で、ファイル容量の制限のために収録できなかった派生語を、派生元の語の別名として登録した。これにより、辞書に収録されなかった派生語を調べた場合にも、次善策として派生元の語が表示されるようになった。さらに、派生関係を使った訳語の伝搬アルゴリズムも少し改良して、より多くの語に訳語を付与した。結果として、和英辞書のカバレッジも少し上がっている。 英和辞書MOBI 和英辞書MOBI Kindle用の辞書ファイルは、加工前のデータファイルの容量が90MBくらいを超え…

Kindle用英和辞書の分詞派生語対策

Kindle用英和辞書で、現在分詞や過去分詞が独立した見出し語として登録されている場合に語幹の動詞が検索できないという問題に対処した。昨日の今日だが、従来のバージョンを使っている人はぜひ更新してほしい。和英の方は変わっていない。なお、デバイス上の辞書ファイルを上書きした際には、再起動するか、メニューで辞書を選択しなおすことが必要である。 英和辞書MOBIファイル 和英辞書MOBIファイル 前回の更新にて、「check out」などの副詞的句動詞の意味を調べる際に、核となる動詞…

重要句動詞とKindle用英和辞書

…らに、Kindle用英和辞書で、重要句動詞が調べやすいように改良した。 Web上から適当に集めた文書をコーパスとして、句動詞のフレーズが文中に現れる確率を集計した。その結果をここにアップロードしておく。上位を20件を示すと以下のようになる。 phrase self middle pronoun trailing pronoun self+middle go to 0.0057 0.0000865 0.0001278 0.0057865 show in 0.0043467 0.…

アクセシブルな英和辞書

フリーのオンライン英和辞書サービスを、スクリーンリーダーなどのアクセシビリティ補助ツールでも使いやすいように工夫してみた。少なくとも、MacOS付属のVoiceOverによる読み上げで使いやすいようにはなっている。 Webサイトのアクセシビリティを向上させるための手法は数多あるが、その中でも容易に取り組めて効果が高そうなものを英和辞書検索サービスにも取り入れてみた。HTML5のセマンティック構造を採用するとともに、スクリーンリーダ(画面読み上げソフト)で主要な情報だけ拾い読み…

Kindle辞書における掲載語義選定の改善

…のを目標にする。統合英和辞書においては、見出し語と発音で1行使い、訳語のリストに1行使う。多読速読の際にはこの二つの情報こそが重要なので、この部分は譲れない。となると、残りは6行だ。半分くらいの語義は2行にまたがることを考えると、4項目からなる語義が最善ということになる。また、個々の項目の語義説明は長すぎても短すぎても良くない。1行にちょうど収まるくらいが読みやすいので、8単語くらいが最善だと思われる。以上の情報をパラメータとして、「読みにくさ」をコスト関数として表現して、そ…