英和辞書 の検索結果:
…のを目標にする。統合英和辞書においては、見出し語と発音で1行使い、訳語のリストに1行使う。多読速読の際にはこの二つの情報こそが重要なので、この部分は譲れない。となると、残りは6行だ。半分くらいの語義は2行にまたがることを考えると、4項目からなる語義が最善ということになる。また、個々の項目の語義説明は長すぎても短すぎても良くない。1行にちょうど収まるくらいが読みやすいので、8単語くらいが最善だと思われる。以上の情報をパラメータとして、「読みにくさ」をコスト関数として表現して、そ…
…、十分な利便性の「英英和辞書」を構築し、検索することができる。それからKindle用の辞書データも生成できる。WordNetが基本語彙を確実に押さえ、Wiktionaryがロングテイルを拾うので、単語や熟語のカバー率については市販の中辞典クラスを上回っている。和訳の速読性と英文語義説明の情報量を併せ持つので、英文読解に使うのには最適な辞書に仕上がっている。さて、英和方向のカバー率を考えれば既に十分なのだが、和英方向で考えると不満が少しあった。和英辞書は主に英作文に使うことにな…
…語検索もできる自作の英和辞書をKindleの実機(Paperwhite)に入れて快適に使っているが、同じものをAndroidやPC(Mac)でも使う方法をメモする。もちろん、私の辞書でなくても任意のカスタム辞書を利用することができる。 Kindleの実機には辞書の追加が正式な機能として備わっている。辞書ファイル(mobiまたはazw)をdocuments/dictionariesの中に置くと、設定メニューの「言語と辞書」の「辞書」に現れるので、それを選択すればよい。一方で、な…
フリー英和辞書検索システムとそのKindle用辞書データにて、熟語の訳語を表示できるようにした話。英文読解をする上で熟語の理解は必須なので、その支援ができることは重要だ。しかし、熟語を選択して検索するのは難しい。そこで、中心となる単語を調べると、以下のように、その最後に重要熟語とその訳語が表示されるようにした。熟語の中でも特に重要な、句動詞と前置詞句が提示される。 まずは辞書検索システムのデモサイトをご覧頂きたい。基本語を検索すると、結果画面の下の方に関連する熟語とその訳が表…
Kindle用の英和辞書を自動生成するにあたり、形容動詞の訳語の表現方法をちょっと改良したという話。辞書データはこちらからダウンロードできるので、興味があれば使ってみてほしい。 Kindleで英文書籍を読むのに最適な英和辞書を構築するという話を前回の記事で書いた。3週間ほど実際に使ってみているが、やっぱり使いやすい。詳細な語義説明よりも、それっぽい訳語のリストが最初に見られるというのが、読書のリズムを崩さない上で重要だ。put outとかgive inとかgo through…
…)で使えるオープンな英和辞書を作ってみた。以前の記事で紹介したEPUB辞書をKindleのmobiフォーマットに変換したものである。データソースにはWordNetやWiktionaryなどのオープンに使えるものを使っている。辞書ファイルをダウンロードできるようにしておいたので、試しに使ってみてほしい。 何年かぶりに、Kindle Paparwhiteの新型が発売された。私にとっては待望だったので、早々に購入して使っている。画面が広くなってコントラストも高くなって動作も早くなっ…
…きる。今回は、実際に英和辞書のデータベースを圧縮してみて、どのくらい効果があるのかを確かめてみる。 結論としては、圧縮を適用するのであればZStdを使うのが良い。ハッシュ表のデータベースではファイルサイズが57%に減りつつ、29万QPSで伸長処理が行える。B+木のデータベースではファイルサイズが37%に減りつつ、12万QPSで伸長処理が行える。B+木とLZ4の組み合わせもなかなか有望で、52%の圧縮率を達成しつつ、性能劣化が非常に軽微で済む。実験対象の英和辞書は、統合英和辞書…
…もオーバースペック感が半端ないし、どうしたもんか。 まとめ。WordNetとWiktionaryを統合したフリーな英和辞書を使ったポップアップ辞書検索システムに、スター機能がついた。英文を読んでいて出会った気になる言葉にスターをつけて、あとで復習できるようにしよう。1時間英文を読み続けるよりも、50分を読むのに当てて10分を復習に回した方がおそらく学習効率が良い。とはいえそのためのノートを書くのな面倒くさい。そんなあなたには、このスター付きポップアップ辞書がうってつけである。
…itle": "統合英和辞書", "default_popup": "browser_action.xhtml" }, "content_scripts": [{ "matches": ["http://*/*", "https://*/*"], "all_frames": true, "js": ["union_dict_pane.js", "content_script.js"], "css": ["union_dict_pane.css"] }], "permissio…
…ら作った真にフリーな英和辞書を、Chromeブラウザのポップアップ辞書として利用できるように、拡張機能を作った。これをインストールすると、任意のWebページ内の任意の言葉を選択すると、その意味を辞書で調べて、結果がポップアップとして表示される。FacebookでもTwitterでもCNNでもどこでも使えて便利だ。未知の英単語やフレーズを見つけても、わざわざ辞書検索ページに移動することなく、意味を知ることができる。集中力を切らさないで英文を読み進められるという利点は非常に大きい…
…とになる。これで統合英和辞書の語彙数は246299語になり、語彙力年齢診断の問題数も81871語になった。難解語の多様性が増したことで上位年齢の精度が向上したように思う。 英英辞書を引いていてムカつくことの一つが、二重引きを前提とした、たらい回しの語義説明に当たることである。「draconianly」を調べて「in a draconian manner」と言われてしまうやつである。読者をなめてんのかよ。今まで作ってきた統合辞書には「draconian」の訳語として「厳格な」「…
…課題かも。 まとめ。英和辞書と獲得年齢データベースがあれば、英語の語彙力診断テストを作成することができる。たった22問の問題に答えるだけで、そこそこそれっぽい実力判定ができる。私個人の結果は17歳か18歳になることがほとんどだ。ところで、知らない言葉でも接頭辞とか接尾辞で大体の意味や品詞を推定できるので、「わからない」という選択肢を積極的に選ばずにそれっぽい語を選択していけば、それなりの結果が得られる。このような推論は実際にネイティブ話者も日常でやっていることなので、別にズル…
…工夫について述べる。英和辞書には、例によって、今まで作ってきたWordNet-Wiktionary統合辞書を使っている。単語だけでなく、複数語からなる熟語や定型句や複合名詞も見出し語として収録されている。各見出し語には、主に日本語WordNetとWiktionry日本語版を由来とする和訳がつけられている。今回は実装したのは、英文中の各語に和訳をルビとして振るとともに、その他の語義情報を付箋として貼り付けるという機能だ。英文とは、英単語のリストである。単語と複数語からなるフレー…
英和辞書を自動生成するにあたって、対訳コーパスを使って自動に対訳フレーズを抜き出す方法についてメモがてら説明する。 「Hello. Nice to meet you. I'm Tanaka.」といった英文の文章に対して「こんにちは。はじめまして。田中と言います。」といった和訳の文章を関連づけたものを、対訳コーパスと呼ぶ。実際には、日本語が原文で英語の方がその英訳だったりするかもしれないが、その方向はどっちでもいい。もちろん日英以外の対訳コーパスもある。有志が編纂した対訳コーパ…
…Mecabで行った。英和辞書を作るのに使うにはステミングがしてあった方が便利だが、その他の多くの用途では未加工の方が便利だろう。そもそも何でN-gramのデータベースが必要になったかというと、Wiktionaryのレコードを全部辞書にしていては無駄が多すぎるからだ。マイナーすぎる固有名詞とか古語とかスペルミスとかは捨ててしまいたい。また、日本語の訳語に対応する英単語やフレーズが複数ある場合には出現数が多いものを優先して並べたい。辞書に含めるのは単語だけでなく複数語のフレーズも…
…aryから作った統合英和辞書を転置して和英辞書を作る際に、訳語を正規化するとともに、関連語の訳語を伝搬して、再現率を高めようという話。公開運用サイトはこちらなので、使ってみていただきたい。これで再現率に関しては英辞郎に匹敵するようになったかな。 年末年始の休みでもあまり外出できない状況なので、家や図書館で読書などする日々である。Kindleで洋書を読むというのもなかなかオツなもので、その際にはKindle内蔵の辞書が役立つ。最近になってやっと英英辞書でも事足りるようになったと…
…てみた。また、一連の英和辞書関連のプロジェクトページも作った。 EPUBベースの辞書データの仕様は2015年にEPUB Dictionaries and Glossaries 1.0として制定されているので、それに基づいて作ってみた。実際のデータはこのEPUBファイルをダウンロードすれば見られる。EPUB文書としてはMacのBookでもAndroidのGoogle Play Booksでも閲覧できる。epubcheckのDICTプロファイルのチェックを通っているので、データの…
オープンなデータで英和辞書と和英辞書を構築して検索する連載の5回目である。今回は、曖昧一致検索も含めた複雑なパターン一致検索を実装し、さらに類語検索も実装する。曖昧一致検索と類語検索は、辞書の利便性を飛躍的に高めてくれる。いつものデモサイトにそれらを実装しておいたので、実際に試してみてほしい。オープンなデータでできる範囲では、最善の英和・和英辞書が実現できていると思う。 今回の改修により、以下の検索モードを選択できるようになった。 英和 完全一致 : 英和辞書の見出し語を検索…
英和辞書・和英辞書として使える辞書検索システムを作る連載の4回目である。今回はWictionaryから辞書データを抽出して、WordNetとも併合して、本物の英和辞書として使えるシステムを構築した。今回もデモサイトを作ったので、お試しいただきたい。凝った機能はまだ入れていないが、普通に使えるレベルになっていると思う。 英語の文字列を入力して検索すると、英和辞書としてその語を検索する。単語だけではなく複数語からなる熟語も数多く収録されている。日本語を入力すると和英辞書として逆引…
…て検索を行う。これで英和辞書としても和英辞書としても英英辞書としても使えることになる。英文読解には英和辞書を、英作文には和英辞書を使うのが通常だが、ついでに英英辞書の語義説明が目に入るとなかなか勉強になって良い。 情報検索システムとして捉えると、単に入力パターンとの完全一致で該当するレコード表示する機能しか実装していないので、えらく単純にも思える。しかし、データを準備するのが面倒くさいのだ。そこに至るまでにそれなりの知見が必要になる。それを説明していきたい。まず、WordNe…
…ことである。仕事柄、英和辞書と和英辞書はよく使うのだが、自分で作ったものを毎日便利に使っている。時間効率と空間効率に優れたDBMは辞書データを扱うのにうってつけだ。ということで、PythonでとDBMライブラリを使って単語辞書を実装していこう。 同じ仕組みで英和辞書でも和英辞書でも独和辞書でも中仏辞書でも何でも作れるが、当然ながら辞書データが必要である。私は普段、英辞郎のデータを購入して使っているが、ライセンス上、デモサイトの公開などには使えない。代わりに、この連載ではプリン…
…。各種ライブラリと、英和辞書と、文書検索と、写真管理ツールだ。各種処理系のバージョンが上がると微妙に非互換性があったりして驚くことがある。GCCの新しい警告が出るようになったり、Pythonの標準ライブラリのあるメソッドが削除されていたり。それらを直す。 ここまで全部入れると、/ パーティションの利用領域は8.9GBになる。16GBを確保しているので、通常運用には余裕がある。これが10GBとかだとなんだか怖いので、/ は16GBくらいで残りを /home にするのが単純明快で…
…考えてみた。 自分で英和辞書と和英辞書を作るという意味不明な趣味を持つ私である。フリーの英和辞書や英辞郎のデータをDBMに入れて検索できるようにしつつ、編集距離による曖昧一致検索とか、共起頻度から推定した類語検索とかも実装して、自分だけで便利に使っている。英和辞書を使う際のスペルミスを曖昧一致で救うが実用上まず重要だ。そして英文ライティングの際には和英辞書の類語検索がとても重要だ。さらに、マッチした単語を適合性を元に並び替えるのも大事だ。例えば「喧騒」って英語でなんて言うか調…
…みよう。 唐突だが、英和辞書がファイルに書かれていることを想定してみよう。辞書の各項目がテキストの各行として並べられ、見出しに英単語、それに続いて空白と「--」、その後に英単語の説明文が来るという書式を想定する。 apple -- りんご applet -- 小さいアプリケーション banana -- バナナ camera -- 写真機 dance -- 踊る end -- 終わる finger -- 指 ...見出し語は辞書順で並んでいるので、この構造に対しては二分探索がで…