豪鬼メモ

一瞬千撃

2022-01-01から1年間の記事一覧

k-means法による単語クラスタリングの改良 その弐

前回の記事で述べたk-means法でもうちょっと遊んでいる。特徴量の正規化、段階的k-means++法、ヒープによるレベリング、特徴量の先鋭化を実装した。

k-means法による英単語クラスタリングの改良

k-means法で英単語をクラスタリングして、「連想英単語集」を作ったという話を前回したが、そのアルゴリズムを改良して精度を向上させた話。主に疎な特徴量に起因する問題を解決すべく、特徴量フィルタ、レベリング、総当り置換、k-means++法を導入した。

連想英単語帳 on Web

意味が似た単語を一気に覚えるための単語集のWebサイトを作った。オープンソースの単語集としては最大級のものだと思っている。Web媒体であることを利用して、記憶のチェック作業が容易にできるようになっているのも特長だ。 連想英単語帳Basic : 初級編、32…

重要英単語を自動分類して単語集を作成する

意味が似た単語はまとめて覚えた方が記憶の定着が良い。よって、重要英単語を抽出して、類似語を自動分類して単語集を作ってみた。自動分類にはk-meansというクラスタリングアルゴリズムを用いる。個々の語の特徴量は主に関連語と共起語から抽出する。

Verb/Adjective Conjugation in Kindle Japanese-English Dictionary

I introduced a custom Japanese-English dictionary for Kindle recently. This post explains its enhancement for conjugation of verb and adjective words in Japanese. With the feature, you can look up "走る" by selecting "走っ" in "走った". Pl…

悪魔の証明とユーザサポート

「見つからないことは、存在しないことの証明にはならない」 これは、消極的事実の証明とか、悪魔(神)の不在証明とか言われる類の命題の困難さを示す格言だ。プログラムの完全性の証明も、不具合の不在証明と同義なので、同様に困難だ。このことは、しばし…