豪鬼メモ

一瞬千撃

2022-02-01から1ヶ月間の記事一覧

英単語の派生語の半自動抽出

英単語を覚えるにあたって、基本語と派生語をまとめて覚えるのが効率的だ。「decor=装飾」を覚えたら、その動詞化「decorate=飾る」や、それがさらに名詞化した「decoration=装飾」や、それらがさらに形容詞化した「decorational=装飾の」「decorative=…

k-means法による単語クラスタリングの改良 その弐

前回の記事で述べたk-means法でもうちょっと遊んでいる。特徴量の正規化、段階的k-means++法、ヒープによるレベリング、特徴量の先鋭化を実装した。

k-means法による英単語クラスタリングの改良

k-means法で英単語をクラスタリングして、「連想英単語集」を作ったという話を前回したが、そのアルゴリズムを改良して精度を向上させた話。主に疎な特徴量に起因する問題を解決すべく、特徴量フィルタ、レベリング、総当り置換、k-means++法を導入した。