Pythonでコサイン類似度を使ってテキストの類似度を計算する
テキストの類似度って言っても出現する単語の回数比較でしか無いので文意解釈はしてないです。あくまで「出現した文字の一致度」ですね。 Word2Vecとかを使ってテキストを拡張してあげれば少しは文意を加味した類似度といえるの … 続きを読む
テキストの類似度って言っても出現する単語の回数比較でしか無いので文意解釈はしてないです。あくまで「出現した文字の一致度」ですね。 Word2Vecとかを使ってテキストを拡張してあげれば少しは文意を加味した類似度といえるの … 続きを読む
使ったのはMovieLens 100k。 「100,000 ratings from 1000 users on 1700 movies.」 だそうです。 from sklearn.cluster import KMea … 続きを読む
Clustering text documents using k-means (K平均法を使ってテキスト文書をクラスタリングする)というそのまんまのサンプルがあったので写経して最低限だけ削りだしてみた。 K平均法とかT … 続きを読む
0.8あたりからMahoutはHDFSからデータ読み込むのがデフォルトになったのか、ファイルを読み込んでもらおうとしても「HADOOP_HOMEが無いよ!」ってエラー吐いて先に進んでくれません。 Hadoopいれろや、っ … 続きを読む