Pythonのscikit-learnでグリッドサーチを使ってSVMのパラメータチューニングをしよう
SVMはパラメータが多すぎる。全部試すとか手間が掛かり過ぎる。 そんな悩みを解決したいグリッドサーチの使い方です。 from sklearn.svm import SVC from sklearn.grid_search … 続きを読む
SVMはパラメータが多すぎる。全部試すとか手間が掛かり過ぎる。 そんな悩みを解決したいグリッドサーチの使い方です。 from sklearn.svm import SVC from sklearn.grid_search … 続きを読む
SVMなので二値分類です。多値分類でもSVMを使うこともありますが、あれは二値分類の繰り返しなのでやっぱりSVMを使うのであれば二値分類なんだろうなぁと思います。 LinearSVC、線形カーネルのサンプルです。相変わら … 続きを読む
機械学習させるときに用意したデータの9割を学習用データに、1割をテストデータに使ったりします。その分割を手軽にしてくれます。scikit-learnを使いたくてPython書いてるようなもんです。 from sklear … 続きを読む
今更のWord2Vec。 分かち書きしたテキストファイルを読み込ませて学習データを作って保存。保存した学習データを読み込んで類義語を出力するところまで。毎回学習してから類義語抽出っていう訳にもいかないから学習データの保存 … 続きを読む
分類するだけじゃなくて学習したデータを保存もしています。学習データがあったらデータを読み込んで利用します。 import os from sklearn.ensemble import RandomForestClass … 続きを読む
Non-negative Matrix Factorization(NMFでググるといろいろ出てきます)、非負値行列因子分解です。 集合知プログラミング でも紹介されている特徴を抽出する方法です。推薦エンジンとかにも使わ … 続きを読む
テキストの類似度って言っても出現する単語の回数比較でしか無いので文意解釈はしてないです。あくまで「出現した文字の一致度」ですね。 Word2Vecとかを使ってテキストを拡張してあげれば少しは文意を加味した類似度といえるの … 続きを読む
使ったのはMovieLens 100k。 「100,000 ratings from 1000 users on 1700 movies.」 だそうです。 from sklearn.cluster import KMea … 続きを読む
Clustering text documents using k-means (K平均法を使ってテキスト文書をクラスタリングする)というそのまんまのサンプルがあったので写経して最低限だけ削りだしてみた。 K平均法とかT … 続きを読む
0.8あたりからMahoutはHDFSからデータ読み込むのがデフォルトになったのか、ファイルを読み込んでもらおうとしても「HADOOP_HOMEが無いよ!」ってエラー吐いて先に進んでくれません。 Hadoopいれろや、っ … 続きを読む