Mahoutをローカルモード(Hadoopを使わない)で使うための設定

0.8あたりからMahoutはHDFSからデータ読み込むのがデフォルトになったのか、ファイルを読み込んでもらおうとしても「HADOOP_HOMEが無いよ!」ってエラー吐いて先に進んでくれません。

Hadoopいれろや、ってことなんですけどたいしてメモリ積んでないVMでHadoopいれると結構ツラいものがあるし、たかだか数百万件のログ読ますのにHadoopいれるのもなぁ、という感じでローカルモードで使う方法調べた時のメモ。使ったのはMahout 0.9です。

/usr/lib/にDLしてきたMahoutを置いて、.bash_profileに

export JAVA_HOME=/usr/lib/jvm/jre-1.7.0
export PATH=$JAVA_HOME/bin:$PATH

export MAHOUT_HOME=/usr/lib/mahout-distribution-0.9
export PATH=$PATH:$MAHOUT_HOME/bin
export MAHOUT_LOCAL=TRUE
export CLASSPATH=:$MAHOUT_HOME/lib/hadoop/hadoop-core-1.2.1.jar:$MAHOUT_HOME/lib:$CLASSPATH

って記述。

細かいことは割愛なんですけど、ポイントは「export MAHOUT_LOCAL=TRUE」の部分で、あとは通常の設定となんも変わらず。

ただ、最近Mahout使うよりPythonで書くほうが多いのであんまりMahout触ってない。