テキストマイニングをするために、
CentOS7のサーバにmecabとcabochaをインストールした。
はじめに
いざ、インストール
CRF++ - 0.58
以下のコマンドを実行する。
ただし、2015/5/5現在 "wget https://crfpp.googlecode.com/files/CRF%2B%2B-0.58.tar.gz"は失敗する。
なので
https://drive.google.com/folderview?id=0B4y35FiV1wh7fngteFhHQUN2Y1B5eUJBNHZUemJYQV9VWlBUb3JlX0xBdWVZTWtSbVBneU0&usp=drive_webからダウンロードしてきて、それをFTP等で/var/tmpに配置する。
# cd /var/tmp # wget https://crfpp.googlecode.com/files/CRF%2B%2B-0.58.tar.gz ←失敗する # tar xzf CRF++-0.58.tar.gz # cd CRF++-0.58 # ./configure # make # make install
mecab - 0.996
# cd /var/tmp # wget http://mecab.googlecode.com/files/mecab-0.996.tar.gz # tar zxfv mecab-0.996.tar.gz # cd mecab-0.996 # ./configure --with-charset=utf8 --enable-utf8-only # make # make check # make install
mecab-ipadic - 2.7.0
# cd /var/tmp # wget https://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz # tar xzf mecab-ipadic-2.7.0-20070801.tar.gz # cd mecab-ipadic-2.7.0-20070801 # ./configure --with-charset=utf8 # make # make install
cabocha - 0.66
# cd /var/tmp # wget https://cabocha.googlecode.com/files/cabocha-0.66.tar.bz2 # tar jxvf cabocha-0.66.tar.bz2 # cd cabocha-0.66
そのまま上記と同じ流れでインストールしようとすると下記のようなエラーが起きる。
utils.cpp: In function 'void CaboCha::Unlink(const char*)': utils.cpp:301:3: error: '::unlink' has not been declared ::unlink(filename);
なので予め、回避手順を実施する。
# vi src/utils.cpp #include//この一行を追記すること。
また、下記の手順も合わせて実施する。
# vi /etc/ld.so.conf include /usr/local/bin //この一行を追記すること。
これで、エラーは回避できる。
準備が整ったところで他のパッケージと同様に以下の手順を実施する。
# ./configure --with-mecab-config=`which mecab-config` --with-charset=UTF8 # make # make check # make install
これでインストールは完了。
試しに動かしてみる。
# cabocha 高い富士山と海が美しい 高い-D 富士山と---D 海が-D 美しい EOS