CentOS7 に mecab と cabocha をインストールする。

テキストマイニングをするために、
CentOS7のサーバにmecabとcabochaをインストールした。
f:id:fclout:20081008130950j:plain

はじめに

テキストマイニングとは

テキストマイニングとは、簡単に言えば
文章の中から有用な情報(単語の頻度、傾向等)を取得するための手法・プロセス。
以下を参考に。

テキストマイニング(text mining)は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。
(wikipedia)

インストール環境

  • hyper-vによる仮想環境。
  • キャラクタセットUTF-8 (OSのデフォルトに合わせた)
  • インストールする各パッケージとバージョンは以下の通り
    • CRF++ - 0.58
    • mecab - 0.996
    • mecab-ipadic - 2.7.0
    • cabocha - 0.66

いざ、インストール

CRF++ - 0.58

以下のコマンドを実行する。
ただし、2015/5/5現在 "wget https://crfpp.googlecode.com/files/CRF%2B%2B-0.58.tar.gz"失敗する
なので
https://drive.google.com/folderview?id=0B4y35FiV1wh7fngteFhHQUN2Y1B5eUJBNHZUemJYQV9VWlBUb3JlX0xBdWVZTWtSbVBneU0&usp=drive_webからダウンロードしてきて、それをFTP等で/var/tmpに配置する。

# cd /var/tmp
# wget https://crfpp.googlecode.com/files/CRF%2B%2B-0.58.tar.gz ←失敗する
# tar xzf CRF++-0.58.tar.gz
# cd CRF++-0.58
# ./configure
# make
# make install

mecab - 0.996

# cd /var/tmp
# wget http://mecab.googlecode.com/files/mecab-0.996.tar.gz
# tar zxfv mecab-0.996.tar.gz
# cd mecab-0.996
# ./configure --with-charset=utf8 --enable-utf8-only
# make
# make check
# make install

mecab-ipadic - 2.7.0

# cd /var/tmp
# wget https://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
# tar xzf mecab-ipadic-2.7.0-20070801.tar.gz
# cd mecab-ipadic-2.7.0-20070801
# ./configure --with-charset=utf8
# make
# make install

cabocha - 0.66

# cd /var/tmp
# wget https://cabocha.googlecode.com/files/cabocha-0.66.tar.bz2	
# tar jxvf cabocha-0.66.tar.bz2
# cd cabocha-0.66

そのまま上記と同じ流れでインストールしようとすると下記のようなエラーが起きる

utils.cpp: In function 'void CaboCha::Unlink(const char*)':
utils.cpp:301:3: error: '::unlink' has not been declared
   ::unlink(filename);

なので予め、回避手順を実施する。

# vi src/utils.cpp
#include  //この一行を追記すること。

また、下記の手順も合わせて実施する。

# vi /etc/ld.so.conf
include /usr/local/bin //この一行を追記すること。

これで、エラーは回避できる。
準備が整ったところで他のパッケージと同様に以下の手順を実施する。

# ./configure --with-mecab-config=`which mecab-config` --with-charset=UTF8
# make
# make check
# make install


これでインストールは完了。
試しに動かしてみる。

# cabocha
高い富士山と海が美しい
    高い-D
  富士山と---D
        海が-D
        美しい
EOS

うん。ばっちり。
あとはこの結果を構文木としてデータ化すればOK。
構文木へのデータ化はまた今度。