2008-12-30 22:22:05
『Rによるテキストマイニング』(森北出版)[amazon.co.jp, bk1, 楽天, 紀伊國屋書店, Yahoo! Books]には載っていないようなのだが、RCaBoChaという素敵なものもあるという。Rから日本語形態素解析ソフトCabochaが使えるようになるのである。RCaBoChaのサイトから、RCaBoCha_0.11.tar.gz (R-2.8.1)あるいは、RCaBoCha_0.07.tar.gz (R-2.7.1)をダウンロードして、
install.packages("RCaBoCha_0.07.tar.gz", lib.loc = ".", repos = NULL) > install.packages("RCaBoCha_0.07.tar.gz", lib.loc = ".", repos = NULL) install.packages("RCaBoCha_0.07.tar.gz", lib.loc = ".", repos = NULL) 中で警告がありました: 引数 'lib' が欠けています:/usr/local/lib/R/site-library を使います * Installing *binary* package 'RCaBoCha' ... * DONE (RCaBoCha)という警告が出るが、気にしなくていいらしい。
が、使おうとすると、
> library(RCaBoCha) Error in dyn.load(file, DLLpath = DLLpath, ...) : 共有ライブラリ '/usr/local/lib/R/site-library/RCaBoCha/libs/RCaBoCha.so' を読み込めません libcabocha.so.4: cannot open shared object file: No such file or directory エラー: 'RCaBoCha' に対するパッケージもしくは名前空間のロードが失敗しましたというエラーが出てしまうではないか。どうしたらいいものか。
libcabocha.soは.2.1.1までしかないのだが。私の南瓜は古いのか。確認すると0.53だった。0.6を入れることにしよう。そうすればutf8にも対応しているらしいから。
TinySVMとyamchaはすでに入っているので、crfpp 0.51
cabocha 0.60pre4
をインストール。
crfppは、
.configure make sudo make installで、cabochaは、
./configure --with-charset=UTF8 make sudo make installでインストール。
makeのところで、libcrfpp.so.0がないなんて云うので、ldconfigをやったら、見つけられたようだ。libcabocha.so.4 も入って、library(RCaBoCha)でエラーもでなくなった。
cabocha -f1で起動して、文を入力してみると、
私の名前は中野です。 * 0 1D 0/1 1.682242 私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ O の 助詞,連体化,*,*,*,*,の,ノ,ノ O * 1 2D 0/1 0.000000 名前 名詞,一般,*,*,*,*,名前,ナマエ,ナマエ O は 助詞,係助詞,*,*,*,*,は,ハ,ワ O * 2 -1D 0/1 0.000000 中野 名詞,固有名詞,地域,一般,*,*,中野,ナカノ,ナカノ B-LOCATION です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス O 。 記号,句点,*,*,*,*,。,。,。 O EOSといった具合に表示された。これではまだ何も解らないが、utf8が使えるようになったのは嬉しい。今までわざわざcabocha用にeucで出力するchasenを用意していたくらいなのだ。といっても仕事で使うことはないんだけど。
使ってみるのはまた明日以降。