2008-02-22 21:13:34
日本語の形態素解析にはMeCabが必要。私はUTF8に設定してインストールしている。python-mecabをインストールしようと思ったら、setup.pyで何やらエラーが出てしまう。私には何のことだかさっぱり理解できない。そこで、The Ubuntu NLP Repository v6.10から、python-romkan_0.02-2nlp2~0edgy1.tar.gzをダウンロードして、01_MeCab_wrap_cxx.diffの書き換えを適応してみると(一つやはり私には理解できない警告が出たものの)インストールに成功したようである。さっそく、test.pyを試してみたら、SyntaxError: Non-ASCII character '\xc2' in file test.py on line 7, but no encoding declared;というエラーが出てしまうではないか。何なんだ、これは。そこで、
# vim: set fileencoding=utf-8 :というのを二行目に追加したらちゃんと動いた(私はvimを使うことが多いので、vim:と書いている)。
0.93
太郎    名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
この    連体詞,*,*,*,*,*,この,コノ,コノ
本      名詞,一般,*,*,*,*,本,ホン,ホン
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
二      名詞,数,*,*,*,*,二,ニ,ニ
郎      名詞,一般,*,*,*,*,郎,ロウ,ロー
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見      動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
女性    名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ
に      助詞,格助詞,一般,*,*,*,に,ニ,ニ
渡し    動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ
た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。      記号,句点,*,*,*,*,。,。,。
EOS
        BOS/EOS,*,*,*,*,*,*,*,*
太郎    名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
この    連体詞,*,*,*,*,*,この,コノ,コノ
本      名詞,一般,*,*,*,*,本,ホン,ホン
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
二      名詞,数,*,*,*,*,二,ニ,ニ
郎      名詞,一般,*,*,*,*,郎,ロウ,ロー
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見      動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
女性    名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ
に      助詞,格助詞,一般,*,*,*,に,ニ,ニ
渡し    動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ
た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。      記号,句点,*,*,*,*,。,。,。
        BOS/EOS,*,*,*,*,*,*,*,*
EOS
こんな結果になる。ニロウなんてことになっているけど。
その他、MySQL、Gnuplot、Rとの連携を確認。CGIスクリプトとしての動作を確認。