2008-02-22 21:13:34
日本語の形態素解析にはMeCabが必要。私はUTF8に設定してインストールしている。python-mecabをインストールしようと思ったら、setup.pyで何やらエラーが出てしまう。私には何のことだかさっぱり理解できない。そこで、The Ubuntu NLP Repository v6.10から、python-romkan_0.02-2nlp2~0edgy1.tar.gzをダウンロードして、01_MeCab_wrap_cxx.diffの書き換えを適応してみると(一つやはり私には理解できない警告が出たものの)インストールに成功したようである。さっそく、test.pyを試してみたら、SyntaxError: Non-ASCII character '\xc2' in file test.py on line 7, but no encoding declared;というエラーが出てしまうではないか。何なんだ、これは。そこで、
# vim: set fileencoding=utf-8 :というのを二行目に追加したらちゃんと動いた(私はvimを使うことが多いので、vim:と書いている)。
0.93 太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー は 助詞,係助詞,*,*,*,*,は,ハ,ワ この 連体詞,*,*,*,*,*,この,コノ,コノ 本 名詞,一般,*,*,*,*,本,ホン,ホン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 二 名詞,数,*,*,*,*,二,ニ,ニ 郎 名詞,一般,*,*,*,*,郎,ロウ,ロー を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 女性 名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 渡し 動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 。 記号,句点,*,*,*,*,。,。,。 EOS BOS/EOS,*,*,*,*,*,*,*,* 太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー は 助詞,係助詞,*,*,*,*,は,ハ,ワ この 連体詞,*,*,*,*,*,この,コノ,コノ 本 名詞,一般,*,*,*,*,本,ホン,ホン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 二 名詞,数,*,*,*,*,二,ニ,ニ 郎 名詞,一般,*,*,*,*,郎,ロウ,ロー を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 女性 名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 渡し 動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 。 記号,句点,*,*,*,*,。,。,。 BOS/EOS,*,*,*,*,*,*,*,* EOSこんな結果になる。ニロウなんてことになっているけど。
その他、MySQL、Gnuplot、Rとの連携を確認。CGIスクリプトとしての動作を確認。