2009-07-02 19:51:14
「Google ブックス、その本で「よく使われている語句」の表示機能」(InternetWatch)という記事を見つけたので、さっそくInside Google Book Searchの当該記事Explore a book in 10 secondsを読んでみた。結局、検索した本の中で使われている単語や語句を、クラウドっていう形式で示してくれるというだけのことだった。「だけのことだった」とは云っても、単語の数を数えるのが好きな私には嬉しい機能である。
「概要」というページに勝手に表示されるから、特に何もしなくていい。試しに、ダンセイニの『ペガーナの神々』を調べてみると、こんな感じになった。
そして、単語をクリックすると、出現箇所を表示してくれる。
固有名詞が多いのは仕方がないだろう。でも、必ずしもその文書を特徴付ける語として相応しいとは限らない。なにしろ、ペガーナの神々の名前はおそれく世界でこの本だけに高頻度で出現する単語だからだ。程度の比較にはあまり役に立たない。theeとかthy、hathも単なる活用形として古風な形が目立っているだけだから、特徴として抽出してどれだけ意味があるのだろう。これはこれで大きな特徴だからいいのか。よく判らない。目的にもよるだろうが。
やはり高頻度で出現する単語を抽出してクラウドで表示してくれるVocabGrabberで調べた結果と比較してみると面白いかも知れない。