三月一五日(日)

 今週買った本。
●山尾悠子編『構造と美文』(ちくま文庫)
●ジョー・リトラー『反メリトクラシー』(河野真太郎訳/人文書院)
●マルセル・シュオッブ『黄金仮面の王』(大濱甫・多田智満子・垂野創一郎・西崎憲訳/河出文庫)
●ズデニェク・ランパス編『チェコ21世紀SF短編集』(平野清美編訳/平凡社ライブラリー)
 以上四冊。前半二冊が紙の本、後半二冊は電子書籍。

 pdf化した書籍については、その書名や著者名で検索できるようにしてゐるのだが、せっかく電子情報になってゐるのだから、収録作品でも検索できるやうにしたい。さう思って早速試してみた。ファイル名にはすべてISBNかNDLBIBIDが付されてゐるので、国立国会図書館のデータを検索できる。まず、これらのIDで検索して収録作品情報を取得する。残念ながら古い本には収録作品が入ってゐないものも多い。そこで、収録作品がなかったら冒頭の25ページほどをndlocr-liteで処理してテキスト情報を抽出し、目次っぽいページから収録作品を抽出するようにする。目次から、長篇か短篇集かアンソロジーかを判断するのはLLMである。今は、Ollama/qwen2.5:14bで処理する。こんな流れで収録作品を得て、sqlite3デーベースへ追加するpythonスクリプトを書いた(実際に作業したのはClaude codeだが)。何度か試行錯誤して何とか使へさうなのができたと思ふ。一気に三千ファイル処理しようか。しかし、pythonの本とかを処理しても仕方がないから、そこの振り分けは人力でするか。そこの振り分けもLLMにさせるか。

 今週pdf化した本。
◆アンダースン&ビースン『夢幻アセンブラ』(ハヤカワ文庫SF)
◆G・K・チェスタトン『新ナポレオン奇譚』(ちくま文庫)
◆キム・イファン『おふとんの外は危険』(竹書房文庫)
◆渡辺克義『物語ポーランドの歴史』(中公新書)
◆エドガー・アラン・ポー『ポー傑作集 江戸川乱歩名義訳』(中公文庫)
◆ジョー・リトラー『反メリトクラシー』(人文書院)
 少ないな。どうしてだらう。


三月八日(日)

 今週は本を買はなかった。体調が悪いのかも知れない。

 ジョナサン・ストラーン編『星の海を駆ける』(中原尚哉他訳/創元SF文庫)ご恵贈賜りました。

 マット・ディニマン『冒険者カールの地球ダンジョン 1 ―宇宙人襲来! 飼い猫とダンジョンに放りこまれたんだが?―』(中原尚哉訳/ハヤカワ文庫SF)ご恵贈賜りました。

 クリストファー・プリースト『不死の島へ』(古沢嘉通訳/東京創元社)読了。深刻な挫折感を抱いてロンドンを離れ、主人公は知人から仮住まいを許された別荘で執筆活動を始める。「書くことで、わたしは自分が書いたものになった」と言ふが、そうなのだらうか。この作品の面白さはうまく説明できないのだが、今年の一番になる予感はする。

 今週は、https://lab.ndl.go.jp/news/2025/2026-02-24/を使った、筑摩書房版芥川龍之介全集専用OCRスクリプトを作ったりしてゐた。本文2段+脚注1段(それぞれの段数はページによっては変はることがある)のページから本文だけ、脚注だけをそれぞれまとめて作品ごとに並べて配置するやうになった。Ubuntuでcudaを使った設定もできた。

 今週pdf化した本。
◆澁澤龍彦編『変身のロマン』(河出文庫)
◆ジェニファー・イーガン『古城ホテル』(RHブックスプラス)
◆マット・ディニマン『冒険者カールの地球ダンジョン1』(ハヤカワ文庫SF)
◆大森望編『SFマガジン700【海外篇】』(ハヤカワ文庫SF)
◆コナン・ドイル『ラッフルズ・ホーの奇蹟』(創元推理文庫)
◆レ・ファニュ『カーミラ』(光文社古典新訳文庫)
◆クレア・ノース『接触』(角川文庫)
◆井村君江『妖精とその仲間たち』(ちくま文庫)
 pdf化した本のテキスト化ファイルが、macocrで処理したもの、YomiTokuを使ったもの、そしてndlocr-liteを利用したもの、いろいろ混在してしまってゐる。いつか、すっきりさせたい。いつか。


二月二八日(土)

 今週買った本。
●ジュリー・フィリップス『男たちの知らない女 Ⅰ』(北川依子訳/国書刊行会)
●ジュリー・フィリップス『男たちの知らない女 II』(北川依子訳/国書刊行会)
●ミーガン・ローゼンブルーム『禁じられた装丁』(阿部将大訳/原書房)
『紙魚の手帖 Vol. 27』(東京創元社)
 最初の三冊は紙の本で。

 本の雑誌3月号「特集:そうだ、異世界に行こう!」も購入。

 SFマガジン4月号ご恵贈賜りました。

 今週pdf化した本。
◆大森望編『SFマガジン700【海外篇】』(ハヤカワ文庫SF)
 これ一冊だけ。ちょっとまずい。

 今週はpdf化書籍のテキスト認識について、いろいろ検討した。まずndlocr_cliを使って歴史的仮名遣いがうまく読めなかった問題を解決しようとしたが、改行の多い頁の処理がどうしてもうまくできない。そこで、YomiTokuと組み合せてみたりして、何とか納得できるOCRシステムを用意できた。
 ところが、NDLOCR-Liteが新しく発表されて、これがデスクトップ版もコマンドライン版もMacOSで動く。そして、GPU不要である。このコマンドライン版を使って一冊のpdf化書籍を処理するpythonスクリプトを作ってみると、Mac miniでも現実的な速度で、歴史的仮名遣ひであらうと現代仮名遣ひであらうと、適切に処理できると判った。今後は歴史的仮名遣ひに弱かったYomiTokuに換へて、ndlocr-liteで処理することにしてみよう。


ホームへ戻る