Tolle et Lege Diary

2008-10-18 16:24:07

　pdf論文ファイルデータベースの続きですが、最後にpdfファイルからテキストを抽出して全文検索ができるように設定しておきたいところ。pyPdfというのがあるっていうので、これを試してみることにした。ubuntuにはpdftoolsというパッケージがあるが、よくわからなかったのだった。 Recipe 511465: Pure Python PDF to text converterを参考にやってみたのだが……。しかし、妙にスペースがなくなって詰まった文字列が出力されてしまった。単語間のスペースが消えてしまうことが多いのである。もちろん、# Collapse whitespaceの行を外してみたりもしたのだけど。どうしたらいいのか解らないので、結局xpdfのpdftotextを使うことにした。このXPDFというのは本当に便利だ。MacOSXでも、ビューア以外は使える。さて、

#!/usr/bin/python
# -*- coding: utf-8 -*-


import os


filelist = os.listdir('./')


idlist = []
for pdf_file in filelist:
  if pdf_file.find('pdf') > 0:
    pmid = pdf_file.replace(".pdf","")
    idlist.append(pmid)


for id in idlist:
  cmd = "pdftotext -nopgbrk " + id + ".pdf"
  os.system(cmd)
  txt = open((id + '.txt'),'r').read() 
  print txt
  print "-----------------------"


os.system("rm *.txt")

こんなふうにしてみた。os.system("command")で外部プログラムの実行ということで処理した。pdfという拡張子を外したり付けたり無駄なことをしているように見えると思うが、これは昨日からの作業の流れでこうなっているだけ。もちろん、テキスト抽出だけだったらこんなことをする必要はない。pdftotextはxyz.pdfというもので、ファイルから文字列を抽出するとxyz.txtというファイルに保存する。標準出力にする方法が解らなかったので、一旦txtファイルに保存してから、それを読み、作業後に削除することにした。削除もos.system("rm *.txt")で実行。

　これでいいのかな。一応、pmidをファイル名としたpdfファイルから、掲載誌、著者、題名、発表年、要旨、全文テキストなど、必要な情報が得られたので、こいつをMySQLデータとして保存すると同時に、Amazon S3にpdfファイルを保存すれば目的は達成できる。少なくとも私の目的は。

Back to Home

過去の日記

2021年

１月
２月
３月
４月
５月
６月
７月
８月
９月
10月
11月
12月

2013年

１月
２月
３月
４月
５月
６月
７月
８月
９月
10月
11月
12月

2012年

2011年

2010年

2009年

2008年

2007年

１月
２月
３月
４月
５月
６月
７月
８月
９月
10月
11月
12月

日記検索

ホームページに戻る

屋根裏の備忘録

2008-10-18 16:24:07

日記検索