PDFファイルをPythonで扱いたい【１時間目：オブジェクトの流れ】

import PyPDF2, os

pdf_file_obj = open('meetingminutes.pdf', 'rb')  # pdfを開く
pdf_reader = PyPDF2.PdfFileReader(pdf_file_obj)  # PdfFileReader()を使ってpdfオブジェクトを読み込む
page_obj = pdf_reader.getPage(0)  # pdfオブジェクトからpdfページオブジェクトを生成
pdftext = page_obj.extractText()  # extractText()でテキストを抽出
newtext_file = open('newtext.txt', 'w')
newtext_file.write(pdftext)
newtext_file.close()

コードの流れ

PyPDFモジュールをインポートする
pdfファイルをバイナリモードで開き変数に渡す
PdfFileReaderオブジェクトを生成：　PyPDF2.PdfFileReader(pdf_file_obj)
文書の総ページ数はPdfFIleReaderオブジェクトのnumPageに格納されている。
pageオブジェクトを生成：pdffilereaderオブジェクト.getPage()としえて引数にページ番号を渡す。【最初のページは０】
pageオブジェクトに.extracText()メソッドを使うとテキストを抽出してくれる。
テキストファイルを書き込みモードで開く
pdfファイルから抽出したテキストをテキストファイルに書き込んで保存

pythonでpdfを扱う必要はないかも

今回紹介したコードはpdfファイルからテキストを抽出して、新しいテキストファイルに抽出したテキストを書き込んでいるだけなので、通常はまずやらない対応だと思います。ですのでコードとしての価値はあまりないかもしれませんが、pdfファイルをオブジェクトとして扱うpythonコードの概要はつかめたのではないでしょうか？

次は「PDFファイルをpythonで扱いたい【２時間目：結合】」です。

退屈なことはPythonにやらせよう第2版 ―ノンプログラマーにもできる自動化処理プログラミング

オライリー・ジャパン

Amazonで探す

楽天市場で探す

Yahoo!で探す