no-image

初心者には優しくないPDFデータのクリーンアップについて

PythonでPDFデータを扱うにいはpdfminer3kを使用する

PDFを簡単にテキストファイルに変換できるツールとしてpdfminer3kモジュールがあります。pdfminer3kをpipインストールしてpdf2txt.pyというものを使うことによって、PDFファイルをテキストファイルに変換することができます。しかしながらPDFファイルをテキストに変換すると、非常に規則性のないデータになっています。これを規則性のあるデータにして抽出するのがクリーンアップです。

pdf2txt.pyの使い方

筆者の環境はwindows10です。pdfminer3kモジュールをインストールしてpdf2txt.pyファイルをカレントにおきます。そしてコマンドプロンプトでこのように入力します。

python pdf2txt.py -o output.txt hello.pdf

これで新しいテキストファイルができあがります。ところがここから先のコードが複雑すぎて挫折してしまいました。

できるだけ手作業をしないクリーンアップ手法はある?

テキストファイルのクリーンアップはやろうと思えばできますが、現状でPDFファイルをテキストに変換したものですと、テキストの目視確認→手作業でクリーンアップという非常に退屈な作業になってしまいます。データ量が小さなPDFを扱ったりするならば目視もたやすいですが、これが膨大なデータのPDFだったとすれば恐ろしいです。

しかも、日常的にデータを取り扱って仕事をしている人ならまだしも趣味でPDFデータを扱う人にとっては、PDFファイルごとにプログラムコードを書き換えるのは苦行でしょう。現在クリーンアップの自動化を研究中です。

PDFファイルをエクセルに変換するだけならウェブサービスもある。

他の記事でも紹介しましたがPDFからエクセルファイルに変換するだけならウェブサービスが使用できます。リンクは下記のサイトです。
PDF Excel 変換 – 基本無料