Pythonでpdfデータをクリーンアップするにはどうしたらいいのか

PythonでPDFデータを扱うにいはpdfminer3kを使用する
pdf2txt.pyの使い方
できるだけ手作業をしないクリーンアップ手法はある？
PDFファイルをエクセルに変換するだけならウェブサービスもある。

PythonでPDFデータを扱うにいはpdfminer3kを使用する

PDFを簡単にテキストファイルに変換できるツールとしてpdfminer3kモジュールがあります。pdfminer3kをpipインストールしてpdf2txt.pyというものを使うことによって、PDFファイルをテキストファイルに変換することができます。しかしながらPDFファイルをテキストに変換すると、非常に規則性のないデータになっています。これを規則性のあるデータにして抽出するのがクリーンアップです。

pdf2txt.pyの使い方

筆者の環境はwindows10です。pdfminer3kモジュールをインストールしてpdf2txt.pyファイルをカレントにおきます。そしてコマンドプロンプトでこのように入力します。

python pdf2txt.py -o output.txt hello.pdf

これで新しいテキストファイルができあがります。ところがここから先のコードが複雑すぎて挫折してしまいました。

できるだけ手作業をしないクリーンアップ手法はある？

テキストファイルのクリーンアップはやろうと思えばできますが、現状でPDFファイルをテキストに変換したものですと、テキストの目視確認→手作業でクリーンアップという非常に退屈な作業になってしまいます。データ量が小さなPDFを扱ったりするならば目視もたやすいですが、これが膨大なデータのPDFだったとすれば恐ろしいです。

しかも、日常的にデータを取り扱って仕事をしている人ならまだしも趣味でPDFデータを扱う人にとっては、PDFファイルごとにプログラムコードを書き換えるのは苦行でしょう。現在クリーンアップの自動化を研究中です。