初心者には優しくないPDFデータのクリーンアップについて

PDFデータをpythonでクリーンアップできる

クリーンアップの手法

PDFを簡単にテキストファイルに変換できるツールとしてpdfminer3kモジュールをpipインストールするとpdf2txt.pyというものを使うことによって、PDFファイルをテキストファイルに変換することができます。しかしながらPDFファイルをテキストに変換すると、非常に規則性のないデータになっています。これを規則性のあるデータにして抽出するのがクリーンアップです。

pdf2txt.pyの使い方

筆者の環境はwindows10です。pdfminer3kモジュールをインストールしてpdf2txt.pyファイルをカレントにおきます。そしてコマンドプロンプトでこのように入力します。

python pdf2txt.py -o output.txt hello.pdf

これで新しいテキストファイルができあがります。

できるだけ手作業をしないクリーンアップ手法はあるのか

現在模索中

テキストファイルのクリーンアップはやろうと思えばできますが、現状でPDFファイルをテキストに変換したものですと、テキストの目視確認→手作業でクリーンアップという非常に退屈な作業になってしまいます。データ量が小さなPDFを扱ったりするならば目視もたやすいですが、これが膨大なデータのPDFだったとすれば恐ろしいです。

しかも、日常的にデータを取り扱って仕事をしている人ならまだしも趣味でデータを扱う人にとっては苦行でしょう。現在クリーンアップの自動化を研究中です。

エクセルに変換するだけならウェブサービスもある。

他の記事でも紹介しましたがPDFからエクセルファイルに変換するだけならウェブサービスが使用できます。

 

SNSでもご購読できます。

コメントを残す

*

CAPTCHA