OctoparseでWebサイトのテーブルをごっそり取得する方法

ウェブスクレイピングツールのOctoparseをつかってテーブルの要素がごっそり取得できたのでそのやり方を紹介したいと思います。※テーブルの要素を取得できても大した意味はありませんが、これはこれでもしかしたらなにかに使えるかもしれません。

Octoparseの導入方法については下記の記事にまとめています。Octoparseは有料ですが無料でつかうこともできるウェブスクレイピングツールです。

Octoparseを使ってテーブルの要素を取得する。

OctoparseはWizardモードとAdvernceモードがありますが、今回はAdvernceモードを使います。
octoparse advenceモード

次にスクレイピングしたい要素があるウェブページのURLを以下に入力しSaveURLをクリックします。
octoparse saveurl

Wikipediaのテーブルを取得してみる

今回はOctoparseのWikipediaのページにいってそこにあるテーブル要素を取得してみたいと思います。
octoparse wiki

テーブルの要素は以下の部分のことですね。

企業形態Webスクレイピングツール
設立2015
本社Los Gatos, CA
ウェブサイトhttps://www.octoparse.jp

Octoparseに表示されているWikipediaのページでテーブルの先頭の要素あたりをクリックします。するとActionTipという黄色の帯のウインドウに変化があります。よくみるとTABLEなどと書かれていてほかにもいろいろ要素を表す文字がでてきます。
octoparse tableelement get

今回はテーブルの要素が取得したいので、ActionTipsのTABLEという文字をクリックします。すると、テーブルの部分が緑色に変化します。
octoparse tableelement get(2)
これでテーブルが選択された状態になりました。しかしこれだけはスクレイピングしたことにならないので今度はActionTipsに表示されている。Extract Outer HTML of the elementと書かれている部分をクリックします。(上記画像参照)

するとワークフローが追加されますので、それを確認したら、Extractionをクリックします。Extractionは日本語で抽出という意味です。
octoparse extraction
Extractionをクリックするとウインドウがたちあがるので、とりあえずはLocalを選択します。

あとはhtml形式でExportするだけです。これでtableの要素がごっそりとれたことになります。
octoparse exporthtmlfile

Octoparseをテーブル取得だけで使うのは冗長か。

今回はOctoparseを使って簡単なテーブル取得を行いましたが、これだけの作業のためにOctoparseを使うのは少々冗長なところがあるかもしれません。要素の検証では大変な作業にしろページのソースを表示すれば簡単にコピペできそうではあります。

しかしもっと高度な使い方としてはAmazonの商品デ―タをスクレイピングしてエクセルにまとめたり、ツイッターをスクレイピングしたりすることもできるようです。個人的にはOctoparseはもう少し使いやすくしてほしい感じもしますが、これはこれで凄いソフトのような気もします。

Octoparseの情報はまだ少ないので、興味がある人には使いこなして情報を発信していただきたいです。


まとめ

  • Octoparseを使うとhtml要素がスクレイピングできる
  • テーブルをいっきに選択するにはActionTipsを使う
  • Exportデータはhtmlファイルにする

エクスポートしたhtmlファイルは見た目が汚いので、なにかにつかいたかったら、エディターで整形することをおすすめします。最近のエディターであれば、だいたい整形機能はついているんじゃないでしょうか?EclipseだとCtrl + iでうまく整形できました。


この記事の情報は以上になります。