ウェブスクレイピングツールのOctoparseをつかってテーブルの要素がごっそり取得できたのでそのやり方を紹介したいと思います。※テーブルの要素を取得できても大した意味はありませんが、これはこれでもしかしたらなにかに使えるかもしれません。
Octoparseの導入方法については下記の記事にまとめています。Octoparseは有料ですが無料でつかうこともできるウェブスクレイピングツールです。
Octoparse – スクレイピングツール。新規登録、ダウンロード、使い方まで実践解説
Octoparseを使ってテーブルの要素を取得する。
OctoparseはWizardモードとAdvernceモードがありますが、今回はAdvernceモードを使います。
次にスクレイピングしたい要素があるウェブページのURLを以下に入力しSaveURLをクリックします。
Wikipediaのテーブルを取得してみる
今回はOctoparseのWikipediaのページにいってそこにあるテーブル要素を取得してみたいと思います。
テーブルの要素は以下の部分のことですね。
企業形態 | Webスクレイピングツール |
---|---|
設立 | 2015 |
本社 | Los Gatos, CA |
ウェブサイト | https://www.octoparse.jp |
Octoparseに表示されているWikipediaのページでテーブルの先頭の要素あたりをクリックします。するとActionTipという黄色の帯のウインドウに変化があります。よくみるとTABLEなどと書かれていてほかにもいろいろ要素を表す文字がでてきます。
今回はテーブルの要素が取得したいので、ActionTipsのTABLEという文字をクリックします。すると、テーブルの部分が緑色に変化します。
これでテーブルが選択された状態になりました。しかしこれだけはスクレイピングしたことにならないので今度はActionTipsに表示されている。Extract Outer HTML of the elementと書かれている部分をクリックします。(上記画像参照)
するとワークフローが追加されますので、それを確認したら、Extractionをクリックします。Extractionは日本語で抽出という意味です。
Extractionをクリックするとウインドウがたちあがるので、とりあえずはLocalを選択します。
あとはhtml形式でExportするだけです。これでtableの要素がごっそりとれたことになります。
Octoparseをテーブル取得だけで使うのは冗長か。
今回はOctoparseを使って簡単なテーブル取得を行いましたが、これだけの作業のためにOctoparseを使うのは少々冗長なところがあるかもしれません。要素の検証では大変な作業にしろページのソースを表示すれば簡単にコピペできそうではあります。
しかしもっと高度な使い方としてはAmazonの商品デ―タをスクレイピングしてエクセルにまとめたり、ツイッターをスクレイピングしたりすることもできるようです。個人的にはOctoparseはもう少し使いやすくしてほしい感じもしますが、これはこれで凄いソフトのような気もします。
Octoparseの情報はまだ少ないので、興味がある人には使いこなして情報を発信していただきたいです。
まとめ
- Octoparseを使うとhtml要素がスクレイピングできる
- テーブルをいっきに選択するにはActionTipsを使う
- Exportデータはhtmlファイルにする
エクスポートしたhtmlファイルは見た目が汚いので、なにかにつかいたかったら、エディターで整形することをおすすめします。最近のエディターであれば、だいたい整形機能はついているんじゃないでしょうか?EclipseだとCtrl + iでうまく整形できました。
この記事の情報は以上になります。
コメント