Octoparse – スクレイピングツール。新規登録、ダウンロード、使い方まで実践解説

Octoparse スクレイピングツールの新規登録、ダウンロード、基本的な使い方まで解説していきます。

スクレイピングとは

スクレイピングとはネット上の情報を収集することをいいます。詳しくは以下を参照してください。

一般的にはHTMLフォーマットからデータベースやスプレッドシートに格納・分析可能な構造化データへの変換に、より焦点が当てられている。また、コンピュータソフトウェアを利用して人間のブラウジングをシミュレートするウェブオートメーションとも関係が深い。ウェブスクレイピングの用途は、オンラインでの価格比較、気象データ監視、ウェブサイトの変更検出、研究、ウェブマッシュアップやウェブデータの統合等である。

引用元: ウェブスクレイピング – Wikipedia

Octoparseの特徴

スクレイピングツールのOctoparseの特徴や概要を簡単に紹介します。

  • 有料プランもあるが無料で使うことができる
  • 会員登録が必要
  • 機械学習アルゴリズムでクリックだけでデータ取得可能
  • あらゆるサイトに対応
  • クラウドサービス(有料)
  • 複数サーバーによるIP分散
  • スクレイピングのスケジュール設定
  • 様々なデータ形式に対応

Octoparseは有料プランがありますが、無料で使えるプランもあります。特徴としては会員登録しないと使えないことです。ですのでOctoparseを使うにはソフトのダウンロードと会員登録が必要になります。ダウンロードは以下のリンクから行えます。

Octoparseのダウンロードとインストール

Octoparseのダウンロードとインストール方法を紹介します。

ひとまず上記で紹介したダウンロードリンクからソフトをダウンロードしてきます。Zipファイルで提供されており中身は、セットアップをするための実行ファイルがあります。そちらの実行ファイルを実行して、Octoparseのインストール作業をすすめます。
octoparse zip

どこにインストールするか聞かれますので、場所を変えたい人は変えておきましょう。
octoparse install(1)

その他インストール作業で注意する点はありません。すぐにインストールは終わります。インストールしたらデスクトップにショートカットファイルができているのでそれをクリックします。すると以下のようなサインイン画面が立ち上がります。
ocotoparse signup

上記のように、会員登録していなければ使えないわけですね。

Octoparseの会員登録作業

Octoparseの会員登録はそこまで手間ではありませんでした。必要なのはメールアドレスと、パスワード、少しの項目選択くらいです。
ocotoparse signup(2)

Octoparseに登録が完了すると以下のような画面がでてきます。
octoparse signup finish

これで会員登録ができました。登録時のメールアドレスとパスワードを使ってサインインすることができます。

Octoparseの基本的な使い方

さて、会員登録してログインしソフトが使えるようになりましたが、ここから何をやればいいかですが、まず2つのモードがあります。WizardModeとAdvancedMode。それでこの記事ではわりと手軽につかえるAdvanceModeを使いたいと思います。

まずOctoparseのダッシュボードでAdvancedModeという項目のtaskというボタンをクリックします。
octoparse advancedmode

次にスクレイピングしたいサイトのURLを以下の欄に入力し、SaveURLをクリックします
octoparse saveurl

今回はプログラミングの質問サイトteratailの情報をスクレイピングしてみます。要素をクリックすると緑色にかわります。リストの場合2つ選ぶとのこりすべてが選択されます。
octoprase selection

要素を選択しただけではだめでワークフローというものを作成する必要があります。ActionTipsという黄色の帯のウインドウのところでテキストやリンクなどの項目をクリックするとワークフローに追加されます。
octoparse-workfllow

ここまで終わったら、データを抽出します。extractionとは抽出という意味になります。なのでStartExtractionというボタンをクリックします。するとどこにデータを抽出するか聞かれますが、とりあえずローカルを選択します。
octoparse extraction

すると新しいウインドウがたちあがり、ようやく抽出データをエクスポートできるようになりますので、ExportDataをクリックします。ExportDataの形式はさまざまなタイプが選べますので好きなものを選択し任意のフォルダにファイルをエクスポートします。
octoparse exportdata

Octoparseまとめと雑感

今回はOctoparseを使った簡単なスクレイピングしかやっていませんが、もっと高度なこともできるかと思います。ここでちょっと個人的な意見を書きますがOctoparseは使いにくいです。重たいのとUIがなんだか洗練されてないです。まだまだ粗削りな印象を受けました。2018年に登場したサービスのようなので今後はもっとつかいやすくなっていくのではないでしょうか?

ちょっとOctoparseに興味がでてきたので少しさわってみましたが結構難しいですね。またなにか便利な機能がわかれば書きたいと思います。この記事の情報は以上になります。