no-image

phantomjsはいらない?ヘッドレスchromeとはなんですか?

ヘッドレスブラウジングがchromeドライバーでできるみたい

最近はpythonのネタばかりしかやっていません。この界隈のネタは取り扱って記事にした時点で、情報が古い可能性すらあります。どんどん情報が新しくなっている感覚があります。phantomjs以外にもヘッドレスブラウジングができる手段があることを知ってしまった以上、動作が速いほうを選択するという欲がでてきてしまいます。

これは試さずにはいられないでしょう。また検証して結果をあげたいと思います。

requestsのデメリット

Webスクレイピングを行う方法は2つあります。

  1. requestsを使ってWebページをリクエストする方法
  2. Seleniumを使ってヘッドレスブラウジングする方法

ウェブスクレイピングはrequestsモジュールを使ったほうが速いです。ただ問題があってrequestsは

動的なページが解析できないということがあります。

動的なページってなに?

わたしは素人なので、自身の口から説明することはできません。なので引用します。

動的ページとは、Webサイトにおいてユーザーがアクセスするたびにプログラムによって生成されるページを意味します。

引用元: http://www.protosolution.co.jp/glossary/web/ta/dynamicpage.html

これはポイントです。requestsは動的ページが解析できないので、いくら頑張ってもとりたいところが取れないという状況が発生します。google翻訳の訳をとってくるというのがいい例でした。google翻訳はjavascriptで動いているページだそうです。(これは動的ページということでした。)

ヘッドレスchromeの威力は検証中です。