phantomjsはいらない?ヘッドレスchromeとはなんですか?

  • このエントリーをはてなブックマークに追加

ヘッドレスブラウジングがchromeドライバーでできるみたい

最近はpythonのネタばかりしかやっていません。この界隈のネタは取り扱って記事にした時点で、情報が古い可能性すらあります。どんどん情報が新しくなっている感覚があります。phantomjs以外にもヘッドレスブラウジングができる手段があることを知ってしまった以上、動作が速いほうを選択するという欲がでてきてしまいます。

これは試さずにはいられないでしょう。

また検証して結果をあげたいと思います。問題はウェブスクレイピングはrequestsモジュールを使ったほうが速いということです。ただ問題があってrequestsは

動的ページというものが解析できないということがあります。

 

動的ページとはなにか

わたしは素人なので、自身の口から説明することはできません。なので引用します。

動的ページとは、Webサイトにおいてユーザーがアクセスするたびにプログラムによって生成されるページを意味します。

http://www.protosolution.co.jp/glossary/web/ta/dynamicpage.html

これはポイントです。requestsは動的ページが解析できないので、いくら頑張ってもとりたいところが取れないという状況が発生します。google翻訳の訳をとってくるというのがいい例でした。google翻訳はjavascriptで動いているページだそうです。(これは動的ページということでした。)

 

ヘッドレスchromeの威力

検証中

 
  • このエントリーをはてなブックマークに追加
     

SNSでもご購読できます。

コメントを残す

*

CAPTCHA