Selenium と Perl フォー待った―w

題名は完全に誤変換ですがおもしろかったので放置。

さて、miyagawa さんの Web::Scraper や Plagger がおもしろいし使えるしでよく遊んでいるのですが、
JavaScript 全盛というか js つかってないサイトあるのかくらいの勢いですよね。そうは思いませんか?

ん?これPlaかもとつぶやきつつやってみると結果が XPATH とか合っているのに全然スクレイプできず
元祖 print してみると JavaScript で HTML タグを生成していた、なんてことはザラなわけです。

mech (WWW::Mechanize) にしても人間でいうところの「目」が無いわけです。
「目」はブラウザにやらせればいいじゃないかということです。

その「目」にあたるのが Selenium というわけです。
文末のサンプルは、JavaScript で生成されている最新のウイルス情報ページなのですが、
そこから検知名や URL を取得したいと思った時に JavaScript で動的に生成されているため
「目」がないと JavaScript が文字列として取得されるだけなのですが、
サンプルスクリプトはちゃんと、JavaScript を実行後の HTML ソースコードを出力しています。
これは結構なパワーアップです。

動作確認環境は以下のとおりです。

* Firefox 29.1
* Selenium IDE 2.5.0
* Selenium IDE Button 1.2.0
* Selenium IDE: Perl Formatter 1.0.3
* Selenium Server (Standalone) 2.41.0
* JRE 1.7.0_55
* Firebug 1.12.8

スポンサーリンク