題名は完全に誤変換ですがおもしろかったので放置。
さて、miyagawa さんの Web::Scraper や Plagger がおもしろいし使えるしでよく遊んでいるのですが、
JavaScript 全盛というか js つかってないサイトあるのかくらいの勢いですよね。そうは思いませんか?
ん?これPlaかもとつぶやきつつやってみると結果が XPATH とか合っているのに全然スクレイプできず
元祖 print してみると JavaScript で HTML タグを生成していた、なんてことはザラなわけです。
mech (WWW::Mechanize) にしても人間でいうところの「目」が無いわけです。
「目」はブラウザにやらせればいいじゃないかということです。
その「目」にあたるのが Selenium というわけです。
文末のサンプルは、JavaScript で生成されている最新のウイルス情報ページなのですが、
そこから検知名や URL を取得したいと思った時に JavaScript で動的に生成されているため
「目」がないと JavaScript が文字列として取得されるだけなのですが、
サンプルスクリプトはちゃんと、JavaScript を実行後の HTML ソースコードを出力しています。
これは結構なパワーアップです。
動作確認環境は以下のとおりです。
* Firefox 29.1
* Selenium IDE 2.5.0
* Selenium IDE Button 1.2.0
* Selenium IDE: Perl Formatter 1.0.3
* Selenium Server (Standalone) 2.41.0
* JRE 1.7.0_55
* Firebug 1.12.8