PhantomJS(Python3.5、Selenium)でリダイレクトのトラッキング-Browsermob-proxyのインストール編-

Browsermob-proxyのインストール編

PhantomJSは、Webkitベースのヘッドレスブラウザです。
JavaScriptの解析エンジンが搭載されていて、
JavaScriptのレンダリングが必要なWebサイトのスクレイピングができます!
なので、meta要素やJavaScriptによるクライアントサイドでの
リダイレクトにも対応できるという優れものです!

それで、これからの内容ですが、
PhantomJSでリダイレクトがかかるWebサイトをスクレイピングするのですが、
その際に、リダイレクトのログを追いたい、ネットワークをトラッキングしたい
ということです。

このトラッキング、
PhantomJS単体でもやろうと思えばやれるのですが、PhantomJS単体だと
・データベースへの接続をどうしよう
・HTMLの解析をどうしよう

などなど、どうしてもその他の問題が出てきます。

なので、やはり、
以下の組み合わせで実装します!
・Python3.5
・Selenium
・PhantomJS

※インストール方法は、こちらから

今回は、ネットワークログ、リダイレクトのトラッキング
を観測するプロキシサーバの
Browsermob-proxyのインストール方法をご紹介します!

概要

SeleniumでPhantomJSを操作するのですが、
そのコードをPythonで記述します。
そして、プロキシサーバのBrowsermob-proxyで
ネットワークログ、リダイレクトのトラッキングを観測します。

Browsermob-proxyのインストール方法

※CentOS7.1環境下で行ってます

・本体のインストール

・Javaのインストール

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmlより

・シェルファイルの設定

ログインし直せば、設定は反映されます!

確認した結果

最後に

スクレイピングでネットワークログであったり、
トラッキングを観測したいというのは、
だいぶコアな悩みだと思います。

だから、ほんとに情報見つけるの大変でした。。。。

今回は、Browsermob-proxyのインストール方法でしたが、
次回は、使い方をご紹介します!

関連記事

コメントは利用できません。

ピックアップ記事

  1. 2016/3/2

    最強の営業

ピックアップ記事

  1. 2016-10-25

    へっぽこデザイン備忘録〜CSSだけで簡単にランキング順位を表示させる方法〜

    夏にコートを捨ててしまったので、早く買いに行かないと死ぬかもしれません。 去年は掛け布団を捨てて凍…

ピックアップ記事

  1. 2016-8-30

    へっぽこデザイン備忘録 〜簡単にWordPressのサムネイルサイズを増やす方法!〜

    シン・ゴジラ3回目見てきました。4回目行ってきます。 今回はWordpressで使うサムネイル…

ピックアップ記事

  1. 2016-9-28

    アレンジ豊富!自宅で簡単おいしい!ジュースのような日本酒サングリア♪美肌効果も◎

    果物の季節がやってきました! 昨年ブームになった日本酒サングリア。 今年も梨だけでなく様々なフル…
ページ上部へ戻る
Top