Python3.5+Selenium+PhantomJSでサーバサイドでスクレイピング①
- 2016/6/30
- システム
- この記事は約2分で読めます。
目次
Python3.5、Selenium、PhantomJSのインストール編
Javascriptがガシガシ動いているWebページだったり、
ログインが必要なサイトを
サーバサイドからスクレイピングをしたいときってありますよね!?
そんなの思ったこともないあなた!!
スクレイピングで、データを引っ張ってきてほしいというようなニーズは
意外と結構あるので、のぞくだけのぞいていってくださいm(_ _)m
Python3.5+Selenium+PhantomJSの組み合わせの特徴
スクレイピングにあたり、Node.jsを使ったり、
PhantomJSじゃなくてFireFoxでとかあると思うのですが、
以下の組み合わせをオススメします!
・Python3.5
・Selenium
・PhantomJS
理由としては・・・
①インストールが簡単
②当然、データベースへも接続できる
③ヘッドレスブラウザのPhantomJSを使うため、バックグラウンドで動作させられる
④Javascriptを記述して実行できる
などなど、他と比較したときに良いなっと思ったところになります
Python3.5、Selenium、PhantomJSのインストール方法
1、Python3.5
本体のダウンロード
1 2 |
cd /usr/local/src/ wget https://www.python.org/ftp/python/3.5.1/Python-3.5.1.tgz |
事前に必要となるパッケージをインストール
1 2 3 4 5 |
yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel yum install gcc gcc-c++ make flex bison gperf ruby \ openssl-devel freetype-devel fontconfig-devel libicu-devel sqlite-devel \ libpng-devel libjpeg-devel |
本体のインストール
1 2 3 4 5 6 7 |
tar zxvf Python-3.5.1.tgz cd Python-3.5.1 ./configure --prefix=/usr/local/python make && make install |
シンボリックリンクを作成
1 2 3 4 |
ln -s /usr/local/python/bin/python3 /usr/local/bin/python ln -s /usr/local/python/bin/pip3.5 /usr/local/bin/pip ln -s /usr/local/python/bin/pip3 /usr/local/bin/pip3 ln -s /usr/local/python/bin/2to3 /usr/local/bin/2to3 |
パッケージのアップグレード等
1 2 3 4 |
pip install --upgrade pip pip install --upgrade setuptools pip install requests pip install lxml |
インストールされているかチェック
1 2 3 4 |
python -V 以下が表示されればオッケー Python 3.5.1 |
2、Selenium
1 |
pip3 install selenium |
これだけ
3、PhantomJS
本体のダウンロード
1 2 |
cd /usr/local/src wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2 |
本体のインストール
1 2 3 |
tar jxf /usr/local/src/phantomjs-2.1.1-linux-x86_64.tar.bz2 mv phantomjs-2.1.1-linux-x86_64 phantomjs mv phantomjs /usr/local/ |
パスの設定
1 |
ln -s /usr/local/phantomjs/bin/phantomjs /usr/local/bin/phantomjs |
インストールされているかチェック
1 2 3 4 |
phantomjs -v 以下が表示されればオッケー 2.1.1 |
最後に
サーバサイドからのスクレイピングの第一回目として、
Python3.5、Selenium、PhantomJSのインストール方法をご紹介しました。
色々な組み合わせを試してきたのですが、
これが一番楽にできたという印象です。
次回は、コードの例をあげて、スクレイピングしてみます!
The following two tabs change content below.
デミ
Z or R Twice
で検索すると…
最新記事 by デミ (全て見る)
- 【20分で完了】MacにDocker for Macのインストール - 2017/02/02
- 【2017年版】Web接客ツール9社を比較してみた - 2017/01/26
- 【昼休み中に完了!】Macで最新Ruby、Railsのインストールから画面表示まで - 2017/01/19