【scalaでスクレイピング】scalaでjsoupを使う

【scalaでスクレイピング】scalaでjsoupを使う

jsoup は Java のライブラリでHTMLの解析がおこなえます。

URLからWebページを取得できますし、CSSセレクタで
タグの検索とかできます。

そして、何より文字コードの判定を自動でしてくれて、
ほぼ文字コードの変換処理いらずです。

これは、ほんとに助かります。

まだまだUTF-8じゃないサイトもあって、
スクレイピングの悩みのもとですから!!

jsoupのインストール

build.sbtに下記を記述するだけです。

scalaでの゙jsoupの使用例

・URLへのアクセス

・ユーザエージェントを指定して、URLへアクセスする

・POST通信でのアクセス

まとめ

・jsoupは、Javaのライブラリで、もちろんscalaでも使用できます
・文字コードの判定も結構自動でやってくれます
・何より簡単に扱えます

以上です!

関連記事

コメントは利用できません。

ピックアップ記事

  1. 2013/9/12

    説得

ピックアップ記事

  1. 2016-9-20

    ここ最近の大規模オーディション情報3選!!!

    出典:http://www.miss-teen-japan.com今回は、芸能には切って…

ピックアップ記事

  1. 2016-8-17

    【2016年度版】納豆に混ぜたら美味しいものランキングベスト3

    私は3度の飯より納豆が好きです! まぁ嘘なんですけど。でもそれなりに好きです。 でも市販の納豆っ…

ピックアップ記事

  1. 2016-6-28

    【売れっ子への道渋滞中】若手芸人高齢化について考える。其の一

    若手といえば何才くらい?テレビで体を張って笑いを取る若手芸人たち。「若手」という言葉を聞けば、誰もが…
ページ上部へ戻る
Top