【scalaでスクレイピング】scalaでjsoupを使う

【scalaでスクレイピング】scalaでjsoupを使う

jsoup は Java のライブラリでHTMLの解析がおこなえます。

URLからWebページを取得できますし、CSSセレクタで
タグの検索とかできます。

そして、何より文字コードの判定を自動でしてくれて、
ほぼ文字コードの変換処理いらずです。

これは、ほんとに助かります。

まだまだUTF-8じゃないサイトもあって、
スクレイピングの悩みのもとですから!!

jsoupのインストール

build.sbtに下記を記述するだけです。

scalaでの゙jsoupの使用例

・URLへのアクセス

・ユーザエージェントを指定して、URLへアクセスする

・POST通信でのアクセス

まとめ

・jsoupは、Javaのライブラリで、もちろんscalaでも使用できます
・文字コードの判定も結構自動でやってくれます
・何より簡単に扱えます

以上です!

関連記事

コメントは利用できません。

ピックアップ記事

  1. 2016-10-25

    へっぽこデザイン備忘録〜CSSだけで簡単にランキング順位を表示させる方法〜

    夏にコートを捨ててしまったので、早く買いに行かないと死ぬかもしれません。 去年は掛け布団を捨てて凍…

ピックアップ記事

  1. 2016-8-30

    へっぽこデザイン備忘録 〜簡単にWordPressのサムネイルサイズを増やす方法!〜

    シン・ゴジラ3回目見てきました。4回目行ってきます。 今回はWordpressで使うサムネイル…

ピックアップ記事

  1. 2016-9-28

    アレンジ豊富!自宅で簡単おいしい!ジュースのような日本酒サングリア♪美肌効果も◎

    果物の季節がやってきました! 昨年ブームになった日本酒サングリア。 今年も梨だけでなく様々なフル…
ページ上部へ戻る
Top