【scalaでスクレイピング】scalaでjsoupを使う

scala_jsoup

【scalaでスクレイピング】scalaでjsoupを使う

jsoup は Java のライブラリでHTMLの解析がおこなえます。

URLからWebページを取得できますし、CSSセレクタで
タグの検索とかできます。

そして、何より文字コードの判定を自動でしてくれて、
ほぼ文字コードの変換処理いらずです。

これは、ほんとに助かります。

まだまだUTF-8じゃないサイトもあって、
スクレイピングの悩みのもとですから!!

jsoupのインストール

build.sbtに下記を記述するだけです。

scalaでの゙jsoupの使用例

・URLへのアクセス

・ユーザエージェントを指定して、URLへアクセスする

・POST通信でのアクセス

まとめ

・jsoupは、Javaのライブラリで、もちろんscalaでも使用できます
・文字コードの判定も結構自動でやってくれます
・何より簡単に扱えます

以上です!

The following two tabs change content below.

関連記事

コメントは利用できません。

ピックアップ記事

  1. cofee

    2016-7-8

    コーヒー嫌いが選ぶ!おいしく飲めるコーヒー

    紅茶派のガンボです。コーヒーは苦いし、後味が気持ち悪くてすきではありません、 が!たま〜〜〜〜に飲み…

ピックアップ記事

  1. 01ed8f2b9bd22f25f9b4ea14adcf3568_m

    2016-11-8

    女性に嬉しい♪冷え性、生理痛にも効く、万能乾燥生姜の効果と簡単レシピ

    生姜好きガンボです!! でも生姜って買っても1個使い切るのに時間がかかりませんか? 特に1人暮ら…

ピックアップ記事

  1. フリー素材

    2016-5-11

    自分が思いついたサービスは他の誰かも考えている

    こんばんにちは。日時過ごしていると、こんなサービスあればいいのに。なんてことをよく考えることがある。…
ページ上部へ戻る
Top