【scalaでスクレイピング】scalaでjsoupを使う

【scalaでスクレイピング】scalaでjsoupを使う

jsoup は Java のライブラリでHTMLの解析がおこなえます。

URLからWebページを取得できますし、CSSセレクタで
タグの検索とかできます。

そして、何より文字コードの判定を自動でしてくれて、
ほぼ文字コードの変換処理いらずです。

これは、ほんとに助かります。

まだまだUTF-8じゃないサイトもあって、
スクレイピングの悩みのもとですから!!

jsoupのインストール

build.sbtに下記を記述するだけです。

scalaでの゙jsoupの使用例

・URLへのアクセス

・ユーザエージェントを指定して、URLへアクセスする

・POST通信でのアクセス

まとめ

・jsoupは、Javaのライブラリで、もちろんscalaでも使用できます
・文字コードの判定も結構自動でやってくれます
・何より簡単に扱えます

以上です!

関連記事

コメントは利用できません。

ピックアップ記事

  1. 2016/2/20

    バリについて
  2. 2015/11/4

    Macbee And Me!!

ピックアップ記事

  1. 2016-8-10

    BLEACH・こち亀・おそ松さん!!2.5次元舞台お勧めベスト3!!!

    引用:http://osomatsusan-stage.com2.5次元舞台…

ピックアップ記事

  1. 2016-11-16

    れんこんサミットって何!?11月17日はレンコン記念日!今夜はレンコン料理で決まり!!

    みなさん、今日が何の日かご存知ですか!?そう、今日は!!レンコンの日!!!!です!!!!レンコンの日…

ピックアップ記事

  1. 2016-8-3

    納豆が似合う!?芸能人ランキングベスト3

    先日、納豆3パック1セット売りの納豆を僅か4分で完食しました。 ところで、皆さんはもちろん納豆を食…
ページ上部へ戻る
Top