【scalaでスクレイピング】scalaでjsoupを使う

【scalaでスクレイピング】scalaでjsoupを使う

jsoup は Java のライブラリでHTMLの解析がおこなえます。

URLからWebページを取得できますし、CSSセレクタで
タグの検索とかできます。

そして、何より文字コードの判定を自動でしてくれて、
ほぼ文字コードの変換処理いらずです。

これは、ほんとに助かります。

まだまだUTF-8じゃないサイトもあって、
スクレイピングの悩みのもとですから!!

jsoupのインストール

build.sbtに下記を記述するだけです。

scalaでの゙jsoupの使用例

・URLへのアクセス

・ユーザエージェントを指定して、URLへアクセスする

・POST通信でのアクセス

まとめ

・jsoupは、Javaのライブラリで、もちろんscalaでも使用できます
・文字コードの判定も結構自動でやってくれます
・何より簡単に扱えます

以上です!

関連記事

コメントは利用できません。

ピックアップ記事

ピックアップ記事

  1. 2016-7-8

    【朗報】コーヒー嫌いでもおいしく飲める!苦くないコーヒー3選!

    紅茶派のガンボです。コーヒーは苦いし、後味が気持ち悪くてすきではありません、 が!たま〜〜〜〜に飲み…

ピックアップ記事

  1. 2016-9-7

    フリースタイルダンジョンはなぜ流行ったのか??初心者でもわかるラップの楽しみ方!!!!

    引用:http://www.tv-asahi.co.jp/freestyledungeon/ なぜ今…

ピックアップ記事

  1. 2016-5-12

    噂のダンシングクラブに行ってみました!

    みなさま、こんにちは!ちっひーです!!月金をお休みをすれば、10日もお休みになるという長…
ページ上部へ戻る
Top