【scalaでスクレイピング】scalaでjsoupを使う

【scalaでスクレイピング】scalaでjsoupを使う

jsoup は Java のライブラリでHTMLの解析がおこなえます。

URLからWebページを取得できますし、CSSセレクタで
タグの検索とかできます。

そして、何より文字コードの判定を自動でしてくれて、
ほぼ文字コードの変換処理いらずです。

これは、ほんとに助かります。

まだまだUTF-8じゃないサイトもあって、
スクレイピングの悩みのもとですから!!

jsoupのインストール

build.sbtに下記を記述するだけです。

scalaでの゙jsoupの使用例

・URLへのアクセス

・ユーザエージェントを指定して、URLへアクセスする

・POST通信でのアクセス

まとめ

・jsoupは、Javaのライブラリで、もちろんscalaでも使用できます
・文字コードの判定も結構自動でやってくれます
・何より簡単に扱えます

以上です!

関連記事

コメントは利用できません。

ピックアップ記事

ピックアップ記事

  1. 2016-12-23

    【将来のために】備える貯蓄について考えてみた。

    一人暮らし/独身/20代後半/会社員。 アラサーなので、なんやかんや結婚式参列や出産のお祝いなど大き…

ピックアップ記事

  1. 2016-11-15

    ずぼらさん必見!簡単ごはん『もぐー』の人気レシピ動画まとめ 〜ごはん編〜

    ずぼらでも簡単においしく作れるレシピまとめ もぐー(mogoo)とは、「かんたん・おいしい・たのし…

ピックアップ記事

  1. 2016-11-15

    ずぼらさん必見!簡単ごはん『もぐー』の人気レシピ動画まとめ 〜ごはん編〜

    ずぼらでも簡単においしく作れるレシピまとめ もぐー(mogoo)とは、「かんたん・おいしい・たのし…
ページ上部へ戻る
Top