【scalaでスクレイピング】scalaでjsoupを使う

【scalaでスクレイピング】scalaでjsoupを使う

jsoup は Java のライブラリでHTMLの解析がおこなえます。

URLからWebページを取得できますし、CSSセレクタで
タグの検索とかできます。

そして、何より文字コードの判定を自動でしてくれて、
ほぼ文字コードの変換処理いらずです。

これは、ほんとに助かります。

まだまだUTF-8じゃないサイトもあって、
スクレイピングの悩みのもとですから!!

jsoupのインストール

build.sbtに下記を記述するだけです。

scalaでの゙jsoupの使用例

・URLへのアクセス

・ユーザエージェントを指定して、URLへアクセスする

・POST通信でのアクセス

まとめ

・jsoupは、Javaのライブラリで、もちろんscalaでも使用できます
・文字コードの判定も結構自動でやってくれます
・何より簡単に扱えます

以上です!

関連記事

コメントは利用できません。

ピックアップ記事

  1. 2016-8-3

    シン・ゴジラの感想‼︎庵野監督がエヴァより先に作った映画‼︎‼︎

    引用:https://www.toho.co.jp/movie/lineup/godzilla201…

ピックアップ記事

  1. 2016-8-11

    jqueryでtableを整形する便利プラグインDataTables!

    jqueryとDataTablesでお手軽table操作Webページで動的なデータの表を作ることって…

ピックアップ記事

  1. 2016-5-11

    自分が思いついたサービスは他の誰かも考えている

    こんばんにちは。日時過ごしていると、こんなサービスあればいいのに。なんてことをよく考えることがある。…
ページ上部へ戻る
Top