【scalaでスクレイピング】scalaでjsoupを使う

【scalaでスクレイピング】scalaでjsoupを使う

jsoup は Java のライブラリでHTMLの解析がおこなえます。

URLからWebページを取得できますし、CSSセレクタで
タグの検索とかできます。

そして、何より文字コードの判定を自動でしてくれて、
ほぼ文字コードの変換処理いらずです。

これは、ほんとに助かります。

まだまだUTF-8じゃないサイトもあって、
スクレイピングの悩みのもとですから!!

jsoupのインストール

build.sbtに下記を記述するだけです。

scalaでの゙jsoupの使用例

・URLへのアクセス

・ユーザエージェントを指定して、URLへアクセスする

・POST通信でのアクセス

まとめ

・jsoupは、Javaのライブラリで、もちろんscalaでも使用できます
・文字コードの判定も結構自動でやってくれます
・何より簡単に扱えます

以上です!

関連記事

コメントは利用できません。

ピックアップ記事

ピックアップ記事

  1. 2013-11-8

    ダリが採点した画家たちランキング【前編】

    サルヴァドール・ダリという画家をご存知でしょうか?恐らく絵を見れば「あ〜なんか見たことある」と 誰し…

ピックアップ記事

  1. 2016-12-8

    岩井俊二の伝説的ドラマ『打ち上げ花火、下から見るか?横から見るか?』大根仁×新房昭之でアニメ映画化!声優には宮野真守、広瀬すず、菅田将暉…

    岩井俊二監督の伝説的ドラマ、「打ち上げ花火、下から見るか?横から見るか?」が、脚本・大根仁(「モテキ…

ピックアップ記事

  1. 2016-7-17

    京都ダリ展に行って来ました

    7/1(金)から京都市美術館で開催している、 ダリ展に行ってきました。【過去のダリ展記事】 [blo…
ページ上部へ戻る
Top