Java URLConnectionクラスを使ってサイトからHTMLを取得(ダウンロード)する




ブラウザは、インターネットのサイトにアクセスして、HTMLや画像等のコンテンツをもらって、表示しています。
ただし、ほとんどの場合、欲しいのは文章だったり、しかも、ページが跨ったりしていると、自分でいちいちアクセスするのは面倒です。
フリーソフト等でも、指定したサイトを回って自動でダウンロードしてくれるWeb巡回ソフトがあったりします。
今回はインターネットのサイトにアクセスして、HTMLを取得してみます。

インターネットのサイトからHTMLを取得するサンプル

「http://www.example.com」のページをUTF-8形式で取得します。
取得したコンテンツ(HTML)は、標準出力してみます。

実行結果

「http://www.example.com」のページが標準出力されます。

サンプルの解説

URLConnectionを使うことで、サイトからの入力ストリームを取得することができます。
このサンプルで取得したHTMLを、ファイルへ保存することで、HTMLをひたすらダウンロードするアプリケーションを作成することができます♪
でも、このサイトはダウンロードせずブラウザで見てくださいw

取得したHTMLをファイルへ保存するには・・?

基本的なファイルの読み書き方法は、こちらを見てください。

Java 文字コードを指定して、テキストファイルの入出力を行う

2017.12.31
UTF-8 BOM付きでファイルを書きこむ方法は、こちらを見てください。

Java UTF-8のテキストファイルをBOM付きで作成する

2018.02.26