What you'll learn:
- Python3のスクレイピング用ライブラリBeautifulSoup、Selenium、Requests、Newspaper3k、Pandas(read_html)が扱えるようになります。
- Beautiful Soupを用いて、複数のWebページを巡回し、目的の情報を取得する方法を理解することができます。
- Seleniumを利用した、ログイン画面への対処、JavaScriptを用いた動的なサイトへの対処、画像を取得・ダウンロードする方法を理解することができます。
- newspaper3kを用いて、ニュースサイトやブログのトップページに表示されている複数の記事を順に巡回し、記事や要約、キーワードをダウンロード・保存する方法を理解することができます。
- Pandasのread_htmlを用いて、Webサイト上のテーブルに格納されているデータを取得する方法を理解することができます。
- スクレイピングにおけるXPath、CSSセレクタ、正規表現の利用方法を学ぶことができます。
- スクレイピングでデータを取得・抽出し、取得したデータを整形・グラフ化、保存する一連の流れを習得することができます。
- 実践的な演習問題を通じてスクレイピングの理解を深めることができます。
現役のデータサイエンティストが提供するWebスクレイピングに関する講座で、データサイエンスの実務における経験を基に、デザインされた講座になります。
近年、ビジネスでのデータ活用においては、世界中のWebサイトから様々なデータを取得することが求められています。 また変化も激しい環境において、それぞれのWebサイトの構造や内容も頻繁に更新され、日々変わっていきます。
スクレイピングが難しい理由として、次のようなポイントが挙げられます。
Webサイトにより構造が異なる
Webサイトの構造が複雑・頻繁に変わる
JavaScriptでユーザーの操作によって新たなページが読み込まれるなど、特殊な技術が使われている
しかし、ビジネスでスクレイピングを用いるには、これらのポイントに適切に対処していくことが求められます。
【このコースで扱うトピック】
これら難しいポイントに適切に対処し、ビジネスでスクレイピングを活用できるよう、このコースはデザインされています。
このコースで扱うトピックは、これらのものになります。
様々なニーズや場面に応じて使い分けできるよう、Pythonのスクレイピングライブラリの中でも幅広いライブラリをカバーします。
Beautiful Soup、Selenium、Requests、newspaper3k、Pandasのread_html
ビジネスで活用するにおいて必要となる、スクレイピングにおける一連のプロセスをカバーします。
データ取得・抽出から、整形、グラフ化、保存まで
特殊な技術が使われているWebサイトも考慮し、幅広いスキルを身につけれるよう、レクチャーを提供します。
JavaScriptを用いた動的なサイトへの対処方法
ログイン画面への対処方法
リンクをたどり、複数のWebページを巡回する方法
テキスト情報・画像ファイルの取得方法
など多数
これらを通じてこのコースの受講後は、世界中のWebサイトから効率的に情報を取得することができるようになります。
またレクチャーで学んだ知識が定着するよう、豊富で実践的な演習を用意しております。
なお、Classなどオブジェクト指向の記述は、初心者向きでは無いので本コースの対象外としております。本コースでは、これらの記述を使わずに解説しておりますので、ご注意ください。