Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

网络爬虫

Xianyang Vocatinal Technical College via XuetangX

Go to class Write review

Overview

以简单生动的方式，更为全面的是学生了解网络爬虫的基本原理。

Syllabus

初识爬虫

什么是爬虫
爬虫产生的背景
爬虫的用途
通用爬虫和聚焦爬虫
累积爬虫、增量爬虫

爬虫的实现原理和技术

爬虫的实现原理
聚焦爬虫的工作原理
爬虫爬取网页端详细流程
通用爬虫相关网站文件
2.4通用爬虫相关网站文件
防爬虫应对策略
选择Python做爬虫的原因
案例——使用八爪鱼工具爬取第一个网页

网页请求原理

浏览网页过程
HTTP请求原理
HTTP抓包工具Fiddler简介
HTTP抓包工具Fiddler过程

爬取网页数据

urllib库简述
快速爬取一个网页
数据传输
请求伪装
代理服务器
常见网络异常及超时设置（1）
常见网络异常及超时设置（2）
更人性化的request
请求与响应

数据解析

了解网页数据和结构
数据解析技术简介
数据解析技术流程
网页数据格式
正则表达式
Xpath
1xml
BeautifulSoup
Json

存储过程与触发器

多线程爬虫流程分析
Queue（列队）模块简介
Queue类简介
协程爬虫的流程分析
第三方库gevent

爬取动态内容

动态网页介绍

图像识别与文字处理

OCR技术概述
Tesseract引擎的下载与安装
PyTesseract和PIL 概述
处理规范格式的文字
处理验证码

数据存储

数据存储简介
Mango DB数据库简介

2021-2022第一学期期末考试

2022-2023第二学期期末考试

信息工程学院2023-2024学年网络爬虫期末考试

Taught by

Zhang Shuo, zhangdan, zhangying , and ZHANGXUN

Tags

china

Reviews

Start your review of 网络爬虫