1297分钟
玩转python网络爬虫
在当今数字化时代,数据已成为企业决策、学术研究和技术创新的核心驱动力。然而,海量的数据分散在互联网的各个角落,如何高效地获取和利用这些数据,成为了一个亟待解决的问题。网络爬虫技术应运而生,它像一把神奇…
在当今数字化时代,数据已成为企业决策、学术研究和技术创新的核心驱动力。然而,海量的数据分散在互联网的各个角落,如何高效地获取和利用这些数据,成为了一个亟待解决的问题。网络爬虫技术应运而生,它像一把神奇的钥匙,能够帮助我们打开数据宝藏的大门。本课程《Python 网络爬虫实战精讲》正是为了满足广大数据爱好者和专业人士的需求,从零基础开始,逐步深入,带你玩转 Python 网络爬虫。
课程内容丰富全面,涵盖了从基础的 Python 编程、HTTP 协议知识,到高级的 Scrapy 框架应用、分布式爬虫部署等多个层面。通过大量实战案例,如爬取起点小说网、京东销量数据、链家租房信息等,让学员在实践中掌握技术要点,积累项目经验。同时,课程还深入讲解了如何应对常见的反爬虫策略,如字体反爬、验证码识别等,确保学员能够应对各种复杂的网络环境。
学习这门课程,你将开启一段精彩的数据探索之旅。不仅可以掌握强大的数据抓取技能,还能提升自己的编程思维和问题解决能力。无论是为了个人兴趣拓展,还是为了职业发展加分,这门课程都将是你的不二之选。让我们一起踏上这场充满挑战与收获的旅程,解锁网络爬虫的奥秘,挖掘数据背后的价值吧!
第1章:爬虫基础
- 1.1 课程介绍
- 1.2 数据的来源及作用
- 1.3 爬虫的概念及应用领域
- 1.4 如何爬取数据及robots协议
- 1.5 爬虫的分类
- 1.6 爬虫的原理
- 1.7 为什么用Python语言写爬虫
第2章:HTTP基础
- 2.1 HTTP与HTTPS
- 2.2 URL与URI(降噪)
- 2.3 常见的请求方式
- 2.4 常见的请求头参数
- 2.5 常见的响应状态码
- 2.6 HTTP请求的交互过程
- 2.7 使用Chrome浏览器分析豆瓣网站
- 2.8 Session的工作原理
- 2.9 Cookie的工作原理
- 2.10 JSON数据及解析
- 2.11 Ajax请求
第3章:Python基础
- 3.1 urllib简介及urllib.parse的使用
- 3.2 urllib.request发送get与post请求
- 3.3 构造Request对象发送请求
- 3.4 urlopen方法的源代码讲解
- 3.5 IP代理
- 3.6 使用Cookie
- 3.7 错误解析及异常处理
- 3.8 requests库的简介
- 3.9 requests不带参数的get请求
- 3.10 requests带请求参数的get请求
- 3.11 获取JSON数据及二进制数据
- 3.12 使用requests发送Post请求
- 3.13 使用requests的session发送请求
第4章:数据解析
- 4.1 初识XPath解析数据
- 4.2 课堂案例-爬取起点小说网使用XPath提取数据
- 4.3 BeautifulSoup的简介
- 4.4 BeautifulSoup的使用
- 4.5 课堂案例-爬取淘宝网首页使用BeautifulSoup解析数据
- 4.6 正则表达式的基本使用
- 4.7 课堂案例-下载糗事百科小视频
- 4.8 pyquery三种初始化方式
- 4.9 pyquery的基本使用
- 4.10 课堂案例:爬取起点小说网-1
- 4.11 课堂案例:爬取起点小说网-2
第5章:数据存储
- 5.1 JSON存储数据
- 5.2 课堂案例:爬取京东销量最好的粽子数据
- 5.3 CSV文件的简介:使用Python向CSV文件写入数据
- 5.4 使用Python读取CSV文件中的内容
- 5.5 课堂案例:使用CSV文件存储粽子评论数据
- 5.6 Excel文件相关概念介绍及openpyxl模块的安装与测试
- 5.7 使用Python向Excel文件中写入数据
- 5.8 使用Python读取Excel文件中的内容
- 5.9 课堂案例:爬取下厨房美食存储到Excel文件中
- 5.10 MySQL的简介
- 5.11 MySQL服务的开启与关闭
- 5.12 MySQL的数据类型
- 5.13 SQL的分类
- 5.14 数据定义语言-create-alter-drop
- 5.15 数据操作语言-insert-update-delete
- 5.16 数据查询语言-基本查询-模糊查询
- 5.17 数据查询语言-分组查询
- 5.18 数据查询语言-表连接查询
- 5.19 Python连接MySQL数据库:插入操作
- 5.20 Python连接MySQL数据库:批量插入操作
- 5.21 Python连接MySQL数据库:修改与删除操作
- 5.22 Python连接MySQL数据库:查询操作
- 5.23 课堂案例:搭建项目结构
- 5.24 课堂案例:发送请求
- 5.25 课堂案例:数据解析
- 5.26 课堂案例:数据存储
- 5.27 MongoDB的简介安装及启动服务
- 5.28 MongoDB与SQL的常用的数据类型对比
- 5.29 MongoDB最基本命令
- 5.30 MongoDB的insert操作
- 5.31 MongoDB的save与update操作
- 5.32 MongoDB的remove操作
- 5.33 MongoDB简单查询操作
- 5.34 MongoDB的复杂查询操作
- 5.35 MongoDB插入操作
- 5.36 MongoDB修改删除操作
- 5.37 MongoDB查询操作
- 5.38 课堂案例:爬取链家二手房成交量存到MongoDB中
第6章:多线程与动态网页爬虫
- 6.1 程序-进程-线程
- 6.2 线程与进程的区别
- 6.3 初识Python多线程
- 6.4 继承的方式实现多线程
- 6.5 线程的常用方法
- 6.6 多线程访问全局变量的安全性问题
- 6.7 锁机制解决线程的安全性问题
- 6.8 Lock锁:生产者与消费者模式
- 6.9 Condition版的生产者与消费者模式
- 6.10 Queue线程安全的队列
- 6.11 课堂案例:Queue在多线程中的使用
- 6.12课堂案例:多线程下载王者荣耀高清壁纸1-分析URL
- 6.13 课堂案例:多线程下载王者荣耀高清壁纸2-爬取第一页壁纸
- 6.14 课堂案例:多线程下载王者荣耀高清壁纸3-生产者
- 6.15 课堂案例:多线程下载王者荣耀高清壁纸4-消费者
- 6.16 课堂案例:多线程下载王者荣耀高清壁纸5-解决异常
- 6.17 多线程的GIL锁
- 6.18 GIL锁与Lock锁的区别
- 6.19 什么是动态网页爬虫
- 6.20 动态网页爬虫的解决方案
- 6.21 selenium的初步使用
- 6.22 close方法与quit方法的区别
- 6.23 selenium的基本使用-定位元素
- 6.24 selenium的基本使用-操作表单元素
- 6.25 课堂案例:使用selenium实现自动搜索
- 6.26 selenium行为链
- 6.27 selenium操作Cookie
- 6.28 页面等待
- 6.29 课堂案例:12306抢票-需求说明
- 6.30 课堂案例:12306抢票-实现登录
- 6.31 课堂案例:12306抢票-爬取车站代号
- 6.32 课堂案例:12306-填充站点代号
- 6.33 课堂案例:12306-查询-解析车次
- 6.34 课堂案例:12306抢票-解析车次1
- 6.35 课堂案例:12306抢票-解析车次2
- 6.36 课堂案例:12306抢票-等待获取乘车人
- 6.37 课堂案例:12306抢票-确认乘车人和座席
- 6.38 课堂案例:12306抢票-提交订单
- 6.39 字体反爬:什么是字体反爬
- 6.40 字体反爬:原理-寻找-分析字体
- 6.41 字体反爬:分析字体
- 6.42 字体反爬:实习僧
- 6.43 字体反爬:实习僧-代码实现
- 6.44 验证码的分类
- 6.45 使用OCR破解简单验证码
第7章:Scrapy框架
- 7.1 常见的爬虫框架
- 7.2 Scrapy的安装
- 7.3 Scrapy框架的结构及工作原理
- 7.4 Scrapy框架快速入门
- 7.5 Scrapy框架:案例-编写Spiders-1
- 7.5 Scrapy框架:案例-编写Spiders-2
- 7.6 Scrapy框架:案例-处理响应结果
- 7.7 Scrapy框架:案例数据存储
- 7.8 Scrapy框架:案例项目总结
- 7.9 Scrapy案例:笔趣阁小说-创建项目
- 7.10 Scrapy案例:笔趣阁小说-编写爬虫文件
- 7.11 Scrapy案例:笔趣阁小说-数据存储
- 7.12 Scrapy案例:笔趣阁小说-yield推送请求
- 7.13 CrawlSpider简介及创建
- 7.14 课堂案例:猎云网-定义URL提取规则
- 7.15 课堂案例:猎云网-数据解析
- 7.16 课堂案例:猎云网-getall-get-extract和extract-first的区别
- 7.17 课堂案例:猎云网 -创建数据库-读取配置文件
- 7.18 课堂案例:猎云网-数据存储
- 7.19 Scrapy模拟登录-小说楼
- 7.20 Scrapy批量下载图片-1
- 7.21 Scrapy批量下载图片-2
- 7.21 Scrapy批量下载图片 2-2
- 7.22 下载器中间件的概述
- 7.23 下载器中间件方法详解
- 7.24 下载器中间件:动态设置UA
- 7.25 下载器中间件:selenium与Scrapy的结合使用
- 7.26 项目案例:链家租房信息的爬虫-1
- 7.27 课堂案例:链家租房信息的爬取-2
- 7.28 课堂案例:链家租房信息的爬取-3
- 7.29 课堂案例:猎聘网爬取你心仪的职位-1
- 7.30 课堂案例:猎聘网爬取你心仪的职位-2
- 7.31 课堂案例:猎聘网爬取你心仪的职位-3
第8章:分布式爬虫
- 8.1 分布式爬虫的介绍
- 8.2 Redis的安装及启动测试
- 8.3 Redis第三方图形化界面-scrapy-redis模块的安装
- 8.4 分布式爬虫案例:第一种写法-修改配置文件
讯达学院
跟着娟姐学python,每一天的精神食粮