1297分钟

玩转python网络爬虫

玩转python网络爬虫

在当今数字化时代,数据已成为企业决策、学术研究和技术创新的核心驱动力。然而,海量的数据分散在互联网的各个角落,如何高效地获取和利用这些数据,成为了一个亟待解决的问题。网络爬虫技术应运而生,它像一把神奇…

课程分类
编程开发 | 软件开发
适用人群
专员, 分析师, 工程师
课程标签
Python,网络爬虫,数据获取
在当今数字化时代,数据已成为企业决策、学术研究和技术创新的核心驱动力。然而,海量的数据分散在互联网的各个角落,如何高效地获取和利用这些数据,成为了一个亟待解决的问题。网络爬虫技术应运而生,它像一把神奇的钥匙,能够帮助我们打开数据宝藏的大门。本课程《Python 网络爬虫实战精讲》正是为了满足广大数据爱好者和专业人士的需求,从零基础开始,逐步深入,带你玩转 Python 网络爬虫。 课程内容丰富全面,涵盖了从基础的 Python 编程、HTTP 协议知识,到高级的 Scrapy 框架应用、分布式爬虫部署等多个层面。通过大量实战案例,如爬取起点小说网、京东销量数据、链家租房信息等,让学员在实践中掌握技术要点,积累项目经验。同时,课程还深入讲解了如何应对常见的反爬虫策略,如字体反爬、验证码识别等,确保学员能够应对各种复杂的网络环境。 学习这门课程,你将开启一段精彩的数据探索之旅。不仅可以掌握强大的数据抓取技能,还能提升自己的编程思维和问题解决能力。无论是为了个人兴趣拓展,还是为了职业发展加分,这门课程都将是你的不二之选。让我们一起踏上这场充满挑战与收获的旅程,解锁网络爬虫的奥秘,挖掘数据背后的价值吧!
第1章:爬虫基础 - 1.1 课程介绍 - 1.2 数据的来源及作用 - 1.3 爬虫的概念及应用领域 - 1.4 如何爬取数据及robots协议 - 1.5 爬虫的分类 - 1.6 爬虫的原理 - 1.7 为什么用Python语言写爬虫 第2章:HTTP基础 - 2.1 HTTP与HTTPS - 2.2 URL与URI(降噪) - 2.3 常见的请求方式 - 2.4 常见的请求头参数 - 2.5 常见的响应状态码 - 2.6 HTTP请求的交互过程 - 2.7 使用Chrome浏览器分析豆瓣网站 - 2.8 Session的工作原理 - 2.9 Cookie的工作原理 - 2.10 JSON数据及解析 - 2.11 Ajax请求 第3章:Python基础 - 3.1 urllib简介及urllib.parse的使用 - 3.2 urllib.request发送get与post请求 - 3.3 构造Request对象发送请求 - 3.4 urlopen方法的源代码讲解 - 3.5 IP代理 - 3.6 使用Cookie - 3.7 错误解析及异常处理 - 3.8 requests库的简介 - 3.9 requests不带参数的get请求 - 3.10 requests带请求参数的get请求 - 3.11 获取JSON数据及二进制数据 - 3.12 使用requests发送Post请求 - 3.13 使用requests的session发送请求 第4章:数据解析 - 4.1 初识XPath解析数据 - 4.2 课堂案例-爬取起点小说网使用XPath提取数据 - 4.3 BeautifulSoup的简介 - 4.4 BeautifulSoup的使用 - 4.5 课堂案例-爬取淘宝网首页使用BeautifulSoup解析数据 - 4.6 正则表达式的基本使用 - 4.7 课堂案例-下载糗事百科小视频 - 4.8 pyquery三种初始化方式 - 4.9 pyquery的基本使用 - 4.10 课堂案例:爬取起点小说网-1 - 4.11 课堂案例:爬取起点小说网-2 第5章:数据存储 - 5.1 JSON存储数据 - 5.2 课堂案例:爬取京东销量最好的粽子数据 - 5.3 CSV文件的简介:使用Python向CSV文件写入数据 - 5.4 使用Python读取CSV文件中的内容 - 5.5 课堂案例:使用CSV文件存储粽子评论数据 - 5.6 Excel文件相关概念介绍及openpyxl模块的安装与测试 - 5.7 使用Python向Excel文件中写入数据 - 5.8 使用Python读取Excel文件中的内容 - 5.9 课堂案例:爬取下厨房美食存储到Excel文件中 - 5.10 MySQL的简介 - 5.11 MySQL服务的开启与关闭 - 5.12 MySQL的数据类型 - 5.13 SQL的分类 - 5.14 数据定义语言-create-alter-drop - 5.15 数据操作语言-insert-update-delete - 5.16 数据查询语言-基本查询-模糊查询 - 5.17 数据查询语言-分组查询 - 5.18 数据查询语言-表连接查询 - 5.19 Python连接MySQL数据库:插入操作 - 5.20 Python连接MySQL数据库:批量插入操作 - 5.21 Python连接MySQL数据库:修改与删除操作 - 5.22 Python连接MySQL数据库:查询操作 - 5.23 课堂案例:搭建项目结构 - 5.24 课堂案例:发送请求 - 5.25 课堂案例:数据解析 - 5.26 课堂案例:数据存储 - 5.27 MongoDB的简介安装及启动服务 - 5.28 MongoDB与SQL的常用的数据类型对比 - 5.29 MongoDB最基本命令 - 5.30 MongoDB的insert操作 - 5.31 MongoDB的save与update操作 - 5.32 MongoDB的remove操作 - 5.33 MongoDB简单查询操作 - 5.34 MongoDB的复杂查询操作 - 5.35 MongoDB插入操作 - 5.36 MongoDB修改删除操作 - 5.37 MongoDB查询操作 - 5.38 课堂案例:爬取链家二手房成交量存到MongoDB中 第6章:多线程与动态网页爬虫 - 6.1 程序-进程-线程 - 6.2 线程与进程的区别 - 6.3 初识Python多线程 - 6.4 继承的方式实现多线程 - 6.5 线程的常用方法 - 6.6 多线程访问全局变量的安全性问题 - 6.7 锁机制解决线程的安全性问题 - 6.8 Lock锁:生产者与消费者模式 - 6.9 Condition版的生产者与消费者模式 - 6.10 Queue线程安全的队列 - 6.11 课堂案例:Queue在多线程中的使用 - 6.12课堂案例:多线程下载王者荣耀高清壁纸1-分析URL - 6.13 课堂案例:多线程下载王者荣耀高清壁纸2-爬取第一页壁纸 - 6.14 课堂案例:多线程下载王者荣耀高清壁纸3-生产者 - 6.15 课堂案例:多线程下载王者荣耀高清壁纸4-消费者 - 6.16 课堂案例:多线程下载王者荣耀高清壁纸5-解决异常 - 6.17 多线程的GIL锁 - 6.18 GIL锁与Lock锁的区别 - 6.19 什么是动态网页爬虫 - 6.20 动态网页爬虫的解决方案 - 6.21 selenium的初步使用 - 6.22 close方法与quit方法的区别 - 6.23 selenium的基本使用-定位元素 - 6.24 selenium的基本使用-操作表单元素 - 6.25 课堂案例:使用selenium实现自动搜索 - 6.26 selenium行为链 - 6.27 selenium操作Cookie - 6.28 页面等待 - 6.29 课堂案例:12306抢票-需求说明 - 6.30 课堂案例:12306抢票-实现登录 - 6.31 课堂案例:12306抢票-爬取车站代号 - 6.32 课堂案例:12306-填充站点代号 - 6.33 课堂案例:12306-查询-解析车次 - 6.34 课堂案例:12306抢票-解析车次1 - 6.35 课堂案例:12306抢票-解析车次2 - 6.36 课堂案例:12306抢票-等待获取乘车人 - 6.37 课堂案例:12306抢票-确认乘车人和座席 - 6.38 课堂案例:12306抢票-提交订单 - 6.39 字体反爬:什么是字体反爬 - 6.40 字体反爬:原理-寻找-分析字体 - 6.41 字体反爬:分析字体 - 6.42 字体反爬:实习僧 - 6.43 字体反爬:实习僧-代码实现 - 6.44 验证码的分类 - 6.45 使用OCR破解简单验证码 第7章:Scrapy框架 - 7.1 常见的爬虫框架 - 7.2 Scrapy的安装 - 7.3 Scrapy框架的结构及工作原理 - 7.4 Scrapy框架快速入门 - 7.5 Scrapy框架:案例-编写Spiders-1 - 7.5 Scrapy框架:案例-编写Spiders-2 - 7.6 Scrapy框架:案例-处理响应结果 - 7.7 Scrapy框架:案例数据存储 - 7.8 Scrapy框架:案例项目总结 - 7.9 Scrapy案例:笔趣阁小说-创建项目 - 7.10 Scrapy案例:笔趣阁小说-编写爬虫文件 - 7.11 Scrapy案例:笔趣阁小说-数据存储 - 7.12 Scrapy案例:笔趣阁小说-yield推送请求 - 7.13 CrawlSpider简介及创建 - 7.14 课堂案例:猎云网-定义URL提取规则 - 7.15 课堂案例:猎云网-数据解析 - 7.16 课堂案例:猎云网-getall-get-extract和extract-first的区别 - 7.17 课堂案例:猎云网 -创建数据库-读取配置文件 - 7.18 课堂案例:猎云网-数据存储 - 7.19 Scrapy模拟登录-小说楼 - 7.20 Scrapy批量下载图片-1 - 7.21 Scrapy批量下载图片-2 - 7.21 Scrapy批量下载图片 2-2 - 7.22 下载器中间件的概述 - 7.23 下载器中间件方法详解 - 7.24 下载器中间件:动态设置UA - 7.25 下载器中间件:selenium与Scrapy的结合使用 - 7.26 项目案例:链家租房信息的爬虫-1 - 7.27 课堂案例:链家租房信息的爬取-2 - 7.28 课堂案例:链家租房信息的爬取-3 - 7.29 课堂案例:猎聘网爬取你心仪的职位-1 - 7.30 课堂案例:猎聘网爬取你心仪的职位-2 - 7.31 课堂案例:猎聘网爬取你心仪的职位-3 第8章:分布式爬虫 - 8.1 分布式爬虫的介绍 - 8.2 Redis的安装及启动测试 - 8.3 Redis第三方图形化界面-scrapy-redis模块的安装 - 8.4 分布式爬虫案例:第一种写法-修改配置文件
讯达学院

讯达学院

跟着娟姐学python,每一天的精神食粮