3天(6小时/天)

Python语言基础

Python语言基础

本课程系统讲解Python在网页数据获取与解析方面的核心技能,涵盖网页结构、HTTP协议、HTML解析、异步加载、模拟登录及验证码处理等关键知识点。通过丰富的案例和实操练习,学员将掌握使用Python…

课程分类
编程开发 | 软件开发
行业分类
互联网IT
课程标签
Python,爬虫,网页解析,Scrapy

课程介绍

本课程系统讲解Python在网页数据获取与解析方面的核心技能,涵盖网页结构、HTTP协议、HTML解析、异步加载、模拟登录及验证码处理等关键知识点。通过丰富的案例和实操练习,学员将掌握使用Python进行网络信息爬取的能力,能够应对复杂网络环境下的数据采集需求。课程从基础爬虫开发到Scrapy框架应用,循序渐进,注重培养学员的动手能力和问题解决能力。适合希望提升Python爬虫编程技能、从事数据采集或网络分析工作的学员。

课程背景

Python语言是当前最火的语言之一,易于使用,学习曲线低。Python具备丰富成熟的网络库和数据处理库,可以快速的进行网络信息爬取、数据初步处理,并可以应对复杂的网络环境、网站环境。

课程目标

培训完结后,学员能够:了解网页结构和相关协议;掌握Python网页内容获取库;掌握Python网页内容解析方法;掌握常用爬虫库。
单元一 | 绪论 | 爬虫介绍,爬虫应用,爬虫技术介绍 单元二 | Python简单爬虫开发 | 使用Python获取网页源代码,多线程爬虫,爬虫常见搜索算法,阶段练习:百度页面爬取 单元三 | 高性能html解析 | HTML介绍,正则表达式介绍,通过正则表达式获取页面数据,XPATH介绍,通过XPATH快速获取数据,Beautiful Soup4介绍和使用,阶段练习:招聘信息爬取 单元四 | 异步加载和请求 | HTTP协议简介,网页结构简介,Ajax简介,异步加载,伪造请求头,阶段练习:获取视频网站评论 单元五 | 模拟登陆与验证码 | 网站登录原理介绍,模拟登陆,验证码机制,验证码处理,阶段练习:模拟网站登录操作 单元六 | Scrapy爬虫框架 | Scrapy介绍与安装,Scrapy的使用,Scrapy与数据库,Scrapy与Redis,Scrapy中间件,Scrapy爬虫部署 单元七 | 整体练习 | 根据实际情况设定一个实验课题
郭振杰

郭振杰

常住地:河北省 石家庄市

专业从事企业数字化转型、数字化解决方案设计和咨询服务,人工智能应用方案设计和咨询服务。在交通、房地产、矿山、电力、城市基础服务、生产制造、烟草等行业完成多个数字化和人工智能应用落地。涉及人工智能场景应用、数据中台建设、数据治理和分析、智能制造等方向。