652分钟
Python数据分析系列课程:学习文本挖掘
文本挖掘(TM),又称自然语言处理(NLP),是AI时代炙手可热的数据分析挖掘前沿领域,其所涉及的人机对话系统,推荐算法,文本分类等技术在BAT等企业中都得到广泛应用。 本课程将使用经典武侠小说、大众…
文本挖掘(TM),又称自然语言处理(NLP),是AI时代炙手可热的数据分析挖掘前沿领域,其所涉及的人机对话系统,推荐算法,文本分类等技术在BAT等企业中都得到广泛应用。
本课程将使用经典武侠小说、大众点评抓取结果、微博语料数据等多个实际案例进行教学。
课程将会从基本的分词、词袋模型、分布式表示等概念开始,多面介绍文本挖掘技术的各个方面,特别会针对目前最热的word2vec,gensim 等结合实际案例进行学习,帮助学员直接升级至业界技术前沿。学习完本课程后,学员将能够独立使用Python环境完成中文文本挖掘的各种工作。
第1章 文本挖掘概述
- 1-1 什么是文本挖掘
- 1-2 文本挖掘的基本流程和任务
- 1-3 文本挖掘的基本思路
- 1-4 语料数据化时需要考虑的工作
- 1-5 TM常用工具介绍-1
- 1-6 TM常用工具介绍-2
第2章 磨刀不误砍柴工
- 2-1 IDE简介
- 2-2 安装202004
- 2-3 Notebook演示
- 2-4 NLTK安装
- 2-5 什么是语料库
- 2-6 射雕准备
第3章 分词
- 3-1 分词原理简介
- 3-2 结巴分词的基本用法
- 3-3 自定义词典
- 3-4 去除停用词
- 3-5 词性标注及其他
第4章 词云展示
- 4-1 词频统计
- 4-2 词云概述
- 4-3 Wordcloud安装
- 4-4 绘制词云
- 4-5 设置词云背景
- 4-6 修改词云颜色
第5章 文本信息的向量化
- 5-1 词袋模型
- 5-2 词袋模型的gensim实现
- 5-3 用Pandas生成文档-词条矩阵
- 5-4 用sklearn库生成文档-词条矩阵
- 5-5 N-gram
- 5-6 分布式表示
- 5-7 共现矩阵
- 5-8 NNLM
- 5-9 word2vec
第6章 关键词提取
- 6-1 关键词提取的基本思路
- 6-2 TF-IDF算法
- 6-3 TF- IDF算法的jieba实现
- 6-4 TF- IDF算法的sklearn实现
- 6-5 TF-IDF算法的gensim实现
- 6-6 Textrank算法
第7章 抽取文档主题
- 7-1 主题模型概述
- 7-2 主题模型的sklearn实现
- 7-3 主题模型的gensim实现
- 7-4 主题模型的LDA可视化
第8章 文档相似度
- 8-1 基本概念
- 8-2 词条相似度:Word2vec训练
- 8-3 词条相似度:Word2vec应用
- 8-4 词袋模型实现
- 8-5 doc2vec
- 8-6 文档聚类
第9章 文本分类
- 9-1 文本分类概述
- 9-2 朴素贝叶斯算法
- 9-3 算法的sklearn实现
- 9-4 算法的NLTK实现
第10章 情感分析
- 10-1 情感分析概述
- 10-2 词袋模型实现
- 10-3 分布式表达实现
第11章 文档自动摘要
- 11-1 自动摘要的基本原理
- 11-2 自动摘要的效果评价
- 11-3 自动摘要的python实现
第12章 文本自动写作
- 12-1 RNN基本原理
- 12-2 LSTM的基本原理
- 12-3 KT组合的优势
- 12-4 KT组合的安装
- 12-5 案例1数据准备
- 12-6 案例1模型拟合
- 12-7 案例2数据准备
- 12-8 案例2模型拟合
课程资料
张文彤
博士,数据分析与挖掘专著的作者