652分钟

Python数据分析系列课程：学习文本挖掘

文本挖掘（TM），又称自然语言处理（NLP），是AI时代炙手可热的数据分析挖掘前沿领域，其所涉及的人机对话系统，推荐算法，文本分类等技术在BAT等企业中都得到广泛应用。本课程将使用经典武侠小说、大众…

登录查看更多信息

课程分类: 人工智能 | 技术开发
适用人群: 分析师, 工程师, 专家
课程标签: 文本挖掘,自然语言处理,Python

文本挖掘（TM），又称自然语言处理（NLP），是AI时代炙手可热的数据分析挖掘前沿领域，其所涉及的人机对话系统，推荐算法，文本分类等技术在BAT等企业中都得到广泛应用。本课程将使用经典武侠小说、大众点评抓取结果、微博语料数据等多个实际案例进行教学。课程将会从基本的分词、词袋模型、分布式表示等概念开始，多面介绍文本挖掘技术的各个方面，特别会针对目前最热的word2vec，gensim 等结合实际案例进行学习，帮助学员直接升级至业界技术前沿。学习完本课程后，学员将能够独立使用Python环境完成中文文本挖掘的各种工作。

第1章文本挖掘概述 - 1-1 什么是文本挖掘 - 1-2 文本挖掘的基本流程和任务 - 1-3 文本挖掘的基本思路 - 1-4 语料数据化时需要考虑的工作 - 1-5 TM常用工具介绍-1 - 1-6 TM常用工具介绍-2 第2章磨刀不误砍柴工 - 2-1 IDE简介 - 2-2 安装202004 - 2-3 Notebook演示 - 2-4 NLTK安装 - 2-5 什么是语料库 - 2-6 射雕准备第3章分词 - 3-1 分词原理简介 - 3-2 结巴分词的基本用法 - 3-3 自定义词典 - 3-4 去除停用词 - 3-5 词性标注及其他第4章词云展示 - 4-1 词频统计 - 4-2 词云概述 - 4-3 Wordcloud安装 - 4-4 绘制词云 - 4-5 设置词云背景 - 4-6 修改词云颜色第5章文本信息的向量化 - 5-1 词袋模型 - 5-2 词袋模型的gensim实现 - 5-3 用Pandas生成文档-词条矩阵 - 5-4 用sklearn库生成文档-词条矩阵 - 5-5 N-gram - 5-6 分布式表示 - 5-7 共现矩阵 - 5-8 NNLM - 5-9 word2vec 第6章关键词提取 - 6-1 关键词提取的基本思路 - 6-2 TF-IDF算法 - 6-3 TF- IDF算法的jieba实现 - 6-4 TF- IDF算法的sklearn实现 - 6-5 TF-IDF算法的gensim实现 - 6-6 Textrank算法第7章抽取文档主题 - 7-1 主题模型概述 - 7-2 主题模型的sklearn实现 - 7-3 主题模型的gensim实现 - 7-4 主题模型的LDA可视化第8章文档相似度 - 8-1 基本概念 - 8-2 词条相似度：Word2vec训练 - 8-3 词条相似度：Word2vec应用 - 8-4 词袋模型实现 - 8-5 doc2vec - 8-6 文档聚类第9章文本分类 - 9-1 文本分类概述 - 9-2 朴素贝叶斯算法 - 9-3 算法的sklearn实现 - 9-4 算法的NLTK实现第10章情感分析 - 10-1 情感分析概述 - 10-2 词袋模型实现 - 10-3 分布式表达实现第11章文档自动摘要 - 11-1 自动摘要的基本原理 - 11-2 自动摘要的效果评价 - 11-3 自动摘要的python实现第12章文本自动写作 - 12-1 RNN基本原理 - 12-2 LSTM的基本原理 - 12-3 KT组合的优势 - 12-4 KT组合的安装 - 12-5 案例1数据准备 - 12-6 案例1模型拟合 - 12-7 案例2数据准备 - 12-8 案例2模型拟合课程资料

张文彤

博士，数据分析与挖掘专著的作者