自然语言处理入门与实战
定价:¥49.80
作者: 徐鹏
出版时间:2025-08
出版社:电子工业出版社
- 电子工业出版社
- 9787121511776
- 1-1
- 568563
- 平塑
- 16开
- 2025-08
- 282
- 196
- 工学
- 计算机类
- 计算机科学与技术
- 本科 高职
内容简介
本教材将Python自然语言处理的常用技术与真实案例相结合,深入浅出地介绍Python自然语言处理的重要内容。全书共8章,主要分为两大部分,第1~3章为基础篇,包括导论、文本基础处理、文本预处理与分析,第4~8章为实践篇,包括新闻自动分类、“天问一号”事件用户评论情感分析、游客景区印象分析、论文标题自动生成,以及基于TipDM大数据挖掘建模平台的游客景区印象分析。本教材每章都包含课后习题,通过练习和操作实践,帮助读者巩固所学的内容。 本教材可以作为高校数据科学或人工智能等相关专业的教材,也可作为自然语言处理爱好者的自学用书。
目录
基础篇
第1章 导论 002
1.1 自然语言处理概述 003
1.1.1 发展历程及未来展望 003
1.1.2 研究内容与常见应用 003
1.1.3 自然语言处理的基本流程 005
1.2 自然语言处理的开发环境 007
1.2.1 Python的优势 007
1.2.2 自然语言处理开发环境配置 008
1.3 自然语言与大语言模型 013
本章小结 015
课后习题 015
第2章 文本基础处理 016
2.1 文本数据源 017
2.2 语料库 017
2.2.1 语料库的类型 018
2.2.2 语料库的用途 019
2.2.3 语料库的构建与获取 019
2.3 中文分词 023
2.3.1 常用中文分词方法 023
2.3.2 基于jieba库的中文分词 029
2.4 词性标注与命名实体识别 031
2.4.1 词性标注简介与规范 031
2.4.2 命名实体识别简介与常用算法 033
2.4.3 基于jieba库的词性标注与命名实体识别 035
2.5 关键词提取 037
2.5.1 常用关键词提取算法 037
2.5.2 提取文本关键词 039
本章小结 043
课后习题 043
第3章 文本预处理与分析 045
3.1 文本向量化与相似度 046
3.1.1 文本向量化与相似度简介 046
3.1.2 常用文本向量化方法 047
3.1.3 文本向量化实现 055
3.1.4 常用文本相似度算法 057
3.1.5 文本相似度算法实现 060
3.2 文本分析简介 062
3.2.1 结构化分析 062
3.2.2 语义化分析 064
3.3 文本分析常用算法 065
3.3.1 常用机器学习算法 065
3.3.2 常用深度学习算法 070
本章小结 076
课后习题 076
实践篇
第4章 新闻类型自动分类 080
4.1 业务背景与项目目标 081
4.1.1 业务背景 081
4.1.2 数据说明 081
4.1.3 分析目标 082
4.2 分析方法与过程 082
4.2.1 数据采集 083
4.2.2 数据探索 083
4.2.3 文本预处理 088
4.2.4 构建SVM模型 092
4.2.5 模型评估 095
本章小结 096
课后习题 097
第5章 “天问一号”事件用户评论情感分析 098
5.1 业务背景与项目目标 099
5.1.1 业务背景 099
5.1.2 数据说明 099
5.1.3 分析目标 100
5.2 分析方法与过程 101
5.2.1 数据探索 101
5.2.2 文本预处理 106
5.2.3 绘制词云图 110
5.2.4 模型构建与训练 114
5.2.5 模型评估 119
5.2.6 模型优化 121
本章小结 126
课后习题 126
第6章 游客景区印象分析 127
6.1 业务背景与项目目标 128
6.1.1 业务背景 128
6.1.2 数据说明 128
6.1.3 分析目标 129
6.2 分析方法与流程 130
6.2.1 文本预处理 130
6.2.2 景区印象分析 133
6.2.3 景区特色分析 134
6.2.4 提升景区美誉度的建议 140
本章小结 141
课后习题 141
第7章 论文标题自动生成 142
7.1 业务背景与项目目标 143
7.1.1 业务背景 143
7.1.2 数据说明 144
7.1.3 分析目标 144
7.2 分析方法与流程 145
7.2.1 文本预处理 145
7.2.2 训练模型 148
7.2.3 结果与分析 154
本章小结 156
课后习题 156
第8章 基于TipDM大数据挖掘建模平台的游客景区印象分析 157
8.1 TipDM大数据挖掘建模平台简介 158
8.1.1 共享库 159
8.1.2 数据连接 159
8.1.3 数据集 160
8.1.4 我的工程 160
8.1.5 个人组件 163
8.2 使用平台实现游客景区印象分析 164
8.2.1 使用平台实现游客景区印象分析的总体流程 164
8.2.2 配置数据源 165
8.2.3 文本预处理 167
8.2.4 景区印象分析 171
8.2.5 景区特色分析 174
本章小结 177
课后习题 178
参考文献 179
第1章 导论 002
1.1 自然语言处理概述 003
1.1.1 发展历程及未来展望 003
1.1.2 研究内容与常见应用 003
1.1.3 自然语言处理的基本流程 005
1.2 自然语言处理的开发环境 007
1.2.1 Python的优势 007
1.2.2 自然语言处理开发环境配置 008
1.3 自然语言与大语言模型 013
本章小结 015
课后习题 015
第2章 文本基础处理 016
2.1 文本数据源 017
2.2 语料库 017
2.2.1 语料库的类型 018
2.2.2 语料库的用途 019
2.2.3 语料库的构建与获取 019
2.3 中文分词 023
2.3.1 常用中文分词方法 023
2.3.2 基于jieba库的中文分词 029
2.4 词性标注与命名实体识别 031
2.4.1 词性标注简介与规范 031
2.4.2 命名实体识别简介与常用算法 033
2.4.3 基于jieba库的词性标注与命名实体识别 035
2.5 关键词提取 037
2.5.1 常用关键词提取算法 037
2.5.2 提取文本关键词 039
本章小结 043
课后习题 043
第3章 文本预处理与分析 045
3.1 文本向量化与相似度 046
3.1.1 文本向量化与相似度简介 046
3.1.2 常用文本向量化方法 047
3.1.3 文本向量化实现 055
3.1.4 常用文本相似度算法 057
3.1.5 文本相似度算法实现 060
3.2 文本分析简介 062
3.2.1 结构化分析 062
3.2.2 语义化分析 064
3.3 文本分析常用算法 065
3.3.1 常用机器学习算法 065
3.3.2 常用深度学习算法 070
本章小结 076
课后习题 076
实践篇
第4章 新闻类型自动分类 080
4.1 业务背景与项目目标 081
4.1.1 业务背景 081
4.1.2 数据说明 081
4.1.3 分析目标 082
4.2 分析方法与过程 082
4.2.1 数据采集 083
4.2.2 数据探索 083
4.2.3 文本预处理 088
4.2.4 构建SVM模型 092
4.2.5 模型评估 095
本章小结 096
课后习题 097
第5章 “天问一号”事件用户评论情感分析 098
5.1 业务背景与项目目标 099
5.1.1 业务背景 099
5.1.2 数据说明 099
5.1.3 分析目标 100
5.2 分析方法与过程 101
5.2.1 数据探索 101
5.2.2 文本预处理 106
5.2.3 绘制词云图 110
5.2.4 模型构建与训练 114
5.2.5 模型评估 119
5.2.6 模型优化 121
本章小结 126
课后习题 126
第6章 游客景区印象分析 127
6.1 业务背景与项目目标 128
6.1.1 业务背景 128
6.1.2 数据说明 128
6.1.3 分析目标 129
6.2 分析方法与流程 130
6.2.1 文本预处理 130
6.2.2 景区印象分析 133
6.2.3 景区特色分析 134
6.2.4 提升景区美誉度的建议 140
本章小结 141
课后习题 141
第7章 论文标题自动生成 142
7.1 业务背景与项目目标 143
7.1.1 业务背景 143
7.1.2 数据说明 144
7.1.3 分析目标 144
7.2 分析方法与流程 145
7.2.1 文本预处理 145
7.2.2 训练模型 148
7.2.3 结果与分析 154
本章小结 156
课后习题 156
第8章 基于TipDM大数据挖掘建模平台的游客景区印象分析 157
8.1 TipDM大数据挖掘建模平台简介 158
8.1.1 共享库 159
8.1.2 数据连接 159
8.1.3 数据集 160
8.1.4 我的工程 160
8.1.5 个人组件 163
8.2 使用平台实现游客景区印象分析 164
8.2.1 使用平台实现游客景区印象分析的总体流程 164
8.2.2 配置数据源 165
8.2.3 文本预处理 167
8.2.4 景区印象分析 171
8.2.5 景区特色分析 174
本章小结 177
课后习题 178
参考文献 179












