注册 登录 进入教材巡展
#
  • #

出版时间:2020-06

出版社:中国铁道出版社

以下为《自然语言处理从入门到实战》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 中国铁道出版社
  • 9787113266912
  • 1版
  • 319858
  • 66210129-4
  • 平装
  • 16开
  • 2020-06
  • 366
  • 264
  • 工学
  • 计算机科学与技术
  • 计算机、人工智能
  • 高职
作者简介
胡盼盼自然语言处理工程师,斯特拉斯堡大学计算机语言学硕士,曾任法国科学院(CNRS,Centre National de la Recherche Scientifique)算法研究员,负责过医疗知识图谱、聊天机器人、智能律师系统、文本生成系统等企业级核心项目。
查看全部
内容简介
为了帮助广大爱好自然语言处理(NaturalLanguageProcessing,NLP)技术的读者朋友入门此领域,本书阐述了自然语言处理概况、领域应用、相关处理工具包、相关的机器学习及深度学习模型、文本预处理及文本表征等基础知识,以及具体的自然语言处理任务,包括文本分类、关系抽取、知识图谱、文本摘要、序列标注、机器翻译和聊天系统,同时介绍了自然语言处理技术在学术界以及工业界的发展、应用现状,并为读者们提供了部分面试参考题目。

本书适合有一定的编程及机器学习基础,想入门自然语言处理,以及想系统了解或准备求职自然语言处理初级岗位的读者阅读。
目录
目录

















第一部分了解自然语言处理





第1章自然语言处理初探

11自然语言处理概述

111自然语言处理早期发展史

112新世纪的里程碑事件

12自然语言处理的挑战

121词义消歧

122指代消解

123上下文理解

124语义与语用的不对等

13自然语言处理的应用领域

131医疗

132教育

133媒体

134金融

135法律

14自然语言处理的常见工具

141基础任务工具包

142科学计算及机器学习框架

143深度学习框架

本章小结

思考题

第二部分自然语言处理核心技术



第2章自然语言处理与机器学习

21逻辑回归

211逻辑回归基本原理

212逻辑回归在实践中的注意要点

213逻辑回归的优势与不足

22朴素贝叶斯

221朴素贝叶斯基本原理

222朴素贝叶斯的类型

223朴素贝叶斯的优势与不足

23Kmeans算法

231Kmeans算法基本原理

232Kmeans算法实践

233Kmeans算法的优势与不足

24决策树

241决策树的属性划分

242随机森林的基本原理

243随机森林在应用中的注意细节

25主成分分析

251梯度上升法解PCA

252协方差矩阵解PCA

253实战PCA

本章小结

思考题



第3章自然语言处理与神经网络

31神经网络初探

311神经元结构

312常见的激活函数

313误差反向传播算法

32常见的神经网络结构

321多层感知机

322循环神经网络的基本原理

323卷积神经网络的基本原理

324神经网络的优势与不足

33神经网络算法的改进与提升

331防止过拟合的方法

332训练速度与精度的提高方法

333注意力机制

本章小结

思考题

第三部分自然语言处理基本任务



第4章文本预处理

41文本预处理的基础项目

411文本规范化

412语义分析

413分词

414文本纠错

42关键词提取

421基于特征统计

422基于主题模型

423基于图模型

43数据不平衡的处理

431常见方法

432数据不平衡问题实战

本章小结

思考题



第5章文本的表示技术

51词袋模型

511基于频次的词袋模型

512基于TFIDF的词袋模型

513相关工具的使用

52Word2Vec词向量

521Word2Vec的基本原理

522Word2Vec模型细节及代码演示

523应用工具训练Word2Vec

53改进后的词表征

531GloVe模型

532FastText模型

533ELMo模型

54句向量

541基于词向量的平均

542沿用Word2Vec思想

543有监督方式

本章小结

思考题



第6章序列标注

61序列标注基础

611序列标注的应用场景

612基线方式

613序列标注任务的难点

62基于概率图的模型

621隐马尔科夫模型(HMM)

622最大熵马尔科夫模型(MEMM)

623条件随机场模型(CRF)

624天气预测实例

63基于深度学习的方式

631数据表征形式

632序列处理模型

本章小结

思考题



第7章关系抽取

71关系抽取基础

711关系抽取概述

712关系抽取的主要方法

713深度学习与关系抽取

714强化学习与关系抽取

72基于半监督的关系抽取模式:Snowball系统

721Patterns及Tuples的生成

722Patterns及Tuples的评估

723Snowball的实现细节

73关系抽取工具——DeepDive

731DeepDive概述

732DeepDive工作流程

733概率推断与因子图

本章小结

思考题

第四部分自然语言处理高级任务



第8章知识图谱

81知识图谱基本概念

811从语义网络到知识图谱

812知识的结构化、存储及查询

813几个开源的知识图谱

82知识图谱的关键构建技术

821本体匹配

822实体链接

823知识推理

83知识图谱应用

831反欺诈

832个性化推荐

833知识库问答

本章小结

思考题



第9章文本分类

91文本分类的常见方法

911机器学习

912模型融合

913深度学习

92文本分类的不同应用场景

921二分类

922多分类

923多标签多分类

93案例:搭建一款新闻主题分类器

931数据预处理

932训练与预测

933改进

本章小结

思考题



第10章文本摘要

101抽取式摘要

1011传统方法

1012基于深度学习的方法

1013抽取式摘要的训练数据问题

102生成式摘要

1021基础模型

1022前沿模型中的技巧

1023强化学习与生成式摘要

103案例:搭建网球新闻摘要生成器

1031基于词频统计的摘要生成器

1032基于图模型的摘要生成器

1033结果分析

本章小结

思考题



第11章机器翻译

111传统机器翻译

1111源起

1112基于规则

1113基于大规模语料

112统计机器翻译

1121相关流派

1122基于信源信道的统计机器翻译

1123案例:外星语的翻译实战

113神经机器翻译

1131基本原理

1132改进机制

1133前沿与挑战

本章小结

思考题



第12章聊天系统

121聊天系统的类型

1211闲聊式机器人

1212知识问答型机器人

1213任务型聊天机器人

122聊天系统的关键技术

1221检索技术

1222意图识别和词槽填充

1223对话管理

1224强化学习与多轮对话

123案例:闲聊机器人实战

1231技术概要

1232基本配置及数据预处理

1233闲聊机器人模型的搭建

1234模型训练、预测以及优化

本章小结

思考题

第五部分自然语言处理求职



第13章自然语言处理技术的现在、未来及择业

131自然语言处理组织及人才需求介绍

1311学术界

1312工业界

1313人才需求现状

132未来与自然语言处理

1321自然语言处理热点技术方向

1322自然语言处理的应用畅想

1323自然语言处理带来的行业冲击

133面试题

1331数据结构与算法

1332数学基础

1333机器学习与深度学习

1334自然语言处理专业

1335实际问题解决及技术领域见解

本章小结

思考题





附录A思考题参考答案



附录B面试题答案目录

















第一部分了解自然语言处理





第1章自然语言处理初探

11自然语言处理概述

111自然语言处理早期发展史

112新世纪的里程碑事件

12自然语言处理的挑战

121词义消歧

122指代消解

123上下文理解

124语义与语用的不对等

13自然语言处理的应用领域

131医疗

132教育

133媒体

134金融

135法律

14自然语言处理的常见工具

141基础任务工具包

142科学计算及机器学习框架

143深度学习框架

本章小结

思考题

第二部分自然语言处理核心技术



第2章自然语言处理与机器学习

21逻辑回归

211逻辑回归基本原理

212逻辑回归在实践中的注意要点

213逻辑回归的优势与不足

22朴素贝叶斯

221朴素贝叶斯基本原理

222朴素贝叶斯的类型

223朴素贝叶斯的优势与不足

23Kmeans算法

231Kmeans算法基本原理

232Kmeans算法实践

233Kmeans算法的优势与不足

24决策树

241决策树的属性划分

242随机森林的基本原理

243随机森林在应用中的注意细节

25主成分分析

251梯度上升法解PCA

252协方差矩阵解PCA

253实战PCA

本章小结

思考题



第3章自然语言处理与神经网络

31神经网络初探

311神经元结构

312常见的激活函数

313误差反向传播算法

32常见的神经网络结构

321多层感知机

322循环神经网络的基本原理

323卷积神经网络的基本原理

324神经网络的优势与不足

33神经网络算法的改进与提升

331防止过拟合的方法

332训练速度与精度的提高方法

333注意力机制

本章小结

思考题

第三部分自然语言处理基本任务



第4章文本预处理

41文本预处理的基础项目

411文本规范化

412语义分析

413分词

414文本纠错

42关键词提取

421基于特征统计

422基于主题模型

423基于图模型

43数据不平衡的处理

431常见方法

432数据不平衡问题实战

本章小结

思考题



第5章文本的表示技术

51词袋模型

511基于频次的词袋模型

512基于TFIDF的词袋模型

513相关工具的使用

52Word2Vec词向量

521Word2Vec的基本原理

522Word2Vec模型细节及代码演示

523应用工具训练Word2Vec

53改进后的词表征

531GloVe模型

532FastText模型

533ELMo模型

54句向量

541基于词向量的平均

542沿用Word2Vec思想

543有监督方式

本章小结

思考题



第6章序列标注

61序列标注基础

611序列标注的应用场景

612基线方式

613序列标注任务的难点

62基于概率图的模型

621隐马尔科夫模型(HMM)

622最大熵马尔科夫模型(MEMM)

623条件随机场模型(CRF)

624天气预测实例

63基于深度学习的方式

631数据表征形式

632序列处理模型

本章小结

思考题



第7章关系抽取

71关系抽取基础

711关系抽取概述

712关系抽取的主要方法

713深度学习与关系抽取

714强化学习与关系抽取

72基于半监督的关系抽取模式:Snowball系统

721Patterns及Tuples的生成

722Patterns及Tuples的评估

723Snowball的实现细节

73关系抽取工具——DeepDive

731DeepDive概述

732DeepDive工作流程

733概率推断与因子图

本章小结

思考题

第四部分自然语言处理高级任务



第8章知识图谱

81知识图谱基本概念

811从语义网络到知识图谱

812知识的结构化、存储及查询

813几个开源的知识图谱

82知识图谱的关键构建技术

821本体匹配

822实体链接

823知识推理

83知识图谱应用

831反欺诈

832个性化推荐

833知识库问答

本章小结

思考题



第9章文本分类

91文本分类的常见方法

911机器学习

912模型融合

913深度学习

92文本分类的不同应用场景

921二分类

922多分类

923多标签多分类

93案例:搭建一款新闻主题分类器

931数据预处理

932训练与预测

933改进

本章小结

思考题



第10章文本摘要

101抽取式摘要

1011传统方法

1012基于深度学习的方法

1013抽取式摘要的训练数据问题

102生成式摘要

1021基础模型

1022前沿模型中的技巧

1023强化学习与生成式摘要

103案例:搭建网球新闻摘要生成器

1031基于词频统计的摘要生成器

1032基于图模型的摘要生成器

1033结果分析

本章小结

思考题



第11章机器翻译

111传统机器翻译

1111源起

1112基于规则

1113基于大规模语料

112统计机器翻译

1121相关流派

1122基于信源信道的统计机器翻译

1123案例:外星语的翻译实战

113神经机器翻译

1131基本原理

1132改进机制

1133前沿与挑战

本章小结

思考题



第12章聊天系统

121聊天系统的类型

1211闲聊式机器人

1212知识问答型机器人

1213任务型聊天机器人

122聊天系统的关键技术

1221检索技术

1222意图识别和词槽填充

1223对话管理

1224强化学习与多轮对话

123案例:闲聊机器人实战

1231技术概要

1232基本配置及数据预处理

1233闲聊机器人模型的搭建

1234模型训练、预测以及优化

本章小结

思考题

第五部分自然语言处理求职



第13章自然语言处理技术的现在、未来及择业

131自然语言处理组织及人才需求介绍

1311学术界

1312工业界

1313人才需求现状

132未来与自然语言处理

1321自然语言处理热点技术方向

1322自然语言处理的应用畅想

1323自然语言处理带来的行业冲击

133面试题

1331数据结构与算法

1332数学基础

1333机器学习与深度学习

1334自然语言处理专业

1335实际问题解决及技术领域见解

本章小结

思考题





附录A思考题参考答案



附录B面试题答案