全国大中专教材网络采选系统

推荐纸质教材推荐数字资源

大数据审计（基于Python）

定价：￥79.90

作者：张高煜

出版时间：2026-01

出版社：电子工业出版社

以下为《大数据审计（基于Python）》的配套数字资源，这些资源在您购买图书后将免费附送给您：

关闭

基本信息评价

出版社：电子工业出版社
ISBN：9787121476211
版次：1-4
本季征订号：49265944-6
开本：16开
出版时间：2026-01
千字：434
本科门类：管理学
本科专业类：管理科学与工程类
适用专业：大数据管理与应用
适用分级：本科研究生及以上

内容简介

本书为新文科教育指导思想下的金融科技编程教材，通过示例讲解Python编程在审计行业的具体应用。作者基于20多年的大学计算机教学经历与行业大数据人工智能软件开发经验，从基本的概念开始，逐步深入地介绍清洗表格数据、采集网络信息、手写票据的光学字符识别、财经文本的量化、知识图谱自动构建等热门知识要点，并通过实例给出算法原理与实现路径，同时详细介绍了代码生成的过程和结果，有助于读者真正掌握大数据审计中的Python编程思想与技术，并将其应用于自己的生产实践中。本书可作为高等院校审计、财经和金融科技等专业相关课程的教材，也可作为财经和金融科技等方面从业人员的培训用书和参考书。

第1章审计基础与审计报告的构成 1
1.1 审计概述 1
1.1.1 审计概念 1
1.1.2 审计目的 1
1.1.3 审计风险 2
1.1.4 审计证据 2
1.2 会计概述 2
1.2.1 会计的概念及基本假设 3
1.2.2 会计信息质量要求 4
1.2.3 财务会计报告简述 4
1.2.4 会计科目简述 5
1.3 审计报告的构成 8
1.3.1 审计意见 8
1.3.2 形成审计意见的基础 9
1.3.3 关键审计事项 10
1.3.4 其他信息 10
1.3.5 管理层和治理层对财务报表的责任 11
1.3.6 注册会计师对财务报表审计的责任 11
1.4 智能审计国内外研究现状 12
1.4.1 国外研究现状 12
1.4.2 国内研究现状 12
1.5 如何构建人工智能审计规则 13
1.5.1 基于法律法规构建规则库 14
1.5.2 基于专家经验构建规则库 14
参考文献 15
第2章 Python语法基础 17
2.1 Python开发环境安装 17
2.1.1 Anaconda的安装 17
2.1.2 PyCharm的安装配置 17
2.2 数据类型 19
2.2.1 数字 19
2.2.2 字符串 19
2.2.3 列表与元组 20
2.2.4 字典与集合 22
2.3 语句语法 24
2.3.1 变量、行、缩进与注释 24
2.3.2 运算符 25
2.3.3 布尔值和空值 26
2.3.4 if条件语句 27
2.3.5 for循环语句 27
2.3.6 while循环语句 28
2.3.7 break与continue 29
2.4 函数与库 29
2.4.1 函数的定义与调用 29
2.4.2 函数的返回值与作用域 30
2.4.3 常用基本函数介绍 31
2.4.4 库 32
2.5 文件的读与写 33
2.5.1 input函数与print函数 33
2.5.2 文件的写操作 34
2.5.3 文件的读操作 35
2.6 类 36
2.6.1 类和对象的基本概念 36
2.6.2 面向对象的特征 36
2.6.3 type和isinstance 37
2.7 读写数据库MySQL 38
2.7.1 MySQL的安装配置 38
2.7.2 Python与MySQL的交互 39
参考文献 41
第3章 Python科学计算与表格处理 42
3.1 Python科学计算 42
3.1.1 Pandas库 42
3.1.2 NumPy库 44
3.1.3 Pipeline 44
3.2 表格处理 45
3.2.1 读取表格文件 45
3.2.2 表格数据的合并与拼接 51
3.2.3 输出到表格文件 53
第4章数据预处理：清洗表格数据 55
4.1 数据背景 55
4.2 数据清洗 55
4.2.1 内容替换 55
4.2.2 数据类型转换 58
4.2.3 删除无效数据 61
4.2.4 数据创造 64
4.2.5 DataFrame转换 68
第5章数据预处理：采集网络信息 70
5.1 爬虫基础知识 70
5.1.1 网页源代码 70
5.1.2 正则表达式 72
5.2 爬虫基础方式 74
5.2.1 提取搜狗资讯标题、网址、日期和来源 74
5.2.2 获取百度翻译结果 75
5.2.3 Selenium库详解 77
5.2.4 BeautifulSoup库详解 80
5.3 爬虫处理方法 88
5.3.1 处理数据乱码 88
5.3.2 数据清洗与筛选 88
5.3.3 生成数据文本文件 91
5.3.4 批量爬取多家公司多页资讯 91
5.3.5 基础爬虫实践 92
5.3.6 Python与MySQL的交互实践 93
参考文献 95
第6章数据预处理：解析财经报告 96
6.1 批量下载PDF文件至指定位置 96
6.2 解析单个PDF文件信息 98
6.2.1 解析PDF文件的文本内容 98
6.2.2 解析PDF文件的表格内容 99
6.3 批量提取PDF文件信息 100
6.3.1 批量输出PDF文件的文本内容 100
6.3.2 筛选并转移PDF文件 101
参考文献 103
第7章数据预处理：手写票据的光学字符识别 104
7.1 问题场景 104
7.2 表格和单元格定位 108
7.2.1 解析PDF文件 108
7.2.2 表格定位 110
7.2.3 表格自动旋转 112
7.2.4 单元格定位 115
7.3 单元格配准 117
7.3.1 DBSCAN聚类 118
7.3.2 描述性统计 120
7.3.3 模板可视化 121
7.4 单元格内容识别 122
7.4.1 图片预处理 123
7.4.2 LSTM-RNN-CTC模型 124
第8章自然语言处理：财经文本的量化 127
8.1 自然语言处理 127
8.1.1 自然语言处理概述 127
8.1.2 机器学习 127
8.1.3 语料库 128
8.1.4 HanLP环境搭建 128
8.2 中文分词 129
8.2.1 中文分词 129
8.2.2 词典分词 130
8.2.3 二元语法分词 131
8.2.4 词典的构建 132
8.3 命名实体识别 135
8.3.1 命名实体识别 135
8.3.2 基于规则的命名实体识别 135
8.3.3 基于预训练模型的实体关系抽取 136
8.3.4 基于依存句法分析的实体关系抽取 136
8.3.5 财经文本命名实体识别 137
8.4 信息提取 138
8.4.1 关键词提取 138
8.4.2 关键句提取 139
8.4.3 情感分析 140
8.5 综合训练 141
参考文献 142
第9章自然语言处理：金融文本摘要 143
9.1 文本摘要自动生成概述 143
9.1.1 研究背景与问题定义 143
9.1.2 技术分类与实现方法 143
9.1.3 评价指标与数据集 144
9.2 偏好构建模块 145
9.2.1 获取偏好文本 145
9.2.2 文本预处理 145
9.2.3 LDA主题模型 147
9.2.4 构建偏好语料库 148
9.3 锁定段落中心句 149
9.3.1 获取偏好文本关键词 149
9.3.2 相似度计算 150
9.3.3 提取携带偏好的段落中心句 151
9.4 摘要生成模块 154
9.4.1 依存句法分析 154
9.4.2 结构树剪枝 157
参考文献 159
第10章自然语言处理：抽取实体关系 161
10.1 知识抽取任务概述 161
10.1.1 知识抽取任务定义 161
10.1.2 知识抽取任务分类 162
10.1.3 审计领域知识抽取任务 162
10.2 面向结构化数据的知识抽取 163
10.3 面向非结构化数据的知识抽取 164
1