图书在版编目（2020）第160452号著姚海鹏王露瑶买天乐

显示全部楼层 · 2022-12-13 00:57:01

图书在版编目（CIP）数据大数据与人工智能导论/姚海鹏等著．--2版．--北京：人民邮电出版社，2020.11ISBN 978-7-115-54733-0Ⅰ．①大…Ⅱ．①姚…Ⅲ．①数据处理—研究②人工智能—研究Ⅳ．①TP274②TP18中国版本图书馆CIP数据核字（2020）第160452号著姚海鹏王露瑶刘韵洁买天乐责任编辑邢建春责任印制彭志环人民邮电出版社出版发行北京市丰台区成寿寺路11号邮编100164电子邮件315@网址北京市艺辉印刷有限公司印刷开本：787×10921/16印张：12.75字数：311千字2020年11月第2版2020年11月北京第1次印刷读者服务热线：（010印装质量热线：（010盗版热线：（010告经营许可证：京东市监广登内容提要本书主要涉及数据工程与人工智能算法原理、大数据平台技术、人工智能算法在大数据平台上的实现等，共7章。第1章介绍大数据与人工智能的历史、应用；第2章介绍数据工程；第3章介绍大数据平台；第4章介绍人工智能基础算法的原理；第5章以第4章为基础，介绍深度学习相关内容；第6章介绍当前热门的强化学习技术；第7章为数据分析与深度学习项目实践。本书可作为希望快速了解和入门大数据与人工智能领域知识的本科生、研究生的参考书，也可供互联网领域中对人工智能算法感兴趣的工程技术人员参考使用。

前言当人类开始发明计算机的时候，就已经在思考如何让计算机获取“智能”。随着社会的日益数字化，人类社会进入大数据时代，海量的数据和云计算使人工智能进入快速发展期。作者在平时科研与教学中发现，许多学生对人工智能与大数据领域表现出了极大的兴趣。市面上虽然有许多优秀的相关类型的图书，然而，它们大部分假设读者已经具备很高的数学基础，这是许多学生尤其是非数学系的本科生所不具备的。除此之外，有的图书对细节介绍非常详尽，使初学者容易陷入其中而忽视整体；有的图书则完全介绍理论，容易导致初学者不会学以致用。因此，作者萌生了写一本真正适合初学者的大数据与人工智能图书的想法，希望能指引更多有志于研究该领域的学习者少走一些弯路，顺利迈入人工智能的大门。全书共7章，分为4个部分。第一部分是第1章，介绍人工智能和大数据的基本知识；第二部分是第2～3章，介绍数据工程相关内容和常用的大数据处理平台；第三部分是第4～6章，介绍进阶知识，包括强化学习、深度学习在内的机器学习算法；第四部分是实践部分，即第7章，用案例来阐述前面章节介绍的算法是如何应用在实际中的。其中，第三部分的内容相对独立，读者可以根据自己的情况选择使用。

对于初学者而言，应该适当增加学习的广度而降低学习的深度。本书对数据工程、机器学习、大数据以及机器学习的并行化实现、深度学习均予以介绍，涵盖了大部分人工智能的基础性内容。需要指出的是，理论上机器学习只是人工智能的一种解决方案。近年来，机器学习已经在人工智能领域中占据了绝对主导地位。因此，本书作为一本旨在服务初学者的图书，并不区分人工智能与机器学习。作者在本书中试图尽可能少地使用数学知识，对于一些不可避免的部分，力求展现其中的精华，同时在本书的最后介绍了一些不可避免的线性代数以及概率论知识。作者在保证广度和淡化深度的同时，避免了罗列知识，而是有机地将各方面知识串接起来。对于应用实践部分，一些基础性编程语言的掌握是必不可少的，作者在附录中介绍了Java和Python，供有需要的读者阅读。本书的作者都是在大数据和人工智能领域具有丰富教学实践经验或研究经验的专家，可以说凝结了多人的智慧和心血，其中，北京邮电大学未来网络理论与应用实验室的姚海鹏副教授带领研究生团队编写了第1、3～7章，北京工业大学未来网络高精尖创新中心的王露瑶博士参与编写了第2章。中国工程院院士刘韵洁对本书做了重要的指导，北京邮电大学未来网络理论与应用实验室的博士生买天乐参与编写了第4～6章。

全书由姚海鹏副教授统稿。特别感谢北京邮电大学未来网络理论与应用实验室的研究生付丹阳、刘惠文、王淇艺、张博、陈旭、董理、刘冲、潘辉江、秦泽宇、张超、诸葛鹏、蔡云飞以及北京工业大学未来网络高精尖创新中心的研究生李飞翔、张贵娟、郭倩影、范春明、贾耀宗、张楠。他们为本书的调研、材料收集、书稿撰写做了大量的研究工作，同时结合自身研究实际，为本书提出了大量建设性建议。大数据和人工智能发展迅速，目前已发展成为多个学科。希望本书能够带领读者入门，为读者进一步在这个领域深造打下坚实的基础。本书由于编写时间比较仓促，书中个别谬误之处在所难免，还望读者批评指正。姚海鹏 2020年7月于北京第1章绪论1.1 日益增长的数据随着移动通信技术和智能终端设备的飞速发展，全球数据通信总量逐年激增。一方面，由于数据产生方式发生了从手工生产到自动化生产的改变，人类为了实现对信息的全量化收集，大量使用传感器（目前全球有30亿～50亿个传感器），这些传感器24 h都在产生数据，加快了信息的爆发式增长；另一方面，由于人类活动越来越离不开数据，人类的日常生活已经与数据成为密不可分的整体。随着移动智能设备的普及，移动端的数据已经逐步增长并成为最主要的数据来源：社交通信中产生的文字、语音、图像、视频，生活应用中的位置信息、查询请求信息，娱乐购物中的产品介绍信息、订单请求信息等无时无刻不在人们周围产生并传递。

举例来说，Youtube上每天会有来自全球28 800 h的视频上传量，Twitter上每天大概会新增5 000万条信息，亚马逊每天产生630万笔订单……欧洲粒子物理研究所的大型强子对撞机，每秒产生的原始数据量高达40 TB。2000年斯隆数字巡天（SDSS，Sloan Digital Sky Survey）项目启动的时候，位于墨西哥州的望远镜在短短几周内收集到的数据比之前天文学历史上收集的数据总和还要多。从科研领域到医疗卫生领域，从银行业到互联网行业，各行各业都面临着爆发式增长的数据量的难题。根据南加利福尼亚大学安嫩伯格通信学院马丁·希尔伯特（Martin Hilbert）的研究，人类在2007年存储了超过300 EB的数据，也就是3×1011 GB的数据（数据单位转化如表1-1所示），进入了数据海量激增的时代。人类存储信息量的增长速度比世界经济的增长速度快4倍，而计算（即数据处理能力）的增长速度比世界经济的增长速度快9倍。大数据的时代已经到来。1.1.1 大数据基本概念“大数据”一词最早出现在20世纪90年代的美国，直到2012年之后，大数据才逐渐获得业界更多的关注和重视。其覆盖面涉及物理学、生物学、环境生态学、金融学以及军事领域、通信领域。

当下对“大数据”的相关研究很火热。那么，何谓大数据？其实在最开始的时候，大数据并没有一个确切的概念，而是指需要处理的信息量很大，已经超过一半计算机在处理数据时所能使用的内存量，迫使工程师必须改进处理数据的工具。在这种驱动下，谷歌的MapReduce和开源的Hadoop平台的出现使人们可以处理的数据量大大增加，从而提升了对大量数据的处理能力。在本书中，大数据主要是指海量乃至巨量数据，并且数据规模大到无法通过目前普及的计算机系统在用户可容忍时间内获取、存储、处理。表1-1数据单位转化对大数据的认识和利用需要通过相关工具对数据进行提取、分析和利用。本书对常见数据处理（数据工程）、相关处理工具、处理算法、经典案例进行描述