12月12日,2015中关村大数据日“共享共融 数创未来”主题峰会在北京中关村国家自主创新示范区会议中心举行,在当天上午的主题峰会上,中国科学院院士徐宗本做了主题为“用好大数据必须具有大智慧”的主旨演讲。
以下为徐宗本发言实录:
各位领导、各位同仁,刚才成果发布无疑给大家展示一件事情,大数据确实能干很多很多的事情,有另外一句话说大数据的确具有大价值,但是最近也不能不说,有很多人在说另外一句话,叫大数据也有大忽悠的一面,所以我的标题就取成了中道,中庸之道,大数据确实有大价值,但是大数据用得不好就是大忽悠,所以我的结论是用大数据是大智慧,但是要用好大数据必须具有大智慧。
从国家层面深刻认识到大数据的 价值意义所在,问题在于我们大家怎么办?我的发言说三句话,理性认识数据、准确把握机遇和科学应对挑战。我把我的中心语放在第三部分。
数据里面有太多的误区需要澄清,否则我们就以为数据是万能什么都能干,其实我的 结论是告诉大家,数据也并不是万能的。大家都知道什么叫数据?数据其实就是社会活动的这些资料的数字化,用标准的科学术语上讲,数据就是指具有编码形式的信息载体,好记的话就叫资料数字化形式。
什么叫大数据,就在数据前加了一个大,不是全部,大数据基本上是说是大而复杂的数据,复杂是什么?复杂泛泛地说四大基本特征,第一,海量性。第二,确实是具有时变性,第三,集构性。第四,分布性。大而复杂的数据才叫大数据。
什么叫大?一个误区。我给大家展示一个图,这是关于生活片断,假定积攒了20年,再过了五年,慢慢有了样子东西出来,这个时候只有很少数人看得出来,如果再积攒5年,大家看到,它就是个大象的轮廓,这个数据再积攒五年,不仅看到轮廓也看到上面的编码甚至更多的细节。这件事情告诉我们,数据在积累过程中间有一个从量变到质变的转变过程,这个点使得数据积累达到这么一个程度,我们叫做大数据临界点,超过临界点意味着我们通过数据对它背后的故事能够说出一二,大数据的临界点。
大数据是指超过临界点的数据叫大数据,不仅仅是指存储量太大太大的那个叫大数据,那是一个误区需要注意。所以大数据两件事情必须记住,第一,对于决策问题而言。第二,大是个相对,我想这两件事情给大家做一个交代。
大数据之所以有用数据积累到一定程度,集散能力提高,这件事情加在一起就变得非常有用。到底价值在哪儿?今天早上有很多 领导讲过了,概括说主要提供社会科学的方法论、形成高新科技新领域,形成社会进步新引擎,每一部分都能挖掘下去,我特别同意马校长讲的一句话,提供科学的方法论,使得科学决策变到基于事实的决策,变得客观的决策,人治、法治的概念,提供广泛遵循,被所有人接受的方法论,这是大数据真正魅力所在。
大数据当然是很重要,另外我希望认识上,大数据到底是一个过眼烟云的技术还是一个永恒的技术,刚才讲了很多词,叫物联网、互联网、大数据、移动互联网,我们简称为物大云移。分析这几个技术,你会发现,物联网讲人、机器环境怎么交互。互联网云计算或者云存储讲的基础设施,大数据讲什么?大数据讲的是机器和机器、机器和人发生的交互,信息处理基本形式,所以说大数据是在从信息技术的底层含义来捕捉信息化的共性基础和未来发展趋势。从这个意义上讲,大数据技术是一个底层技术,基础性、内蕴性、普适性可以给它助力。
第二,机遇。成果发布这么多,这一部分不必要讲,我反过来说管理机遇、产业机遇、科学研究机遇、学科发展机遇,我在大学当然关注学科发展机遇,一会做结论。传统所熟悉的统计学,传统统计计算科学面临大的改革和挑战这才是大学服务于社会,大学用于培养真正适应于大众创业、万众创新的人才第一个切入点。
我讲的另外一个方面,我们到底挑战在哪儿?其实半年前我在中国科学报对我一个采访,大家记得有一篇文章写的我的观点,大数据产业需冷热结合。这篇文章基本观点,大家对大数据有很高的热情,适应大数据的潮流,但是确确实实需要冷静认识它能带来什么。我先说说这件事情。
先说我们大数据,挑战在哪儿?我们首先看一看,我们对数据很熟悉的以后基础在哪儿?我们都知道,统计学是作为数据分析和处理的相当微积分的概念,这个概念是个什么概念?什么叫统计学,首先处理的是抽样数据,既然是抽样数据,当然 都会假设,ID,意思就是说独立同分部,大家按照公正性原则、简便性原则等等抽样出来的数据,这是第一。
第二,我怎么来做推论呢?做推论是基于当我所说的这个事情能够重复无限次而得到稳定分布的结果来作为推断依据,概括一句话,什么叫统计学方法,传统的统计学方法是以抽样数据为对象,以极限分布为基础的数据分析方法。但是注意,这种分析方法大数据时代完全颠覆不成,首先我们的数据是个自然数据,不具有IID特性,第二,我这个数据既大同时又有决策结构不够,让它重复一千次不可能,数据用机器学习方法、辅助学习方法得出结论,大数据是没有成型的方法,大家不要觉得我们现在有那么成功案例,并不是说它完全成熟,我在那篇文章中间有一个基本观点讲,大数据和其它产业转化不一样,是理论、技术,产业伴生的产业形态,产业形态是完整性的产业形态,不同于其它的产业形态。
带来什么后果?前些年大家看了很多书,这些书传递了一些是事而非的概念,我从严格意义上讲。比如说既然样本很大,样本就等于母体,样本是离散世界,母体是指从离散事件归于哪一个总类是母体,既然数据这么之大,相多的人认为不需要考虑母体,样本本身等于母体,对吗?孩子再多没有父母可能吗,这是第一个认识。
第二,查询推断,现在看病要依赖医生水平,十年之后如果医疗数字化什么都做完了,未来看病模式是当你病人来了之后,护士带你查查血脂,查血压,测完之后,计算机看我有没有一样的情况,这叫查询处理问题,请问用查询就可以代替推理吗?查询基础在哪儿?我们都知道查询就相当于高等学校连续函数,X接近于X0,Y等于Y0,离散世界给你再多,你能知道后面连续。
还有大数据不需要理论了,对吗?注意,这很多很多的认识,我从科学意义上跟大家说,请大家关注这些问题都有相当多的误导成分,有它的对的一面但是也有误导的成分。
咱不讲哲学,认识论,讲讲技术本身。技术上能破坏我们什么东西吗?我们真的大数据技术成熟了吗?告诉大家,非也,差得很远,挑战在哪儿?真正挑战三个方面,第一,分析基础破坏。第二,计算技术必须重新革新,无论是存储到语言到计算方法都必须重新来过。第三,真理性难以判定,到底大数据做出来的结论对或不对谁来做上帝,我认为这是我们面临最大的科学挑战。
举一个例子让大家看清楚这个概念。大家看看,我们前些年做报告会讲这么一个例子,谷歌利用社交媒体大数据发明了流感预测软件,很神,但是大家请看08年发表了的文章,这个城市测了108州,100州都在做流感,为什么会错?这就是忽悠人的一面。科学文章的标题是对于谷歌流行软件的拷问,副标题大数据分析的陷阱,大家都可以看出什么问题。
我们再把它分析一下,当一个产品能不能出厂,比如说一个药能不能出厂,一个产品合格不合格,科学假设能不能被接受,在那之前要做一件事情,假设检验。假设检验什么意思?事先设置一个阈值,实验做了以后有没有超过阈值,请问这个阈值从哪来,统计学叫P检验或者Z值,Z值从哪来?就是这个事件出现无穷次,稳步中间的一条线。
这件事情什么意思?数学上来说基于什么东西,基于叫做大数定力的东西,基于极限定理。当样本是无穷它一定区域式分布,这件事情大数据不对,不成立,为什么?基于独立同分部,我给大家展示一个例子,基础不牢地动山摇,怪不得别人说大数据用不好就会成大忽悠。
我们面临三个基本挑战,分析基础必须重新建立,主要三个基础,统计学基础。第二个基础计算理论基础,第三个基础逻辑基础。刚才说查询,这是第一个挑战。第二个挑战,计算模式,简单讲这么一个分布特征的流数据特征用什么加固处理,用什么平台,用什么程序语言用什么样的计算方法,这就是最大挑战。
真伪性判定。我可以详细讲每个方面的问题。我们大家很熟悉建模中间的XYZ基本变量相关,大数据是不相关的等等。比如说内生性等等,我不详细讲技术。
总的一句话,大数据面临挑战最重要的挑战重构大数据分析和统计学。
第二,分析处理的新型计算模式和高效计算方法。
第三,方法论依据,老说科学发现,真伪性怎么判定,不清楚。
这些事情,应该说这几年都得到了广泛的研究,尤其是大公司集中一批人做研究,哪些是我认为值得可以说一说,我认为这几条是可以说的。
压缩感知为代表所谓高维数据处理是成功的。神经网络为基础的深度学习,深度学习依赖数据量,换句话说像音频数据无疑是非常成功。
排序学习等等互联网应用是成功的,这么多成功是展示成果主要原因,说实话,这件事必须冷静必须知道是怎么回事。
高维数据的稀疏信息处理,用了20台计算机,告诉你2分钟算完,用了20台计算机,18个体系,当然对这个软件,美林集成他们软件之中
非结构化数据,我做了一件事情,集合人的感知原理做事也是非常有意思。
我们国家做战略一定关注这几件事情,分析基础、处理方法、真伪判定。
大数据挑战到底在哪儿?我在这么一个大会上传递一个科学家的心声,希望大家减少盲从。其实对新技术的盲从往往是一种必然,但是只要做到清醒可以减少盲从就会化被动为主动发挥更大的效益。
盲从是什么呢?我们有几个概念,第一基础设施等不等于大数据,我经常跟领导讲这个东西。我们都知道,大数据这个产业是什么东西?是以数据为资产,以现代信息技术作为基础设施,以数据挖掘、数据分析为创新要素的活动才叫大数据产业。
刚才说认为云计算,用大的计算机你看就是大数据,告诉大家,其实大数据大部分是大家看不着的,不是这个东西,这是仓库存了数据,是重要方面,是基础设施,就像我们建了高速路,高速路本身建起来不能产生GDP,要产生物流、人流,我认为这是一个观念必须搞清楚,基础设施不等于大数据。
处理不等于分析,什么叫处理?我们想做一个简单统计,做一个查询,想做一个排序及做一个比对做一个融合对齐、配准等等,这叫做数据处理或者大数据处理,它的特征是什么?用计算机的标准逻辑一步过的处理方式又叫大数据处理。又单列是分析,看看中间有没有趋势,数据中间有没有共性结构,有没有关联数据关键要素在哪儿?这些问题叫分析。
分析和处理不是一回事,为了加深理解,我举一个例子。在我们讲堂里面找谁个最高的问题叫处理,但是我要找这个教室里面谁和我们田总关系最好叫分析,这不是一个类型的问题,我为什么区分这个概念,大家总觉得我们大数据技术很成熟了,不是,我们的成功在于部分处理技术的成功。你们现有的例子对于分析而言基本都是传统方法所集,新的方法并没有出现。
信息化不等于大数据,今天我不讲这个,我认为不必纠结,真正让数据发挥价值是全社会引起关注的事情。
我的基本结论,号召国家抓宏观决策引导,抓行业示范重点工程,抓人才队伍、抓大数据生态建设这是我对国家整体建设。理性认识数据,正确把握数据、科学应对数据,谢谢大家!
注:嘉宾演讲内容为数据观小编根据现场速记稿件整理,未经演讲者审阅,发布此内容目的出于传递信息。 【转载至 www.cbdio.com 数据观】
欢迎大家继续关注慧邮件邮件营销平台,也可以在我们的慧邮件官网了解更多邮件营销技巧,大数据知识,也可以通过电话:400-666-5494联系到我们,更多精彩知识、活动等着你。