首页>> 正文

大数据发展还需迈过几道坎

来源:商群邮件营销时间:2016-04-07 12:12:30点击:1840

马云曾说,“我们还没搞懂PC互联网的时候,移动互联网来了。我们还没搞懂移动互联网的时候,大数据来了。”现在我们似乎正处于还没搞懂大数据的时候。

作为近几年来最热门的IT概念之一,大数据在多个领域的落地显示出其巨大优势,如出行类APP在拥塞的城市中为用户提供快速的车辆调度,谷歌智能系统AlphaGo在人机围棋大战中获胜。然而大数据应用的喜忧参半亦是事实,曾作为大数据具备革命性潜力证明的谷歌流感趋势近几年的预测结果并不尽如人意。

大数据是否被过度热炒?现行大数据分析是否可靠?这些疑问在大数据已作为国家战略被写进“十三五”规划纲要、被期助力产业转型升级和社会治理创新的当下迫切需要得到解答。北京大学国家发展研究院教授沈艳在接受海外网财经专访时表示,大数据并非万能,所得结论需要交叉验证;也并非对所有企业而言都可能实现,其分析具有门槛,而优秀人才紧缺。她强调,在明确大数据局限性和可行性的基础上,大数据产业才能够扎实发展。

警惕大数据应用陷阱

尽管时至今日大数据的定义仍见仁见智,但其海量的数据规模、动态的数据体系、多样的数据类型具备共识。沈艳表示,大数据能够以前所未有的精细度描画世界,如运用得当,能够帮助人们快速刻画新旧经济更替,给予产业发展方向以可视化指导,并为政府决策提供一定参考,但是,大数据应用也面临陷阱。

“一种对于大数据优越性的看法是,有了大数据就有了总体,就不再需要科学抽样了,似乎只要数据量足够大,通常利用有限信息来推测真实状况的不确定性就可以迎刃而解。”沈艳表示,这种“大数据自大”的倾向之所以值得警惕,一方面在于,数据反映的信息可能只是总体的一部分;另一方面,总体可能会随着时间推移发生变化。例如,“使用谷歌搜索流感相关信息的用户”和“美国流感人群”这个总体并不完全重合,因此用后者预测流感趋势存在先天不足。

此外,只关心相关关系而不注重因果关系的倾向也值得关注。一般而言,利用相关关系总结规律是研究人员在难以得出因果关系时退而求其次的选择,但它却大量存在于目前的大数据分析中,现象背后的机制往往被忽视。“相关关系成立是有假设的,对于大数据而言即是机器学习时所用的样本和未来经济的样本非常接近,但实际数据生成规律的变化并非罕见。”沈艳举例说,在经济繁荣期表现良好的模式可能在衰退期带来极大损失,因为机器学习缺少关于经济衰退的知识,算法没有为探测经济变化做预备。

这些陷阱的出现与大数据的收集方式息息相关。沈艳指出,传统数据或者来自问卷调查,或者即便是经营活动留下的数据,也往往有规范标准,使得数据含义前后可比。而大数据更多是生产经营等各类活动的附属产品,当服务于主营业务的系统架构不断变化,数据生成规律将随之变化。而数据分析方很可能对此全然不知或者不能深刻体会,沿用以往的分析方法,就很容易产生结论的偏差。

“当新技术来临,尤其是面对经济新旧转型,我们迫切需要新的增长点,很容易尚未经过深究就相信新技术的力量。但实际上只有在清晰地知道它各种各样的局限的基础上,我们才能去用它。”沈艳说道。

大数据分析:被忽视的关键一环

遗憾的是,当大数据时代带来数据收集方式的深刻变革,数据分析过程却普遍成为“黑箱”:目前流行的大数据分析往往直接告知结论,对数据来源和处理方式不做说明,外界难以验证数据使用效果的好坏。这体现出大数据使用的不透明,更折射出大数据分析被忽视的尴尬。

对比美国大数据产业图景(分为架构、分析、应用三部分),沈艳发现,“十三五”规划中大数据战略的内容集中在架构和应用部分,比如加快政府数据开放共享,进行海量数据采集、存储、清洗、分析发掘、可视化等领域关键技术攻关,对分析部分的强调有待加强。

“目前大数据分析方法的核心还是数据挖掘方法,但存在神话大数据分析的倾向。”沈艳指出。她曾撰文提出大数据分析五步法,强调大数据只是解决问题的一个元素,不是全部,也绝非必需。五步法的首要步骤即是问题识别,其次是数据可行性分析。“无论是进行学术研究还是产品开发,都要回归问题本源,然后考虑需要的数据类型。”她解释说,如果小数据(即包括抽样数据等在内的传统数据)可以解决问题,就无需用大数据;如果大数据被证明质量足够好,可以采取大数据和小数据结合的方式;即便不得不单独使用大数据,交叉验证也必不可少。

事实上,也并非所有企业都有能力进行大数据分析。“数据分析具有门槛,要防止一哄而上、不管是否适合自己都要赶上潮流。”沈艳表示。

她同时坦言,即便没有遵循科学规范的分析方法,一些大数据产品也能够在一定程度上解决问题,但是其商业模式是否真正可行、是否能够持续很难确认。而且若导致重要领域出现问题,可能产生重大损失。她呼吁大家关注大数据分析,理解大数据的局限性和可行性,在产业发展之初夯实基础,促进产业健康发展。

人才供给成大数据产业瓶颈

大数据概念和应用热潮不相符的是,大数据人才在现阶段极为紧缺。资料显示,未来5到10年,我国大数据市场规模增长年均增速将超过30%;据国内大数据专家估算,5年内,大数据人才缺口将高达130万左右。在沈艳看来,解决人才供给问题需要国家政策引导。

沈艳在采访中多次提及大数据产业发展中多个环节对数据人才的需求:由于数据的不客观真实存在,比如搜索引擎显示结果中付费和未付费信息混杂,需要判断数据质量,甄别信息是否可靠;避免大数据应用陷阱,需对系统算法变化和由此带来的数据生成机制变化有所洞察;改变信息孤岛状况,打通单位部门之间和单位之间的数据壁垒,要了解现有数据标准之间的异同,从而确定哪些数据能够合并而哪些不能……

“国家政策目前已经对大数据研究有所着力,但是我们还需明确,不只是硬件和软件的开发重要,人才的培养更是重要,它触及产业健康发展的核心。”沈艳强调。

数据科学家被认为是大数据人才的一个培养方向,但是沈艳认为这还远远不够,大数据在具体行业的应用有赖于既懂关键技术又懂专业领域的跨界人才。她表示,高校的相关课程、配备还需加强。在培养大批专业人士之外,国家还需对决策者和民众也有相应的培训投入。

“过去三十年间快速积累的人力资本为技术创新提供动力,这些技术创新能够使许多过去无法收集的数据,可以用相对低廉的成本、在短期内被收集。而今,只有满足了大数据产业对人才的需求,这个产业的发展才能够扎实。”沈艳表示。

她对大数据产业在我国的发展前景很有信心,希冀其健康发展帮助中国的新经济成长起来,让中国持续成为世界经济的引擎。

欢迎大家继续关注慧邮件邮件营销平台,也可以在我们的慧邮件官网了解更多邮件营销技巧,大数据知识,也可以通过电话:400-666-5494联系到我们,更多精彩知识、活动等着你。

  • *真实姓名:
  • *手机号码:
  • 公司名称:
  • 咨询内容:

CopyRight © 2009 - 2020 All Right Reserved 备案号:闽ICP备15004550号-275

厦门书生企友通科技有限公司 QYT.com 版权所有