To knowledge 是目标,手段还是 mining ,俗称数据民工。每当大家讲到大数据,都会不约而同的提到大数据几个 V 的定义: Volume , Variety , Velocity , Veracity , Value 。大部分情况下我们都是将这几个 V 放在 PPT 的 introduction 部分一笔带过,并无详细解读。我想谨以此文抛砖引玉,回顾和学习其中的 3 个 V ,重新审视我们的工作。
前言
当我们面对一个数据驱动型的应用时,我们首先需要明确应用目标,确定我们需要做的事情属于什么层面,然后对问题建模,并制定方案。数据类型的应用目标,我想可以归纳这 4 类:数据描述了什么,内在组成是什么样?数据所反映的现象,是否存在某些内在规律?通过数据反馈的现象,能否学习规律并进行预测?在我们已知的结果方案之外,是否能借助数据去分析和进一步改进方案?
绝大部分时候我们停留在 Information 和 Intelligence 层面,也就是我们常用的统计分析,关联挖掘,聚类分析,分类(回归)预测等。但是这些问题似乎是很经典的问题,在当前猪都吹上天的大数据时代,有哪些不一样呢?我想如果我们只停留在 Volume 变得超级大,我们需要用 hadoop 之类的就有点图森破了,大数据时代我们采集信息的来源和类型更加广泛,每个行为也能关联到更多的上下文信息,甚至有些事情算法不需要大改,增加数据量就能取得更好的效果,我们重点展开 Variety , Veracity , Velocity ,这 3 个 V 来讨论一下。
Variety 在开发数据驱动型应用时,我们一般对 variety 的理解更多的是多来源、多类型的数据,然后在应用中进行数据融合,开发更完善的业务模型。比如百度 2012 年的百万美元大奖 [5] ,网盟数据和搜索数据打通,提升系统收益。而我们熟知的广告点击率预估,或者推荐系统中常说的用户画像 [6] ,还有特征工程中的 context feature 和 item feature ,属于典型的不同类型数据融合。
大部分情况下,我们对 variety 的理解和使用,需要有一个实体能将不同数据串联起来,比如搜索可以以一个用户的 session ,把不同 query 串联起来;一个公司可以以唯一用户 ID 把不同产品数据串联起来;甚至外部数据融合也需要以身份证之类的把相关信息串联打通。俞士纶老师给出了一些不一样的理解,窃以为这是业务之外我们经常忽略的的,但是确实是大数据时代才具有的 variety 属性。
挖掘实体相关,但是不同来源的信息
最典型的是我们在做大规模的非线性文本分类时,并不完全按传统的文本分类的思路,从切词信息中去发现有限的信息做分类器,而是结合相关实体,比如说这句话的人,某篇文章的发布者,去引入更多领域知识和先验提高分类精度。比如 Twitter 要对只有 140 个字符的 tweets 进行大规模高精度的分类 [7] ,就大量使用了 twitter 账号的,还有 URL 的领域信息作为先验。我们进行公众号文章分类所使用的 paragraph to vector 特征 [8] ,其实也是公众号领域知识的数字表达。
从原理上讲,各种分类(回归)预测任务不限特征来源,但是上述这种不同来源领域知识的迁移,放在大数据的背景下,会更加有意义。不仅仅是我们可以融合的数据来源和类型变多了,更重要的一点是其他来源的数据可能更容易抽取到信息,对比之前缺少信息的情况下,开发难度变低了。
不同实体的不同类型信息,但是可以通过复杂网络相关联的
这种类型的典型场景是不同社交网络的多源融合问题,用户的信息可以在不同网络之间进行迁移( transfer ),国内像清华大学的唐杰老师,崔鹏老师,做过不少这部分的研究。
variety 对信息迁移的理解,在算法研究层面是不是还能有不一样的解读呢?个人意见,机器学习方法虽然不限特征来源,且能进行简单的非线性交叉,但是 deep learning 对各种特征做的更高层的 embbeding 和抽象,这种更高层特征的融合将 variety 在模型层面又提升了一个台阶,而 deep learning 的使用离不开大数据,没有超大数据根本无法训练大规模的深层网络。
Veracity 有些文献将 veracity 归结为 uncertain data ,窃以为不是特别准确。大数据有一些绕不过去的问题,比如高噪声,再比如一些异常信息淹没在可信数据的汪洋大海中,使得我们进行检测的难度变得极其大。但是长尾信息可能也淹没在这些海量的数据中,我们不需要惧怕这些问题,因为非纯净数据中同样蕴含着信息,只不过我们需要更加精细化的去深耕细作,甚至引入更大的数据和参数规模来刻画这些信息,相对于纯净数据甚至能取得更好的效果。
对此,俞老师也给出了一个角度的思考:发动群体智慧来进行抗噪或者异常检测。
对应此问题,我们也做了一些有意思的工作。比如朋友圈广告的评论数据,我们可以对这些评论进行情感倾向的量化,从而在点赞和点不喜欢之外,提供另外一个维度的用户反馈。但是我们也知道排除发小广告的,绝大部分评论都是非常短的文本内容。有些甚至是看似噪声的内容,比如小鲜肉最喜欢说的 “ 这是什么鬼 ” 。我们如何去发现这些数据中蕴含的信息呢?
我经常跟学术界小鲜肉说的是:你们搞高级算法,我们则利用社交网络的大数据优势(阴险的笑)。上面的问题简单描述一下思路:通过表情采样(要防止表情的 term 过拟合),得到一些朋友圈 UGC 内容的情感倾向的 label ,然后对这些文本内容通过 word embbeding 和卷积神经网络来引入上下文信息来学习语义情感倾向。而海量且每日更新的 UGC 内容,可以关联到大量的相关数据所蕴含的信息,比如 “ 这是什么鬼 ” ,从社交大数据出发,走群众路线解决上述问题。
VelocityVelocity ,直观翻译是高速,很多文献对应的应用场景直观的就是 streaming data 。但是我认为可以引申出更多种理解:数据的高速流转,我们想要的结论可以及时反馈;内部特质变化,能快速的反应在数据分布和特征上;当需要了解收集数据时,可以快速的获取最新鲜的数据,等等等。回到大数据的应用研究中,聚焦到业务目标最终体现的是模型的快速更新能力,快速捕捉训练数据中反映的变化。
比如当目标是广告 CTR 预估这样的应用点时, velocity 涉及到许多技术环节,诸如日志快速收集反馈,日志实时 Log Join ,流式计算等等。最终体现在 CTR 模型实时更新这一项技术上。 KM 也有相关业务介绍过快速模型更新带来的 CTR 效果提升相关工作 [11] 。
参考文献
[1] JIAWEI HAN, From Data to Knowledge: Construction and Exploration of Heterogeneous Information Networks
[2] 芮勇 , From Big Data to Knowledge Discovery
[3] PHILIP S. YU, Challenges and Opportunities on Mining Big Data
[4] https://en.wikipedia.org/wiki/Big_data
[5] http://wangmeng.baidu.com/news/2012-08-10/1347281356.html
[6] http://km.oa.com/group/18268/articles/show/218391
[7] Shuang-Hong Yang , etc. , Large-scale high-precision topic modeling on twitter
[8] http://km.oa.com/group/propen/articles/show/231733
[9] Kevin Murphy ,《 Machine Learning: A Probabilistic Perspective 》
[10] http://km.oa.com/group/14352/articles/show/213192
2016-2-2 17:39 | 来自: 腾讯大数据
欢迎大家继续关注慧邮件邮件营销平台,也可以在我们的慧邮件官网了解更多邮件营销技巧,大数据知识,也可以通过电话:400-666-5494联系到我们,更多精彩知识、活动等着你。