上一次参加学术会议是和迪总在天津参加可视化会议visual-101。这次是跑到兰州参加CCF Big Data会议。
对我来说比较有意义的两个报告是:《大数据分析共性基础与核心技术》和《大数据分析实践》。
大数据分析共性基础与核心技术
主要内容:西安交大的徐宗本教授首先就提出了数据中心、信息化不等于大数据,数据处理不等于数据分析。大数据分析与处理是大数据技术的核心。在大数据中,最亟待解决是能够结合领域的大数据应用来产生价值。
然后他介绍了大数据分析的共性基础(下图),通过这三个方面能够完成传统方法做不到的工作。就目前来说,最后这个真伪判断是最难的。
最后,他所报告的核心技术(下图)以算法的形式呈现,分为三层。第一层是数据产品形式的共性算法,第二层是处理基本分析任务的核心算法,第三层是完成计算任务的基础算法。总之,大数据算法:需要能在分布式计算平台上支持完成大数据分析与处理的任务。这至少具备三个性质:scalablity(数据:可容纳海量数据)、extensibility(机器:可扩展)、Theoretically provable correctness(理论证明正确)。
大数据分析实践
主要内容:而悉尼科技大学的操龙兵则以非独立同分布学习为例介绍了大数据分析的一种工作方法。首先是对现有经典理论的实现。然后他举了一个异构数据同构化的实际应用:在希腊内乱的新闻页面中出现了希腊旅游的广告。
显然这种应用是不好用的,这种非独立同分布的关系应该需要在各方面的维度考虑。他认为在异构数据的之间有许多隐关系。比如在电商推荐系统中的用户产品交互就是一张很复杂的隐式关系表。
最后他提出一种数据和模型相结合,显式和隐相结合的方法(coupled matri c factorization)来解决属性间的关系。这种方法是将关系表进行矩阵分解来解决非独立同分布学习的问题。具体内容可以看 论文 。这一部分我是没有听太懂。
最后他介绍了一些与社会部门合作的应用,比如:网上银行的风险管控,移民管理,税务追讨等。
最后也是最重要的,在兰州与迪总会师了,迪总在家乡兰州戴的白白胖胖的。这样甚好~
Bonus:
最后福利时间,我将10月20日实验室技术分享的ppt上传到 slideshare 。
欢迎大家继续关注慧邮件邮件营销平台,也可以在我们的慧邮件官网了解更多邮件营销技巧,大数据知识,也可以通过电话:400-666-5494联系到我们,更多精彩知识、活动等着你。