:大数据解决方案不能只看各家的本事

:大数据解决方案不能只看各家的大数本事

日期:2023/02/24 19:11作者:佚名人气:

导读:这次世界杯期间,IBM和腾讯的据解决方合作,依靠大数据计算解决了一个看起来很简单、看各背后却非常复杂的本事小问题。其实这是大数最简单的一步,大的据解决方数据就在那里,能不能搞成有用的看各大数据就看各家的本事。IBM计算支持率,本事数据来源是大数微博上关于世界杯的讨论。面对数据,据解决方如果找人一边看一边数,看各在道理上也是本事能完成支持率计算的,只不过下届世界杯能算出来结果就不错了。大数假如负责算法的据解决方是你,会如何对这些大数据进行选择呢?...

关于大数据,看各我们听过太多类似科幻故事的幻想。 这个领域虽然火热,但似乎与老百姓的生活关系不大。 比如教科书上的经典案例“啤酒和尿布”,我们不知道美国的超市是怎么计算这种因果关系的,在我们身边的中国超市也看不到这种奇葩的安排。 本届世界杯期间,IBM与腾讯的合作怎么用大数据世界杯,依靠大数据计算,解决了一个看似简单,背后却非常复杂的小问题。

我要解决的问题很简单,就是看世界杯期间谁对球队的支持率最高和最低。

这件事可以凭经验,比如找几个资深的粉丝或者评论员。 他们肯定比一般人拥有更多的粉丝,所以他们可以根据自己的感受来谈论哪支球队的支持率更高。 比如我感觉身边有很多阿根廷球迷,也有很多德国球迷。 问题是,你认识的人再多,也不可能同时了解5000人团队的动向吧? 这个数量已经是微信好友的上限了。 为了让更多的人进入统计范围,之前还有一个解决办法就是投票。 在网站首页放一个投票栏,你可以选择你支持的球队。 收集一个游戏几万人的投票结果并不难。 但是,这种方法存在很多问题。 投票是一种主动行为,结果不一定能准确代表懒得投票的人。

这是一件多么微不足道的事情。 世界杯每场比赛前,腾讯网站都会展示两支球队的支持率,背后会用到IBM的一整套大数据解决方案。

首先是数据来源。 其实这是最简单的一步。 大数据就在那里。 能不能变成有用的大数据,就看各个公司的能力了。 IBM计算支持率,数据来源是微博上关于世界杯的讨论。 自发讨论的数据显然比主动投票更能体现大家对游戏团队的看法。 虽然微博的讨论量还不能覆盖所有观看比赛的人,但范围确实大大超过了投票所能达到的极限。 世界杯期间,64场比赛过后,国内微博大家庭的讨论量约为10亿,超过了国外推特、脸书、Instagram的总和。 这些数据之前就已经存在,计算和存储都不是什么难的问题。 IBM在2013年收购了全球领先的公有云服务公司Softlayer,也就是说对于大数据,不难找到大数据,不难找到计算和存储硬件。 难的是用什么样的软件来分析这些数据。 如果没有具有软件能力的尺子,大数据只能做一些排序排序的低级计算。 这就是为什么说中国的大数据往往只是按照地区、星座、年龄来汇总全国的数据。

二是消除噪音。 算力、存储设备齐备,微博海量数据涌入。腾讯的团队支持率虽然每小时更新一次,但背后的计算是实时的。 面对数据,如果有人看一下,统计一下,理论上是可以完成支持率的计算的,但是下届世界杯的计算结果会不错。 在大数据的世界里,硬件只是基础,真正让算力发挥作用的还是软件。 当我们只能调整计算规则时,如何从各种微博中找到与世界杯相关的信息就成了一个大问题,因为我们在讨论世界杯的时候,不会直接加上“世界杯”和球队名称。 切入点可能是明星八卦。 如果你不能判断这些内容,你就会低估支持率。 同期讨论还可能讨论参赛队伍所在国家的其他事项。 此外,还有大量借世界杯做广告的企业微博和广告转发。 如果把这些内容混入计算数据,就会高估支持率。 这些需要不断调整的算法是IBM在大数据领域的核心竞争力。

三是语义分析。 即使只是“支持A或支持B”之类的简单支持率计算,计算机需要理解的人类语言仍然非常困难。 如果计算机无法理解人类的怪异表情,就很难对微博等数据进行海量分析。 比如在英格兰和西班牙双双爆冷之后,以冷诉着称的英国队球迷直接又开始了一场狂欢。 我个人最喜欢的病态百科全书笑话是这三个: 1. “飞吧,英国”——返回英国的机长说; 取消期; 3.经过多年的努力,英格兰终于可以像西班牙一样踢球了! 应该如何分析这些投诉? 在正常语义下,第一个投诉应该如何与船长区分开来? 14天的撤销期怎么会和第二条英格兰队被淘汰联系在一起呢? 第三篇比较刻薄,如何让电脑理解英格兰球迷对西班牙的评价? 这些连人类也常常无法理解的抱怨怎么用大数据世界杯,当然是算法的难点。 但是,IBM以认知计算为核心的社交大数据分析技术,足以让计算机理解很多内容。 明星粉丝有什么特点? 这些小功能的进步完全取决于后台算法进化的速度。

经过以上软硬件的支持,大数据就有可能脱离星座和地域,为我们证明一些非常有趣的现象。 例如,阿根廷的铁杆球迷比例高吗? 确实如此。 可能是因为国家队没能上场添乱,所以中国球迷的观赛心态似乎更加轻松,支持率分胜负负的现象时常出现。 尤其是当两支大家都不熟悉的冷门球队交锋时,这种“胜者为尊”的现象尤为明显,赢球后马上就能看到支持率的变化。 其他传统强队或多或少都要面对这种情况。 输球后支持率基本不下降的球队只有阿根廷。 我想这可能是因为近些年潘帕斯雄鹰的惨烈时刻比较多,也可能是英吉利没能给深爱他的小丑们留下更多证明自己的时间。

另一个有趣的现象是,没有参赛的中国队依然有着广泛的影响力。 世界杯收官阶段,只有三支球队有幸击败中国队,尤其是爆冷的哥斯达黎加队,显然比其他黑马吃的亏更多。 那么,如果一条微博也提到了中国队的哥斯达黎加队,那应该算谁的支持率呢? IBM研究院负责算法的专家苏忠博士将这些数据从哥斯达黎加团队的支持率中剔除。 不过,他自己也表示,仔细想想,有些后悔,或许留下来更能反映真实情况。 这可能是大数据需要面对的有趣情况。 做出判断,让数据证明结论,关键还是人的立场和判断。 没有绝对的客观性可以单靠数据。 如果你是算法负责人,你会如何选择这些大数据?