下载APP | 繁體版 | 发布广告 |常用工具

大数据已死!从业10年老哥爆料:这套唬不住客户了

京港台:2023-2-14 23:28| 来源:量子位 | 评论( 1 )  | 我来说几句


大数据已死!从业10年老哥爆料:这套唬不住客户了

来源:倍可亲(backchina.com)

  “大数据已死。”

  说这话的,正是来自Google十年员工,数据分析产品BigQuery创始成员之一,Jordan Tigani。

  

  在最新发布的一篇博文中,他表示——

  大数据概念在十多年前开始兴起,时至今日,销售们仍用“海量数据带来指数级增长曲线”说法,来勾起(唬住)客户为相关服务买单的欲望,否则就将被数字时代抛弃。作者自己也曾是其中之一。

  但现在,Jordan Tigani不仅认为这种说法行不通,还称——“数据大小根本不是问题所在。”

  那么问题在哪?他认为,我们已无需担心数据大小,而应专注于如何使用数据来做出更好的决策。

  如此言论之下,也吸引了不少业内人士的围观和热议。

  

  他的上述观点有何依据?

  不妨从证明过程看起。

  值得注意的是,作者表示,证明过程中相关图表曲线并不是严格参考了数据,而是凭记忆手绘的,这位资深从业者强调——重要的是曲线形状趋势,而非确切数值。

  “恐吓”客户的话术出问题了

  Jordan Tigani先从一张PPT聊开去。

  这是一条数据量随时间增长,呈现指数级增长的曲线,在过去十年,几乎每个大数据产品推销都从该曲线开启。他曾就职的谷歌、SingleStore都不例外。

  

  亮出曲线后,销售们会顺势鼓吹产品,告诉客户——大数据时代来了!你需要我手里的产品服务!

  但Jordan Tigani认为,多年来的事实已证明,处理数据的老方法已经行不通了,且大多数应用程序也不需要处理大量数据。

  一个佐证是近些年传统架构的数据管理系统复兴,诸如SQLite、Postgres、MySQL都增长强劲,与之对比,“NoSQL”甚至“NewSQL”增长却停滞不前。

  一个明显例子是MongoDB,它是排名最高的NoSQL类数据库,也同样是最火的横向扩展类数据库,此前几年MongoDB增长势头强劲,但最近规模却小幅下降,且与MySQL等主流数据库仍存差距。

  Jordan Tigani认为——如果大数据真是未来,那情况应该不一样。

  

  鼓吹大数据时代就在眼前的另一个说法是——每个人都会被产生的数据淹没。

  但Jordan Tigani在研究客户中发现绝大多数客户总数据存储量不超过1TB,即便大型企业,其数据量级也soso。

  根据他的从业经验,所服务的最大客户数据存储量是第二大客户的2倍,第二大客户又是第三位的2倍。

  这样一来,客户数据大小与数量服从幂律分布。

  只有极少数客户拥有PB级数据,成千上万客户每月存储费用不超过10美元,而他们服务客户存储资源使用的中位数,连100GB都不到。

  

  不仅作者本人这么认为,Gartner、Forrester等机构分析师及其他从业者也表示,大部分企业的数据库量级都小于1TB,且100GB是常态。

  拿一家超千名客户的公司举例,即便每个客户每天下一个订单,里面包含100项数据,每天生成数据仍小于1字节,三年后是1GB,而要达到1TB,这家公司得做几千年生意。

  另一个例子是之前作者接触了一家E轮独角兽公司,且还在快速成长中,但即便这样,他们的财务数据、客户数据、营销跟踪数据及服务日志加起来,也只有几GB。

  就这,能叫大数据?

  还不算完,即便看“已有”部分,也有问题。

  由于现代云平台将存储与计算分开,两部分利用量级也有很大差距,即——数据存储增长速度,远大于计算资源需求增速。

  具体来说,企业数据的存储量随时间推移,肯定是线性增加的,但大部分分析计算需求是针对近期数据,不可能一遍又一遍反复读取旧数据。因此,计算需求不会同步迅速增加。

  

  Jordan Tigani的一个客户就是这样。

  作为全球头部零售商,他们原有100TB本地数据,迁移到云上后,数据量变成了30PB,增加了300倍,如果计算资源需求也随之拉满,那他们在数据分析上的花费将达几十亿美元,但事实上,他们只花了很小一笔费用。

  作者认为,大量计算服务不被需要,也就意味着前沿架构不太有必要,甚至分布式处理也大可不必。

  与之类似,分析数据的工作负载也远小于数据体量。

  多数时候,人们往往只会查询前1小时、前1天或上周数据,较小的表会被频繁查询,但大表就不一定了。

  在作者本人BigQuery工作经历中,数据量巨大的客户几乎从不查询大量数据,除非他们正在生成一些报告。

  这种需求,也不要求性能优先,且仅是企业一周几十万个查询中的极少数。

  正如下图,90%查询任务涉及的数据量级不超过100MB,仅1%超过10GB,且即便查询巨型表,数据库也可通过一定处理,减少计算量和延迟。

  

  一个侧面佐证是——业内符合原本“大数据”定义的产品也在变少。

  在当初,大数据的定义之一是“任何单机无法处理相关任务/场景需求”,比如00年代,数据工作负载对于单个商业计算机来说,带不动是常态。

  但今天,一个AWS的标准实例所用到的物理服务器包含了64核及256GB RAM,如果为优化实例再多掏一点钱,又能在原基础上增加2个数量级RAM,这几乎覆盖所有工作负载需求。

  既然大数据时代结束了,那是不是说,相关从业者要下岗了?

  作者也提出了自己的看法——

  结束了,但没完全结束。

  具体来说,作者认为,大数据的另一重内涵是“当数据保存的支出小于其挖掘价值,那就应该放弃”,因而,我们需要判定哪些数据需要及时清除,以及背后的原因,这将成为数据工作的重要部分。

  这当中,也包括不同时期同一数据以不同字段存储,需要有人来加以维护和留有记录。

  此外,基于相关监管规定,很多类型数据(比如涉及个人隐私的电话号码)也需要定期清除。

  再有,便是一些公司需要定期判断哪些旧数据要清理,以避免未来可能的法律风险。(手动狗头)

  ChatGPT老板有不同看法

  对于Jordan Tigani上述观点及论证,有网友表示支持,还联想到之前类似的工作经历。

  

  也有网友表示:

  当XX已死,说明它真实被认可的地方会被保留下来。

  

  值得一提的是,并非所有人都赞同作者的观点。

  尤其鉴于“XX已死”将话说得太满,有网友认为:

  在近期AI大火之际,判决AI所依赖的大数据已死,也是挺敢说。

  

  当红炸子鸡ChatGPT背后老板Sam Altman,此前在旧金山(专题)一次技术活动中,也谈过对大数据的看法,Sam认为——

  AI研究领域取得令人印象深刻的进步,不仅依靠海量数据,同时更需要海量的计算。

  上述观点不仅强调了海量数据重要性,对比Jordan Tigani所认为的“重存储轻计算”看法,正好相反。

  另一个不同声音来自一位名叫Lewis Gavin的大数据与软件工程师,此前他曾在Medium上发文,主题也是围绕“大数据是否消亡”

  他认为:

  大数据不会死,只会变得更重要。

  所给出理由是:一方面依据是全球生成的数据总量仍在加速增长,且细分领域中,处理“大数据”正成为常态。

  基于此,Lewis Gavin认为——所谓“大数据死亡”,只是营销说法的消亡,但Big Data处理技术和应用仍存在,且它会成为习以为常的现象。

  IDC于1月24日发布的一篇预测证明了大数据市场仍在增长,内容指出——

  未来几年,全球大数据和分析软件市场将实现强劲增长,且具体到该板块各细分领域,未来几年增长率均为双位数。

  

  有意思的是,有网友提出“大数据的死亡”并不是个技术话题。

  他表示:数据之所以没发挥价值,其实是商界精英们往往忽略数据内蕴藏的结论。

  

  另一位网友也表示赞同,还称:

  自己曾开玩笑,数据科学家的工作其实不是搞分析,而是为高管们前瞻性观点提供有力证明。(手动狗头)

  

 

推荐:美国打折网(21usDeal.com)    >>

        更多金融财经 文章    >>

【郑重声明】倍可亲刊载此文不代表同意其说法或描述,仅为提供更多信息,也不构成任何投资或其他建议。转载需经倍可亲同意并注明出处。本网站有部分文章是由网友自由上传,对于此类文章本站仅提供交流平台,不为其版权负责;部分内容经社区和论坛转载,原作者未知,如果您发现本网站上有侵犯您的知识产权的文章,请及时与我们联络,我们会及时删除或更新作者。

关于本站 | 隐私政策 | 免责条款 | 版权声明 | 联络我们 | 刊登广告 | 转手机版 | APP下载

Copyright © 2001-2013 海外华人中文门户:倍可亲 (http://www.backchina.com) All Rights Reserved.

程序系统基于 Discuz! X3.1 商业版 优化 Discuz! © 2001-2013 Comsenz Inc. 更新:GMT+8, 2024-5-9 10:18

倍可亲服务器位于美国圣何塞、西雅图和达拉斯顶级数据中心,为更好服务全球网友特统一使用京港台时间

返回顶部