新兴职业:数据科学家(ZT)

作者:cstar  于 2010-3-11 18:14 发表于 最热闹的华人社交网络--贝壳村

作者分类:转贴|通用分类:职场内外

伍加

世界正在朝着数字化方向飞速发展:数字媒体、数字电话、数字社区、数字政府、电子病历、虚拟世界,等等。当世界越来越数字化时,电子信息不断增加,海量数据不断膨胀,分析和理解数据就变得越来越重要。

世界上最大的连锁零售企业沃尔玛每小时处理一百多万个客户,每小时向它的后台服务部的数据库存入2.5 petabytes 的信息,这相当于 167 个美国国会图书馆的藏书信息。沃尔玛的信息主管(Chief Information Officer)Rollin Ford 说:“我每天早晨反复问自己,我怎样才能把这些海量信息处理好、管理好、分析好?” Facebook 存有400 亿张照片,每天都有成千上万的新照片加入进去。人类基因库含有 30 亿对基因组,针对某组基因制造出“定向”药品已经进入试验阶段,它需要对基因库进行快速查询。对海量信息的处理和管理显得日益重要,因此一种新的职业“数据科学家”会应运而生。

数字化和信息爆炸会不会带来不良后果?信息太多了会让人们感到无所适从;数据无所不在时会出现信息安全的问题,那些不该公布的信息会引起不良后果。比如加 州欧克兰城市警察局办了一个网站叫做“欧克兰犯罪观察”,它把奥克兰市警察逮捕罪犯的数据全都公布出来,比如何时何地由于何种原因警察逮捕了何人,等等。根据这些历史信息,人们发现奥克兰警察从来不在星期三晚上扫黄打非,这就给做皮肉生意的犯罪分子有机可乘。当然,这只是并不普遍的疏漏而已。利弊相比,数字化和信息爆炸为人类生活带来的还是利大于弊。

数据已成为企业的原材料,以数据为中心的经济正在出现。商业智情,也称作BI(它是英文单词Business Intelligence的缩写),就是利用对大量的数据进行分析、挖掘、和综合,从而为企业决策做出有效的帮助。所以,商业智情可以算作数据科学家的工作内容之一。一些比较专业化的数据科学家也会出现,比如数据分析师、数据挖掘师、数据可视化设计师等等。

数据科学家需要有软件工程、统计学、图形学、数据挖掘等领域的知识。面对信息爆炸,面对海量数据,简单的表格(spreadsheet)工具已经过时。大多数的商业应用需要根据海量数据迅速作出决策,这就需要有对各种数据进行去粗取精、去伪存真、由此及彼、由表及里的有效分析工具,因为那些海量信息可以来自于各类报表,同时也来自于各个部门的异种数据库,还有大量的数据来自于互联网,它们有各自不同的数据格式和存取方式。简单地说,数据科学家需要具备三种能力,精通四门学科。这三种能力是:
  1. 统计分析能力;
  2. 对数据的提取与综合能力;以及
  3. 数据的可视化表示能力。
数据科学家要熟悉的四门学科是:
  1. 计算机科学:主要用来数据获取、数据解析、数据存放、和数据安全。
  2. 数理统计学:主要用来数据分析、数据过滤、数据挖掘、和数据优化。
  3. 图形设计学:主要用来显示数据结果,比如将数据表达成三维图形,以便更好地理解和利用。
  4. 人机交互学:主要用来在用户和数据之间建立有机联系,使得人对数据的使用更方便。

目前,我们看到许多在这四门学科中某个学科的专才,将来更需要的是熟悉所有这四门学科知识的通才,这就是数据科学家。

高兴

感动

同情

搞笑

难过

拍砖

支持

鲜花

评论 (0 个评论)

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

关于本站 | 隐私政策 | 免责条款 | 版权声明 | 联络我们 | 刊登广告 | 转手机版 | APP下载

Copyright © 2001-2013 海外华人中文门户:倍可亲 (http://www.backchina.com) All Rights Reserved.

程序系统基于 Discuz! X3.1 商业版 优化 Discuz! © 2001-2013 Comsenz Inc. 更新:GMT+8, 2024-5-8 04:06

倍可亲服务器位于美国圣何塞、西雅图和达拉斯顶级数据中心,为更好服务全球网友特统一使用京港台时间

返回顶部