从2012年开始,几乎人人(至少是互联网界)言必称大数据,似乎不和大数据沾点边都不好意思和别人聊天。从2016年开始,大数据系统逐步开始在企业中进入部署阶段,大数据的炒作逐渐散去,随之而来的是应用的蓬勃发展期,一些代表成熟技术的标志性IPO在国内外资本市场也不断出现。转眼间,大数据几年前经历的泡沫正在无可争议地转移到人工智能身上。可以说,在过去的一年,AI所经历的共同意识“大爆炸”与当年的大数据相比,有过之而无不及。最近风口又转移到区块链上了,某种程度上也成为业内人士焦虑的一种诱因了。
但无论技术热点如何变换,我们能看到的是,随着行业沉下心来进行实质的落地,大数据生态也越来越细分。今天就我和大家来谈谈大数据领域的一些新变化、新趋势。
一、数据治理与安全 Data Governance& Security
就发展趋势而言,这个可以放在第一位来讲讲。
多年来,数据已经在企业中不断快速积累。物联网(IoT) 更是不断加速数据的生成。
对于许多企业来说,大数据的解决方案就是利用类似于开源的Apache Hadoop等技术作为基础支持,创建数据湖(Data Lake),即创建整个企业的数据管理平台,用于以本机格式存储企业的所有数据。数据湖将通过提供一个单一的数据存储库来消除信息孤岛,整个组织都可以使用该存储库来进行业务分析、数据挖掘等各种应用。当有了数据湖之后,大家会倾向于认为这东西将会成为一个全方位和万能的大数据集,例如点击流数据、物联网数据、日志数据等都会被要求进入这个湖中,而这些数据很难处理的问题却会被忽略。
二、致力于协作的数据工作台发展
在大多数大型企业里,大数据的采用是从少数独立项目开始的,个推也是如此:譬如这里做一点Hadoop集群,那里用一用分析工具,跑一个简单业务模型,以及意识到需要设立一些新的职位(数据科学家、首席数据官)等等。
现在,业务场景越来越丰富,异质性也越来越突出,各种各样的工具在整个企业范围内得到了使用。在公司的组织范围内,集中化的“数据科学部门”正在逐渐让位于更加去中心化的组织,原因在于集中化的部门越来越走向瓶颈,也更容易造成资源的流失。
这个由数据科学家、数据工程师以及数据分析师组成的群体,正日益嵌入到不同的业务部门里。因此,对于平台来说需求已经很明显了,那就是要让一切都能协作到一起来,因为大数据的成功正是建立在设立一条由技术、人以及流程组成的装配线基础之上的。
因此,一些全新的协作平台类型(譬如 Jupyter等)正在加快出现,引领着所谓的DataOps(与DevOps对应)领域的发展。
我们拥有国内顶级的设计、技术团队和多年互联网软件开发经验。