数据中台是什么?应该具备哪些功能?本文作者通过梳理分析,从六个方面对数据中台进行了拆解,与大家分享。 自从阿里巴巴引入中台以后,中台在国内行业持续高热不退,高潮迭起。从猎聘网、boss直聘上直接搜索中台产品经理、中台架构师等,可以看到各个大小公司都在招聘相关人员,组建团队。 市面上BAT等大型互联网公司也有关于中台的文章,但是其中更多都在讲述中台解决的问题,其中数据中台究竟应该包括哪些功能比较少在描述。 数据中台作为企业的基础平台,贯彻了整个数据生命周期,但是中台的内容并不是从最近在开始,历史上数据湖、数据管理平台等都是或多或少涉及到相关内容,本文尝试将数据中台分拆为大家熟悉的产品和功能。 中台与传统的软件、产品是存在较大区别的,确切地说,中台不是独立产品,中台本身是一套方法论+组织+工具集合,本文重点集中在工具集合部分。 数据中台是什么? 一、数据汇聚平台 汇聚平台主要是从数据存储角度来表述,指将原始数据进行集中存放,便于后续使用的读取使用。 数据汇聚平台的主要目标是将不同来源的异构数据存放到数据仓库中。企业一般数据分成几类: 业务数据,指企业业务办理过程中产生的数据,比如订单数据、客户数据、商品数据、供应链数据。这类数据由业务信息系统产生,已存放在现有信息系统中,比如ERP系统、CRM系统等。 在线监测数据,比如企业自有媒体上部署代码能够获得用户媒体行为日志数据;或者传感器实时产生的监测数据。这类数据需要实时在线服务接收并记录相应的日志数据。 第三方平台数据,数据存在第三方平台,比如微信公众号、支付宝等平台数据。这类数据平台往往提供API能进行数据拉取。 数据汇聚,或者称作ETL,将不同的业务系统的数据加载到数据仓库中。数据汇聚有多种方式,按照数据汇聚的传输方式,可以分为文件传输、数据抽取、消息推送等方式。 数据汇聚平台依托于基础支撑软件和基础网络设施,通过图形化的配置界面实现分布的、异构的、跨网络的各场景数据汇聚,主要结构如下: 二、数据治理平台 数据治理的主要目标确保数据满足标准,标准主要有两个方面: 正确性; 描述语言一致性 因此数据治理平台主要包括两个层次: 第一层:数据清洗,确保数据正确性,将数据中错误的数据排斥。包括清洗规则算法管理、数据分布查看。 第二层:字段体系统一,将不同来源的同一语义的字段进行名称和值的统一。主要包括语义标准命名管理、字段体系管理、字段映射管理等。 三、数据加工平台 加工平台承担了数据字段、数据指标的衍生计算任务,为数据开发人员提供可视化或者可编码的环境进行加工规则的管理和实施,是将数据资产化的重要环节。数据加工平台完成的典型任务有用户标签计算、ID打通计算、电商典型购买指标计算等。 数据加工平台主要包括:体系指标管理、计算模型管理; 指标体系管理:指标体系、指标的定义、增删改查等; 计算模型管理:计算模型定义、调度等配置管理。比如标签的任务、ID计算的任务等。 数据加工平台形成不同业务含义域,形成企业的数据地图。这些域中的数据都是可以进行直接使用的正确数据。 四、数据资产管理平台 数据资产管理实际上是从元数据角度展现关联关系和统计量,本质上是数据字典的图形化版本,阿里有多少数据、如何存储、数据之间关系如何、如何找、如何用都可以从资产地图找到答案,蛮形象的,从网上资料看,其设计还是值得借鉴,以下是一些界面截图。 数据资产管理平台,主要包括两个部分:数据看板、数据地图。 五、自助统计分析平台 中台作为企业数据的基础平台,面向对象从公司老板到具体一线业务人员,其数据统计、分析需求区别较大,如果每一个都定制开发,基本上是一个不可完成的任务。 自助统计分析平台的定位是,使用者可以通过平台选择需要的数据域和数据表,选择需要的指标、维度、过滤条件以此为基础进行统计分析。 在建设过程中,自助统计分析平台不一定需要重新建设,市面上有很多成熟产品可以使用,进行对接。比如帆软、达芬奇和supset等,这些产品具体就不进一步说明,网上有很多相应资料。 六、数据供应平台 数据供应平台就是将数据业务化,包括了与业务相关的、可复用的一些公共技术组件或产品,如数据目录、数据标签、数据分析、数据开放接口、机器学习算法模型等,它们可以使用SAAS方式直接对外提供服务,也可以以更小粒度如API、消息接口、文件接口、服务接口、SDK软件包等方式只提供组件能力或数据服务,内部或外部第三方应用不必关心底层数据准备情况,直接调用数据服务模块对外提供的服务接口,就可以方便进行二次开发,借以增强自身的能力。 目前数据供应平台更多指以微服务,API方式对业务系统直接提供数据业务服务,数据供应平台类似一个API的开放市场,包括API注册、发布、搜索、调用支持等。 除了上面内容,本身这些功能的生产过程可视化也是重要的功能模块。