结合当前业界数据治理的现状、背景、框架,我们可能希望了解一个从 0~1的数据治理架构体系怎么做。也有朋友会有疑问:数据治理的管理、域间组合和协同,他们是怎样的一个关系,该怎么样去开展?另外,在这几年的金融行业的数据治理过程中,有哪些具体的实践?为帮助大家解决这些困扰,本文将对金融数据治理的实践与思考,做一个梳理和总结。
金融行业在整个数据治理领域里,跟政企一样,其数据治理比较领先。原因主要在于两个必不可少的因素:外驱和内驱。
首先在国家层面:涉及数据安全、个人隐私信息保护法、网络安全。除此之外,整个国家把它提升到数据安全和数据流动的高度,包括现在的数据交易所,我们大家可以看到越来越多的数据治理相关方在数据使用、数据价值的参与,那国家也希望在数据安全得到保护的情况下,尽可能地释放数据的流通。另外是行业层面,在上述外部环境之下,银行业和证券业有自己独特的一些特性。
能够正常的看到,这里不再是一个单方面的跟别的金融科技发展不相关的事情,而是一个十分重要的任务底座。
对于内部而言,有咋样的驱动力去做数据治理呢?本文主要分以下三点来阐述。
一是提升客户的这个体验度和满意度,比如说打通堵点,提前发掘客户的一些需求。
三是在效益上,希望能够通过数据和智能化来辅助经营决策。最终的目标是希望能够通过数字,把数据治理作为数字化转型的基础去构建。
我们所面对的数据相关的一些难点和痛点也驱动着我们去做数据治理,主要包括:
四是如何多方协同治理。现在很多金融企业在做数据治理,把它当作一次性的工作和数据资产,难以持续化的运营。现状是金融行业数据治理需要多方参与,每一个企业都有必要进行数字化转型,每个企业的数字化转型要求各不相同,如何把他们共同协同起来,共同建设数据治理的基础,这也是金融行业所面临的一个痛点和难点。
在上述背景之下,接下来看一下如何从 0 到 1 构建数据治理的架构。主要分以下 2 点来阐述。
将原有的数据资源进行资产化,即将企业的数据资产进行盘点,对企业的数据资源目录进行整合,然后形成以数据资产为核心的数据治理的活动。
基于前面已经资产化的内容,把一些良好的资产进行价值的输出,比如说让数据资产进行流通。其释放了流通价值,数据资产在反哺业务,形成了数据资产的二次价值。所以数据资产其实是可以释放多重价值。
构建智能化的数据生态,提升企业的整体竞争力,包括构建全链接全场景全智能的数字世界——这是对于各个行业而言,都希望最终能达到的目标。
第一点是逐步推进,分阶段有重点,抓住主要矛盾,集中资源去贴近业务,寻找数据治理的突破口。
第二点是以始为终,像我们去理解这个OKR一样,需要以结果去反推过程,以目标为导向去开展实施。
第三点是机制的系统化。数据治理不是一次性的工作,应该要依据企业的现在的状况进行机制的系统化和落地。这部分后面再详细讲一下具体的机制化系统化是如何去落地的。
具体在实操过程中,实施支撑应该怎么样去做呢?整体是自上而下地规划。首先一定要去明确企业的蓝图纲领是啥意思,就是我们最终做数据治理这项工作对企业而言意味着什么?可以说,每个企业的期望,在大的层面是相同的,小的层面是不同的,所以要以纲领去指导整个制度方面和方针层面的一些工作思路,并对制度进行细化,再落到流程上去约束和指导实操。最终要实践这个流程,需要落地到平台支撑上。
第一点是治理文化。这包括培训、公众号,也包括我们大家常常讲到要让我们的业务员和技术人员有满足感,建立自己的数据技能的梯队。
第二点是在组织保障,即三层组织架构管理,战略、管理、执行。在这样的一个过程中运用好核心是要把握住我们的柔性组织,建立全方位、跨部门、跨层级的组织柔性组织,并且把成员的优化和成员的定位及时告知每一个角色,让大家各司其职。
第三点就是考核与激励。从制度层面看,大部分的金融企业在考核层面有一定的难度,但考核与激励是保障整个数据认责体系的有效执行,以及数据治理各个管理域的工作落实到位的核心手段。
很多金融原生企业,之前也采购过一些平台,现在它无法跟其他数据管理域进行连接。这种情况,该如何做?数据治理平台工具支撑,它其实不是光选择标准化的治理模块就能解决的问题,核心是要把定制化流程进行落地。我们把这套机制设计出来之后,要在没有人干预的情况下有效地落实。其实核心靠的就是平台自己自动化地把我们这部分的治理思路进行落地。
我们可能也经常会被财务问:为什么我们平台建设花了这么多钱之后,数据治理和数据资产这一层面没有还没形成有效的价值输出?
平台建设完之后,它的内容建设也极其关键。内容建设方面,是需求侧和供给侧的双轮驱动。在供给侧,平台建设团队会以产品的思维提出建设方向;在需求侧,是以用处置提供融合的场景去填充我们平台的内容。
数据治理的各个管理域之间,会产生一种协同力量。三个模块可以建,而单个模块建完则效果不佳,核心是因为各个模块之间有相关能力的组合。DAMA 的 10 个领域的规划,是有一定目的的,包括企业在从 0 到 1 搭建数据治理体系时,哪些模块要选,哪些模块不选,这样一个时间段我们要贴合我们的企业去定制化地选择模块,并且把它们打造成一种能产生组合力的、协同的、数据治理领域的工作。
这里面有个关键点,根据当前工作经历的启示,模型设计、元数据管理、研发实施、质量监控、安全管理、数据服务等数据全生命周期的实施,需要一个能轻松实现端流程的端到端的一体化管控平台。
把数据资源进行清理洗涤和加工,资产化之后,会形成基础数据标准、指标数据标准、标签数据标准。
在数据标准之下,如何把它进行落地?需要落在元数据上,包括业务元数据、技术元数据、管理元数据等。
如果一个新的项目来,要新注册元数据。通过链接的过程将元数据与数据标准做关联,这样的一个过程就是数据标准落地。
数据质量规则的依据来源核心是数据标准。如何保障数据标准被落地以及被执行呢?通过数据质量的情况做一个检查,这就是数据标准、元数据以及数据质量之间的关系。数据质量的每一条核验规则写到每一个字段上、每一条元数据上。关于数据标准、存量的元数据的治理,对于新增的这部分,我们怎么样从源头上能保证我们数据标准的被有效的执行呢?
常用的一种手段叫数据模型,包括物理模型与数据标准的过程链接和落地,来保证数据模型是可以从源头上来管理的。数据标准同时又作为一种输出,支撑数据模型。
关于数据标准,我们大家常常会讲的一个核心理念就是数据的分类分级。对进行数据分类,进行数据分析,把分类规则输出给数据安全。
在数据安全之外,经常有一部分企业在最开始开展数据治理时,是通过元数据、主数据的治理来开展。主数据是什么?有些核心的高价值的数据会形成主数据,数据标准会通过体系的支撑给到主数据。同时因为主数据在实际应用的规程中,对数据标准的使用进行反馈和优化。
关于数据架构管理。输出一些数据的技术标准给到数据模型,同时数据模型会把高价值的数据资产输出给数据架构管理,这就是数据治理与数据管理域的关系。
把数据架构、数据标准、数据质量、数据安全这些建好之后,接下来要进行能力的输出。能力的输出是给到数据应用、数据服务。
数据应用里面的第一个抓手是数据需求管理:一是为了更好地促进数据共享;二是明确数据服务规范,数据需求不断地遵循和适应规范,同时数据服务要反向适应需求——这是一个不断的循环的过程。而最终目标是进行出口的统一管理。
前面讲了从上层战略到底层平台的支撑,接下来从元数据、数据标准、数据质量、数据模型、数据安全、数据应用与服务几方面来总结一下各大管理域落地的核心点。
元数据落地的目标是建立元数据的数据仓库和产品化。核心关键点是域间管理的核心抓手,需要业务和技术协同完成。
一是高优先级:例如一部分金融企业可能只做了数据标准和数据质量,他们都以为数据标准是开展数据治理活动的核心的前提。
二是独立性:可以只做数据标准。把口径搞清楚,把一些关键的语言统一出来,就可以。
三是关联性:前面聊到了跟数据标准、数据质量等有非常多的关联关系,如果把关联关系同时打通,共同协作去做,它可发挥的价值远远不是第一层只做出标准所发挥出的价值。
二是进行源头治理。如果仅仅是在数仓内对处理完的数据来进行治理,比如数据质量的提升仅在仓内开展,这是远远不足的。本质上数据从业务端开始,从系统端开始,它的数据还是有问题的,没有本质去处理问题,所以源头治理也是核心关键点。
三是数据质量的分级处置:根据不同的数据问题,不同的数据的重要性,设置对应的数据质量处理方案。
四是认责机制。其实这也是整个数据治理工作开展的核心,可以保障质量上的问题的发现追踪和解决。
核心关键:对证券行业而言,有发布的证券期货Store模型,大部分的企业都在对store模型进行各种各样的本地化。
核心关键点:数据治理应该做的工作,包括数据的分类分级、数据的权限审批、数据的隔离和数据脱敏。
紧贴业务价值,有必要进行数据资源的资产化,通过数据资产去支撑更多的业务场景。
刚才讲到一部分企业其实只做数据标准和数据质量,好像元数据从来都是IT 的活。数据似乎可有可无,但元数据是承载一切的,包括数据标准、数据质量,还有数据模型、数据安全全部承载在上面。如果不做元数据,就一定无法看到协同组合所发挥的效能,也无法去落地和推动跟踪,会感觉到无法持续运营一些核心关键。
金融行业有最简单的数据标准的来源:一是外部的监管,二是把一些内部的核心的报表进行拆解,形成指标标准;三是基础数据标准,可以去快速落地的。
我们应该明确的核心想法是:落标并不是为了把原有系统全部推翻,而是应该以对现有系统影响最小的原则去进行落地和落标。核心有4点:
第一点,数据标准的目标情况的分析,包括评估数据标准的矛盾,或者混淆的情况,包括对历史的数据标准的合理性和对现存数据情况的适用度进行分析。
第二点,更新数据标准对当前数据的影响的分析,包括上下游的影响,以及兼容性分析等。
第三点,寻找最大公约数。就是在不同的版本或者不同部门间的数据标准里面去寻找一个最大公约数,在力求提升数据质量和对现在的数据情况取得最大适用的情况下,去更新历史的数据标准,以减少整个数据转化的成本,保障总系统集成以及资源的共享。
第四点,扎实的落实规范。啥意思?在做了这么多工作之外,我们应该建立好数据标准的更新机制,配套的组织、配套的流程、配套的管理办法,来保证落标是为有效地执行。
第一个就是业务方或者项目组方使用和或者是开发的过程中,沉淀的数据质量的规则。
第三个是对数据的聚类分析,建立同类字段的检核规则的复用,包括地址类的联系方式类的金额类等等,明白一个类型的数据质量的规则,可能就可以衍生出很多个数据质量的规则。
核心是要落在元数据上。要进行具体的分类和分析,并且要结合机器学习,再把它应用到我们的数据服务的权限矩阵。
第二点是要把数据服务的应用和数据治理进行结合,才能快速的破圈。我觉得核心是不能把治理当作最终目的,不能为了治理而去治理,当有良好的资产,为数据分析和数据挖掘带来了价值,这才能产生正向反馈。
把数据资产进行等级划分。比如哪部分数据资源应该优先被资产化,哪些重要资产的质量处置等级应该是高优先级的。
一个企业从 0~1 去搭建数据治理的时候,分阶段数据治理需要进行评定,哪部分数据资产要首先发挥价值进行资产化,那么核心就是以这些已经建立的等级划分做依据。
可以看到当前这个量化管理的等级有一些核心的考虑点,包括我们的业务重要性评价,包括数据的访问热度,包括使用频率,包括下游的类型等等,深度链数据链路的深度和数据的层级。
在各个项目中我们都可能会进行分类:对一些新增的元数据进行注册的时候,要进行价值模型评估;对于存量而言,一样要进行圈定。这样我们才能划分优先级,去估算我们数据治理的成本,按照不同的分类有阶段地推进数据治理的工作开展,这样在长期的投入和收益上才能达到一个平衡。
我认为用的定义就是在我们实际的项目开展过程中去做治理,对一些核心系统,还有经营和管理直接相关的这部分系统,要贴着我们的项目和实用主义,贴着重要的资产进行资产化。
全生命周期的核心观点是,在整个的项目流程过程中,不管是数据标准,还是元数据注册、数据质量、数据安全,都要把流程做实。从全生命周期的开始到结束,全程贯彻管理理念,以及,要将流程化本地化。把它作为个性化的流程进行设定之后,需要去提炼和总结,形成通用化的流程,再把这部分内容作为企业级的标准流程。
这样既有了数据质量和数据治理整个过程的实践,又有了提炼出来的通用成果,也更容易获得高层的支持。
再有精力和资源的企业,也不会一做数据治理就全面铺开。一定是在某个纵向领域上,比如某一个业务领域,把数据治理的各个管理域的模块摸清楚再进行实践,而不是全面性的铺开,因为资源总是有限的。
一个纵向领域的成功,会给数据治理相关人员带来阶段性的信心,再将这种信心移植到其他业务,这样未来工作也可以得到更好的支撑。
让业务深度参与数据治理的过程,要提升效率,利用AI去提升整个过程的智能化体验。整个数据治理过程,需要整个平台依据定制化需求去开展数据治理,这一定不是一个通用模块,而是定制化的。随着我们管理思路的变化,这个平台也是要变化的。对一部分重复的数据治理工作,比如元数据,在元数据注册的时候,翻译、业务含义的智能填充,以及元数据和数据标准的对标等都要考虑智能化。
前面讲到了定制化整个平台,除此之外,我们需要把自己的数据和AI能力建设进行融合,要把这种重复性的工作,不断地剥离出来,然后将一些可以明确的规则,作为训练集去训练其他想要做的事情,让它自动化、智能化地完成我们想要做的事情。
分类分级权限矩阵,需要去强化数据安全的智能化管控。这就是前面讲的平台与 AI 的结合。
首先,在证券行业有一个分类分级的指引,这个指引会提供一个参考清单。有了这个清单,我们可以把现有的技术数据标准进行分类和分级。现在数据技术标准大概有4000多个,分类分级之后,将他们作为训练集进行训练,然后把这套算法得出的结果,运用到其他的元数据上面,再进行自动化的分类和目录挂载;分完类之后,再通过人工核验去看结果是否准确,不断的去优化整个算法,以达到自动化将所有数据进行分类和分级的效果。
接下来要做的就是敏感数据的自动化识别和定级,包括敏感数据的策略的静态脱敏,以及如何执行动态脱敏。
当然这个有的平台自己就具备。郭忆老师讲到过网易数帆平台会提供自动化的敏感数据的识别。
核心落在了数据的服务的审批流程上。不同的数据分类,不同的数据等级,以及是否是敏感数据,在数据服务的这个审批流程中它会走向不同的节点。比如数据访问、离线数据导出,跨系统之间数据请求,都会跟这些核心审核点去进行判定,走不同的审批流程。
最后还有一个就是数据的异常访问,比如包括一些高频的下载行为,需要去进行监控和预警,需要通过建立AI模型去完成。
第一个是通过业务方或者项目方在使用过程中或者是开发过程中去沉淀的数据质量的规则。
第二个是通过元数据,以及数据模型对数据标准的引用对标,我们可以生成数据的检核规则。
第三个是通过数据的聚类分析,包括建立同一类型字段的管理与复用,例如地址和联系方式等。
另外再补充说明数据质量的规则。对 IT 人员而言,他只知道技术角度,比如一些数据类型对不对,但核心的业务质量问题是难以发现的。或者说,大部分被监管处罚的数据质量问题都是在业务方角度,所以数据治理中数据质量有一个核心的内容,就是需要业务方的深度参与给拉进来,达到质量检核的业务规则与技术规则联通与统一。
这个在数据治理这个圈子算是比较有一个基本的套路,就是事前、事中、事后管理。
事后:就是发生了问题之后,如何处置。我们刚才讲到了数据质量的分级处置。可以快速把问题解决掉,那解决掉之后我们以这个规则再去优化。比如说这个数据质量的规则核心是出现了乱码,那么是不是能在前台的页面之中,在前端这个级别就可以解决这个问题,或者是在这个数据写入数据库的时候就可以解决这个问题。所以数据质量的核心问题,不是说表面上我们把当下这个问题解决了,而是由这个问题去引发了我们更多的思考,促进我们从源头解决。
A2:其实我觉得这个课题不光是数据治理的一个课题,这是一个特别大的课题,我认为应该尽可能的把数据安全的边界划分清楚,尽可能的让数据开发的效率不被数据安全所影响。
什么意思呢?如果这个边界不清晰,做的过程中就可能不断说这个不可以那个不可以,那不如在一开始就将这个安全的边界划清楚,达成一致的规范或指引,哪些可做,哪些不可做,哪些通过审批是可以完成的——从最开始就避免去影响整个开发效率。第二个就是有了边界之后,我们在开发的过程中,需要考虑怎么样运用数据资产的效能,怎么样从数据模型的角度提升数据开发效率。我觉得核心是要把数据资产建设好。
A3:其实这个也是一个挺大课题。数据治理的效果,为什么总说长效机制呢,因为它的效果并不会那么快地凸显。那么我认为从一些核心的要建立一些核心的指标,在一个企业刚开始做数据治理的时候,不要去考虑它所谓的投入产出比。当我们在数据治理成熟度达到大概三四级之后,就要考虑这个问题,也就是数据治理的运营成本。
那么如何评估?我认为首先要建立动态化的监控指标,包括数据指标。资源是有限的,如何把这部分资源投放到各个部门中去进行指标的拟定,以实现帕累托最优;拟定了考核指标,又如何把它体现在我们的运营报表;以及,如何在考核和激励中去运用这些指标——这些是需要贴近这个企业去制定的。
A4:(1)柔性组织。我认为应需而生,问题导向,一定是包含很多业务同事的,加上我们技术的人员去构建的柔性组织。一个没有业务人员参与的数据治理的柔性组织,只是技术人的自嗨。
(2)人才梯队。我认为是核心是要有一些专业的技能,包括刚才郭忆老师讲的数据分析的大赛,这个也是我们后面会去做的事情,但当下我们要做的事情是沉淀足够多的数据资产,用这一些数据资产再结合我们数据内容本身的业务价值,才能去做我们数据价值的挖掘,进而从业务角度去培养业务人员的数据技能。那对我们专业的数据技术人员,他们要进一步去挖掘他们的业务深度,包括刚才一直讲到这个 AI的结合,包括如何去从数据开发的效能上去跟数据治理结合等等,这是我的看法。
金融数据不仅具备数据的一般特性,更是包含了国民个人隐私信息、企业资金流转、社会经济活动等重要内容。正是由于其特殊性,在金融数据安全方面,我们不仅要求数据在输入时应当经过严格审核和持续维护,在传输和使用的过程中,更应采取对应的管理措施和技术方法加以保护,使金融数据避免产生被非法访问、窃取、篡改和损毁的风险。
在我国数字化的经济进入快车道的时代背景下,怎么样开展数据安全治理,提升全社会的“安全感”,已成为普遍关注的问题。近些年,随着各类数据法律和法规的出台,安全事件也层出不穷,对企业的数据安全性也提出了非常大的挑战,小到数据字段的管理,大到任务、角色或者规则等方面,到底如何做数据安全的治理,本文通过数据安全治理6问,逐步深入展开探讨。
9月12日,由国内领先的基础软件产品与解决方案提供商普元与计世传媒集团新金融世界联合举办的“2014中国金融云平台峰会”在北京隆重召开。本届峰会以“互联网金融时代的大数据应用”为主题,与会嘉宾涵盖银行、保险、证券、互联网金融等领域的权威专家、公司CIO以及负责信息技术、产品创新的部门负责人,深度探讨了金融业的数据整合、数据挖掘、数据治理、...