基于政务数据融通与价值挖掘的数据实验室的制作方法

专利2023-02-27  99



1.本发明实施例涉及数据处理技术领域,尤其涉及一种基于政务数据融 通与价值挖掘的数据实验室。


背景技术:

2.数据作为新的生产要素,为社会经济发展提供了新的引擎动力,必将 引领未来数字经济时代新的认知和发展革命。数据作为生产要素,反映了 随着经济活动数字化转型加快,数据对提高生产效率的乘数作用凸现,成 为最具时代特征新生产要素的重要变化。
3.近些年,大数据相关领域已有较快发展,大数据市场不断扩大,但是 大数据融通、数据价值挖掘、数据共享交换在社会管理、经济发展和民生 改善中的潜力远未得到释放,发挥的作用还不够充分,存在着不少制约大 数据发展的不利因素,当前推动大数据融通领域面临的主要问题包括:数 据融通监管缺少法规及标准、数据融通安全无法保证、数据权属界定明确 困难、高价值数据无法共享、数据潜在价值难以发挥等。因此,如何在保 障数据安全的情况下进行数据的受控开放以及数据价值挖掘,发挥数据的 价值,是目前亟待解决的问题。


技术实现要素:

4.鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一 种基于政务数据融通与价值挖掘的数据实验室。
5.第一方面,本发明实施例提供一种基于政务数据融通与价值挖掘的数 据实验室,包括政务数据区和数据实验室区;
6.所述政务数据区包括原始数据区和数据挖掘加工区;
7.所述数据实验室区包括数据运营区和数据工厂区;
8.所述数据工厂区包括数据生产区、数据试验区和线下开发区。
9.可选的,所述原始数据区用于存储原始数据;
10.所述数据挖掘加工区用于将原始数据按照标准库、主题库、指标库进 行数据治理,得到数据目录,并将所述数据目录同步至所述数据生产区。
11.可选的,所述数据生产区包括数据生产库;
12.所述数据生产库用于接收数据申请需要的目标数据,以及对所述目标 数据进行脱敏抽样,得到样本数据。
13.可选的,所述数据实验区包括训练库、数据实验室平台;
14.所述训练库用于汇集所述样本数据;
15.所述数据试验区将所述训练库和算力打包在独立沙箱中;
16.所述数据实验室平台用于将独立沙箱形成独立工作台,进行数据价值 挖掘,数据分析挖掘后将数据地址映射到所述数据生产库中,清空独立沙 箱中的数据。
17.可选的,所述数据实验室平台还包括安全管理区;
18.所述安全管理区包括数据安全治理管理平台、核心信息管控系统、终 端防泄漏系统、存储防泄漏系统和数据审计平台;
19.所述数据安全治理管理平台用于标识数据,对数据全生命周期安全进 行管控;
20.所述核心信息管控系统用于对运维人员账号进行认证及授权关联;
21.所述终端防泄漏系统用于防止终端数据外泄;
22.所述存储防泄漏系统用于保障敏感数据被发现且安全可控;
23.所述数据审计平台用于审计采集数据行为并记录采集数据行为信息。
24.可选的,所述数据实验室平台还包括区块链安全区;
25.所述区块链安全区用于存证数据实验室在各环节中的数据、算法开发 和处理过程中的访问信息、授权信息、计算信息。
26.可选的,所述数据运营区包括运营平台;
27.所述运营平台用于提供审核用户信息、算力和模型。
28.可选的,所述数据实验室还包括4a平台;
29.所述4a平台用于对数据采集工具、运维用户、全部平台的账号、认 证、授权、审计管理。
30.可选的,所述线下开发区部署有终端防泄漏客户端。
31.可选的,所述数据实验室还包括互联网区;
32.所述互联网区包括api服务,用于为数据需求者提供调用数据价值挖 掘结果的接口。
33.本发明实施例提供的基于政务数据融通与价值挖掘的数据实验室,包 括政务数据区和数据实验室区;所述政务数据区包括原始数据区和数据挖 掘加工区;所述数据实验室区包括数据运营区和数据工厂区;所述数据工 厂区包括数据生产区、数据试验区和线下开发区,相比于目前的大数据融 通、数据价值挖掘、数据共享交换面临的多种问题,由本数据实验室,可 以在保障数据安全的情况下进行数据的受控开放以及数据价值挖掘,发挥 数据的价值。
附图说明
34.图1为本发明实施例提供的一种基于政务数据融通与价值挖掘的数据 实验室的结构示意图;
35.图2为本发明实施例提供的一种数据实验室平台的数据流向示意图;
36.图3为本发明实施例提供的一种基于政务数据融通与价值挖掘的数据 实验室的架构示意图;
37.图4为本发明实施例提供的一种基于政务数据融通与价值挖掘的数据 实验室的功能示意图。
具体实施方式
38.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人
员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
39.为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一 步的解释说明,实施例并不构成对本发明实施例的限定。
40.本发明是一种解决政务数据有限融通与价值挖掘的问题的工具平台, 数据实验室是一种基于固定的安全边界并且在数据安全手段的保障下,通 过提供数据价值挖掘所需的数据资源、算力、办公场所等条件进行协同数 据分析及数据挖掘的平台。本发明解决了政务数据融通交易“不敢”、“不 能”“不愿”的问题,打破“数据孤岛”,旨在解决在保障数据安全的情 况下进行数据的受控开放以及数据价值挖掘,发挥数据的价值,是数据融 通过程的重要的核心工具,对政府、企业的数据协同开发利用具有重大意 义。
41.数据实验室针对具备统一数据资源池,保障数据资源池数据不出域下 可以实现数据价值的协同挖掘,保证数据安全。通过封闭的网络环境和固 定的物理空间,实现数据的受控开放,通过区块链技术,实现了数据协同 开发过程的全流程存证记录,支持了数据建模、结构化算法开发、非结构 算法开发、联邦计算等多种数据开发利用方式,实现“数据可用不可见
”ꢀ
的挖掘利用,整体保障了数据的受控流通,加速数据开放,促进数据价值 释放。
42.为解决政务数据价值挖掘以及数据安全的顾虑,数据实验室部署在政 务外网下,通过提供统一的数据资源、算力及固定的办公场所,为生态厂 商以及具备开发能力的产业用户提供数据分析和数据挖掘的工具平台,最 终计算的结果以高价值的api的方式进行输出,实现了数据的受控开放、 协同挖掘。
43.图1为本发明实施例提供的一种基于政务数据融通与价值挖掘的数据 实验室的结构示意图,如图1所示,本发明的基于政务数据融通与价值挖 掘的数据实验室包括政务数据区和数据实验室区;其中,政务数据区包括 原始数据区和数据挖掘加工区;数据实验室区包括数据运营区和数据工厂 区;数据工厂区包括数据生产区、数据试验区和线下开发区。
44.原始数据区用于存储原始数据;数据挖掘加工区用于将原始数据按照 标准库、主题库、指标库进行数据治理,得到数据目录,并将数据目录同 步至数据生产区。
45.数据生产区包括数据生产库;数据生产库用于接收数据申请需要的目 标数据,以及对目标数据进行脱敏抽样,得到样本数据。
46.数据实验区包括训练库、数据实验室平台;训练库用于汇集样本数据; 数据试验区将训练库和算力打包在独立沙箱中;数据实验室平台用于将独 立沙箱形成独立工作台,进行数据价值挖掘,以及将数据地址映射到数据 生产库中,清空独立沙箱中的数据。
47.数据实验室平台还包括安全管理区;安全管理区包括数据安全治理管 理平台、核心信息管控系统、终端防泄漏系统、存储防泄漏系统和数据审 计平台;数据安全治理管理平台用于标识数据,对数据全生命周期安全进 行管控;核心信息管控系统用于对运维人员账号进行认证及授权关联;终 端防泄漏系统用于防止终端数据外泄;存储防泄漏系统用于保障敏感数据 被发现且安全可控;数据审计平台用于审计采集数据行为并记录采集数据 行为信息。
48.数据实验室平台还包括区块链安全区;区块链安全区用于存证数据实 验室在各环节中的数据、算法开发和处理过程中的访问信息、授权信息、 计算信息。
49.数据运营区包括运营平台;运营平台用于提供审核用户信息、算力和 模型。
50.数据实验室还包括4a平台;4a平台用于对数据采集工具、运维用户、 全部平台的账号、认证、授权、审计管理。
51.线下开发区部署有终端防泄漏客户端。
52.数据实验室还包括互联网区;互联网区包括api服务,用于为数据需 求者提供调用数据价值挖掘结果的接口。
53.具体的,数据实验室采用“前店后厂”的方式,分为政务外网区与互 联网区,数据实验室部署在政务外网区,数据需求者在政务外网环境下的 数据实验室进行数据价值挖掘,将成果以api的方式通过互联网区进行调 用。
54.步骤1:政务原始数据按需汇集在数据挖掘加工区进行数据治理,将 原始数据按标准库、主题库、指标库进行数据治理,并在政务数据区部署 数据库防火墙,保护数据汇集过程中的数据安全。
55.步骤2:政务数据区经过治理后的数据目录同步至数据生产区,该数 据资源目录可供用户进行查阅申请。
56.步骤3:数据申请经过审核授权后,将数据按需接入数据生产库中, 用户在数据实验室中进行任务创建后,该任务所需数据通过脱敏抽样。
57.步骤4:提供脱敏后的样本数据汇集在训练库中,数据实验室平台将 训练库与算力打包在独立沙箱中。
58.步骤5:用户通过数据实验区提供的数据实验室平台工具,使用沙箱 形成个人的模型编辑独立工作台,进行数据价值挖掘,将加工后的数据地 址映射到生产库中,并将独立沙箱进行清空保证数据安全,用户可以通过 api调用生产结果,原始数据无法出域。
59.在安全管理区部署数据库审计平台,采用旁路部署的方式对ftp方式 和etl方式采集数据行为进行审计,详细记录连接命令、数据库表、数据 库内容、账号等信息,对连接进行审计和异常行为进行告警;部署存储防 泄漏工具,保障敏感数据被发现且安全可控;通过溯源管理模块(依托数 据安全治理平台)可以对数据进行水印标识,数据泄露后可进行有效溯源。 部署4a平台,实现etl工具、运维用户、政务平台、数据资源管理平台、 数据实验室运营平台、数据实验室等账号、认证、授权、审计管理;部署 核心信息管控系统对运维人员、进行账号认证及授权关联,并防止终端数 据外泄;并提供数据安全治理平台,对数据全生命周期安全进行管控,串 联以上工具并提供可视化能力。
60.图2为本发明实施例提供的一种数据实验室平台的数据流向示意图, 数据实验室是面向数据需求者与数据拥有方,基于固定安全边界保障数据 不出域的,提供数据资源、算力、算法、办公场所等条件可信的数据分析 及价值挖掘工具平台。
61.通过搭建网络隔离与物理空间隔离的环境结合全方位的数据安全工具 充分保障政务数据安全,通过打造数据资源池与丰富的算力环境,为每位 数据需求方提供独立安全的训练环境,数据需求者在数据实验室中进行训 练与分析后,将结果通过api方式进行拿走,原始数据无法获取,训练结 束后该需求方的独立工作台包含申请数据、运行中间结果、算力等自动销 毁。如图2,数据实验室是在某个非互联网环境(一般而言是政务外网或 者局域网,根据政务数据要求进行部署),通过提供统一的数据资源、算 力及固定的办公场所,为数据需求方提供数据分析和数据挖掘的工具平台, 最终计算的结果以高价值的api
的方式进行输出,原始数据受到安全隔离 保护无法泄露,实现了数据的受控开放、协同挖掘。
62.图3为本发明实施例提供的一种基于政务数据融通与价值挖掘的数据 实验室的架构示意图,数据实验室依托于kubernetes容器化管理平台,实 现硬件资源容器编排管理,并通过大数据基础平台为数据实验室提供分布 式计算、存储能力,以及丰富技术组件。
63.大数据基础平台进行数据存储与算力资源管理,为数据实验室的数据 资源层的数据资源管理提供底层支撑。
64.数据资源管理平台统一纳管结构化数据为上层的模型训练、模型推理、 数据处理、数据共享等应用提供数据源,另外针对外部不可出域数据,通 隐私计算能力实现数据应用。
65.数据实验室在各环节依托区块链存证能力,实现数据审核、应用的全 方位监管。
66.为保障数据安全,数据银行打造完整安全体系。针对硬件及运维侧, 有运维管控及安全交换边界;在数据侧,包括数据库审计、脱敏、终端防 泄漏、网络防泄漏能力;面向服务侧,则通过api网关监测、4a平台统 一安全管控保障api安全及权限安全;应用侧,则依托应用安全管控对应 用安全进行保障;另外,在以上工具基础上形成数据全生命周期安全保障, 面向用户提供数据安全可视化及管控能力。
67.依托大数据基础平台、数据资源管理平台、用户中心、以及区块链与 数据安全体系,建设数据实验室与其运营平台,用户在数据实验室进行模 型训练、模型推理与数据处理与共享,运营后台提供用户、算力、模型审 核功能,保障数据与模型结果的安全。
68.图4为本发明实施例提供的一种基于政务数据融通与价值挖掘的数据 实验室的功能示意图,具体包括:
69.基于安全管控的数据资源池:数据实验室通过数据资源平台对于原始 数据进行备份、标准化治理、清洗、转换,并映射到数据实验室运营后台, 由审核人员控制资源池的数据目录,数据经脱敏后,将目录同步至实验室 门户发布至数据实验室的数据资源目录,达到数据目录可知的目的。运营 后台权限控制与原始数据备份映射等功能保障了不接触原始数据的前提下 的数据可知目的。用户在数据资源池中可通过数据应用行业、来源进行精 准筛选与使用权限申请。
70.独立安全环境下的模型开发:数据实验室为每一位数据需求者提供独 立干净的训练环境,为每一位用户提供独立dorker训练环境,再该区域内 数据需求者通过利用数据实验室提供的数据资源、算力资源、算法资源与 平台能力进行模型训练,训练后的模型将部署至推理环境中,数据需求者 可以通过api方式将结果拿走,而原始数据无法获取,训练结束后该需求 方的训练环境包含申请数据、运行中间结果、算力等自动销毁。数据需求 者在数据实验室算法开发中可以进行任务创建、编辑、部署与调用。
71.任务创建:创建普通任务时,用户进行数据资源与算力资源的申请, 并支持用户上传自己的训练集,提交后,任务创建信息流转至运营后台, 由运营人员进行初次审核。运营人员在数据实验室运营平台进行“三真审 核”(用户真实、使用场景真实、数据授权真实)后,进行数据资源配置, 包含训练数据库创建、数据集抽取、用户数据授权、数据脱敏与加密,以 及进行算力资源配置,将数据资源与算力资源放入训练沙箱中,每个用户 的每个任务均有一个独立纯净训练环境。
境,并提供了包括数据下载,在线训练,在线验证,算法镜像封装等一站 式工具。数据实验室通过前台、后台的方式实现数据资源、算力资源的统 一管控、统一配置,产业用户或者生态服务商通过数据资源、算力资源申 请的方式进行任务是申请,数据实验室平台运营方可以对其任务进行审核 并通过工具进行资源配置,实现了数据资源和算力资源的整体运营。在数 据安全实验室内部系统及底层平台符合“等保三级”的前提下,数据实验 室还引入了网络安全体系优化、数据全生命周期安全保障、数据权限控制、 数据安全计算等安全技术手段,全方位为数据实验室保驾护航。
80.本发明实施例提供的基于政务数据融通与价值挖掘的数据实验室,包 括政务数据区和数据实验室区;所述政务数据区包括原始数据区和数据挖 掘加工区;所述数据实验室区包括数据运营区和数据工厂区;所述数据工 厂区包括数据生产区、数据试验区和线下开发区,相比于目前的大数据融 通、数据价值挖掘、数据共享交换面临的多种问题,由本数据实验室,可 以在保障数据安全的情况下进行数据的受控开放以及数据价值挖掘,发挥 数据的价值。

技术特征:
1.一种基于政务数据融通与价值挖掘的数据实验室,其特征在于,包括政务数据区和数据实验室区;所述政务数据区包括原始数据区和数据挖掘加工区;所述数据实验室区包括数据运营区和数据工厂区;所述数据工厂区包括数据生产区、数据试验区和线下开发区。2.根据权利要求1所述的数据实验室,其特征在于,所述原始数据区用于存储原始数据;所述数据挖掘加工区用于将原始数据按照标准库、主题库、指标库进行数据治理,得到数据目录,并将所述数据目录同步至所述数据生产区。3.根据权利要求1所述的数据实验室,其特征在于,所述数据生产区包括数据生产库;所述数据生产库用于接收数据申请需要的目标数据,以及对所述目标数据进行脱敏抽样,得到样本数据。4.根据权利要求3所述的数据实验室,其特征在于,所述数据实验区包括训练库、数据实验室平台;所述训练库用于汇集所述样本数据;所述数据试验区将所述训练库和算力打包在独立沙箱中;所述数据实验室平台用于将独立沙箱形成独立工作台,进行数据价值挖掘,数据分析挖掘后将数据地址映射到所述数据生产库中,清空独立沙箱中的数据。5.根据权利要求1所述的数据实验室,其特征在于,所述数据实验室平台还包括安全管理区;所述安全管理区包括数据安全治理管理平台、核心信息管控系统、终端防泄漏系统、存储防泄漏系统和数据审计平台;所述数据安全治理管理平台用于标识数据,对数据全生命周期安全进行管控;所述核心信息管控系统用于对运维人员账号进行认证及授权关联;所述终端防泄漏系统用于防止终端数据外泄;所述存储防泄漏系统用于保障敏感数据被发现且安全可控;所述数据审计平台用于审计采集数据行为并记录采集数据行为信息。6.根据权利要求1所述的数据实验室,其特征在于,所述数据实验室平台还包括区块链安全区;所述区块链安全区用于存证数据实验室在各环节中的数据、算法开发和处理过程中的访问信息、授权信息、计算信息。7.根据权利要求1所述的数据实验室,其特征在于,所述数据运营区包括运营平台;所述运营平台用于提供审核用户信息、算力和模型。8.根据权利要求1所述的数据实验室,其特征在于,所述数据实验室还包括4a平台;所述4a平台用于对数据采集工具、运维用户、全部平台的账号、认证、授权、审计管理。9.根据权利要求1所述的数据实验室,其特征在于,所述线下开发区部署有终端防泄漏客户端。10.根据权利要求1所述的数据实验室,其特征在于,所述数据实验室还包括互联网区;所述互联网区包括api服务,用于为数据需求者提供调用数据价值挖掘结果的接口。

技术总结
本发明实施例涉及一种基于政务数据融通与价值挖掘的数据实验室,包括政务数据区和数据实验室区;所述政务数据区包括原始数据区和数据挖掘加工区;所述数据实验室区包括数据运营区和数据工厂区;所述数据工厂区包括数据生产区、数据试验区和线下开发区,由本数据实验室,可以在保障数据安全的情况下进行数据的受控开放以及数据价值挖掘,发挥数据的价值。发挥数据的价值。发挥数据的价值。


技术研发人员:姚丽娜 苟轶凡 刘阿慧 刘若雨 陈婧
受保护的技术使用者:北京易华录信息技术股份有限公司
技术研发日:2022.06.07
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-1439.html

最新回复(0)