1.本发明涉及数据收集处理相关技术领域,具体为一种用于数据融合的数据收集处理系统。
背景技术:2.信息化高速发展的今天,数据集中已经成为信息化建设的主流趋势,是实现创新管理、科学管理、智慧管理的必要手段,数据中心建设已成为数据集中趋势下的必然产物,政府部门、企业、科教院校等各类机构都建立了自己的数据中心,全面管理本机构的各类信息系统,由此引发的数据中心需求在不断增长,数据中心已成为机构信息系统的物理载体和核心资源,机构业务的重要支撑平台,如何治理这些庞大的数据成为了大数据应用领域的关键问题之一。
3.大数据治理旨在收集和处理各数据中心获取的各类异构数据并为融合出版和知识服务系统分析处理收集到的数据,构建数据中台,为融合出版和知识服务系统进行产品生产和用户服务提供依据,是融合出版与知识服务活动起点和基础,通过融合出版和知识服务大数据系统中的数据收集和处理,完成融合出版和知识服务网大数据系统各类活动所必须的信息收集和处理,包括数据收集、清洗、提取、融合和建模等环节,而其中需要解决各类用户模型和需求模型构建和多源异构数据的融合等关键问题。
4.针对上述问题,在原有数据收集处理系统的基础上进行创新设计。
技术实现要素:5.本发明的目的在于提供一种用于数据融合的数据收集处理系统,以解决上述背景技术中提出数据收集处理系统需要解决各类用户模型和需求模型构建和多源异构数据的融合等问题。
6.为实现上述目的,本发明提供如下技术方案:一种用于数据融合的数据收集处理系统;
7.所述处理系统包括数据搜集、应用库、数据交换与分析模块,搭建一个多源异构出版资源融合系统来融合海量异构资源,实现融合出版数据治理;
8.所述数据搜集模块搜集来自各种运营服务系统产生的用户信息、视频、音频、图片和文字数据,数据中心可以对这些结构化、非结构化、半结构化的数据和分布式文件进行采集、解析;
9.所述应用库模块基于应用需求特点和数据容量规模的特点,支撑大规模部署的自动化和运行状态的实时监控、负载均衡,满足大数据量和高并发的检索要求;
10.所述数据交换和分析模块统一在数据仓库中对采集处理过的数据汇聚交换和分析,部署数据挖掘、机器学习算法与应用,实现灵活的面向主题的分析任务,基于海量的数据存储,整合离线计算与在线计算技术,通过不同的编程模型,实现各种数据分析的场景,支持实时计算的数据分析。
11.优选的,所述数据搜集模块收集数据包括用户数据、产品信息数据、各类系统日志、系统经营产生的数据和用户互动行为数据。
12.优选的,所述应用库采用海量数据并行处理架构的数据库与分布式的文件存储、计算相结合的数据存储和计算技术实现对结构化、半结构化、非结构化数据的统一管理和检索,通过开放的二次开发接口向上层应用提供灵活的数据存取策略支持。
13.优选的,所述应用库包括数字出版数据和印刷出版数据,所述数字出版数据包括用于获取不同书籍文本的信息采集模块、用于对采集的信息进行合并、去重、删减、整理的归整模块和用于存储信息的存储模块,所述印刷出版数据包括但不限于书刊亭、图书馆和书店等出版载体对纸板印刷的不同文本摘要进行展示的精简模块和与文本相对应的二维码纸板标签的图书实体数据,所述图书实体数据包括图书书名、国际标准书号以及图书简介中的一个或多个。
14.优选的,所述数据交换和分析模块针对不同资源数据之间的数据交换功能,多源异构数据交换技术具备以下三种数据交换方式:支持多种格式的数据交换,与国家数据交换的规范化格式相适应,采用unicode编码;支持基于soa技术的松耦合的信息交换体系,提供web service接口;合理应用前置机技术。
15.优选的,所述多源异构数据的交换融合分析具体包括以下步骤:
16.s1、获取用户数据、产品信息数据、各类系统日志、系统经营产生的数据、用户互动行为数据采集的数据;
17.s2、对用户数据、产品信息数据、各类系统日志、系统经营产生的数据、用户互动行为数据采用融合识别算法进行解析,对于处理后的数据采用cnn神经网络进行目标信息定位、目标信息识别和特征信息提取,得到目标属性和目标特征值等解析结果;
18.s3、对用户数据、产品信息数据、各类系统日志、系统经营产生的数据、用户互动行为数据采集的数据进行大数据下的融合分析与实时计算,得到实时计算结果,并存储实时计算结果;
19.s4、对历史数据进行离线计算,得到离线计算结果,将实时计算结果与离线计算结果进行融合分析得到数据关联关系,得到融合后的多源异构数据。
20.与现有技术相比,本发明的有益效果是:该用于数据融合的数据收集处理系统,有助于出版和知识服务数据治理提升数据集聚与内容管理的效率,信息个性化生产与消费下的智能定制将成为5g时代内容出版的重要特征,在万物感知带来的数据洪流中,在做好知识碎片化与体系化加工的同时,通过拟采用深度学习算法对不同类型资源的数据进行处理,多源异构数据交换技术针对不同资源数据之间的数据交换功能,采用以下三种数据交换方式:支持多种格式的数据交换,与国家数据交换的规范化格式相适应,采用unicode编码;支持基于soa技术的松耦合的信息交换体系,提供web service接口;合理应用前置机技术,包含了数据采集、解析、特征提取以及融合等,最终形成了一个统一的数据仓库,从而提升内容采集与生成效率,为数字资产管理夯实基础。
附图说明
21.图1为本发明系统示意框图。
具体实施方式
22.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
23.请参阅图1,本发明提供一种技术方案:一种用于数据融合的数据收集处理系统,拟搭建一个多源异构出版资源融合系统来融合海量异构资源,实现融合出版数据治理,如图1所示,系统包括数据搜集、应用库、数据交换与分析模块。
24.其中,数据搜集模块搜集来自各种运营服务系统产生的用户数据、产品信息数据、各类系统日志、系统经营产生的数据、用户互动行为数据,包括用户信息、视频、音频、图片和文字数据,数据中心可以对这些结构化、非结构化、半结构化的数据和分布式文件进行采集、解析。
25.应用库基于应用需求特点和数据容量规模的特点,应用库可采用海量数据并行处理架构的数据库与分布式的文件存储/计算相结合的数据存储和计算技术实现对结构化、半结构化、非结构化数据的统一管理和检索,支撑大规模部署的自动化和运行状态的实时监控、负载均衡;满足大数据量和高并发的检索要求。通过开放的二次开发接口向上层应用提供灵活的数据存取策略支持。
26.应用库包括数字出版数据和印刷出版数据的基本信息、专题信息和分析指标,所述数字出版数据包括用于获取不同书籍文本的信息采集模块、用于对采集的信息进行合并、去重、删减、整理的归整模块和用于存储信息的存储模块,所述印刷出版数据包括但不限于书刊亭、图书馆和书店等出版载体对纸板印刷的不同文本摘要进行展示的精简模块和与文本相对应的二维码纸板标签的图书实体数据,所述图书实体数据包括图书书名、国际标准书号以及图书简介。
27.采集处理过的数据汇聚到统一的用于数据交换和分析的数据仓库中,部署数据挖掘、机器学习算法与应用,实现灵活的面向主题的分析任务,基于海量的数据存储,整合离线计算与在线计算技术,通过不同的编程模型,实现各种数据分析的场景,支持实时计算的数据分析,针对不同资源数据之间的数据交换功能,多源异构数据交换技术具备以下三种数据交换方式:支持多种格式的数据交换,与国家数据交换的规范化格式相适应,采用unicode编码;支持基于soa技术的松耦合的信息交换体系,提供web service接口;合理应用前置机技术。
28.所述多源异构数据的交换融合分析具体包括以下步骤:
29.s1、获取用户数据、产品信息数据、各类系统日志、系统经营产生的数据、用户互动行为数据采集的数据;
30.s2、对用户数据、产品信息数据、各类系统日志、系统经营产生的数据、用户互动行为数据采用融合识别算法进行解析,对于处理后的数据采用cnn神经网络进行目标信息定位、目标信息识别和特征信息提取,得到目标属性和目标特征值等解析结果;
31.s3、对用户数据、产品信息数据、各类系统日志、系统经营产生的数据、用户互动行为数据采集的数据进行大数据下的融合分析与实时计算,得到实时计算结果,并存储实时计算结果;
32.s4、对历史数据进行离线计算,得到离线计算结果,将实时计算结果与离线计算结果进行融合分析得到数据关联关系,得到融合后的多源异构数据。
33.上述过程包含了数据采集、解析、特征提取以及融合等,最终形成了一个统一的数据中台,为融合出版提供运营管理的数据支撑,建设统一的融合出版平台,构建平台型融合式新基建体系,包括基础层、平台层、应用层等三大子系统,面向编辑、出版单位、用户等不同用户角色提供相应模块化的使用工具。
34.基础层为其他业务功能提供基础设施与技术服务,实现服务的广泛复用,同时也为接入平台的应用提供基础服务。平台层包括业务中台与数据中台两部分,采用类中台模式设计,业务中台主要提供面向公共的、可共享的需求聚合服务;数据中台主要实现公共的数据需求,应用层提供不同对象、不同场景下具备不同功能的前端应用。
35.基础层主要包括:基础设施和基础服务两个部分。基础设施主要提供应用底层运行环境支撑,包含数据库存储、列存储、缓存以及消息中间件等;基础服务主要提供与业务相关的功能模块通用组件,以微服务方式构建,包含短信服务、工作流引擎、二维码服务、全文检索和唯一键等,为平台层核心业务提供基础支持。
36.平台层包括业务中台和数据中心,采用类中台模式设计,提供资源、渠道、版权管理;提供工作台进行业务流程审批;提供资源市场、渠道市场,强化出版发行单位间的合作,打通线上资源合作、渠道合作;提升出版单位的综合竞争力,优先建设资源、版权、渠道管理模块。
37.资源管理模块负责管理与存放数字资产中作品资源部分。资源数据子系统由数据与元数据规则库、元数据、分类内容资源库、内容资源加工中心等模块构成。负责对所有数字资产的数据标准作出定义和管理,为文字作品、电子书、实体书、连续出版物、图片、音乐、音频、视频、数据库产品、应用软件产品等各种类型的作品资源提供存储管理服务。并可提供条目化标引加工工具,方便用户加工制作更多的内容资源。
38.版权管理模块负责对作品资源的权属信息进行管理。由流程配置中心、合同管理中心、版权信息管理中心、版权资产管理中心等部分构成。通过灵活的自定义流程配置,可以满足不同类型作品的登记工作高效完成。标准规范的合同管理可保证所有权属清晰明确,并可进行结构化的查询。版权管理模块是将版权信息和作品资源进行对应关联,形成确实有效的数字资产信息并可进行资产的运营。
39.渠道管理模块负责对将产品化之后的数字资产,通过自有平台或第三方平台进行运营,以获取资产收益。包括对数字资产进行产品化的包装、对外授权或自营、收益结算等。
40.应用层建设,实现不同对象、不同场景下具备不同功能的前端应用,主要包括面向终端用户运营、基于店铺模式的运营通,面向第三方技术合作的开放平台,以及面向各类渠道应用的对接服务,制定统一开发标准,开放服务接口;引入第三方开发者及应用,第三方开发者与应用可大幅提升平台的持续发展能力;为平台提供持续更新的源泉。
41.项目应用场景具体有三方面:一是为各出版单位提供融合出版业务线上运营、技术支撑;二是通过统一运营前台为受众提供智能个性化数字内容服务;三是通过项目提供的微服务架构根据内容提供商需求快速搭建定制专业平台。
42.对于出版单位,项目平台提供内容资源管理、数字产品发布、统一渠道管理等工具化服务,打通运营渠道、共享用户池,并提供从产品制作到渠道运营全产业链的技术支持。
43.对于受众,平台可根据检索需求,将数据库的大数据分析与结果进行匹配与整合,反馈基于内容关联的推荐列表。数据中台将对海量数据进行精细标引,提高资源可检索与再利用性能的同时,进行数据预测与知识发现,提供智能个性化知识服务,改善用户体验,提高用户黏性。
44.项目使用统一的开发标准、规范,通过项目提供的微服务架构,可快速实现项目搭建,节约开发时间,提高项目质量,降低运维成本。通过这种方式可以为有个性化需求的内容提供商定制平台。
45.有助于提取同时适合融合出版和知识服务大数据应用以及其他领域应用的共性技术加以集成和产业化,拟在大数据治理、知识服务与智能推送、区块链技术、智能决策等方面进行工程化、产业化应用示范,并利用市场机制加以推广。
46.本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术,尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:1.一种用于数据融合的数据收集处理系统,其特征在于:所述处理系统包括数据搜集、应用库、数据交换与分析模块,搭建一个多源异构出版资源融合系统来融合海量异构资源,实现融合出版数据治理;所述数据搜集模块搜集来自各种运营服务系统产生的用户信息、视频、音频、图片和文字数据,数据中心可以对这些结构化、非结构化、半结构化的数据和分布式文件进行采集、解析;所述应用库模块基于应用需求特点和数据容量规模的特点,支撑大规模部署的自动化和运行状态的实时监控、负载均衡,满足大数据量和高并发的检索要求;所述数据交换和分析模块统一在数据仓库中对采集处理过的数据汇聚交换和分析,部署数据挖掘、机器学习算法与应用,实现灵活的面向主题的分析任务,基于海量的数据存储,整合离线计算与在线计算技术,通过不同的编程模型,实现各种数据分析的场景,支持实时计算的数据分析。2.根据权利要求1所述的一种用于数据融合的数据收集处理系统,其特征在于:所述数据搜集模块收集数据包括用户数据、产品信息数据、各类系统日志、系统经营产生的数据和用户互动行为数据。3.根据权利要求1所述的一种用于数据融合的数据收集处理系统,其特征在于:所述应用库采用海量数据并行处理架构的数据库与分布式的文件存储、计算相结合的数据存储和计算技术实现对结构化、半结构化、非结构化数据的统一管理和检索,通过开放的二次开发接口向上层应用提供灵活的数据存取策略支持。4.根据权利要求1所述的一种用于数据融合的数据收集处理系统,其特征在于:所述应用库包括数字出版数据和印刷出版数据,所述数字出版数据包括用于获取不同书籍文本的信息采集模块、用于对采集的信息进行合并、去重、删减、整理的归整模块和用于存储信息的存储模块,所述印刷出版数据包括但不限于书刊亭、图书馆和书店等出版载体对纸板印刷的不同文本摘要进行展示的精简模块和与文本相对应的二维码纸板标签的图书实体数据,所述图书实体数据包括图书书名、国际标准书号以及图书简介中的一个或多个。5.根据权利要求1所述的一种用于数据融合的数据收集处理系统,其特征在于:所述数据交换和分析模块针对不同资源数据之间的数据交换功能,多源异构数据交换技术具备以下三种数据交换方式:支持多种格式的数据交换,与国家数据交换的规范化格式相适应,采用unicode编码;支持基于soa技术的松耦合的信息交换体系,提供web service接口;合理应用前置机技术。6.根据权利要求1所述的一种用于数据融合的数据收集处理系统,其特征在于:所述多源异构数据的交换融合分析具体包括以下步骤:s1、获取用户数据、产品信息数据、各类系统日志、系统经营产生的数据、用户互动行为数据采集的数据;s2、对用户数据、产品信息数据、各类系统日志、系统经营产生的数据、用户互动行为数据采用融合识别算法进行解析,对于处理后的数据采用cnn神经网络进行目标信息定位、目标信息识别和特征信息提取,得到目标属性和目标特征值等解析结果;s3、对用户数据、产品信息数据、各类系统日志、系统经营产生的数据、用户互动行为数据采集的数据进行大数据下的融合分析与实时计算,得到实时计算结果,并存储实时计算
结果;s4、对历史数据进行离线计算,得到离线计算结果,将实时计算结果与离线计算结果进行融合分析得到数据关联关系,得到融合后的多源异构数据。
技术总结本发明公开了一种用于数据融合的数据收集处理系统,所述处理系统包括数据搜集、应用库、数据交换与分析模块,所述数据搜集模块搜集来自各种运营服务系统产生的用户信息数据,所述应用库模块满足大数据量和高并发的检索要求,所述数据交换和分析模块统一在数据仓库中对采集处理过的数据汇聚交换和分析,部署数据挖掘、机器学习算法与应用,基于海量的数据存储,整合离线计算与在线计算技术支持数据分析。该用于数据融合的数据收集处理系统,包含了数据采集、解析、特征提取以及融合等,最终形成了一个统一的数据中台,解决各类用户模型和需求模型构建和多源异构数据的融合等关键问题,为融合出版提供运营管理的数据支撑。为融合出版提供运营管理的数据支撑。为融合出版提供运营管理的数据支撑。
技术研发人员:张茂华 童晓雯
受保护的技术使用者:湖北长江传媒数字出版有限公司
技术研发日:2022.07.22
技术公布日:2022/11/1