1.本技术涉及大数据技术领域,尤其涉及一种智能增强数据分析方法、系统、设备及存储介质。
背景技术:2.电网业务部门和领导对数据分析具有极大的需求,但缺少数据以及工具有效支撑,报表需求得不到及时响应。同时,领导或者需求部门与数据分析人员之间数据对话匮乏,分析周期漫长。即便企业通过底层数据平台,将各个数据源头整合。业务人员和高管面对新的数据仍然无从下手,作图时也不知道如何更好地展现数据。在数据探索的过程中,流程繁琐、效率低,难以从图表中发现有价值的业务线索。
技术实现要素:3.本技术提供了一种智能增强数据分析方法、系统、设备及存储介质,用于解决现有技术面对复杂度比较高的数据汇聚及分析需求时应用效率较低的技术问题。
4.有鉴于此,本技术第一方面提供了一种智能增强数据分析方法,所述方法包括:
5.接入电力生产运营全业务线的数据构建基础数据支撑仓库,作为电网知识库;
6.根据需求描述从所述电网知识库抽取数据生成分析需求数据集合,作为模型训练集;
7.创建自然语言处理模型,结合现有知识库的数据对自然语言模型进行训练,通过训练好的自然语言模型对所述模型训练集进行识别处理,生成正则表达式;
8.通过所述正则表达式对所述电网知识库的数据进行识别,得到若干数据集并存储,并基于若干所述数据集建立用于智能分析的数据模型。
9.可选地,所述通过所述正则表达式对所述电网知识库的数据进行识别,得到若干数据集,并基于若干所述数据集建立用于智能分析的数据模型,之后还包括:
10.建立若干种类的可视化展示模型,根据所述数据模型中数据集的维度和指标匹配可视化展示模型,通过匹配到的可视化展示模型对数据集进行展示。
11.可选地,所述可视化展示模型,具体包括:图标类别建议模型和聚合函数建议模型。
12.可选地,所述接入电力生产运营全业务线的数据构建基础数据支撑仓库,作为电网知识库,具体包括:
13.建立与电网数据库的数据链路后,对电网数据库中的数据进行抽取,对抽取的数据进行标准化处理,将标准化处理后的数据归集到知识库中,得到基础数据支撑仓库并作为电网知识库。
14.本技术第二方面提供一种智能增强数据分析系统,所述系统包括:
15.构建单元,用于接入电力生产运营全业务线的数据构建基础数据支撑仓库,作为电网知识库;
16.抽取单元,用于根据需求描述从所述电网知识库抽取数据生成分析需求数据集合,作为模型训练集;
17.生成单元,用于创建自然语言处理模型,结合现有知识库的数据对自然语言模型进行训练,通过训练好的自然语言模型对所述模型训练集进行识别处理,生成正则表达式;
18.识别单元,用于通过所述正则表达式对所述电网知识库的数据进行识别,得到若干数据集并存储,并基于若干所述数据集建立用于智能分析的数据模型。
19.可选地,还包括:展示单元;
20.所述展示单元,用于建立若干种类的可视化展示模型,根据所述数据模型中数据集的维度和指标匹配可视化展示模型,通过匹配到的可视化展示模型对数据集进行展示。
21.可选地,所述可视化展示模型,具体包括:图标类别建议模型和聚合函数建议模型。
22.可选地,所述构建单元,具体用于:
23.建立与电网数据库的数据链路后,对电网数据库中的数据进行抽取,对抽取的数据进行标准化处理,将标准化处理后的数据归集到知识库中,得到基础数据支撑仓库并作为电网知识库。
24.本技术第三方面提供一种智能增强数据分析设备,所述设备包括处理器以及存储器:
25.所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
26.所述处理器用于根据所述程序代码中的指令,执行如上述第一方面所述的智能增强数据分析方法的步骤。
27.本技术第四方面提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述第一方面所述的智能增强数据分析方法。
28.从以上技术方案可以看出,本技术具有以下优点:
29.本技术提供了一种智能增强数据分析方法,包括:接入电力生产运营全业务线的数据构建基础数据支撑仓库,作为电网知识库;根据需求描述从电网知识库抽取数据生成分析需求数据集合,作为模型训练集;创建自然语言处理模型,结合现有知识库的数据对自然语言模型进行训练,通过训练好的自然语言模型对模型训练集进行识别处理,生成正则表达式;通过正则表达式对电网知识库的数据进行识别,得到若干数据集并存储,并基于若干数据集建立用于智能分析的数据模型。进一步地建立若干种类的可视化展示模型,根据数据模型中数据集的维度和指标匹配可视化展示模型,通过匹配到的可视化展示模型对数据集进行展示。
30.与现有技术相比,本技术能够根据维度和指标能够推荐最优的图表类型和聚合函数建议,帮助用户更好的展现数据,提高操作效率,降低使用门槛,面对数据无从下手时,图表推荐能够利用数据自动绘制多种图表,便于让分析师快速掌握数据情况。从而解决了现有人工对复杂度比较高的数据汇聚及分析需求时应用效率较低的技术问题。
附图说明
31.图1为本技术实施例中提供的一种智能增强数据分析方法实施例的流程示意图;
32.图2为本技术实施例中提供的一种智能增强数据分析系统实施例的流程示意图。
具体实施方式
33.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
34.请参阅图1,本技术实施例中提供的一种智能增强数据分析方法,包括:
35.步骤101、接入电力生产运营全业务线的数据构建基础数据支撑仓库,作为电网知识库;
36.具体的,建立与电网数据库的数据链路后,对电网数据库中的数据进行抽取,对抽取的数据进行标准化处理,将标准化处理后的数据归集到知识库中,得到基础数据支撑仓库并作为电网知识库。
37.需要说明的是,为了实现数据源管理,对关系型数据库、非关系型数据库、文件系统数据源进行管理配置,首先,根据不同数据库类型使用jdbc、odbc等技术,建立与数据源之间的数据链路。其中,打通与数据源之间的链路主要分为以下几个步骤:(1)加载数据源驱动;(2)获取数据库连接;(3)获取传输器;(4)利用传输器,发送sql到数据库执行,返回执行结果;(4)处理结果;(5)释放资源。接着,根据配置的数据源链路,依赖大数据平台技术机型数据etl操作,通过cdc技术、sqoop技术、ftp技术抽取数据,将数据存放在平台hive库、habse等数据库,并进行数据治理,治理过程就是对管理的数据进行标准化,形成标准数据集;其中,对数据进行etl形成标准化过程,关键步骤主要先建立数据的类型、长度、数据维度、数据范围、业务属性标准,同时将标准设置为数据校验因子,数据接入后,会根据标准规范进行质量检查,对不标准的数据进行标准化处理,形成标准数据集。最后,将数据治理标准化后的数据归集到知识库中,得到基础数据支撑仓库并作为电网知识库。
38.cdc技术:cdc的全称是change data capture((变更数据获取),在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为cdc。目前通常描述的cdc技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。
39.sqoop技术:主要用于在hadoop(hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如:mysql,oracle,postgres等)中的数据导进到hadoop的hdfs中,也可以将hdfs的数据导进到关系型数据库中。
40.ftp技术:filetransferprotocol(文件传输协议)的英文简称,而中文简称为“文传协议”。用于internet上的控制文件的双向传输。
41.对于数据的抽取进一步地需要说明的是:
42.(1)若有要求实时性的数据需要即时同步,使用cdc实时数据同步,增量更新,利用cdc对源表进行insert、update或delete等操作的同时就可以提取数据,并且变化的数据被保存在数据库的变化表中。(2)数据通过sqoop从业务源进入存储层,sqoop是一个用来将hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:mysql,oracle,postgres等)中的数据导入到hadoop的hdfs中,也可以将hdfs的数据导出到关系型数据库中。(3)file transfer protocol是文件传输协议,用于网络上的控制文件的双向传输。同时,它也是一个应用程序(application)。大数据平台通过ftp文件传输,并针对网络异常有断点续传功能,使用ftp接入有两种形式:一是对非结构化文件进行上传下载,供服
务查询和使用;二是对半结构化文件进行ftp上传、转换、加载入指定数据库。
43.步骤102、根据需求描述从电网知识库抽取数据生成分析需求数据集合,作为模型训练集;
44.需要说明的是,通过词向量模型word2vec、句子分词、词性标注pos、命名实体识别ner、依存句法分析dp、循环神经网络rnn等技术,将需求描述从电网知识库(基础数据支撑仓库)中提取数据形成数据集合,作为模型训练集。
45.步骤103、创建自然语言处理模型,结合现有知识库的数据对自然语言模型进行训练,通过训练好的自然语言模型对模型训练集进行识别处理,生成正则表达式;
46.可以理解的是,通过创建自然语言处理(nlp)模型,并结合现有知识库的数据进行自然语言模型训练,通过训练好的模型对步骤102得到的模型训练集进行识别处理,生成可用的正则表达式。需要说明的是,正则表达式,又称规则表达式,(regular expression,在代码中常简写为regex、regexp或re),是一种文本模式,包括普通字符(例如,a到z之间的字母)和特殊字符(称为"元字符"),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式(规则)的文本。
47.步骤104、通过正则表达式对电网知识库的数据进行识别,得到若干数据集并存储,并基于若干数据集建立用于智能分析的数据模型;
48.需要说明的是,通过正则表达式对电网知识库的数据进行识别,得到若干数据集并存储,并基于若干数据集建立用于智能分析的数据模型,在实际应用时,可以将数据模型挂载到智能分析系统。
49.步骤105、建立若干种类的可视化展示模型,根据数据模型中数据集的维度和指标匹配可视化展示模型,通过匹配到的可视化展示模型对数据集进行展示。
50.需要说明的是,内置多种可视化展示模型,根据数据集不同维度、不同指标,匹配可视化展示模型,对应成功返回界面进行展示,并支持通过手动切换可视化模型对数据进行不同形式展现。
51.进一步地,在应用中,能够根据维度和指标能够推荐最优的图表类型和聚合函数建议,帮助用户更好的展现数据,提高操作效率,降低使用门槛。
52.其中,图表类别建议:分析生成表格的数据量、维度度量的数量,自动选择最优的展现方式。聚合函数建议:使用深度迁移算法。通过维度、度量的名称,自动推荐作用于度量的聚合函数。
53.以上为本技术实施例中提供的一种智能增强数据分析方法的实施例,以下为本技术实施例中提供的一种智能增强数据分析系统的实施例。
54.请参阅图2,本技术实施例中提供的一种智能增强数据分析系统,包括:
55.构建单元201,用于接入电力生产运营全业务线的数据构建基础数据支撑仓库,作为电网知识库;
56.抽取单元202,用于根据需求描述从电网知识库抽取数据生成分析需求数据集合,作为模型训练集;
57.生成单元203,用于创建自然语言处理模型,结合现有知识库的数据对自然语言模型进行训练,通过训练好的自然语言模型对模型训练集进行识别处理,生成正则表达式;
58.识别单元204,用于通过正则表达式对电网知识库的数据进行识别,得到若干数据集并存储,并基于若干数据集建立用于智能分析的数据模型;
59.展示单元205,用于建立若干种类的可视化展示模型,根据数据模型中数据集的维度和指标匹配可视化展示模型,通过匹配到的可视化展示模型对数据集进行展示。
60.进一步地,本技术实施例中还提供了一种智能增强数据分析设备,所述设备包括处理器以及存储器:
61.所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
62.所述处理器用于根据所述程序代码中的指令执行上述方法实施例所述的智能增强数据分析方法。
63.进一步地,本技术实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述方法实施例所述的智能增强数据分析方法。
64.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
65.本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
66.应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
67.在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
68.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
69.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以
是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
70.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文全称:read-only memory,英文缩写:rom)、随机存取存储器(英文全称:random access memory,英文缩写:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
71.以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
技术特征:1.一种智能增强数据分析方法,其特征在于,包括:接入电力生产运营全业务线的数据构建基础数据支撑仓库,作为电网知识库;根据需求描述从所述电网知识库抽取数据生成分析需求数据集合,作为模型训练集;创建自然语言处理模型,结合现有知识库的数据对自然语言模型进行训练,通过训练好的自然语言模型对所述模型训练集进行识别处理,生成正则表达式;通过所述正则表达式对所述电网知识库的数据进行识别,得到若干数据集并存储,并基于若干所述数据集建立用于智能分析的数据模型。2.根据权利要求1所述的智能增强数据分析方法,其特征在于,所述通过所述正则表达式对所述电网知识库的数据进行识别,得到若干数据集,并基于若干所述数据集建立用于智能分析的数据模型,之后还包括:建立若干种类的可视化展示模型,根据所述数据模型中数据集的维度和指标匹配可视化展示模型,通过匹配到的可视化展示模型对数据集进行展示。3.根据权利要求2所述的智能增强数据分析方法,其特征在于,所述可视化展示模型,具体包括:图标类别建议模型和聚合函数建议模型。4.根据权利要求1所述的智能增强数据分析方法,其特征在于,所述接入电力生产运营全业务线的数据构建基础数据支撑仓库,作为电网知识库,具体包括:建立与电网数据库的数据链路后,对电网数据库中的数据进行抽取,对抽取的数据进行标准化处理,将标准化处理后的数据归集到知识库中,得到基础数据支撑仓库并作为电网知识库。5.一种智能增强数据分析系统,其特征在于,包括:构建单元,用于接入电力生产运营全业务线的数据构建基础数据支撑仓库,作为电网知识库;抽取单元,用于根据需求描述从所述电网知识库抽取数据生成分析需求数据集合,作为模型训练集;生成单元,用于创建自然语言处理模型,结合现有知识库的数据对自然语言模型进行训练,通过训练好的自然语言模型对所述模型训练集进行识别处理,生成正则表达式;识别单元,用于通过所述正则表达式对所述电网知识库的数据进行识别,得到若干数据集并存储,并基于若干所述数据集建立用于智能分析的数据模型。6.根据权利要求5所述的智能增强数据分析系统,其特征在于,还包括:展示单元;所述展示单元,用于建立若干种类的可视化展示模型,根据所述数据模型中数据集的维度和指标匹配可视化展示模型,通过匹配到的可视化展示模型对数据集进行展示。7.根据权利要求6所述的智能增强数据分析系统,其特征在于,所述可视化展示模型,具体包括:图标类别建议模型和聚合函数建议模型。8.根据权利要求5所述的智能增强数据分析系统,其特征在于,所述构建单元,具体用于:建立与电网数据库的数据链路后,对电网数据库中的数据进行抽取,对抽取的数据进行标准化处理,将标准化处理后的数据归集到知识库中,得到基础数据支撑仓库并作为电网知识库。9.一种智能增强数据分析设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的智能增强数据分析方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的智能增强数据分析方法。
技术总结本申请公开了一种智能增强数据分析方法、系统、设备及存储介质,包括:接入电力生产运营全业务线的数据构建电网知识库;根据需求描述从电网知识库抽取数据生成分析需求数据集合作为模型训练集;结合现有知识库的数据对自然语言模型进行训练,通过训练好的自然语言模型对模型训练集进行识别处理生成正则表达式;通过正则表达式对电网知识库的数据进行识别得到若干数据集并存储,基于若干数据集建立用于智能分析的数据模型;建立若干种类的可视化展示模型,根据数据模型中数据集的维度和指标匹配可视化展示模型,通过匹配到的可视化展示模型对数据集进行展示。解决了现有对复杂度比较高的数据汇聚及分析需求时应用效率较低的问题。题。题。
技术研发人员:宋才华 关兆雄 王晶 布力 王永才 林钰杰 关浩华 肖招娣 皇甫汉聪 刘胜强 陈旭宇
受保护的技术使用者:广东电网有限责任公司佛山供电局
技术研发日:2022.07.25
技术公布日:2022/11/1