1.本技术涉及数据处理技术领域,尤其涉及一种多维度数据分析方法、装置、设备及计算机程序产品。
背景技术:2.公司互联网产品运营从粗犷式逐渐转为精细化运营,同时公司的产品系列越来越丰富。产品各类型指标日益增多且已累积形成海量的数据,指标的分析逐渐复杂深入。针对产品运营指标数据分析场景,由于其具有多维度、大数据量特性。
3.目前主要是在需要分析时通过临时筛选维度查询对应的指标数据进行分析,没有提前将大量多维指标数据进行处理分析,存在根因分析延时较长的技术问题。
技术实现要素:4.本技术提供了一种多维度数据分析方法、装置、设备及计算机程序产品,用于解决现有技术对指标数据的处理分析缺乏针对性,导致根因分析时延较长的技术问题。
5.有鉴于此,本技术第一方面提供了一种多维度数据分析方法,包括:
6.获取预置时间范围内的多维度数据的指标值并构建成初始数据集;
7.将所述初始数据集中不同维度类别的所述指标值按照时间顺序进行分类整理,得到待分析立方体数据集,所述待分析立方体数据集包括组合维度名称和对应的维度指标值;
8.基于所述组合维度名称进行排列组合操作,得到维度名称组合,每个所述维度名称组合包括维度值和对应的所述维度指标值;
9.基于下钻分析原理,对所述维度名称组合的所述维度值和对应的所述维度指标值进行离散度分析,得到离散分析结果。
10.优选地,所述获取预置时间范围内的多维度数据的指标值并构建成初始数据集,之前还包括:
11.将获取到的产品运营指标数据按照类别存储在预置存储介质中,形成多维度数据,所述预置存储介质包括hbase、hive、mysql。
12.优选地,所述将获取到的产品运营指标数据按照类别存储在预置存储介质中,形成多维度数据,之后还包括:
13.为所述多维度数据配置维度名称后,将所述维度名称与存储的指标值建立关联关系。
14.优选地,所述基于下钻分析原理,对所述维度名称组合的所述维度值和对应的所述维度指标值进行离散度分析,得到离散分析结果,之后还包括:
15.在所述离散分析结果满足预置预警条件的情况下执行预警操作。
16.本技术第二方面提供了一种多维度数据分析装置,包括:
17.数据获取模块,用于获取预置时间范围内的多维度数据的指标值并构建成初始数
据集;
18.分类整理模块,用于将所述初始数据集中不同维度类别的所述指标值按照时间顺序进行分类整理,得到待分析立方体数据集,所述待分析立方体数据集包括组合维度名称和对应的维度指标值;
19.排列组合模块,用于基于所述组合维度名称进行排列组合操作,得到维度名称组合,每个所述维度名称组合包括维度值和对应的所述维度指标值;
20.离散分析模块,用于基于下钻分析原理,对所述维度名称组合的所述维度值和对应的所述维度指标值进行离散度分析,得到离散分析结果。
21.优选地,还包括:
22.数据存储模块,用于将获取到的产品运营指标数据按照类别存储在预置存储介质中,形成多维度数据,所述预置存储介质包括hbase、hive、mysql。
23.优选地,还包括:
24.参数配置模块,用于为所述多维度数据配置维度名称后,将所述维度名称与存储的指标值建立关联关系。
25.优选地,还包括:
26.异常预警模块,用于在所述离散分析结果满足预置预警条件的情况下执行预警操作。
27.本技术第三方面提供了一种多维度数据分析设备,所述设备包括处理器以及存储器;
28.所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
29.所述处理器用于根据所述程序代码中的指令执行第一方面所述的多维度数据分析方法。
30.本技术第四方面提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行第一方面所述的多维度数据分析方法。
31.从以上技术方案可以看出,本技术实施例具有以下优点:
32.本技术中,提供了一种多维度数据分析方法,包括:获取预置时间范围内的多维度数据的指标值并构建成初始数据集;将初始数据集中不同维度类别的指标值按照时间顺序进行分类整理,得到待分析立方体数据集,待分析立方体数据集包括组合维度名称和对应的维度指标值;基于组合维度名称进行排列组合操作,得到维度名称组合,每个维度名称组合包括维度值和对应的维度指标值;基于下钻分析原理,对维度名称组合的维度值和对应的维度指标值进行离散度分析,得到离散分析结果。
33.本技术提供的多维度数据分析方法,在进行数据分析之前,先将多维度数据进行不同的整理操作,待分析立方体数据集中的组合维度名称和对应的维度指标值是经过整理后的有序的多维度数据;而维度名称经过随机组合后使得多维度数据可以表达多种不同维度组合情况下的指标值分布;此时再进行多维度数据的离散分析就能更加全面的掌握数据的分布特性,分析过程更有条理,也更具有针对性。因此,本技术能够解决现有技术对指标数据的处理分析缺乏针对性,导致根因分析时延较长的技术问题。
附图说明
34.图1为本技术实施例提供的一种多维度数据分析方法的流程示意图;
35.图2为本技术实施例提供的一种多维度数据分析装置的结构示意图;
36.图3为本技术实施例提供的多维度数据列表示意图;
37.图4为本技术实施例提供的初始数据集生成列表示意图;
38.图5为本技术实施例提供的待分析立方体数据集生成列表示意图;
39.图6为本技术实施例提供的维度名称组合示意图;
40.图7为本技术实施例提供的不同维度名称组合的指标值数组示意图。
具体实施方式
41.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
42.为了便于理解,请参阅图1,本技术提供的一种多维度数据分析方法的实施例,包括:
43.步骤101、获取预置时间范围内的多维度数据的指标值并构建成初始数据集。
44.为了解决企业产品具备大数据量多维度特性的运营指标根因分析问题,本实施例在对多维度数据进行根因分析之前先进行数据整理,进一步提升后续的数据分析效率,减少数据分析时延。
45.可以理解的是,本实施例中的多维度数据均具有时间特性,所以均可以基于时间维度进行划分或者获取,具体的预置时间范围可以根据实际情况选取,在此不作限定;此外,时间维度可以是年份、季度、月份、日期等,具体的颗粒度/层次不作限定,可以根据需要配置。
46.每个维度都包括多种维度值,而维度值又对应不同情况下的多个指标值,层层关联的关系。所谓指标值可以理解为测量值,例如一年内的销售量,年份即为时间维度,销售量即为时间维度下的指标值。指标值在不同维度下的分布特性即为本实施例的分析目标。
47.进一步地,步骤101,之前还包括:
48.将获取到的产品运营指标数据按照类别存储在预置存储介质中,形成多维度数据,预置存储介质包括hbase、hive、mysql。
49.请参阅图3,多维度数据可以存储为多维表格的形式或者立方体的形式,具体的根据数据维度特点进行特定存储类型和存储位置配置即可实现。多维度数据的存储介质并不唯一,除了hbase、hive、mysql之外,还可以采用其他的存储方式进行存储,在此不作限定。而本实施例中需要完成配置、数据整理以及分析等操作则可以采用spark实现,具体实现过程不作赘述。
50.可以理解的是,从图3的多维度数据中获取初始数据集时,目标分析维度需要获取所有指标值,而非目标分析维度则置为不相关维度,这是可以根据需要执行的操作。
51.进一步地,将获取到的产品运营指标数据按照类别存储在预置存储介质中,形成多维度数据,之后还包括:
52.为多维度数据配置维度名称后,将维度名称与存储的指标值建立关联关系。
53.维度名称的配置同样是参数配置过程中需要完成的操作,将维度名称与存储指标值建立关联,这样就可以将多维度数据进行有序存储,取用也更加有条理,便于提升后续的分析效率。图3中的维度1、维度2、维度3即为维度名称;基于图3的多维度数据进行初始数据集提取的过程请参阅图4,其中定义研究分析的目标维度为维度1和维度2。
54.步骤102、将初始数据集中不同维度类别的指标值按照时间顺序进行分类整理,得到待分析立方体数据集,待分析立方体数据集包括组合维度名称和对应的维度指标值。
55.不同维度类别包括单一类别维度,例如时间维度,还可以包括两个或者多个类别维度,例如时间和地域,或者时间、地域和产品类别等。不同维度类别都可以整理出对应的指标值;分类整理的实质就是将同一个类别维度的指标值进行统计;例如均为时间维度的,或者均为时间维度和地域维度的,以此作为分类基准进行整理,得到待分析立方体数据集。
56.组合维度名称即可以是单一的维度,也可以是多个维度,具体的根据上述整理过程确定,而维度指标值则是直接根据维度名称和维度值关联进行归类处理。具体的待分析立方体数据集的提取过程请参阅图5,其中定义目标分析维度是维度1和维度2,具体的根据维度不同维度值a、b、c进行维度类别提取,即可得到维度值a的维度指标值、维度值b的维度指标值、维度值a和b的维度指标值等,这些维度指标值是根据时间顺序组成数据组,基于此方式就可以得到待分析立方体数据集。
57.步骤103、基于组合维度名称进行排列组合操作,得到维度名称组合,每个维度名称组合包括维度值和对应的维度指标值。
58.请参阅图6,基于组合维度名称进行排列组合,可以得到多种不同情况的维度名称组合,即可以形成维度名称组合集,实质组合的不是维度值这一属性,而是维度名称的组合方式,例如维度1与维度2组合,或者维度2与维度1组合等。由于维度名称与维度指标值之间存在关联关系,所以维度指标值也被同步整理,形成新的数据组,请参阅图7。
59.步骤104、基于下钻分析原理,对维度名称组合的维度值和对应的维度指标值进行离散度分析,得到离散分析结果。
60.下钻分析是数据仓库中的一种分析操作,沿着特定属性维度的层次下降,获取更详细的数据。下钻可以理解成增加维的层次,从而可以由粗粒度到细粒度来观察数据,比如对产品销售情况分析时,可以沿着时间维从年到月到日更细粒度的观察数据。与下钻分析对立的为上卷分析,即删掉维度的某些层,由细粒度到粗粒度观察数据的操作或沿着维度的层次向上聚合汇总数据的过程。举例说明,沿着时间维度的季度层次上卷分析即可得到年份的测量数据;沿着季度层次下钻分析即可得到某个季度下每个月份的测量数据。
61.离散度分析法是测度一组数据分散程度的方法;分散程度反映了一组数据远离其中心值的程度,因此也称为离中趋势。从集中趋势和分散程度两个方面才能完整的说明一组数据的变动趋势;集中趋势的测度值是对数据水平的一个概括性度量,它对一组数据的代表程度取决于该组数据的离散水平。
62.本实施例中基于下钻分析原理对多维度数据进行多维度的层次下钻分析,对于每个维度名称组合都可以针对其维度值和维度指标值进行一次下钻,并进行离散度分析,得到离散分析结果,直至该组合中的维度分析完为止,分析的对象即为不同维度的维度值下的维度指标值,离散分析结果即为维度指标值的分布特性。重复上述分析过程即可完成待
分析立方体数据集的所有数据分析,得到分析结果。
63.进一步地,步骤104,之后还包括:
64.在离散分析结果满足预置预警条件的情况下执行预警操作。
65.可以理解的是,预置预警条件可以根据实际情况设定,在此不作限定,例如,数据缺损异常条件,数据偏离异常条件等。高效的数据分析有助于后续的数据处理,提供了可靠且快速的数据分析手段。
66.本技术将实施例提供的多维度数据分析方法应用于“天翼看家云存成功率”运营指标数据的分析中,其分析维度包括地域,即省份、地市等;还有产品生产厂商、产品型号、固件类型和套餐类型等,最终选择的分析维度是省份、地市和产品型号,选取的是10天历史指标数据,分析当日云存成功率是否异常。除此之外,还可以根据数据分析结果进行数据预测,例如预测未来1天指标值等,还可以基于分析结果作其他的数据处理,具体的不作限定。基于本实施例中的多维度数据分析方法对产品运营关键指标进行异常分析,提高了数据分析的准确度、提升了数据处理的效率,为产品精细化运营提供了较好的支撑。
67.本技术实施例提供的多维度数据分析方法,在进行数据分析之前,先将多维度数据进行不同的整理操作,待分析立方体数据集中的组合维度名称和对应的维度指标值是经过整理后的有序的多维度数据;而维度名称经过随机组合后使得多维度数据可以表达多种不同维度组合情况下的指标值分布;此时再进行多维度数据的离散分析就能更加全面的掌握数据的分布特性,分析过程更有条理,也更具有针对性。因此,本技术实施例能够解决现有技术对指标数据的处理分析缺乏针对性,导致根因分析时延较长的技术问题。
68.为了便于理解,请参阅图2,本技术提供了一种多维度数据分析装置的实施例,包括:
69.数据获取模块201,用于获取预置时间范围内的多维度数据的指标值并构建成初始数据集;
70.分类整理模块202,用于将初始数据集中不同维度类别的指标值按照时间顺序进行分类整理,得到待分析立方体数据集,待分析立方体数据集包括组合维度名称和对应的维度指标值;
71.排列组合模块203,用于基于组合维度名称进行排列组合操作,得到维度名称组合,每个维度名称组合包括维度值和对应的维度指标值;
72.离散分析模块204,用于基于下钻分析原理,对维度名称组合的维度值和对应的维度指标值进行离散度分析,得到离散分析结果。
73.进一步地,还包括:
74.数据存储模块205,用于将获取到的产品运营指标数据按照类别存储在预置存储介质中,形成多维度数据,预置存储介质包括hbase、hive、mysql。
75.进一步地,还包括:
76.参数配置模块206,用于为多维度数据配置维度名称后,将维度名称与存储的指标值建立关联关系。
77.进一步地,还包括:
78.异常预警模块207,用于在离散分析结果满足预置预警条件的情况下执行预警操作。
79.为了便于理解,本技术还提供了一种多维度数据分析设备,设备包括处理器以及存储器;
80.存储器用于存储程序代码,并将程序代码传输给处理器;
81.处理器用于根据程序代码中的指令执行上述方法实施例中的多维度数据分析方法。
82.为了边缘理解,本技术还提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法实施例中的多维度数据分析方法。
83.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
84.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
85.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
86.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文全称:read-only memory,英文缩写:rom)、随机存取存储器(英文全称:random access memory,英文缩写:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
87.以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
技术特征:1.一种多维度数据分析方法,其特征在于,包括:获取预置时间范围内的多维度数据的指标值并构建成初始数据集;将所述初始数据集中不同维度类别的所述指标值按照时间顺序进行分类整理,得到待分析立方体数据集,所述待分析立方体数据集包括组合维度名称和对应的维度指标值;基于所述组合维度名称进行排列组合操作,得到维度名称组合,每个所述维度名称组合包括维度值和对应的所述维度指标值;基于下钻分析原理,对所述维度名称组合的所述维度值和对应的所述维度指标值进行离散度分析,得到离散分析结果。2.根据权利要求1所述的多维度数据分析方法,其特征在于,所述获取预置时间范围内的多维度数据的指标值并构建成初始数据集,之前还包括:将获取到的产品运营指标数据按照类别存储在预置存储介质中,形成多维度数据,所述预置存储介质包括hbase、hive、mysql。3.根据权利要求2所述的多维度数据分析方法,其特征在于,所述将获取到的产品运营指标数据按照类别存储在预置存储介质中,形成多维度数据,之后还包括:为所述多维度数据配置维度名称后,将所述维度名称与存储的指标值建立关联关系。4.根据权利要求1所述的多维度数据分析方法,其特征在于,所述基于下钻分析原理,对所述维度名称组合的所述维度值和对应的所述维度指标值进行离散度分析,得到离散分析结果,之后还包括:在所述离散分析结果满足预置预警条件的情况下执行预警操作。5.一种多维度数据分析装置,其特征在于,包括:数据获取模块,用于获取预置时间范围内的多维度数据的指标值并构建成初始数据集;分类整理模块,用于将所述初始数据集中不同维度类别的所述指标值按照时间顺序进行分类整理,得到待分析立方体数据集,所述待分析立方体数据集包括组合维度名称和对应的维度指标值;排列组合模块,用于基于所述组合维度名称进行排列组合操作,得到维度名称组合,每个所述维度名称组合包括维度值和对应的所述维度指标值;离散分析模块,用于基于下钻分析原理,对所述维度名称组合的所述维度值和对应的所述维度指标值进行离散度分析,得到离散分析结果。6.根据权利要求5所述的多维度数据分析装置,其特征在于,还包括:数据存储模块,用于将获取到的产品运营指标数据按照类别存储在预置存储介质中,形成多维度数据,所述预置存储介质包括hbase、hive、mysql。7.根据权利要求6所述的多维度数据分析装置,其特征在于,还包括:参数配置模块,用于为所述多维度数据配置维度名称后,将所述维度名称与存储的指标值建立关联关系。8.根据权利要求5所述的多维度数据分析装置,其特征在于,还包括:异常预警模块,用于在所述离散分析结果满足预置预警条件的情况下执行预警操作。9.一种多维度数据分析设备,其特征在于,所述设备包括处理器以及存储器;所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的多维度数据分析方法。10.一种包括指令的计算机程序产品,其特征在于,当其在计算机上运行时,使得所述计算机执行权利要求1-4任一项所述的多维度数据分析方法。
技术总结本申请公开了一种多维度数据分析方法、装置、设备及计算机程序产品,方法包括:获取预置时间范围内的多维度数据的指标值并构建成初始数据集;将初始数据集中不同维度类别的指标值按照时间顺序进行分类整理,得到待分析立方体数据集,待分析立方体数据集包括组合维度名称和对应的维度指标值;基于组合维度名称进行排列组合操作,得到维度名称组合,每个维度名称组合包括维度值和对应的维度指标值;基于下钻分析原理,对维度名称组合的维度值和对应的维度指标值进行离散度分析,得到离散分析结果。本申请能够解决现有技术对指标数据的处理分析缺乏针对性,导致根因分析时延较长的技术问题。问题。问题。
技术研发人员:卜昌浩 张继东 赵子颖 黄毓铭 谢志强 刘润浩 李家辉
受保护的技术使用者:天翼数字生活科技有限公司
技术研发日:2022.06.24
技术公布日:2022/11/1