本发明属于数据存储,尤其涉及基于数据压缩技术的数据存储方法及系统。
背景技术:
1、数据存储技术领域是现代信息技术的重要组成部分,涉及多种用于存储和管理数据的方法和设备。数据压缩技术不仅可以减少存储空间的占用,还能提高数据的传输效率和成本效益。
2、在传统数据存储方法中,冗余数据的存在往往导致存储空间的浪费,且数据存储结构往往较为分散,导致在检索和分析时需要花费较多的时间和计算资源,存储形式可能使得数据分析过程复杂且耗时,尤其是在多维数据分析中。
技术实现思路
1、本发明的目的在于提供基于数据压缩技术的数据存储方法及系统,旨在解决背景技术中确定的现有技术存在的技术问题。
2、本发明是这样实现的,基于数据压缩技术的数据存储方法,所述方法包括:
3、读取数据内容,并对数据进行相似性分析,设定相似度阈值,识别并获取数据中存在的相似但不完全重复的相似数据块;
4、读取所获取的数据类型,并根据数据类型选取拼接规则,将识别出的相似数据块进行拼接,得到拼接后的合并块,并将合并块转化为特征表示;
5、定义存储矩阵,其中矩阵行表示数据块,列表示特征,并根据合并块转化后的特征表示,将数据填入存储矩阵的相应位置,并提取最终的存储矩阵;
6、创建元数据索引,并基于所获取的存储矩阵定义恢复算法,并根据存储的元数据和拼接逻辑进行解码,获取原始数据块。
7、作为本发明更进一步的方案,所述对数据进行相似性分析,设定相似度阈值,识别并获取数据中存在的相似但不完全重复的相似数据块,具体包括:
8、读取数据集,并识别数据格式;
9、识别数据集中的重复数据,使用索引标记这些重复项,以获得若干数据块,统计每个数据块的重复次数和相关特征;
10、基于每个数据块的相关特征,构建每个数据块的特征向量,对所有数据块进行两两计算相似度,并生成相似度矩阵;
11、设定相似度阈值,并基于相似度阈值对相似度矩阵进行筛选,识别满足相似度阈值的相似数据块,并生成相似数据集列表,所述相似数据集列表中只包括满足相似度阈值的相似数据块。
12、作为本发明更进一步的方案,所述根据数据类型选取拼接规则,将识别出的相似数据块进行拼接,得到拼接后的合并块,并将合并块转化为特征表示,具体包括:
13、对识别出的相似数据块进行分类,并为每个种类定义拼接规则,并根据选择的规则,对识别出的相似数据块进行实际的拼接操作,获取拼接后的合并块;
14、对拼接后的合并块提取关键特征,并将提取出的特征统一转化为向量格式;
15、对拼接后的结构与逻辑进行评估,比较其与原始数据相似度。
16、作为本发明更进一步的方案,所述定义存储矩阵,其中矩阵行表示数据块,列表示特征,并根据合并块转化后的特征表示,将数据填入存储矩阵的相应位置,并提取最终的存储矩阵,具体包括:
17、定义存储矩阵结构,确定行数为合并后的数据块数量,且每一行对应一个数据块;确定列数为特征的数量,每一列对应一个特征;
18、根据预定义的维度,创建空存储矩阵;
19、逐个遍历合并后的数据块特征,其中,表示第个样本,表示第个特征,对每个数据块找到其对应的特征列,再将数据块特征值填充至存储矩阵所对应的位置,以将提取的特征数据准确地映射到存储矩阵的指定位置,以得到填充后的存储矩阵:
20、;
21、读取存储矩阵中已被填充的全部矩阵位置,针对未被填充的位置,用默认赋值进行填充,形成最终的存储矩阵。
22、作为本发明更进一步的方案,所述创建元数据索引,并基于所获取的存储矩阵定义恢复算法,并根据存储的元数据和拼接逻辑进行解码,获取原始数据块,具体包括:
23、对于每一行,提取所有对应的特征值所在的位置和具体的值;
24、根据从元数据索引提取的拼接逻辑,对该行特征提取后的特征值进行排序和拼接,重构成原始数据块;
25、将拼接后的结果存储在先前初始化的存储空间中,与数据块的原始标识符或索引一一对应;
26、在恢复时对此数据进行比较,验证解码的整个块与原始数据的一致性。
27、本发明的另一目的在于提供基于数据压缩技术的数据存储系统,所述系统包括:
28、数据读取与相似性分析模块,用于读取数据内容,并对数据进行相似性分析,设定相似度阈值,识别并获取数据中存在的相似但不完全重复的相似数据块;
29、数据类型读取与拼接模块,用于读取所获取的数据类型,并根据数据类型选取拼接规则,将识别出的相似数据块进行拼接,得到拼接后的合并块,并将合并块转化为特征表示;
30、存储矩阵生成模块,用于定义存储矩阵,其中矩阵行表示数据块,列表示特征,并根据合并块转化后的特征表示,将数据填入存储矩阵的相应位置,并提取最终的存储矩阵;
31、元数据索引与恢复模块,用于创建元数据索引,并基于所获取的存储矩阵定义恢复算法,并根据存储的元数据和拼接逻辑进行解码,获取原始数据块。
32、作为本发明更进一步的方案,所述数据读取与相似性分析模块包括:
33、数据读取单元,用于读取数据集,并识别数据格式;
34、重复数据识别单元,用于识别数据集中的重复数据,使用索引标记这些重复项,以获得若干数据块,统计每个数据块的重复次数和相关特征;
35、特征向量构建单元,用于基于每个数据块的相关特征,构建每个数据块的特征向量,对所有数据块进行两两计算相似度,并生成相似度矩阵;
36、相似度筛选单元,用于设定相似度阈值,并基于相似度阈值对相似度矩阵进行筛选,识别满足相似度阈值的相似数据块,并生成相似数据集列表,所述相似数据集列表中只包括满足相似度阈值的相似数据块。
37、作为本发明更进一步的方案,所述数据类型读取与拼接模块包括:
38、数据块分类单元,用于对识别出的相似数据块进行分类,并为每个种类定义拼接规则,并根据选择的规则,对识别出的相似数据块进行实际的拼接操作,获取拼接后的合并块;
39、特征提取单元,用于对拼接后的合并块提取关键特征,并将提取出的特征统一转化为向量格式;
40、相似度评估单元,用于对拼接后的结构与逻辑进行评估,比较其与原始数据相似度。
41、作为本发明更进一步的方案,所述存储矩阵生成模块包括:
42、矩阵结构定义单元,用于定义存储矩阵结构,确定行数为合并后的数据块数量,且每一行对应一个数据块;确定列数为特征的数量,每一列对应一个特征;
43、空矩阵创建单元,用于根据预定义的维度,创建空存储矩阵;
44、矩阵填充单元,用于逐个遍历合并后的数据块特征,其中,表示第个样本,表示第个特征,对每个数据块找到其对应的特征列,再将数据块特征值填充至存储矩阵所对应的位置,以将提取的特征数据准确地映射到存储矩阵的指定位置,以得到填充后的存储矩阵:
45、;
46、矩阵补全单元,用于读取存储矩阵中已被填充的全部矩阵位置,针对未被填充的位置,用默认赋值进行填充,形成最终的存储矩阵。
47、作为本发明更进一步的方案,所述元数据索引与恢复模块包括:
48、特征内容提取单元,用于对于每一行,提取所有对应的特征值所在的位置和具体的值;
49、拼接逻辑重构单元,用于根据从元数据索引提取的拼接逻辑,对该行特征提取后的特征值进行排序和拼接,重构成原始数据块;
50、结果存储单元,用于将拼接后的结果存储在先前初始化的存储空间中,与数据块的原始标识符或索引一一对应;
51、一致性验证单元,用于在恢复时对此数据进行比较,验证解码的整个块与原始数据的一致性。
52、本发明的有益效果是:
53、通过识别并拼接相似数据块,减少了冗余数据的存储。这种方法能显著降低存储需求,尤其在处理大规模数据集时,显著减小数据库的占用空间。这对于资源有限的环境尤为重要。合并相似数据块并转化为特征表示,形成的存储矩阵使得数据更加整齐和结构化。这种结构化的存储方式能加快数据访问速度,尤其在检索和分析时,能够快速定位所需信息,从而提高整体的数据处理效率。
54、存储矩阵的特征化表示为机器学习和数据挖掘提供了标准化的输入格式。这种标准化不仅提高了模型训练的速度和准确性,还使得数据可以更轻松地与其他数据集进行整合,促进了跨领域数据分析。
1.基于数据压缩技术的数据存储方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对数据进行相似性分析,设定相似度阈值,识别并获取数据中存在的相似但不完全重复的相似数据块,具体包括:
3.根据权利要求2所述的方法,其特征在于,所述根据数据类型选取拼接规则,将识别出的相似数据块进行拼接,得到拼接后的合并块,并将合并块转化为特征表示,具体包括:
4.根据权利要求3所述的方法,其特征在于,所述定义存储矩阵,其中矩阵行表示数据块,列表示特征,并根据合并块转化后的特征表示,将数据填入存储矩阵的相应位置,并提取最终的存储矩阵,具体包括:
5.根据权利要求4所述的方法,其特征在于,所述创建元数据索引,并基于所获取的存储矩阵定义恢复算法,并根据存储的元数据和拼接逻辑进行解码,获取原始数据块,具体包括:
6.基于数据压缩技术的数据存储系统,其特征在于,所述系统包括:
7.根据权利要求6所述的系统,其特征在于,所述数据读取与相似性分析模块包括:
8.根据权利要求7所述的系统,其特征在于,所述数据类型读取与拼接模块包括:
9.根据权利要求8所述的系统,其特征在于,所述存储矩阵生成模块包括:
10.根据权利要求9所述的系统,其特征在于,所述元数据索引与恢复模块包括: