数据使用质量评价研究
大数据正在成为处理大量数据时遇到常见问题的新型解决方案,这些问题可能是多样化的,并且可能也会以大规模并行处理。根据要进行的分析类型,必须以特定方式收集和安排一些具体数据,以应对各种性质(技术、概念和方法)的新挑战,即收集的数据必须与感兴趣的领域或分析的背景相关,换句话说,数据必须对分析有价值。传统工作中,自有数据洞察可以通过商业智能技术完成,在很大程度上有益于其业务绩效。这些见解是通过对新类型的数据利用新类型分析来开展业务的新方法。现在当数据以特定不同格式或以不同速率进行时,经典的如基于关系数据库的处理结构化数据的能力是不够的,特别是在性能和延迟方面。
1数据使用质量模型
大数据解决方案可以被理解为完整的信息系统,如果相分析交易和分析数据,那么这些数据将扮演大数据输入的角色。在任何情况下我们都无法实现大数据分析的结果,但是其质量可能通过其他模型进行评估。有关输入数据的数据质量等级的测量可以参照iso/iec25012标准。本文模型涉及iso/iec25010中描述的所有类型质量之间的依赖关系,iso/iec25010对质量的解释可以应用于数据,将数据理解为产品:数据满足定义要求的程度是数据的内部质量;数据表示的关系和适当性是数据的外部质量;为数据设定的目标的实现程度是使用中的质量。iso/iec25012的数据质量模型有助于研究大数据解决方案输入数据的内部和外部质量,但不能用于研究使用中的质量。本工作中介绍的3as数据使用中的质量模型用于填补使用中数据质量的空白,从而可以评估大数据项目中数据的使用质量。也就是说,这个新模型旨在提供一种方法,从质量的角度为预期用途(即通过大数据分析产生可信赖的结果)获得数据合理的程度和适当程度。根据这种基于质量理念的观点,本文在评估时同时提出了主要的数据质量问题。
2使用质量水平
此处内容需要权限查看
会员免费查看上下文充分性指的是数据集在分析的相同感兴趣域内使用的能力,独立于任何格式(例如,结构化与非结构化),任何大小或流入速度。从这个意义上说,重要的是数据首先是相关和完整的,使用的数据量是适当的;其次是独特且语义上可互操作的,因此考虑到给定的上下文并且由于重复而没有不一致性,数据必须是可理解的;再就是语义准确,数据必须代表大数据分析环境中的真实实体;最后是可信的,所有数据来源必须可信,数据必须由允许开发分析的同一组人员访问,且符合规定的规定和要求。时间充分性是指数据在适当的时间段内进行分析。例如,相似的年龄或在历史数据特定持续时间内,意味着数据指的是类似的时间段。重要的是要注意通过分析的数据操作的时间方面不包括在该定义中,而是仅包括数据本身的时间方面。因此,处理的数据应该是:(1)时间并发:指在类似或适当的时间段内发生的事实。例如,如果分析集中在过去的事件上,那么数据必须与相关的事物相对应;(2)及时更新:数据必须针对手头的任务进行适当更新;(3)频繁:在进行某种趋势分析时,使用数据生成与所需的未来时段(所需频率)相关的结果。大数据解决方案具体分析可以独立于数据质量使用水平的评估来执行。通过3as使用质量模型提供的评价水平,可以用于提高对分析结果健全性的意识指标。从这个意义上讲,数据清理时间挑战的性能问题也得以实现。数据的动态将始终是其外部质量的一部分,关键元素将通过设置数据约束的业务规则来识别,测量外部数据质量时则将考虑到使用iso/iec25012的特性。
4结论
本文提出的数据质量使用模型可应用于任何大数据特定实施,因为其措施独立于任何情况,要求或技术。评估的执行方式是不必移动数据。相反,本文的数据质量使用模型是在大数据解决方案中实现的。并且数据管理员能够决定是评估数据子集还是完整数据集。由于完成了大数据数据质量计划的所有常见挑战,因此可以引用数据质量使用模型作为评估大数据项目中数据质量的适当解决方案。