作者

Alice Gomstyn

IBM Content Contributor

Alexandra Jonker

Editorial Content Lead

什么是数据管理?

数据管理是一组数据管理实践,旨在确保数据具有高质量和可访问性。数据管理计划通常与组织的数据治理政策保持一致。

数据管理员负责执行数据管理计划。数据管理员的具体职责包括定义数据质量指标、管理元数据和参考数据、跟踪数据沿袭以及对敏感数据进行分类。

不同的技术和工具可以支持数据管理工作流,包括人工智能 (AI)、数据目录、关系数据库、数据质量平台和数据治理软件。

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。

立即订阅

为什么数据管理很重要?

当今的各个公司收集和分析的数据比以往任何时候都多,并希望能够解锁宝贵的洞察。然而,数据收集和分析本身不足以确保取得成功的结果。数据管理和数据管理员可以在数据驱动的文化中支持和指导数据的有效使用。

近年来,随着 AI 的日益普及,数据管理变得越发重要。AI 系统会消耗并产生大量的数据。数据管理有助于确保数据的高质量和完整性,从而使 AI 驱动的业务流程有效,遵守政府法规,并符合治理和道德 AI 标准。

良好的数据管理计划可以提高数据质量、可访问性、可用性和安全性,从而实现成功的数据监护。数据管理员帮助确保员工能够访问有用、准确的业务数据,以支持数据驱动的决策和 AI 驱动的工作效率提升。数据管理的其他优势还包括数据解释更加一致、审计准备更加充分。

数据管理员通常与很多利益相关者(包括数据所有者、数据分析师、数据科学专家和一般业务用户)合作,以实现这些优势。

尽管如此,非正式认可的“数据管理员”的员工可能会承担数据管理职责,并投入大量的时间满足组织的数据需求,例如清点数据和评估数据质量。不过,一些数据管理专家表示,将数据管理角色正式化很重要,因为这表明公司认真对待数据质量管理。1

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

转到视频集

数据管理和数据治理有什么区别?

数据治理和数据管理是独立但相关的概念。公司的数据治理计划通过与数据收集、所有权、存储、处理和使用相关的政策、标准和程序,帮助确保数据完整性和数据安全性。很多数据管理职责都涉及实施数据治理框架中概述的规则。因此,数据管理可以被视为数据治理的“运营方面”。2

数据管理员有哪些不同的类型?

数据管理计划更成熟的公司可能具有不同类型的数据管理角色,包括:

业务数据管理员:业务数据管理员专门管理特定业务职能内的数据,例如营销或客户服务。

技术数据管理员:顾名思义,技术数据管理员拥有数据流程和系统方面的技术专业知识,包括提取、转换和加载 (ETL) 流程以及数据仓库。

企业数据管理员:企业数据管理员负责领导组织内的数据管理员社区,并担任其他业务主管的联络人。3

数据管理的用例有哪些?

数据管理的用例包括:

Master Data Management数据质量改进元数据管理参考数据管理身份解析信息安全和数据隐私保护数据沿袭跟踪业务流程风险管理

Master Data Management

数据管理通常是主数据管理 (MDM) 的关键,主数据管理是一种通过技术、工具和流程管理组织关键数据的方法。组织利用 MDM 创建一个单一可信信息源,它可以整合来自各种来源的数据,以使所有数据用户都能使用相同的信息。

公司和数据管理员通常首先在单个数据域(客户数据或员工数据等类似数据的逻辑分组)中开始实施 MDM 计划,然后再将此类工作扩展到整个组织的数据资产。4

数据质量改进

数据管理员可以检查数据库的内容以提高数据质量,这称为数据分析。他们还与利益相关者合作,以创建数据定义、设计数据质量指标以及建立业务规则(例如哪些值被视为有效或无效)。

例如,正如《数据管理》一书中解释的那样,当收集的数据是客户的婚姻状况时,一条规则可能会指出“单身”、“已婚”、“丧偶”或“离异”是有效值,而空白回复将被视为无效。5 数据管理员还可以在出现数据质量问题时提供意见。

元数据管理

元数据是指描述数据点或数据集的信息,例如数据的创建日期或作者身份详细信息。数据管理员可以负责创建高质量的元数据以及评估现有元数据的质量。与对待一般数据质量问题一样,数据管理员的任务是解决元数据质量问题。

参考数据管理

数据管理员通常维护参考数据,参考数据是指对企业内的其他数据进行分类的数据。参考数据的示例包括国家或地区代码、货币信息和产品代码。通过记录数据,数据管理员可以记录参考数据的有效值、评估是否需要新的有效值,并协调不同系统之间的参考数据值。

在最后一种情况下,以婚姻状况为例,当一个系统允许“丧偶”和“离异”作为婚姻状况数据,而另一个系统只接受“已婚”和“单身”时,数据管理员可能要负责确定应当采取哪些行动。6

身份解析

多个数据实例通常代表同一个实体。例如,考虑一个客户,他多次出现在一家连锁药店的数据库中,因为他们在不同的药店为此客户开具了不同的处方。

通过一个称为身份解析的过程,数据管理员确定不同的数据实例何时引用同一个实体。以药房客户为例,身份解析有助于确保在为客户配药时发现可能危险的药物相互作用。7

信息安全和数据隐私保护

信息安全是指保护重要信息免遭未经授权的访问、披露、使用、更改或中断。根据数据隐私法规,公司必须对医疗保健数据等敏感信息实施增强保护。他们还必须遵守有关数据共享、限制数据收集等方面的规定。数据管理员可以为不同类型的数据创建和确立安全分类,从而在数据保护和合规性方面发挥作用。

数据沿袭跟踪

数据沿袭是指跟踪数据生命周期的过程,有助于清楚地了解数据的来源、变化和最终去向。数据管理员可以跟踪沿袭,这有助于组织出于监管报告的目的确认数据完整性。

业务流程风险管理

数据质量差可能会使业务流程面临风险。数据管理员可以与业务流程领导合作,以确定数据在流程中的用途,以及在数据质量差的情况下流程容易失败的程度。8

哪些技术和工具支持数据管理?

为了支持数据管理活动,组织可以实施各种解决方案和工具,包括:

人工智能 (AI)数据目录数据剖析和分析工具关系数据库管理系统 (RDBMS)数据治理软件

人工智能 (AI)

有些人可能认为,AI 和数据管理是一种共生关系。数据管理有助于确保 AI 系统处理高质量的数据,而基于 AI 的工具可以优化数据管理任务。例如,AI 驱动的数据准备工具可以执行验证检查并标记格式不当等错误,而 AI 驱动的数据丢失防护工具可以检测敏感信息并在必要时应用安全控制措施。

数据目录

数据目录是指组织中所有数据资产的清单。它旨在帮助数据管理员和其他数据专业人员轻松、快速地查找信息。与每个数据资产相关的元数据将使目录具有可搜索性。

数据剖析和分析工具

数据剖析和分析工具可以评估数据的一致性和质量。此类工具的功能可能包括识别异常、验证数据源以及通过自定义报告汇总分析结果等等。

关系数据库管理系统

数据管理员组织数据的一种方法是使用关系数据库。关系数据库 (RDB) 是一种将数据组织成行和列的数据库。可以将生成的表链接在一起,以展示数据点之间的关系。关系数据库管理系统 (RDBMS) 是指数据管理员和其他人员可用于维护和更新 RDB 的软件解决方案。

数据治理软件

数据治理软件程序通常包含数据剖析和分析工具以及 AI 驱动的功能。功能可能包括利用 AI 扩充元数据、创建数据目录、跟踪数据沿袭以及建立基于角色的数据访问控制。

脚注

所有链接均为 ibm.com 外部链接。

1、4Allen 等人,“多域主数据管理”。Morgan Kaufmann。2015 年 4 月 10 日。

2、3、5、6、7、8 Plotkin。“数据管理,第二版。”Academic Press。2020 年 11 月 20 日。