元数据是用来描述数据的数据(Data that describes other data)。
下面是契诃夫的小说《套中人》中的一段,描写一个叫做瓦莲卡的女子:
(她)年纪已经不轻,三十岁上下,个子高挑,身材匀称,黑黑的眉毛,红红的脸蛋--一句话,不是姑娘,而是果冻,她那样活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑,动不动就发出一连串响亮的笑声:哈,哈,哈!
这段话里提供了这样几个信息:年龄(三十岁上下)、身高(个子高挑)、相貌(身材匀称,黑黑的眉毛,红红的脸蛋)、性格(活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑)。有了这些信息,我们就可以大致想像出瓦莲卡是个什么样的人。推而广之,只要提供这几类的信息,我们也可以推测出其他人的样子。
这个例子中的"年龄"、"身高"、"相貌"、"性格",就是元数据,因为它们是用来描述具体数据/信息的数据/信息。
当然,这几个元数据用来刻画个人状况还不够精确。我们每个人从小到大,都填过《个人情况登记表》之类的东西吧,其中包括姓名、性别、民族、政治面貌、一寸照片、学历、职称等等......这一套元数据才算比较完备。
在日常生活中,元数据无所不在。有一类事物,就可以定义一套元数据。
喜欢拍摄数码照片的朋友应该知道,每张数码照片都包含EXIF信息。它就是一种用来描述数码图片的元数据。按照Exif 2.1标准,其中主要包含这样一些信息:
Image Description 图像描述、来源. 指生成图像的工具
Artist 作者 有些相机可以输入使用者的名字
Make 生产者 指产品生产厂家
Model 型号 指设备型号
Orientation方向 有的相机支持,有的不支持
XResolution/YResolution X/Y方向分辨率 本栏目已有专门条目解释此问题。
ResolutionUnit分辨率单位 一般为PPI
Software软件 显示固件Firmware版本
DateTime日期和时间
YCbCrPositioning 色相定位
ExifOffsetExif信息位置,定义Exif在信息在文件中的写入,有些软件不显示。
ExposureTime 曝光时间 即快门速度
FNumber光圈系数
ExposureProgram曝光程序 指程序式自动曝光的设置,各相机不同,可能是Sutter Priority(快门优先)、Aperture Priority(快门优先)等等。
ISO speed ratings感光度
ExifVersionExif版本
DateTimeOriginal创建时间
DateTimeDigitized数字化时间
ComponentsConfiguration图像构造(多指色彩组合方案)
CompressedBitsPerPixel(BPP)压缩时每像素色彩位 指压缩程度
ExposureBiasValue曝光补偿。
MaxApertureValue最大光圈
MeteringMode测光方式, 平均式测光、中央重点测光、点测光等。
Lightsource光源 指白平衡设置
Flash是否使用闪光灯。
FocalLength焦距,一般显示镜头物理焦距,有些软件可以定义一个系数,从而显示相当于35mm相机的焦距 MakerNote(User Comment)作者标记、说明、记录
FlashPixVersionFlashPix版本 (个别机型支持)
ColorSpace色域、色彩空间
ExifImageWidth(Pixel X Dimension)图像宽度 指横向像素数
ExifImageLength(Pixel Y Dimension)图像高度 指纵向像素数
Interoperability IFD通用性扩展项定义指针 和TIFF文件相关,具体含义不详
FileSource源文件 Compression压缩比。
我再举一个例子。在电影数据库IMDB上可以查到每一部电影的信息。IMDB本身也定义了一套元数据,用来描述每一部电影。下面是它的一级元数据,每一级下面又列出了二级元数据,总共加起来,可以从100多个方面刻画一部电影:
Cast and Crew(演职人员)、Company Credits(相关公司)、Basic Data(基本情况)、Plot & Quotes(情节和引语)、Fun Stuff(趣味信息)、Links to Other Sites(外部链接)、Box Office and Business(票房和商业开发)、Technical Info(技术信息)、Literature(书面内容)、Other Data(其他信息)。
元数据最大的好处是,它使信息的描述和分类可以实现格式化,从而为机器处理创造了可能。
元数据
元数据,简单定义就是描述数据的数据。在企业中,只要有数据存在的地方,就有其对应元数据。只有完整、准确的元数据存在,才能更好地理解数据,充分挖掘数据的价值。本文针对数据分析类场景,描述其包含元数据,方便读者更好地理解它。
一、技术元数据
1、物理元数据
描述物理资源的元数据,包括但不限于服务器、操作系统、机房位置等信息。
2、数据源元数据
描述数据源的元数据,通常包括四类信息:
- 数据源地址(IP、PORT等)物理拓扑(主备、角色等)权限(用户名、口令等)库名、版本、域名等
3、存储元数据
描述对象存储的元数据,也是通常"狭义"上的元数据,包括几大类
- 管理属性(创建人、应用系统、业务线、业务负责人等)生命周期(创建时间、DDL时间、版本信息等)存储属性(位置、物理大小等)数据特征(数据倾斜、平均长度等)使用特征(DML、刷新率等)数据结构 表/分区(名称、类型、备注等)列(名称、类型、长度、精度等)索引(名称、类型、字段等)约束(类型、字段等)
4、计算元数据
描述数据计算过程的元数据,通常可分为数据抽取(ETL)或数据加工(JOB)两类计算。每类计算又可以进一步细分
- 控制元数据(配置属性、调度策略等)过程元数据(依赖关系、执行状态、执行日志等)
5、质量元数据
描述数据质量的一类元数据。通常情况下,是通过定义一系列质量指标反映数据质量。
6、操作元数据
描述数据是如何进行使用的一类元数据。
- 数据产生(产生时间、作业信息等)表访问(查询、关联、聚合等)表关联(关联表、关联字段、关联类型、关联次数)字段访问(查询、关联、聚合、过滤等)
7、运维元数据
描述系统运维层面的元数据,通常包括任务类、报警类及故障类。
8、成本元数据
描述数据存储及计算成本的元数据。
- 计算成本(CPU、MEM等)存储成本(空间、压缩率等)
9、标准元数据
描述数据标准化内容的元数据。
- 代码管理(转换规则、对外接口等)映射管理数据展示(样式、规则、语义、单位等)
10、安全元数据
描述数据安全内容的元数据。
- 安全等级数据敏感性(是否敏感、脱敏算法等)
11、共享元数据
描述数据是如何共享的部分,包括接口方式、格式、内容等。
二、业务元数据
1、模型元数据
数据建模,是一种对业务的描述,通过模型可更好地了解业务。常见的建模方式有范式模型、维度模型、多维建模等。下面以维度模型为例进行说明。
- 业务线、板块、过程数据域、主题域维度、属性指标事实、度量集市与应用
2、应用元数据
描述数据应用类的元数据。
3、分析元数据
从数据分析角度,描述业务的元数据。
- 数据域、主题域产品线、板块、业务过程业务流程业务规则
三、管理元数据
1、管理元数据
描述企业内部,数据管理相关内容。
- 人员流程职责、岗位组织、部门
推荐开源项目:
常见元数据管理系统
2015 年 5 月:Apache Atlas 正式进入 Apache Incubator 项目。
来自 Hortonworks 的 Apache Atlas 加入了 Apache Incubator 项目。Apache Atlas 致力于为组织提供开放的元数据管理和治理功能,帮助数据科学家、数据分析师和数据治理团队建立关于数据资产的目录(类似于数据字典啦),并对这些资产进行分类和治理。2017年6月,Apache Atlas作为顶级Apache项目毕业。IBM写了一篇关于Apache Atlas在开放生态系统中作用的文章。
相关链接:
- https://www.ibmbigdatahub.com/blog/insightout-role-apache-atlas-open-metadata-ecosystemhttps://atlas.apache.org/
2016 年 3 月:Linkins 的数据发现和数据血缘平台 WhereHows 开源
LinkedIn 的数据团队开发了 WhereHow,WhereHow 围绕着任何一个大数据系统中最重要的组成部分数据本身构建了一整套关于数据处理流程、使用人员和相关洞见的集中式平台和相应网页。正如博客里面所提及的,WhereHow 已经拥有了 5 万个数据集、1.4万条注释、3500 万份工作流以及相关的血缘信息。
相关链接:
- https://engineering.linkedin.com/blog/2016/03/open-sourcing-wherehows--a-data-discovery-and-lineage-portal
2017 年 3 月:Airbnb 使数据民主化
注释:这里的民主是指非专业的数据人员也可以使用数据。
Airbnb 开发了 DataPortal 以帮助数据民主化,并赋能 Airbnb 员工,使其可以通过 DataPortal 对数据进行探索、发现、并最后信任数据,从而让 Airbnb 员工能够了解数据。这篇文章详细介绍了这个工具是如何对分散的数据进行整合以及数据建模技术。
相关链接:
- https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770
2018 年 6 月:Netflix 的 Metacat 使得大数据可发现和更有意义
Netflix 写了一篇有 Metacat 的文章。Metacat 被设计为可以被各种计算引擎作为元数据层的服务。同时 Metacat 采用了一种有趣的架构模式,其中各个计算引擎相应的元数据存储仍然是元数据表结构的真实来源,而Metacat 并未在其存储中实现它。
相关链接:
- https://netflixtechblog.com/metacat-making-big-data-discoverable-and-meaningful-at-netflix-56fb36a53520
2018 年 8 月:Uber 的 Databook 使用元数据让大数据变成知识
Uber 的 Databook 的发展是从定时上传静态 HTML 网页开始,并最后发展为一个可导航的 UI,类似于百度搜索。在 Uber 的这篇博客里讲述了它们是如何抉择基于事件的元数据收集和定时元数据收集,以及如何选择数据建模策略和相应的搜索引擎。
相关链接:
- https://eng.uber.com/databook/
2018 年 11 月:WeWork 的 Marquez 是基于数据抽象、数据血缘和事件驱动的元数据服务
Marquez 是由 WeWork 开发和发布的开源的元数据服务。Marquez 遵循集中式数据存储模型,该模型具有REST API接口(用于提取数据)和Metadata UI(用于数据集发现),可以连接多个数据集并探索其依赖关系图。
相关链接:
- https://www.datacouncil.ai/talks/marquez-a-metadata-service-for-data-abstraction-data-lineage-and-event-based-triggershttps://marquezproject.github.io/marquez/
2019 年 4 月:Lyft 的数据发现和数据引擎Amundsen
备注:这也是我们团队用的元数据引擎,使用体验还不错。
Lyft 开发了 Amundsen,Amundsen 是建立在元数据服务之上的数据发现系统。这篇文章讲述了在随着数据量增长而增长的复杂度,以及这种复杂度如何影响生产力和合规性。与一般博客不同,这篇文章着重于用户体验而不是技术设计。
相关链接:
- https://eng.lyft.com/amundsen-lyfts-data-discovery-metadata-engine-62d27254fbb9
2019 年 10 月:作为数据发现和元数据平台的 Amundsen 开源
Lyft 开源了 Amundsen ,并详细介绍了为数据发现引擎提供支持的架构。这篇文章比较了提取元数据的拉取模型与推送模型,以及拉取模型的好处。Amundsen 包括一个通用的数据提取框架DataBuilder,一个前端服务,一个用于处理来自前端的请求的元数据服务以及一个由ElasticSearch支持的搜索服务。
相关链接:
- https://eng.lyft.com/open-sourcing-amundsen-a-data-discovery-and-metadata-platform-2282bb436234
2020 年 2 月:LinkedIn 的元数据搜索和发现平台 DataHub 开源
LinkedIn 将其元数据搜索和发现平台 DataHub 开源,并写了从 WhereHow 到 DataHub 的发展过程。这篇文章讲述了开发和开源第一个通用框架的困难以及DataHub 是如何开发的和对开源贡献的支持。
相关链接:
- https://engineering.linkedin.com/blog/2020/open-sourcing-datahub--linkedins-metadata-search-and-discovery-p
2020 年 3 月:Spotify 是如何为数据科学家提高数据发现的能力
Spotify 写的是关于 Lexicon 的,Lexicon 是数据发现服务,旨在改善数据科学家的数据发现体验。该发现着重于个性化,例如在整个组织中找到流行的数据集,为团队找到相关的数据集,并能让每个人都意识到。
相关链接:
- https://labs.spotify.com/2020/02/27/how-we-improved-data-discovery-for-data-scientists-at-spotify/
2020 年 6 月:Marquez 加入了 LF AI 作为新的孵化项目
Marquez 加入了 LF AI 作为新的孵化项目
相关链接:
- https://lfaidata.foundation/blog/2020/06/16/marquez-joins-lf-ai-as-new-incubation-project/
2020 年 7 月:在 Shopify 我们是如何解决数据发现的困难的
Shopify 的这篇文章是关于数据发现和数据管理工具Artifact 的文章。Artifact 提高了生产率,并提供对数据的更大可访问性并允许更高级别的数据治理。同时这篇讲述了构建数据发现服务所面临的挑战,比如获取元数据到转换、建模和应用,并使其更易于使用。
相关链接:
- https://shopify.engineering/solving-data-discovery-challenges-shopify
2020 年 8 月:Amundsen 加入了 LF AI 作为新的孵化项目
时隔一年后,Amundsen 加入了 LF AI 作为新的孵化项目
相关链接:
- https://lfaidata.foundation/blog/2020/08/11/amundsen-joins-lf-ai-as-new-incubation-project/
2020 年 10 月:Facebook 的数据发现引擎 Nemo
Facebook 写了有关其数据发现引擎 Nemo 的文章。Nemo 具有两个主要组件,即构建索引和提供服务,其前端构建于服务部分之上。索引又分为每天进行的批量索引和即时索引,即时索引可立即更新索引。对于服务,Nemo 对采用基于 spaCy 的 NLP 库特别感兴趣,这个库可以执行文本解析和ML方法进行后处理。
相关链接:
- https://engineering.fb.com/2020/10/09/data-infrastructure/nemo/
2020 年 11 月:Uber 的 Databook 将元数据转换为洞见
ber 讲述了自己在使用 Databook 并随着时间改善的经验。同时这篇文章也写了结构合理、管理良好的元数据,着重于用户体验的集中式元数据系统以及可扩展的数据模型的重要性。
相关链接:
- https://eng.uber.com/metadata-insights-databook/
2020 年 12 月:解释 DataHub 的元数据服务架构
Linkedin 写了有关 DataHub 的文章。DataHub 继承自 WhereHow 的第三代产品。这篇文章讲述了从第一代数据发现工具演进到第三代的经验教训。第三代的 DataHub 采用了面向日志的元数据收集方法和强类型的面向领域的元数据模型。DataHub的通用元数据体系结构采用 Pegasus 模式(PDL)。Uber 的 Databook 采用了Dragon,也是一种类似的数据模式建模技术。
相关链接:
- https://engineering.linkedin.com/blog/2020/datahub-popular-metadata-architectures-explained
2020 年 12 月:PayPal 的元数据之旅
Paypal 写了关于通用数据目录(UDC)是如何从2017年开始孵化的演变的文章。这篇文章讲述了 UDC 数据量的增长是如何帮助 Paypal 弃用了几个重复的基础架构,以及 Paypal 为什么采用拉取模型来获取元数据。
相关链接:
- https://medium.com/paypal-engineering/the-journey-of-metadata-at-paypal-c374ac66e2e6
参考链接:
- Data Engineering Weekly #21: Metadata Editionhttps://metadataday2020.splashthat.com
数据发现平台可以解决的问题
为什么需要一个数据发现平台? 在数据治理过程中,经常会遇到这些问题:数据都存在哪?该如何使用这些数据?数据是做什么的?数据是如何创建的?数据是如何更新的?
数据发现平台的目的就是为了解决上面的问题,帮助更好的查找,理解和使用数据。
比如Facebook的Nemo就使用了全文检索技术,这样可以快速的搜索到目标数据。
用户浏览数据表时,如何快速的理解数据?一般的方式是把列名,数据类型,描述显示出来,如果用户有权限,还可以预览数据。
数据治理方案技术调研 Atlas VS Datahub VS Amundsen下面是Amundsen的数据列展示功能。
数据ETL是一个大问题,特别是如何把这些展示出来更是非常难,其实数据的ETL是可以用数据的流向图表示的,很多平台都支持这种功能,比如 Databook,还有Metcat。
Amundsen就和数据调度平台Airflow有着非常好的结合。
数据发现平台对比 下面一张表 对比一下各大平台对于上述功能的支持情况
https://github.com/linkedin/datahub
可以说是一个非常充满活力的项目,有着表结构,搜索,数据血统等功能,还有用户和组等功能。
官方也提供了文档。开源版本支持Hive,Kafka和关系数据库中的元数据。
所以Datahub的使用率还是非常高的。
Amundsen (Lyft) Lyft 于2019年4月开发了Amundsen,并与10月开源。
https://github.com/amundsen-io/amundsen
Amundsen提供了搜索与排名的功能,帮助更好的查找数据表。
支持的数据源非常丰富,支持hive ,druid等超过15个数据源,而且还提供与任务调度airflow的融合,并提供了与superset等BI工具的集成方式。
而数据血统的功能也正在开发之中。
Metacat(Netflix) Netflix在2018年6月开源了Metacat。
Metacat支持Hive,Teradata,Redshift,S3,Cassandra和RDS的集成。
不过虽然Metacat开源,但是官方没有提供文档,资料也很少。
Marquez (WeWork) Wework于2018年10月开源了Marquez
Marquez也对Airflow有着很好的支持。
可以看到Marquez还在持续的更新中,保持关注。
Apache Atlas(Hortonworks) 作为数据治理计划的一部分,Atlas于2015年7月开始在Hortonworks进行孵化。
Atlas 1.0于2018年6月发布,当前版本是2.1。
Atlas的主要目标是数据治理,支持与HBase,Hive和Kafka的集成。
github地址
https://github.com/apache/atlas
丰富的文档
如何选择 首先说一下笔者的选择,虽然对datahub和amundsen非常的感兴趣,最后还是选择了Atlas。
开源,文档的丰富程度,功能,这些在上文表格中都做了详细的对比,如何选择还是要考虑实际情况。
开源的有五家:Amundsen Datahub Metacat Marquez Atlas
有文档的有三家:Amundsen Datahub Atlas
搜索功能较强 :Amundsen
有数据血统功能:Datahub Atlas
考虑到项目的周期,实施性等情况,还是建议大家从Atlas入门,打开数据治理的探索之路。
当然也有公司同时采用了Atlas和Amundsen,Atlas处理元数据管理,利用Amundsen强大的数据搜索能力来做数据搜索,这也是一种不错的选择。