神刀安全网

换个角度认识大数据——元数据认识

当步入了大数据殿堂,很多专业的词汇不得不仔细的品味,理解它将帮助在实践中明确方向。从我们呱呱落地开始认识这个世界的时候,我们就与元数据密不可分,它是我们认识这个世界的基础。今天我们就共同理解一下什么事元数据。

换个角度认识大数据——元数据认识
认识世界

1.元数据是什么?

谈到元数据我们就要先理解“元”的含义,一般认为元就是“关于…的…”,可以理解为对事情的高度抽象,透过事务的表面现象发现他的“本源”。

以文学为例,后现代主义文学中有一种小说叫做“元小说”,也就是“关于小说的小说”。“传统小说往往关心的是人物、事件,是作品所叙述的内容;而元小说则更关心作者本人是怎样写这部小说的,小说中往往喜欢声明作者是在虚构作品,喜欢告诉读者作者是在用什么手法虚构作品,更喜欢交代作者创作小说的一切相关过程。”

换个角度认识大数据——元数据认识

生活中我们填写的《个人信息登记表》,包括姓名、性别、民族、政治面貌、一寸照片、学历、职称等等这些就是锁定你本人的元数据。

通常情况下元数据可以分为以下三类:固有性元数据(与事物构成有关的元数据)、管理性元数据(与事物处理方式有关的元数据)、描述性元数据(与事物本质有关的元数据)

2.为什么需要元数据?

举个例子,当我们去图书馆查找《中国近现代史》这本书的时候,我们首先回去查找这本书在图书馆里面的”ISBN号”如ZS03-09-04-008。

通过ISBN找到此书放在图书馆的3楼。找到方书的9号书架,再然后找到书架上放此类书对应的04层,最后找到想要找到的图书008位置。ISBN描述图书位置的元数据。

当我们拿到《中国近现代史》,翻开扉页我们看到关于该书信息资源,一个基本的元数据由元数据项目和元数据内容的构成。

换个角度认识大数据——元数据认识

这里,“题名”就是它的元数据项目,“中国近现代史”就是元数据内容。

再比如,“定价”、“印刷”都是元数据项目,而“28.00元”和“北京瑞古冠中应刷厂”就是元数据内容。

从这个例子中元数据在信息资源组织方面的作用概述为五个方面:描述、定位、搜寻、评估和选择

1)描述作用:根据元数据的定义,它最基本的功能就在于对信息对象的内容和位置进行描述,从而为信息对象的存取与利用奠定必要的基础。

2)定位作用:由于网络信息资源没有具体的实体存在,因此,明确它的定位至关重要。元数据包含有关网络信息资源位置方面的信息,因而由此便可确定资源的位置之所在,促进了网络环境中信息对象的发现和检索。此外,在信息对象的元数据确定以后,信息对象在数据库或其他集合体中的位置也就确定了,这是定位的另一层含义。

3)搜寻作用:元数据提供搜寻的基础,在著录的过程中,将信息对象中的重要信息抽出并加以组织,赋予语意,并建立关系,使检索结果更加准确,从而有利于用户识别资源的价值,发现其真正需要的资源。

4)评估作用:元数据提供有关信息对象的名称、内容、年代、格式、制作者等基本属性,使用户在无需浏览信息对象本身的情况下,就能够对信息对象具备基本了解和认识,参照有关标准即可对其价值进行必要的评估,作为存取利用的参考。

5)选择作用:根据元数据所提供的描述信息,参照相应的评估标准,结合使用环境,用户便能够做出对信息对象取舍的决定,选择适合用户使用的资源。

3.元数据如何建设?

元数据建设除了需要知道一些已经成型的理论知识外还需要在设计具体执行方案

理论知识

建设元数据的方法已经有一些成套的路径了比如Dublin Core、IAFA Template、CDF、Web CoIlections,这些太专业了,有兴趣的自己可以去了解。

我在建设数据仓库中对元数据建设中体会,建设过程要从其目的来谈,离开目标去建立元数据,就发现元数据包含太多东西,只要是描述数据的数据就可以囊括进来。

换个角度认识大数据——元数据认识
目标

所以元数据不能脱离目标。拿客户关系系统来比喻,这个系统维护客户信息当然是有目的的,是要用这些信息进行一些自动的流程处理、去挖掘一些客户潜在的价值、做好客户服务。当然没有必要去维护客户的生命特征信息,诸如指纹、犯罪史等,这些信息跟客户关系管理的目标关系不大。

元数据也是如此,你可以将所有数据的结构、大小、什么时间创建、什么时间消亡、被那些人使用等等,这些信息可以延伸得太广,如果不管目标,而试图去建一个非常完美的元数据管理体系,这是一种绝对的”自上而下”做法,必败无疑

实践中的两种方案对比

1).集中管理元数据

换个角度认识大数据——元数据认识
集中管理

集中管理,有专门的一个节点他的职责就是元数据管理,所有的元数据都存储在该节点上。所有客户端对数据文件的请求都需要先请求该节点获取描述该数据文件的元数据,

集中管理可以很容易保证元数据的一致性,但是当系统过多容易导致单点性能瓶颈,而且当该节点失效,整个数据文件都无法正常访问。

2).分布式管理元数据

换个角度认识大数据——元数据认识
分布式管理

分布式管理是指将元数据存放在系统的任意节点并且能动态的迁移。对元数据管理的职责也分布到各个不同的节点上,很好的解决了集中管理的缺点,但是实现复杂,一致性维护复杂

总结

元数据的建设过程同时也是对头脑中的思维进行重构的过程,简单一句话元数据建设就像我们头脑如何去理解一件事物,我们并不需要记忆每一个细节,我们只需要得到这件事的几个关键特征,其实这几个关键特征就可以称为这件事的元数据。

转载本站任何文章请注明:转载至神刀安全网,谢谢神刀安全网 » 换个角度认识大数据——元数据认识

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址