基于内容的信息存取与MPEG-7

作者：时间：2012-06-26来源：网络收藏

一、什么是MPEG-7

本文引用地址：http://www.amcfsurvey.com/article/165381.htm

现在，我们面临的将是一个分布的计算环境，视听信息在分布环境中创建、交换、检索和重用。因此，需要开发一种视听信息的“表示(Representation)形式”，它超越基于波形或基于样本、基于压缩(如MPEG-1和MPEG-2)甚至是基于对象(如MPEG-4)的表示，这就需要“表示形式”允许某种程度的对信息含义的注释，同时设备或计算机代码可以传递和存取这些注释。

1996年10月，MPEG开始了一项新的工作，以提供对以上问题的解决方案。这个MPEG家族的新成员被称为“多媒体内容描述接口”(Multimedia Content Description Interface)，简称为MPEG-7。其目标就是产生一种描述多媒体内容数据的标准，满足实时、非实时以及推-拉应用的需求。MPEG并不对应用标准化，但可利用应用来理解需求并评价技术，它不针对特定的应用领域，而是支持尽可能广泛的应用领域。

MPEG-7将扩展现有标识内容的专用方案及有限的能力，包含更多的多媒体数据类型。换句话说，它将规范一组“描述子”，用于描述各种多媒体信息，也将对定义其他描述子以及结构(称为“描述模式”)的方法进行标准化。这些“描述”(包括描述子和描述模式)与其内容关联，允许快速有效地搜索用户感兴趣的资料。 MPEG-7将标准化一种语言来说明描述模式，即“描述定义语言”。带有MPEG-7数据的 AV资料可以包含静止图像、图形、3D模型、音频、语音、视频，以及这些元素如何在多媒体表现中组合的信息。这些通用数据类型的特例可以包含面部表情和个人化特性。

MPEG-7的功能与其他MPEG标准互为补充。MPEG-1、 MPEG-2和MPEG-4是内容本身的表示，而MPEG-7是有关内容的信息，是比特的比特。

MPEG-3曾经存在，但由于其HDTV目标能够用MPEG-2 工具实现，因此，该工作终止。按顺序推算，下一个标准应该是MPEG-5，但是MPEG 决定不遵循序列的逻辑顺序，而是选择了数字7。MPEG-5和MPEG-6目前还没有定义。 MPEG-7计划在2001年9月正式成为国际标准。

二、 MPEG-7中的主要概念

为了更好地了解MPEG-7，我们需要了解MPEG-7中定义的一些概念：

数据(Data) 是用MPEG-7描述的视听资料，不考虑它们的存储、编码、显示、传输、媒介或技术。该定义非常广泛，包含图形、静止图像、视频、影片、音乐、语音、声音、文本和其他相关的AV媒体。

特征(Feature) 指数据的特性。特征本身不能比较，而要用有意义的特征表示(描述子)和它的实例(描述值)。如图像的颜色、语音的声调、音频的旋律等。

描述子(Descriptor，D) 是特征的表示。它定义特征表示的句法和语义，可以赋予描述值。一个特征可能有多个描述子，如颜色特征可能的描述子有：颜色直方图、频率分量的平均值、运动的场描述、标题文本等。

描述值(Descriptor Value) 是描述子的实例。描述值与描述模式结合，形成描述。

描述模式(Description Scheme，DS) 说明其成员之间的关系结构和语义。成员可以是描述子和描述模式。DS和D的区别是：D仅仅包含基本的数据类型，不引用其他D或DS。如对于影片，时间结构化为场景和镜头，在场景级包括一些文本描述子，在镜头级包含颜色、运动和一些音频描述子。

描述(Description) 一个描述由一个描述模式(结构)和一组描述值组成。

编码的描述(Coded Description) 是对已完成编码的描述，满足诸如压缩效率、差错恢复和随机存取的相关要求。

描述定义语言(Description Definition Language，DDL) 是一种允许产生新的描述模式和描述子的语言，允许扩展和修改现有的描述机制。

为了更好地理解这些术语，请参看图1。图中解释了 MPEG-7在实际系统中的位置。圆角框表示处理工具，矩形框表示静态元素，阴影部分包含MPEG-7标准的规范元素：DDL提供建立描述模式的机制，然后将描述模式作为基础，产生一个描述。注意，描述的二进制表示是不必要的，文本表示足够了。

三、MPEG-7的范围

MPEG-7是针对存储形式(在线、脱机)或流形式(如 Internet上的广播、推送模型)的应用而制定的，并且可以在实时和非实时环境中操作。一个实时环境意味着当采集资料时，信息是与内容相关的。

图2是MPEG-7处理链的一种高度抽象示意图，用于解释MPEG-7的范围。它包括特征抽取(分析)、描述本身和搜索引擎(应用)。为了全面开发 MPEG-7描述的潜力，自动的特征(或是描述子)提取将是极其有用的。但是很清楚，自动提取并不总是可能的，抽象层次越高，自动提取的难度就越大，这时可以采用交互提取工具。但不管它们多么有用，无论是自动的或半自动的，都不包括在标准范围之内。主要原因是不需要对它们标准化以建立互操作性，而是留有竞争的余地。另一个原因是在技术领域允许采纳更好的改进方案。搜索引擎也不包含在MPEG-7范围之内，它不需要，竞争将产生最好的结果。

像其他MPEG家族成员一样，MPEG-7是满足特定需求的视听信息的标准表示。MPEG-7建立在其他标准表示的基础之上，例如PCM、 MPEG-1、MPEG-2和MPEG-4。因此，MPEG-7会引用部分现有标准，如在MPEG-4中的形状描述子也可以用于MPEG-7。相似地，也可以利用在MPEG-1和MPEG-2中的运动矢量。

但MPEG-7描述子将不依赖于被描述内容的编码和存储方式。可以把MPEG-7的描述附加到模拟电影上去，或与印在纸上的图片相关。即使 MPEG-7描述不依赖于资料的编码表示，但是在某种程度上，该标准建立在MPEG-4之上。 MPEG-4提供对视听资料以对象方式编码的方法，这些对象具有一定的时间(同步)和空间 (空间位置和三维感受)关系。利用MPEG-4编码，将有可能把描述附加到场景中的元素(对象)上。

MPEG-7可以独立于其他MPEG标准使用，在MPEG-4 中定义的表示方式也非常适合MPEG-7标准的建立。