中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
摘 要
基于内容的视频检索技术是当前研究的热点问题。它主要是利用视觉特征,如颜色、纹理、形状和空间关系等特征来进行检索。这种检索方式突破了传统的基于文本检索技术的局限,直接对视频内容进行分析并抽取特征,然后利用这些内容特征建立索引并进行检索。
本文首先详细地阐述了基于内容的视频检索技术的原理、关键技术和研究现状,并对基于纹理和形状检索的视频信息管理系统进行了分析。
本文的重点是研究了视频图像中的纹理和形状特征的提取算法和检索方法,对灰度共生矩阵特征描述参量的物理意义进行了阐释,对基于形状特征提取的三种不同算法——Canny、拉普拉斯和Sobel的检索效果进行了比较。
本次实验在形状特征的提取算法中使用了检索效果比较好的Canny算法,在纹理特征的提取算法中使用了灰度共生矩阵算法。本课题利用SQL Server和 Visual C++6.0编程实现了基于形状和纹理的视频特征的提取和检索信息管理系统,并对检索的查到率和查准率进行了统计。
实验证明,该系统在检索一些具有较典型纹理和形状特征的图像时,具有较好的检索效果。
关键词:形状;纹理;基于内容的视频检索;不变矩;灰度共生矩阵
I
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
Abstract
At present, Content-Based Video Retrieval (CBVR) is becoming a hot research topic. It is a retrieval technology based on the vision features, such as the color, texture and shape. This retrieval method breakthrough the limitation of traditional one based on text. It analyzes and extracts features of video content directly, then uses these features to establish a retrieve system as an index.
Firstly, we describe the principle, essential technology, and the present research situation of the content-based video retrieval system in detail, and then analyze the texture and shape based video retrieval system.
We lay a strong emphasis on the research of texture and shape character pick-up algorithm and retrieval technology, explain the meaning of the parameters of Gray-Level Co-occurrence Matrix, and compare the result of three algorithm —Canny, Laplacian and Sobel.
We select Canny and Gray-Level Co-occurrence Matrix in this system. We implement a shape and texture based video information management system with SQL Server and Visual C++, evaluate the performance of it.
The experiments show that the performance of the retrieval system based on texture and shape is relative good especially in searching the image with typical texture and shape character.
Key words:Shape; Texture; Content-Based Video Retrieval; Moment Invariant;
Gray-Level Co-occurrence Matrix
II
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
第一章 绪 论 ........................................ 1
1.1课题的研究背景 .................................................... 1 1.2课题的研究内容及成果 .............................................. 3
第二章 基于内容的视频检索技术 ...................... 4
2.1 基于内容的视频检索概述 .......................................... 4 2.2 基于内容的视频检索的关键技术和研究现状 .......................... 5
2.2.1基于内容的视频检索的关键技术 ........................................... 5 2.2.2 基于内容的视频检索技术研究现状 ......................................... 7
第三章 纹理和形状特征的算法选择 ..................... 9
3.1纹理特征的选择 ....................................................................................................... 9 3.1.1 纹理描述 ............................................................................................................ 9 3.1.2 纹理特征 .......................................................................................................... 12 3.1.2.1 Tamura 纹理特征 ......................................................................................... 12 3.1.2.2 自回归纹理模型 .......................................................................................... 14 3.1.2.3 灰度共生矩阵 .............................................................................................. 15 3.1.3 相似性度量技术 ................................................................................................ 17 3.2形状特征的选择 ..................................................................................................... 18 3.2.1 图像边缘检测技术 ............................................................................................ 18
3.2.1.1边缘检测原理和分类 ................................................................................ 18 3.2.1.2梯度算子边缘检测算法 ............................................................................... 19 3.2.1.3 Canny边缘检测算法 ................................................................................... 21 3.2.1.4几种边缘检测算法的比较 ........................................................................... 22 3.2.2 形状特征描述 .................................................................................................... 23 3.2.2.1矩的概念及意义 ........................................................................................... 24 3.2.2.2Hu不变矩 ...................................................................................................... 25 3.2.2.3边界不变矩 ................................................................................................... 25 3.2.2.4数据处理 ....................................................................................................... 26
第四章 纹理形状检索在视频管理系统中的实现 .......... 27
4. 1 纹理算法及各参数解读 .............................................................................................. 27
4. 2 形状算法比较及试验总结 ....................................................................................... 29 4. 3 视频管理系统的框架 ............................................................................................... 32 4. 4 应用程序界面与功能简介 ....................................................................................... 35
4.4.1 管理端应用程序功能实现 ........................................................................... 35 4.4.2 客户端应用程序功能实现 ........................................................................... 37
III
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
4.5加纹理和形状特征后的视频检索实验结果 ............................................................ 39 4.5.1颜色单特征检索与颜色和纹理特征相结合的检索对比 ................................. 39 4.5.2颜色单特征检索与颜色和形状特征相结合的检索对比 ................................. 41
第五章 总结与展望 .................................. 45
5.1本文工作 .................................................................................................................... 45 5.2本课题未来研究方向 ................................................................................................ 45
IV
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
第一章 绪 论
1.1课题的研究背景
随着信息时代的到来,海量的多媒体信息涌入了人们的工作和生活。如何在这些信息中提取自己需要的信息,逐渐成为一个人们无法回避的课题。互联网上出现的一些搜索引擎已经可以帮助人们以关键字的形式在浩瀚的网络信息海洋中浏览特定的信息,然而在检索多媒体信息,尤其是视频信息方面,国内外现有的原型系统依然还有待完善。
自张宏江博士于1993年第一次提出了“基于内容的图像查询和视频检索方法”以来,前人已经作了大量的工作,大都按照[1]中所提出的基本方法展开研究。该方法只需分析视频的序列结构,按帧的内容变化程度区分视频的变化。这套多媒体检索和查询方法不但可以对视频内容进行实时分析,而且实现了视频与音频的快速集成这一重大突破,建立了现代视频检索和内容查询的基本框架,也为视频信息的管理系统的研究和开发奠定了良好的基础。
在经历了十多年电脑和软件技术的飞速发展后,基于内容的多媒体信息管理的工作如今主要集中在识别和描述图像的颜色、纹理、形状和空间关系上,对于视频数据,还有视频分割、关键帧提取、场景变换探测以及故事情节重构问题。可见,它已经发展成为一门涉及面很广的交叉学科,融合了图像处理、模式识别、计算机视觉、人工智能、人机交互、信息检索等技术。
由于基于内容的检索有着广泛的需要,并有着较好的市场前景,为适应这种需要,国际标准化组织(ISO)在制定MPEG-1、MPEG-2及MPEG-4的标准基础上又推出了一种新的标准——MPEG-7。 MPEG-7标准的正式名称为“多媒体内容描述接口”(Multimedia Content Description Interface)。MPEG-7标准对各种不同类型的多媒体信息进行标准化描述,并将该描述与所描述的内容相联系,以实现快速有效的搜索。
MPEG-7既不同于基于波形和基于压缩的表示方式如MPEG-1和MPEG-2,又不同于基于对象的表示方式如MPEG-4。MPEG-7目的是对视音频信息进行描述,而不考虑信
1
[1]
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
息的存储、编码、传输、显示等技术。它涉及广泛的媒介类型:静止画面、图形、三位模型、音频、话音、视频以及它们的结合(如多媒体)。MPEG-7数据流可以是MPEG-4数据流、录像带、CD中的音乐、声音或语音、打印图像和网络上的交互式多媒体装置。它的重点在于提供一种新的视音频描述方法,这样它的处理对象不再是纯文本,但除了视音频信息还要包括文本内容,因而支持其它标准组织提出的纯文本方法。所以需要为视音频内容的描述和文本内容的描述提供了合适的、必要的接口。
MPEG-7专家组的工作计划是,与1998年10月开始对外征集提议,1999年12月提出了工作草案,2000年10月提出委员会草案,2001年2月提出最终委员会草案,2001年7月提出国际标准草案,2001年9月提出正式的国际标准。
随着MPEG-7标准制订的完成,多媒体信息处理研究的前沿已从编码(MPEG-1,MPEG-2,MPEG-4)转移到自动识别。目前,基于内容的图像/视频检索研究已成为多媒体领域的热点,国际上越来越多的专家和研究机构投入到这项工作中来。例如IBM 的QBIC方案[2],哥伦比亚大学开发的VisualSeek和MetaSeek[3]以及MIT媒体实验室采用交互学习的思想开发出PHOTOBOOK图像检索系统[4]等等。
图1.1提供了一个抽象的MPEG-7流程,将会有助于解释MPEG-7所关注的主要问题。这一流程包括了特征提取(分析)、内容描述、搜索引擎(应用程序)三个部分,特征提取和搜索引擎并不包括在标准之中,其原因一是为了促使各公司和研究所间的竞争;二是为以后各种新技术的发展留下余地。MPEG-7和其它MPEG标准一样遵循同一原则:即它只规定最后的数据格式,而不管采用何种方法获得这些数据格式。MPEG-7只规定了信息内容描述格式,而不规定如何从原始的多媒体资料中提取内容描述的方法。如何有效利用MPEG-7标准所综合规定的描述符及描述方案进行图像/视频的检索,目前还很不成熟,这是一个值得研究的问题。
媒体 数据 特征提取 内容描述 搜索引擎 用户 MPEG-7的范围 图1.1 MPEG-7的范围
2
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
1.2课题的研究内容及成果
本文所做研究主要涉及了视频信息管理和基于内容图像检索两大块。前人已经按照MPEG-7规定的标准描述接口实现了一个具有初步检索功能的视频信息管理系统,客户可以通过文本描述和颜色直方图进行视频检索。本文要做的就是通过添加纹理和形状特征检索使得该系统功能更加强大。为了达到这个目的,笔者首先对现有的视频管理系统进行了深入的了解,然后分别对纹理和形状特征提取和检索算法进行研究、分析和比较,选定了适合我们现有视频库的算法,并把算法进行优化,最后将优化的算法加入到视频信息管理系统中,将完善后的系统检索效果与加入纹理形状检索之前相比较,得出最后的实验结论。
为了更好地进行实验,我们更新了原有的视频数据库,将原有的300多段MPEG-1和MPEG-2视频扩充到500段,其中包括新闻、广告、体育、戏曲、影视、音乐、风景等七大类。库中的视频有的是数字Beta播出带上载而来,有的则是通过电视采集卡采集,它们的视频质量参差不齐,因此针对这个视频库得出的实验结果适用面将更加广。
本课题最终将一个融入了纹理和形状特征检索的比较完善的视频管理系统呈现在大家面前,并通过大量的实验数据验证了它的检索性能更优于原有的系统。
3
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
第二章 基于内容的视频检索技术
2.1 基于内容的视频检索概述
基于内容的视频检索(Content-Based Visual Retrieval,简称CBVR)就是从多媒体数据中提取出特定的信息线索(如颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音的音色、音调、响度等),然后根据这些线索从大量存储在视频数据库中的视频源中进行查找,从而检索出具有相似特征的视频数据。
基于内容的视频检索的应用使人们可以方便地访问数字图书馆、进行视频点播(VOD)、远程教学和网上购物等。因此,基于内容的视频检索具有极大的实用价值和广阔的商业前景。
基于内容的视频检索提供了这样一种算法:在没有人工参与的情况下,自动提取并描述视频的特征和内容。这是一门交叉学科,以图像处理、模式识别、计算机视觉、图像理解等领域的知识为基础,从认知科学、人工智能、数据库管理系统以及人机交互、信息检索等领域,引入新的媒体数据表示和数据模型,从而设计出可靠的系统。它的系统流程如图2.1。
目前,基于内容的视频检索研究,除了识别和描述图像的颜色、纹理、形状和空间关系外,主要的研究集中在视频分割、特征提取和描述、关键帧提取和聚类以及结构分析等方面。
基于内容的检索有如下特点:
1、直接从媒体内容中提取信息线索。基于内容的检索突破了传统的基于表达式检索的局限;直接对图像、视频、音频进行分析,抽取特征,并利用这些内容特征建立索引进行检索。
2、基于内容的检索是一种近似匹配,在检索的过程中,它采用相似性匹配的方法逐步求精来获得查询的结果,即查询是一个迭代过程,不断减小查询结果的范围,直到定位到目标。这一点与常规数据库检索的精确匹配方法有明显不同。 3、特种抽取和索引建立可由计算机自动实现,避免了人工描述的主观性,也大大减少了工作量。
4
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
视频 关键帧提取 视频分割 运动分析 离线 视频片断 在线 视频浏览 关键帧提取 用户 视频片断 分割 运动分析 数据库 特征 提取 视 频 片断摘 要 视频片断 注释 特征 提取 视频片断 查询 图2.1基于内容的视频检索系统结构图
对视频流建立层次表示后,就可以对视频流进行快速查询和检索,从用户角度看,视频的查询类型可以有:
1 用户希望找到曾经看过的某个视频片断; 2 用户希望寻找以前从未看过的某个视频片断; 3 用户只有一些含混不清的想法。
理想情况下,视频数据库系统应该提供上述三种不同类型的查询。为实现上述目标,必须在查询和快速搜索过程中充分利用有关视频的各种表示信息。
2.2 基于内容的视频检索的关键技术和研究现状
2.2.1基于内容的视频检索的关键技术
基于内容的视频检索技术是新兴的研究领域,主要目的是从视频的数据内部查找线索以供查询,其中的许多关键技术目前仍未很好的解决。 (1) 镜头边界检测
镜头分割是基于内容的视频检索系统的第一步,能否准确的检测出镜头边界,直接关系到以后的处理,所以镜头分割有必要进行重点的研究。基于压缩域的镜头转换算法已经被提出来,但是,许多算法需要进行阈值的设定。镜头分割的通常算法中阈值的选取是一难点,由于不同视频具有不同的特征值,若用固定的阈值去分割成段不
5
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
具有智能性,必然会造成漏检、多检或误检,从而造成使用的局限性。因此需要自适应的阈值选取法,通过对一段视频自动选择适合该视频自身特征值的阈值,来分割视频片断,得到最佳的镜头边界转换帧,从而达到很高的精确检测度。目前,自动选取阈值来实现镜头边界转换的算法非常少还不成熟,仍在探索阶段。 (2) 关键帧提取
关键帧是用于描述一个镜头的代表图像帧,它反映一个镜头的主要内容。对于一段较长的视频,镜头非常多,浏览起来不方便。而我们将视频流分割成镜头,需要在其中找出一幅或几幅关键帧来代表此镜头的内容。关键帧的选取一方面要能够反映镜头的主要内容,因此其描述应尽可能的准确;另一方面为便于管理,数据量应尽量的小,且计算不宜复杂。 (3) 镜头聚类
镜头聚类是研究镜头间的关系,把内容相近的镜头组合起来,形成场景关键帧。根据聚类的目的的不同,视频聚类可分为两类:一类是把同属于一个场景的镜头进行聚类,以形成层次型的视频结构——场景,此种聚类不但要考虑镜头内容的相似性,还要考虑时间上的连续性;另一类是对视频进行分类,只考虑特征相似性,而不考虑时间的连续性。根据镜头的重复程度,分为对话型、动作型和其他类型3类。 (4) 特征提取
视频具有各种视觉和听觉特征以及其他时间和空间关系,对于同一种特征,有不同的描述方法,比如颜色特征,有直方图、颜色距、主颜色等多种特征描述法。综合利用多种特征,并调用合适的特征描述来支持查询,按照用户的查询要求合并各种特征的检索结果,来达到较高的检索率,也是一个研究难点。 (5) 视频数据库模型
建立视频数据库模型,可以为视频数据库和视频信息内容的存取提供基础。视频包含的信息量大,内涵比较丰富,但结构比较复杂特殊,数据量也比较大,所以必须把现有的视频信息重新进行组织,使之成为便于搜索、易于交互的数据。 (6) 智能化的人机界面
用户的查询接口应该是直观易用的,系统除了提供示例和描绘查询基本接口之外,其用户查询接口应提供丰富的交互能力,使用户在查询中表达对媒体语义的感知,
6
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
调整查询参数及组合,最终获得满意的查询结果。 2.2.2 基于内容的视频检索技术研究现状
近年来,图像、视频和音频等多媒体信息检索技术越来越受到重视。最著名的研究项目当数94年到98年NSF、APRA和NASA资助的数字图书馆项目(Digital Library),它的主要研究目标是搜集、存储和组织数字信息的新技术,并通过网络实现信息的搜索、检索和处理。
Carnegie Mellon University 是比较早致力于此项目的研究者之一,1996年他们开发出Informedia 数字视频库系统并且此系统一直处于不断成熟完善。目前,Informedia系统采用了综合的语音、语言、图像理解技术,对视频进行转录、分割和检索,并开发了“视频段”的快速检索技术。它可以满足任意主题的查询,可提供对电视/广播新闻和纪录片的全内容的搜索和查询,还可对在线档案提供日常内容的提取、分析和存储的全自动的智能过程,而且已有超过2000小时的新闻节目档案。
Cue Video系统是个基于Web的多特征检索的多媒体数据库系统,它支持多媒体内容的离线浏览和检索,以及支持对不同格式的多媒体内容的多种检索和浏览模式。Cue Video系统用音频和视觉特征对事件建立索引,这个离线的自动索引过程包括语音识别、语音分割、语音检索、视频分割、视频摘要和基于图像内容的检索,检索的结果产生多特征的检索数据库。
哥伦比亚大学研究的VideoQ系统对运动、形状、颜色、纹理特征建立索引,对检索的特征都有相应的特征数据库。视频镜头的数据库是以MPEG压缩视频流的方式存储的,通过对视频片断进行分类,并赋以一些标次(如户内、户外、有无人脸等),建立视频片段的检索。
ViBE是组织具有大量视频序列的视频数据库的可浏览和可检索的范例系统。利用从压缩视频流的DC序列中提取出来的特征数据,把视频序列分割成镜头,每个视频镜头有关键帧的分级树结构表示,而且镜头自动地分类成预先定义的某个假语义类。
普适的多媒体内容访问系统UMA系统实现了以视频内容为中心的普适多媒体内容访问,该系统由一个基于MPEG-7标准的视频分析平台和一个内容自适应的视频流化服务器组成。该系统将视频内容分析、内容描述和视频压缩、传输有机结合起来,
7
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
能够为用户提供灵活的个性化服务。
QBIC系统 QBIC(Query By Image Content)是由IBM Almaden研究中心开发的,是“基于内容”检索系统的典型代表。QBIC系统允许使用例子图像、用户构建的草图和图画及其选择的颜色和纹理模式、以及镜头和目标运动等图形信息,对大型图像和视频数据库进行查询。视频方面主要利用了颜色、纹理、形状、摄像机和对象运动来描述内容。
TV-FI系统(Tsinghua Video Find It),是清华大学开发的视频节目管理系统。这个系统可以提供如下几个功能:视频数据入库、基于内容的浏览、检索等。TV-FI提供多种模式访问视频数据,包括基于关键字的查询、基于示例的查询、按视频结构进行浏览、以及按用户自己预先定义的类别进行浏览。
8
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
第三章 纹理和形状特征的算法选择
MPEG-7标准对多媒体内容描述接口的各个方面已经做了非常详尽合理的规定,本文严格按照该标准进行设计,以下将针对视频管理系统中纹理和形状特征检索展开论述。
3.1纹理特征的选择
纹理的概念最初起源于人类的触觉——“对一个事物(或物体)表面的触感”,这是人类身体肌肤的感觉。在此基础上,将人类视觉与此关联起来,人对纹理的理解就不再局限于身体接触,而是成为了一个重要的视觉信息[5]。在我们周围的环境,纹理的分布十分广泛,也十分复杂。对于视觉上的纹理理解研究已经超过了三十年,发展了包括随机场模型和多分辨率技术等,对纹理进行描述和分析的各种技术,在纹理分割、纹理分类、纹理合成等多个方面都进行了有关的研究工作[6]。尽管对纹理分析的研究历史比较长,但是真正将其实际应用到视频图像数据的处理还只是在近若干年才开始的。
作为一个重要的、新兴的应用方向,针对大规模图像和视频信息进行基于内容的图像检索是纹理分析的一个重要贡献。应用纹理作为视觉特征,人们可以在图像库搜索到相似的图案(pattern)。例如,要查询“所有云层覆盖率低于百分之二十的地球卫星图像”或者“从四川省的航拍图中寻找有竹林覆盖区域的图像”,此类检索要求都需要通过纹理特征的提取和比较来完成。 3.1.1 纹理描述
与另一个基本视觉特征——颜色不同,纹理体现的是一个区域的属性,而不仅仅是一个点。对单独的点来说,是不存在纹理属性的。虽然每个人都能够辨识纹理,但是很难给纹理下一个准确的定义,直到目前为止,还没有一个被所有研究者认可的精确纹理定义。一般认为类似于布纹、草地、砖砌墙面等具有重复性结构的图像叫纹理图像。纹理图像在局部区域内可能呈不规则性,但整体上则表现出某种规律性,其灰度分布往往表现出某种周期性。纹理图像所表现出来的这种特有的性质就叫纹理。图像或物体的纹理或纹理特征反映了图像或物体本身的属性。在图像处理中纹理有着广
9
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
泛笼统的含义,Haralick. R.M认为纹理是所有物体表面的一种内在的属性,它带有物体表面重要的结构信息。Pickett认为:“纹理是用来描述二维变化阵列的,阵列元素和间隔规律可以任意安排,只要保持一定的特征重复性”。Hawkins对纹理有更详细的描述:“纹理的标志有三项要素:①某种局部的序列性在比该序列更大的区域内不断重复。②序列是山基本部分非随机排列组成的。③各部分大致都是均匀的统一体,纹理区域内任何地方都有大致相同的结构尺寸。”
因此,可以这么说,纹理是对图像的象素灰度级在空间上的分布模式的描述,反映物体的质地,如粗糙度、光滑性、颗粒度、随机性和规范性等[7]。纹理特征就是从物体图像中计算出一个值,对物体灰度级变化的特征进行量化。通常,纹理与物体的位置、走向、尺寸、形状有关,但与平均灰度级,即亮度,是无关的。
图3.1列出了一些比较典型的纹理图像,而图3.2则列出了一个包含多个纹理区域的图像。
图3.1一些典型的纹理图像
10
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
图3.2包含多个纹理区域的图像
纹理的描述技术大体上可以分为三大类:统计法、结构法和频谱法[8] [9]。 统计方法是最早的纹理描述方法之一。它又分为空间域方法和变换域方法,包括自相关函数、纹理边缘、结构元素、灰度的空间共生概率(spatial gray-tone co-occurrence probabilities)、灰度行程和自回归模型。统计方法将纹理描述为光滑、粗糙、粒状等特征。基于直方图的纹理度量是典型的统计方法。由于在灰度直方图中各个像素的灰度是独立进行处理的,不具有像素之间相对位置的信息而受到限制。因此,研究图像的两个象素组合中灰度配置的情况时,不仅应考虑强度分配,还应考虑具有相同强度值或者近似强度值的象素位置,才能更好地表现纹理特征。
结构方法就是假定纹理模式由纹理基元的空间排列组成,使用基元和特定的排列规则来描述纹理。结构法研究的主要内容便是基元及其空间关系。基元一般定义为具有某种属性而彼此相连的单元的集合,属性包括灰度、连同区域的形状、局部一致性等。空间关系包括基元的相邻性、在一定角度范围内的最近距离等等。根据基元间的空间联系,纹理可以分为弱纹理或强纹理。进一步细分,可以根据基元的空间共生频率来划分,也可以根据单位面积内的边缘数来区别。基元也可以定义为灰度行程。
11
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
频谱方法的典型是对图像进行傅立叶变换,从傅立叶频谱成分的分布中来求得纹理特征[10]。频谱分析技术是用区域自相关函数或傅立叶变换域的能量分布来检测纹理的周期,包括计算峰值处的面积、峰值处的相位、峰值与原点的距离平方、两个峰值间的相角差等手段。 3.1.2 纹理特征
就其广义而言,纹理特征就是图像局部性质(灰度分布函数)的统计。一个纹理图像.IJ以看成一组独立的同分布随机变量W(j, k)经一个空间算子O(·)作用而生成的结果F(j, k)。其中确定W的分布形式和O的结构后,可用观测值F对W的各参数以及O的系数进行估计,并利用这些数字特征构造图像的纹理特征。于是,问题就归结为经典的参数估计理论和诸如回归分析、规划论之类的模型研究。从这一观点可构造包括Markov随机域模型、Julesz模型、自回归模型和线性规划模型等。
下面给出几个目前在图像检索中常用的经典纹理特征: 3.1.2.1 Tamura 纹理特征
基于人类对纹理的视觉感知的心理学的研究,Tamura等人提出了纹理特征的表达[11]。Tamura纹理特征的六个分量对应于心理学角度上纹理特征的六种属性,分别是粗糙度(coarseness)、对比度(contrast)、方向度(directionality)、线像度(line likeness)、规整度(regularity)和粗略度(roughness)。其中,前三个分量对于图像检索尤其重要。接下来我们着重讨论粗糙度、对比度和方向度三种特征的定义和数学表达。 (1) 粗糙度: 粗糙度的计算可以分为以下几个步骤进行。首先,计算图像中大小
为2k x 2k个象素的活动窗口中象素的平均强度值,即有
Ak?x,y??k?1x?2k?1?1y?2?1i?x?2k?1j?y?2k?1??g?i,j?22k (3.1)
其中k=0,1,2,? 5。而g?i,j?是位于?i,j?的像素强度值。然后,对于每个
像素分别计算它在水平和竖直方向上互不重叠的窗口之间的平均强度差:
Ek,h?x,y??Ak?x?2k?1,y??Ak?x?2k?1,y?Ek,v?x,y??Ak?x,y?2k?1??A?x,y?2?k?1k (3.2)
其中对于每个像素能使E值达到最大(无论水平还是竖直方向)的k值用来设
12
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
置最佳尺寸Sbest?x,y??2k。最后,粗糙度可以通过计算整幅图像中Sbest的平均值来得到,表达式为:
1mn Fcrs???Sbest?i,j? (3.3)
m?ni?1j?1 式(3.3)中的m和n分别为水平和垂直方向的象素总数。
表示粗糙度特征的另一种改进形式是采用直方图来描述Sbest的分布,而不
是像上述方法一样简单地计算Sbest的平均值。这种改进后的粗糙度特征能够表达具有多种不同纹理特征的图像或区域,因此对图像检索更为有利。 (2) 对比度:对比度是通过对象素强度分布情况的统计得到的。确切地说,它是通
过?4??4?4来定义的,其中?4是四次矩而?2是方差。对比度是通过如下公式衡量的: Fcon?? (3.4) 14?4(3) 方向度:方向度的计算需要首先计算每个象素处的梯度向量。该向量的模和方
向分别定义为:
?G?(?H??V)2??tan?1??V?H???2 (3.5)
其中?V和?H分别通过图像卷积下列两个3x3操作符所得的水平和垂直方向
上的变化量。
?10110101 ?101?1010 (3.6)
?1?1?1 当所有像素的梯度向量都被计算出来后,一个直方图HD被构造用来表达
?的值。该直方图首先对?的值域范围进行离散化,然后统计了每个组(bin)中相应的?G大于给定阈值的像素数量。这个直方图对于具有明显方向性的图像会表现出峰值,对于无明显方向的图像则表现得比较平坦。最后,图像总体的方向性可以通过计算直方图中峰值的尖锐程度获得,表示如下:
13
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
Fdir??npp??wp ?????p?HD??? (3.7)
2 式(3.8)中的P代表直方图的峰值,np为直方图中所有的峰值。对于某个峰
值P,Wp代表该峰值所包含的所有的bin,而?p是具有最高值的bin。 3.1.2.2 自回归纹理模型
最近二十年来,有大量的研究集中在应用随机场模型表达纹理特征。在这一方 面,Markov随机场(Markov random field ,MRF)模型取得了很大的成功[12]。自 回归纹理模型(simultaneous auto-regressive,SAR)就是MRF模型的一种应用实 例。
在SAR模型中,每个像素的强度被描述成随机变量,可以通过与其相邻的像 素来描述。如果s代表某个像素,则其强度值g(s)可以表达为它的相邻像素强度 值的线性叠加与噪音项??s?之和,如下所示:
g?s???????r?g?s?r????s? (3.8)
r?D ?其中?是基准偏差,由整幅图像的平均强度值所决定,D表示了s的相邻像素集,??r?是一系列模型参数,用来表示不同相邻位置上的像素的权值。??s?是均 值为0而方差为?2的高斯随机变量。通过上式可以用回归法计算参数?和标准方 差?的值,它们反映了图像的各种纹理特征。例如,较高的?表示图像具有很高 的精细度,或较低的粗糙度。又比如,如果S正上方和正下方的?很高,表明图 像具有垂直的方向性。最小误差法(least square error)和极大似然估计(maximum likelihood estimation)可以用来计算模型中的参数。此外,SAR的一种变种称为 旋转无关的自回归纹理特征(rotation-invariant SAR或RISAR ),具有与图像的旋 转无关的特点。
定义合适的SAR模型需要确定相邻像素集合的范围。然而,固定大小的相邻 像素集合范围无法很好地表达各种纹理特征。为此,有人提出过多维度的自回归 纹理模型(multi-resolution SAR或 MRSAR ),能够在多个不同的相邻像素集合范围下计算纹理特征。
14
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
3.1.2.3 灰度共生矩阵
灰度共生矩阵方法[13],建立在估计图像的二阶组合条件概率密度函数基础上。这个方法有较长的研究历史,是当前人们公认的一种重要的纹理分析方法。
假定待分析的纹理图像为一矩阵图像,水平和垂自方向上各有Nc和Nr个像元,将每个像元上出现的灰度量化为Nq层。设Zc??1,2,?,Nc?为水平空间域,
Zr??1,2,?,Nr?为垂自空间域,G??1,2,?,Nq?为量化灰度层集。集Zr?Zc为行列编
序的图像元集,则图像函数f可表示为一个函数指定每一个像元具有Nq个灰度层中的一个值G,即f:Zr?Zc?G。
在纹理图像中,在某个方向上相隔一定距离的一对像元灰度出现的统计规律,应当能具体反应这个图像的纹理特征。可以用一对像元的灰度出现矩阵来描述这个统计规律,进而由共生矩阵计算出一些参数定量描述这个纹理的特性。
灰度共生矩阵是描述在方向?上,相隔d像元距离的一对象元分别具有灰度层i和j出现的概率,其元素可记为P?i,j|d,??。当?和d选定时,也可简单记为Pij。显然灰度共生矩阵是一个对称矩阵,其阶数由图像中的灰度层数来决定。这个矩阵是距离和方向的函数,在规定的计算窗口或图像区域内统计符合条件的像元对数。对一个3x3的计算窗口,若其行列标号如下:
(1,1)(1,2)(1 (2,1)(3,1)(2,2) ( 2 , 3 ) (3.9) (3,2)(3,3)如考虑00方向、距离为1的像元对集RH,则有:
RH????k,l?,?m,n?????Zr?Zc???Zr?Zc?|k?m?0,l?n?1???????1,1?,?1,2???,???1,2?,?1,1???,???1,2?,?1,3???,???1,3?,?1,2???,???2,1?,?2,2???,???2,2?,?2,1???,???2,2?,?2,3???,???2,3?,?2,2???,???3,1?,?3,2???,???3,2?,?3,1???,???3,2?,?3,3???,???3,3?,?3,2??? (3.10)
?在给定方向和距离时,实际常通过计算共生灰度i和j像元对数来表示
15
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
P?i,j|d,??。例如距离为d,方向为00和900的公式分别为:
P?i,j|d,00??#???k,l?,?m,n?????Zr?Zc???Zr?Zc?|k?m?0,l?n?d,f?k,l??i,f?m,n??j?0P?i,j|d,9?0?? (3.11)
和
????#k?,?l,mn????,?r?Zc???Zjr?Z?ck?m?d,?l?n0,,k?l,?if?,?m?n?f?Z| (3.12)
其中:k,m和l,n分别在所选计算窗口中变动,#表示使大括号成立的像元对数。同理,可以确定其他方向上的P?i,j|d,??的计算公式。
由灰度层共生矩阵可以计算出一组参数,用来定量描述纹理特性。有人总结可计算14种参数,其中下面五种是比较常用的参数:
(1) 能量:
E(d,?)???P?ij,d|??,? (3.13)
i,j2(2) 熵: (3) 惯性矩:
I(d,?)??i(?j2P)?ij,d?|? , (3.15)
i,jH(d,?)???P?ij,d|??,i,j2lPo?gijd,?? | , (3.14)
(4) 局部平稳性:
?)?? L(d,i,j11??i?j?2P?ij,d|??, (3.16)
(5) 相关:
C(d,?)??(i??)(j??xi,jy)P?i,j|d,???x?y (3.17)
其中,
?x??i?P?i,j|d?,?
ij?y??j?P?ij,d|??,ji?x???i??x?i2?P?i,jj|d?,??y???j??y?j2
?P?ij,d|??,i如何选择距离d和方向?,以及如何用共生矩阵的参数作纹理分析,长期以来一直是研究者们关心的课题。利用纹理特征进行图像检索,我们可以构造四个方向的共
16
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
篮球03-814,篮球03-0,篮球03-310,篮球03-526,篮球03-886,篮球03-142,篮球 03-1162,乒乓球01-382,乒篮球03-814 乓球06-1402,乒乓球05-22,篮球03-766,风景036-486 乒乓球01-310,乒乓球01-1258,乒乓球02-0,乒乓球02-750,乒乓球03-75,乒 乒乓球01-310 篮球03-814,篮球03-0 100% /17% 100% /50% 乒乓球01-310,乒乓球100% 100% /100% 01-1258,乒乓球02-0,/85% 乒乓球02-750,乒乓球乓球05-742,乒乓球02-125, 03-75,乒乓球05-742 篮球02-1402,篮球02-1294,篮球02-1402,篮球篮球02-1426,新闻04-586,篮球02-1354,排球06-286, 篮球02-1402 新闻04-94,新闻04-490,新闻04-154 排球01-0,排球03-670,排球03-202,排球02-0,排球02-394,排球01-430 排球01-0 影视01-0,影视01-418,影视01-46,影视01-70,新闻22-1102,新闻23-418,新闻 23-502 影视01-0 排球01-0,排球02-1294,篮球02-1354,新闻04-490 100% /33% 66.7% /50% 100% 100% /84.6% 03-670,排球03-202,/73% 排球02-0,排球02-394,排球01-430 影视01-0,影视01-418 100% /43% 100% /67% 42
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
乒乓球01-0,乒乓球03-200,乒乓球01-0,乒乓球乒乓球03-800,乒乓球02-200,乒乓球02-550 乒乓球01-0 新闻23-1126(包含2个子帧), 新闻23-1126(包含2个新闻23-1174(包含2个子帧) 子帧) 100% 100% /100% 03-200,乒乓球03-800 /75% 100% /50% 100% /100% 新闻23-1126 篮球03-1426,篮球03-1294,篮球03-1426,篮球篮球03-1402 03-1294 100% /33% 100% /50% 篮球03-1426 MTV-01-70,MTV-03-406,MTV-01-454,MTV-01-670,MTV-02-0,MTV-03-166, MTV-01-502,MTV-01-754,MTV-01-70 MTV-01-286,MTV-04-322,MTV-04-418,MTV-03-718,MTV-03-34,MTV-04-478 风景014-0,风景014-846,风景014-273,MTV-004-194,综艺07-22,综艺07-238,综艺 风景014-0 07-418,新闻23-658 风景014-0,风景014-846,风景014-273,MTV-004-194 100% /38% 100% /75% MTV-01-70,MTV-02-0, 100% MTV-04-478,MTV-03-34,MTV-04-418,MTV-03-166,MTV-01-454 /29% 75% /43% 43
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
风景006-0,风景006-182,风景011-0 风景006-0,风景006-182 100% /67% 100% /100% 风景006-0 风景002-377,风景003-0,足球09-394,足球09-178,风景003-39,MTV05-754,风景 风景002-377 002-52,足球09-250,足球07-394 风景002-377,风景003-0 66.7% 66.7% /22% /100%
针对100幅具有较典型纹理和形状特征的视频关键帧图像的实验总体结果如表4.1所示:
查到率 查准率 颜色特征检索 93.5% 45.1% 颜色+纹理检索 92.7% 57.9% 颜色+形状检索 91.9% 62.5% 表4.1 三种检索方式检索效果对比
实验结果表明:虽然由于噪声的影响,两种复合检索方式查到率比原来颜色特征检索平均降低了1.2个百分点,但是在查准率上却提高了15.1个百分点,该课题实现的检索系统在对具有较明显纹理和形状特征的图像进行检索时比原来的检索性能有了一定的提高。
44
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
第五章 总结与展望
5.1本文工作
本文的主要工作总结如下:
(1) 本文研究了标准的视频信息管理系统的流程,并按照此流程设计了纹理和形状
检索模块,以动态链接库的形式,嵌入到整个大的视频管理系统当中,实现了预期的检索功能。
(2) 前人已经对纹理形状的检索做过大量的复杂的研究,本文的创新性就在于,实
现了纹理、形状、颜色直方图、文字标识等多特征融合的检索方式。 (3) 虽然本次课题完成的检索系统与实际应用还有一定的距离,但整个系统在纹理
和形状特征的提取和检索上都做了比较深入的研究,对形状特征中Canny、拉普拉斯和Sobel算子作了对比,将颜色纹理双特征检索和颜色形状双特征检索分别与颜色单特征检索的效果作了对比,得到了一些有实际价值的实验结果。
5.2本课题未来研究方向
本次课题虽然实现了一个具有一定通用性,具有较高检索精度的检索系统,但是还有许多工作需要进一步的深入,以下列出存在的问题和相应研究方向:
(1) 形状检索方面本次试验仅比较了三个经典的算子,对于其他一些同样非常好的
算法比如小波变换等未能进行研究,纹理方面除了本文所用的灰度共生矩阵也还有很多优秀的算法像Gabor纹理特征,这些算法对本系统也是非常有价值的,在以后的工作中可以继续研究。
(2) 本系统实现了对MPEG-1/2码流以及BMP图像格式的处理。今后还要逐步实
现对其它视频类型和图像格式的支持。
(3) 本文对图像分析处理的时候都是针对整幅图像计算的特征值,这样往往将前景
和背景混为一谈,主次不分,互相影响,达不到很好的特征描述效果,在以后的工作中若加入图像分割,将前景背景分开处理,在检索的时候就可以通过前景特征检索或通过背景特征检索,检索的效率会更高,效果也会更好。
45
中国传媒大学硕士学位论文 2004级 通信与信息系统 涂中文
参考文献
[1] 张宏江.基于内容的多媒体的检索.多媒体系统杂志,1993 [2] QBIC(TM) -- IBM's Query By Image Content. URL:
http://wwwqbic.almaden.ibm.com/
[3] Shih-Fu Chang. Object-Oriented Content-Based Retrieval of Images/Videos at
Multiple Levels.URL: http://advent.ctr.columbia.edu/advent
[4] Photobook. URL:http://web.media.mit.edu/~tpminka/photobook/
[5] Moses Amadasum, Robert King. Texture Feature Corresponding to Texture
Properties. IEEE Transactions on Systems, Man and Cybernetics, 1989, 19(5):1264-1274
[6] R. W. Picard,T. P. Minka. Vision Texture for Annotation, Multimedia Systems,1995,
3(1): 3-14
[7] Kun Xu, Peter Meer, et al. Performance Analysis in Content-based Retrieval with
Textures, in Proceedings.l5th International Conference on Pattern Recognition, NJ, 2000, 4: 275-278
[8] Mihran Tuceryan and Anil K. Jain. Texture Analysis. The Handbook of Pattern Recognition and Computer Vision, World Scientific Publishing Co., 1998, 207-248
[9] R. Conners,C. Harlow. A Theoretical Comparison of Texture Algorithms. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1980, 2: 204-222 [10] Feng Zhou, Ju Fu Feng, Qing Yun Shi. Texture Feature Based on Local Fourier
Transform. IEEE International Conference Image Processing, 2001, 2: 610-613
[11] Peter Howarth, Stefan M. Ruger. Content-Based Image Retrieval,Third
Evaluation of Texture Features for International Conference,CIVR 2004,326-334 [12] 赵锋,赵荣椿.纹理分割及特征提取方法综述.中国体视学与图像分析,1998,3
(4):238-245
[13] Haralick R. M, Shanmugan K , Dinstein . Texture Features for Image
Classification [J]. IEEE Trans on Sys Man and Cyb, 1973,SMC-3(6):768-780
46
百度搜索“70edu”或“70教育网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,70教育网,提供经典综合文库基于纹理和形状检索的视频信息管理系统的研究与实现在线全文阅读。
相关推荐: