视频内容检索技术

更新时间:2023-05-08
         众所周知,安防视频监控系统不仅需要对前端实时监控,还需要对已存储的海量视频进行检索和回放。视频内容检索技术包括对监控视频运动目标检测、特征提取、相似度匹配等多项技术,是通过计算机对视频的内容进行自动分析、提取特征信息制成索引等处理。当用户查询所需的内容时,系统自动返回与检索需求最相近的图像或者视频片段。例如,可以通过检索目标照片,方便地检索到该目标在监控区域内的所有活动的录像;或基于目标的重要特征(如颜色、大小、形状等)检索指定时间、活动范围内的录像资料,从而大大提高安防视频监控系统的检索效率和应用效能。
        视频在现有的各种数据形式中,具有巨大的数据量、复杂的数据结构以及独有的时空特性。时空特性可以用来表征内容属性:空间上,视频可以区分为各个独立的物件;时间上,则表现为各自的运动特性。
        视频数据包含低层次的视觉特性信息,以及高层次的语义内容属性,其中视觉特性信息包含有颜色、形状、纹理及运动等属性:而语义内容属性包含有人物、地点、事件及情节等方面。此外,低层次的视觉特性可以通过模型知识库的推理过程,自动生成高层次的语义内容信息,其关系如图7-6所示。
图7-6视频数据特性
        安防视频监控产生的视觉资源是海量的,这些持续膨胀的视觉资源带来了相当严重的问题,大量的数字资源因无法对其进行及时有效的处理,而致使采集到的视频资源闲置。在大视频数据集合中,选择满足某些约束的视频子集是视频检索中的一个中心问题,也是安防视频监控系统必须具备的关键功能之一。本节介绍视频内容检索技术的基本概念、视频内容检索系统结构,以及视频内容检索的几个关键技术。

1. 视频内容检索技术的基本概念

1.视频内容检索的含义

       所谓检索,是指存储与检索档案信息的过程。视频检索主要包含两层含义。
     (1)检查搜索,即从广泛的存储信息中查找相应信息。视频检索的这第一层意义,就是计算机接收用户输入的查询数据,并在视频数据库中查询相匹配的数据,它和文本、图像、音频等的检索基本在过程上是相同的,但是由于查询的数据和被查询的数据的差异,在相应检索技术上有很大差别。
     (2)索引,为大量的存储信息建立索引,以便于浏览。视频检索的这第二层意义,就是计算机自动或手动载入视频数据库,并且自动或半自动地为视频数据库建立索引,从而可以进行视频数据浏览的过程。 

2.常用的视频检索方法

       常用的视频检索方法有基于文本标注信息的视频检索和基于内容的视频检索两种。
     (1)基于文本标注信息的视频检索。基于文本标注信息的视频检索是一种基于关键词的检索方法,其过程或步骤如下。
  • 手工地对视频的底层物理特征以及多高层语义特征进行逐个的文本标注。
  • 利用文本数据库有关技术来建立关键词数据库,釆用文本数据库的检索方法检索得到感兴趣的视频关键词。
  • 利用这些关键词来搜索实际的视频。
该搜索方式能够有效地检索结构化的文本信息,但是应用于视频检索会存在以下几个方面的问题。
       ①视频数据自身包含有大量信息,用手工的方法来标注视频数据的关键词费时费力。
       ②因视频数据具有相当复杂的低层视觉特征和高层语义特征,从不同的人对同一视频语义的认识存在有相当大的差别,这样就会导致关键词标注存在多义性。
     (2)基于内容的视频检索。基于内容的视频检索(Content Based Video Retrieval,CBVR)是指利用对视频数据从低层到高层的处理、分析和理解等手段获得视频内容,并根据视频数据中的场景、帧、镜头和运动对象和图像数据中的颜色、形状、纹理等特征在大规模数据库中找到满足特定的视觉特征描述的图像的过程。它需要利用图像处理、模式识别、计算机视觉、图像理解、信息检索、数据挖掘、认知科学、人工智能、人机交互等领域的相关研究成果。

3.视频内容检索的几个基本词概念及特点

     (1)视频内容检索的几个基本词的概念。
       ①帧。帧指代一副静态图像,是构成视频的最小视觉单位。
       ②视频。视频是指由一系列静态图像帧组合而成的(其中包含目标运动、摄像机运动等信息),用来表达在时间及空间上由情节及事件构成的故事或者传达特定的视觉内容。
       ③镜头。镜头是指摄像机进行一次连续拍摄所获得的内容,是视频的基本单位。借助镜头边界监测可以找到代表视频基本单元的互相独立的镜头。
       ④场景。场景是指具有一定时序关系的相似镜头的集合,这些相似镜头具有视觉特征相似,以及时间相近的特点。
       ⑤关键帧。关键帧是指用来描述一个镜头或场景的关键图像帧,用于反映一个镜头或场景的主要内容,依据镜头及场景的复杂度能够提取至少一个关键帧。
       ⑥视频摘要。视频摘要是指利用静止或运动图像序列,来对一个视频文件的内容进行简单总结。
     (2)视频内容检索的特点。
        ①突破了基于表达式检索的限制,可以直接分析视频信息,抽取特征,并利用这些特征建立索引。
        ②提取特征的方法多种多样,包括颜色、位置、形状轮廓、纹理、空间关系等。
        ③采用模糊匹配,返回相似的视频集合。 

4.视频内容检索的研究

视频内容检索的研究,主要集中在以下几个方面。
       (1)视频数据模型建立。视频数据因其信息内容的多样性、丰富性、结构的复杂性,在视频模型建立过程中必须要考虑到一些特殊问题。当前,在视频数据模型有基于分段的模型、面向对象的模型、基于层次注释的模型、代数视频数据模型等。
       (2)视频结构化。视频结构化的目标是把视频分为镜头、场景,以及序列等不同层次的逻辑单元,用以进行不同结构层次的细粒度的视频检索。镜头切换主要有突变及渐变两种方式。
       ①突变是指两个镜头间没有过渡,由一个镜头直接转换到下一个镜头的方法。在突变镜头切换中,因相邻两帧之间差别明显,所以检测的成功率也很高,成熟的方法包括颜色柱状图法和DC系数法和运动矢量法等。
       ②渐变是指两镜头之间没有明显的镜头跳跃,存在逐渐过渡的过程。渐变又可细分为淡入、淡出、溶解和扫换等。淡入是指画面渐渐增强的方式,淡出是指画面渐渐消失的方式,溶解是指一个画面在逐渐消失的同时另一画面逐渐显现的方式,而扫换是指图像从画面的某部分开始逐渐取代另一部分画面的方式。当渐变镜头切换的时候,相邻两帧之间的差别不大,并且帧之间具有一定的相关性,对渐变检测提出了很大的挑战,目前已经提出的渐变镜头边界检测方法有双阈值比较的方法、基于聚类的方法、基于数学模型的方法、基于宏块类型的方法和基于小波变换的方法等。
       镜头还只是一个物理单元,仍不足以描述有语义意义的时间或活动,或者讲在镜头层次上,还没有能力把视频节目的逻辑关系描述出来。为了从更大的视角来组织和表达视频,往往需要在镜头检测的基础上,建造更高层次的镜头集合聚类场景。聚类是指结合从属于同一场景的镜头,以形成视频层次结构,这不仅要考虑到内容相似性,而且还要考虑到时间连续性。此外,对镜头的结合还需要考虑人观看视频的感知特点,如同时或并行发生的时间必须串行地表现出来。
       将内容相近但由编辑效果而分割的镜头组合到一起组成场景称为场景构造,它是视频内容中更高层次的聚类。一般情况下,场景的生成是指合成具有一定时序关系的相似镜头,需要对视频更多的语义理解,是对视频的高层次的抽象,用来描述具有语义意义的时间或活动。可以想象,让计算机来自动完成这样抽象具有相当的难度。
       (3)关键帧提取。关键帧是指用来描述一个镜头的关键图像帧,用于反映整个镜头的主要内容。利用基于关键帧的索引技术,在大大减少数据量的情况下,可以实现对整个视频内容的快速浏览和检索,因而关键帧提取的好坏与否具有决定性的作用,这得到研究人员长期的广泛关注。关键帧的提取方法主要有基于镜头边界提取关键帧、基于运动分析提取关键帧、基于图像信息提取关键帧、基于视频无监督聚类提取关键帧、基于镜头活动性提取关键帧和基于MPEG压缩流的宏块统计特性提取关键帧等。
       (4)视频数据索引及检索。索引项的确定决定了视频数据索引的建立,而索引项及其属性的选取跟视频数据模型存在密切的关系。目前,视频索引可划分为三类:基于注释的索引、基于特征的索引和基于特定领域的索引。
        ①基于注释的索引亦称为高级索引,其针对视频模型中的定性特征而建立索引,一般利用计算机辅助手工以进行索引。当前基于注释的索引技术的研究多集中于选择注释语言、设计注释结构和设计便携的人机交互式注释界面等三个方面。 
       ②基于特征的索引属于低级索引,多采用视频模型中的机器自动识别内容的方式建立索引,用来减少人工索引的工作量,主要技术涉及对视频进行分段、识别关键帧、提取关键帧特征,之后依据这些关键帧特征来建立索引。视频数据的关键特征可是颜色、运动对象、纹理等。在当前技术水平下,视频特征提取的主要任务是在图像序列中检测出运动信息,识别与跟踪运动目标,以及估计三维运动和结构参数。
       ③基于特定领域的索引是指特别针对某特定应用领域的固有模式而建立起的索引,这种索引方法通常均是基于逻辑视频结构模型的,典型的包括新闻主持人镜头模型等。当逻辑视频数据单元被识别后,辅以语义信息来建立基于特定领域的索引,其主要约束是这些技术应用范围比较狭窄,不具备普遍性。
       传统的一维索引技术(如B-树等)并不适于用来索引多媒体数据,多媒体对象需要把颜色、形状和纹理等索引建立在一个多维空间中。当前,有很多高维索引的方法,也均有各自的优点。
       KD-树是一种特殊的二叉树,节点的值是用一个多维向量而不是一个单一的数值来表示的,每个特征向量代表了数据库中的一个对象。对于每个节点,这个K个特征向量表示数据库中的一个对象,然后根据其中一个特种向量的值进行判断来决定怎样访问其子树,在其左子树的节点都具有比判断值小的特征值,而在其右子树的节点都具有比判断值大的特征值。
       R-树及其变种作为一种多维索引结构得到了最广泛的使用。R-树是一种动态数据结构,比之KD-树更为适合索引高维的特征空间。它将特征空间划分为多维矩阵,并且这些矩阵可局部相互重叠甚至重合。R-树的问题在于每个叶节点都只能指向一个区域,而该区域可能被许多其他的矩阵所覆盖,这样就会导致如果仅仅跟踪结构的一条通路进行搜索时遇到失败的情况。为改善R-树的性能,人们提出了R+-树和R--树。树不允许矩阵发生重叠,会尽可能最小化重叠,两者的效果通常都要优于R-树,SS-树也是经过改进R-树而得到的,对于每个节点,SS-树运用最小边界矩阵,从而降低存储空间,提高最近邻检索的性能。但在高维数据集合中,SS-树会导致覆盖情况的增加,从而降低最近邻检索性能。要提高检索性能,树的更新复杂度会变得更高。
     (5)视频摘要。视频摘要是指在原始视频中提炼出视频片段,并且保留相对完整的含义,与文章的摘要类似,让用户能够迅速了解视频内容。可根据需要获得不同抽象层次及形式的视频摘要,如通过提取关键帧可以获得由静止图像构成的视频摘要;而形成由运动图像序列构成的视频摘要,当前的技术有利用先验知识来选取专题缩略,以及精彩画面剪辑的方法,利用压缩原始视频的方法来加速视频回放的速度等。

2. 视频内容检索系统的结构

       视频数据流是复杂无结构的,包含有文本、音频、图像及运动等多种媒体的表现形式,当分析和检索视频数据流时,需要综合运用多种多媒体分析技术。首先要分析视频结构,通过检测视频镜头边界把连续的视频帧分割为长短不等的镜头单元,并选择可以典型地表征镜头内容的关键帧,为实现一个高效的基于内容的视频检索系统的奠定基础;然后提取镜头中的运动特征以及关键帧的视觉特征,并将其存入视频数据库;最后,根据用户提交的查询需求,依照一定的特征将其与视频库里的特征进行相似性匹配,并把检索结果按照相似性程度提交给用户。 
       典型的基于内容的视频检索系统一般包含两个子系统;数据库系统和查询系统,如图7-7所示。
 
图7-7视频内容检索系统框图

1.系统中各模块的主要关键技术

各模块所涉及的主要关键技术如下所述。
       (1)视频结构化。对视频流进行镜头分割、关键帧提取、场景构建等结构化处理,把视频分层来表示,即划分为关键帧、镜头、场景以及视频序列等不同层次的逻辑单元,如图7-8所示。

图7-8   视频结构化表示
由图左从上到下可见,视频、场景、镜头、关键帧的分层结构化表示。
       ①视频:是视频流的最高层次,在这一层可以加入一些针对视频文件属性和内容的全局解释。
       ②场景:它描述了一个独立的故事单元,由语义相关的镜头组成,而这些镜头在时间上不一定是连续的。
       ③镜头:是指由摄像机记录下来的一段连续的帧序列,代表一组连续的动作。
       ④关键帧:视频的最小组成单元,每一帧的视频都是一幅静态图像,视频流就是由一系列连续的帧图像组成的,帧图像层具有时间序列性。关键帧是指能够描述镜头主要内容的帧。
       (2)特征提取。不仅包含对原始视频流特征的提取,还包括对以帧、镜头、场景为单元的低级特征,以及高层语义特征的提取。 
       (3)数据库系统构建。由媒体库、特征描述库以及知识库构成,其中,媒体库用于存储视频数据,如视频和图像等;特征描述库既包含手工输入的特征,又包含预处理过程中自动提取的内容特征;知识库里存放的是不同领域知识的表达。
       (4)查询接口。该模块主要作用就是设计良好的人机交互界面,接收用户的查询要求,并将此要求递交给系统;把査询结果返回到用户那里;将用户的反馈信息提交系统,利用机器学习的方法来优化査询矢量、调整相似度模型以及相关门限值,进一步査询以提高检索的相似度,最大限度地满足用户需求。
       (5)检索。检索是指利用特征间的距离函数,进行相似性的匹配。检索结果是根据用户的查询要求,以及相似性判断标准,近似得到数据库的候选集合。相似性度量方法直接关系到检索结果是否满意。
        (6)索引。对于视频数据库,通过人工标注关键词来对视频中图像的运动、帧图像的纹理、形状来进行索引,主观性太大,并且耗时,因此,要达到基于内容的视频检索的目的,必须要突破基于关键词的索引技术的限制,需要深入对视频内容经行分析,抽取语义和内容特征,建立语义索引。
        (7)检索反馈。视频检索系统将检索结果提交给用户,然而由于视频结构的复杂性和内容的丰富性,依据用户给出的示例或者特征,可能并没有从视频数据库中检索出用户所需要的视频,这就需要系统具备人机交互的能力,通过反复地迭代检索,来满足用户的需求。

2.提交查询说明的形式

       基于内容的检索系统,一般向用户提供直观的图形査询界面。主要用以下两种形式提交查询说明,这两种形式也可以结合使用。
       (1)样例査询说明。通过样例来表达查询要求。用户可以从示例模板库中选择样例,也可以浏览选择某个样例,系统将从该样例中实时提取特征矢量,用于基于案例的检查。
       (2)Schema说明。普通用户可能往往难以提供较为复杂的查询要求。因而,在这种情况下,系统向用户提供统一的Schema样式,以用来形成复杂检索条件。

3.视频内容检索流程

       基于内容的视频检索流程一般包括四个主要步骤:特征提取、数据流分割、数据分类和数据索引结构的构造和检索,如图7-9所示。
图7-9基于内容的视频检索流程 
       在图中,特征提取是用来寻找分类特征的表达式,提炼出能够用来分辨待检索信息,以及其他视频数据信息的不同特征矢量。视频数据中的特征,可以是在图像及视频中抽取的视觉特征,亦可以是从音频中抽取的听觉等特征。根据多媒体底层物理特性进行视频数据分割,当连续的视频数据切分成不同的物理单元后,接着需要进一步对识别分类这些物理单元,最后通过聚类再归属成事先定义好的特定语义类。
基于内容的查询和检索属于逐步求精的循环过程,具体分为:
  • 在初始阶段,可以用查询语言来形成简单查询,系统把查询描述映射为具体的视频特征矢量。
  • 将查询特征与特征库中的特征,按照某种匹配算法进行相似度匹配。
  • 满足一定相似性条件的一组候选结果,依照相似度大小排序后返回给用户。
  • 系统返回的査询结果用户可提出反馈,通过交互选择,直至得到满意的结果;或者根据返回结果,凝练查询描述,形成一个新的查询。
  • 逐渐缩小查询范围,并重复迭代,直到用户对查询结果满意。

3. 视频内容检索的关键技术

1.视频分割

       对视频分割存在两种不同的理解:一种解释为,视频分割是把连续视频流分割成相对独立、具备特定语义的视频片段的过程,这种解释更接近其字面上的意思;另一种理解是,视频分割是指对图像或者视频,按照一定的标准分割成区域,.旨在从视频序列中分离出具有一定意义的视频对象。对视频分割的第一种解释更近似于镜头边界检测的概念,后一种解释类似于视频对象提取的概念。
       虽然,视频是由一系列帧组成,但是,作为一幅静态的图像,绝大部分帧(非关键帧)对视频检索的作用不大。在新一代视频编码标准中,音/视频信号是基于对象表示的,视频对象定义为在视频场景中用户能够存取(搜索、浏览)及操作(剪切、粘贴)的实体。例如,一个人、一条狗、一架飞机、一栋建筑物都是一个视频对象,它们都具有语义上的意义。在正在拟定的MPEG-7标准中,提出了基于对象的检索、浏览技术。这样,以视频对象提取为目的的视频分割,就在基于内容的视频检索过程中发挥非常重要的作用。
       具体到安防视频监控系统获得的视频,它们具有两方面特点。
       一是没有严格意义上的“镜头切换”。监控视频不同于电视节目、新闻、电影等视频,后者一般都有明显的镜头切换痕迹,如新闻视频,演播室内的主要镜头和新闻现场镜头往往在背景内容、画面变化频度等方面具有明显的差异,这为镜头边界检测提供了很大便利。监控视频一般由位置和角度固定的摄像机持续长时间釆集获得,一般认为自始至终''就一个镜头”,不存在“镜头切换”的说法。即便如此,安防监控视频依然具有分割的需求,因为绝大部分时间监控画面内都是静态背景,或者正常的动态画面,这些片段对监控意义不大,重要的是需要通过视频分割在长时间连续的视频中,获取人员入侵、交通事故等特定事情发生的视频片段。
       另外一个特点是,当前安防监控摄像机大部分釆用H.264、MPEG-2等编码标准,而MPEG-4等基于对象的编码标准很少。根据应用背景的不同,安防监控视频的分割采用不同的标准。例如,入侵监控的视频,将某一人和物体在图像中的出现和消失作为片段的头和尾  
       (图7-10所示即为基于目标跟踪确定视频片段的头和尾):又如,交通监管视频将某一车道/道路上出现非正常停车作为事故片段的头,车流恢复顺畅作为片段的结束。
图7-10基于目标跟踪确定视频片段的头和尾
 
        因此,安防监控视频的分割主要依赖视频目标物体(包括人)的检测、识别跟踪技术。具体来说,包括视频目标的特征表示、视频目标的检测与识别,以及视频目标的轨迹跟踪。
       (1)视频目标的特征表示。被跟踪的目标物体多种多样,一般可通过其自身的形状和外观来进行表示和标记,常见的形状描述方法包括质点、几何形状、目标轮廓、模板、多视角模型等;另外,还要选取合适的特征变量,对目标物体进行区分和标记。目标特征是目标物体具有的一个或多个具有量化性质的度量函数,目标特征的选择与目标的表示方法有紧密关系,常见的目标特征包括颜色、边缘、纹理、光流场特征(用于描述像素运动分布情况)等。为了弥补单一特征自身的缺陷和局限,常将多种特征组合使用。
       (2)视频目标的检测与识别。视频目标跟踪的前提是要在视频图像上锁定目标所在的区域,也就是目标检测,然后由跟踪算法确定当前帧和下一帧目标位置的一致性关系。常用的目标检测方法有如下几种。
       ①基于局部特征的方法。该方法利用目标物体的某些局部特征来识别目标,其优点在于,当非关键性的部分特征被遮挡时,利用其余的可见特征仍然能完成目标检测。目前常用的局部特征包括显著特征点、边缘特征及显著区域等,其中特征点包括Harris角点、KLT(Kanade-Lucas-Tomasi)特征点、SIFT(Scale-Invariant Feature Transform)特征点、SURF(SpeededUpRobustFeature)特征点等。利用特征点的局部特征描述方法判别性强、定位性准,在图像发生几何形变、光照变化、尺度变换甚至模糊等情况下,具有良好的稳定性。而利用边缘特征的检测方法,虽然在抗干扰能力方面有显著特点,但它是以牺牲算法'的复杂度为代价的。而显著特征区域,则包括HOG(HistogramofOrientedGradient),MSER(MaximallyStableExternalRegions)及基于灰度的区域。同样,为了弥补单一特征的不足,常将不同局部特征融合使用,发挥各自优势,提高准确度。
        ②基于运动信息的方法。该方法是目标检测识别最基本的手段,前提是假设视频前景运动物体与背景的运动特征不同,背景运动缓慢,前景目标运动相对较快,通过运动分析,可以有效分离目标区域。
        差分方法是最常用的基于运动信息的目标检测方法。首先对相邻帧的视频图像运用减法运算,然后利用检测帧序列之间的相关性,并最终确定运动目标。对于摄像机位置固定,背景静止的安防监控视频,差分方法尤其适用,只需通过相邻帧的差分检测画面中的差异部分,即可提取目标的运动区域。差分方法直观易用,对光照变化不敏感,但是在目标移动过缓或者过快时,检测结果准确度不高。
       基于背景建模的方法,将当前视频图像与实现完成建模的背景图像相减,若某区域结果大于给定阈值,则认定它是运动区域。这种方法需要背景模型随环境变化不断更新,并且计算量比较大。
       此外,光流法是通过计算机图像的光流场并对其图像经行分割来检测运动目标,该方法计算更加复杂,一般需要专门的硬件加速设备才能做到实时处理。
       ③基于图像分割的方法。该类分割方法将图像划分为多个子区域,子区域中的像素点具有近似的属性,如颜色、纹理等,子区域还包含一些简单的语义信息。
       基于子区域的计算,相比基于像素点的计算,效率更高,它为确定目标所在区域起辅助作用。
       ④基于模板匹配的方法。其基本思想是将实际视频图像的各个子图像与某个预置的目标模板匹配,度量其相关性,相关度量值最大的位置,即为与目标模板最匹配的图像区域,也就是目标物体所在的区域。
       匹配计算可用的方法有最大互相关函数、最小均方差函数、最大匹配像素统计、欧氏距离等。一般来说,目标会随着时间和角度的变化而发生外观变化,因此目标模板也需要随之更新。
       ⑤基于统计学习的方法。这类方法主要借鉴人工智能领域中的机器学习理论,将目标检测识别问题转化为分类问题。在目标样本集合上自动学习,进而训练目标分类器,最后利用分类器在视频图像中找到目标位置,在动态目标检测方面的应用效果非常良好,也因此受到了广泛的重视,其中常用的机器学习算法包括神经网络、Adboost,支持向量机SVM、强化学习等。
    (3)视频目标的轨迹跟踪。目标跟踪是为了获取目标在视频图像中的移动路线,以便确定视频分割的边界。在不同的应用环境下,对目标跟踪算法的性能要求各不相同,如公共场所的监控系统通常要长时间持续工作,所以更注重算法稳定性,能抵抗噪声、光纤等因素的不良影响;防入侵监控系统对目标检测和跟踪算法的准确性要求更高;而对交通监控而言,跟踪算法需要处理的目标更多,目标移动速度快,算法运行的实时性至关重要。
       通过目标跟踪来确定目标在视频序列图像中的位置轨迹,主流的方法是自顶向下的方法,又称为模型驱动的方法。首先利用先验知识对跟踪问题建模,同时产生一组关于目标状态的假设,然后利用实际的帧序列验证目标状态的正确性,实现对目标位置和状态的估计。这种方法主要是依据贝叶斯理论,在已知目标先验概率及当前状态的情况下,把目标跟踪转化成推断求解目标最大后验概率的问题。到目前为止,出现很多求解贝叶斯后验概率的方法,其中粒子滤波(又称为凝聚算法,Condensation)适用于任何能用状态空间来表示的非线性系统,对状态参数的非线性特性有更强的建模能力,可以更精确地表示动态目标状态的后验概率。

2.关键帧提取

       在构建基于内容的视频检索过程中,关键帧的提取是极其重要的步骤。关键帧试图反映其所在视频片段的主要事件,以这种复合人类视觉感知并有意义的方式来表达视频内容。关键帧提取是一个简单而有效的视频内容抽象方法,为接下来的视频聚类样本数量考虑,关键帧提取亠般采用“宁错勿缺"的原则。以下就是几种常用的关键帧提取方法。
     (1)基于镜头的方法。该方法建立在基于镜头边界的视频分割基础上,起初仅选择镜头的第一帧作为关键帧,到后来首尾帧均作为关键帧。毋庸置疑,这种方法获取的关键帧很难代表整段视频。之后提出帧平均法和直方图法,前者从视频镜头中选取所有帧在某像素点的像素平均值,然后把镜头中在该点上像素值与平均值最接近的帧当成关键帧;直方图法则是对全部帧的统计直方图求平均,然后选择跟该平均值最接近的帧当成关键帧,其中最常用的直方图是颜色特征直方图。安防监控视频虽然不存在镜头切换,但是在根据目标检测识别实现了视频分割之后,也可在视频片段中利用上述两类方法提取关键帧。
     (2)基于内容的方法。为了尽可能全面地反映视频片段(镜头)的内容,提取多个关键帧是很有必要的。根据信息论的观点,两个相关性很小的帧图像比类似的、相关性较大的帧图像能提供更多的信息,所以在由连续N帧图像组成的视频中,关键帧的提取更倾向于考虑不相似的两帧。为避免计算任意两帧的相关性,降低计算复杂度,研究人员提出如下的简化方法。
       令f表示一帧图像,设s={f1,f2,...,fN}表示含有N帧图像的视频片段,如f1、fn/2、fN作为候选关键帧,帧间距离定义为D=(fi,fj)=∑xy∣fi(xy),fj(xy)∣。在提取关键帧时,先计算两两候选帧之间的距离D(f1fn/2)D(fn2,fn)和D(f1fn),并将它们与预先设定的阈值T比较,选取关键帧的规则如下。
  • 如果它们都比r小,说明它们相似度高,选取丿近为关键帧。
  • 如果它们都比7大,说明它们不相似,差距较大,将这三帧都选为关键帧。
  • 在其他情况下,取距离最大的两帧图像作为关键帧。
        上述方法能根据视频内容的变化程度在首、尾及中间帧中选取1〜3帧作为关键帧,既具有一定的代表意义,同时又可降低算法的计算复杂度。
      (3)基于运动分析的方法。在常用的目标检测方法介绍的基于运动信息的方法中,提到的差分方法与背景建模方法都没有考虑运动特征。而现有研究人员提出的基于光流分析的算法,是利用光流分析计算视频中的运动量,当运动量达到局部最小时,选取关键帧,所以这种基于运动分析的方法能够依据视频结构,选择相应数目的关键帧。
        此外,在由多镜头构成的视频序列中,多个重复交替出现的镜头(如对话、打斗)可以聚类成在一个事件情节,此时可以对这些镜头分别提取关键帧,组成表示该情节的关键帧,因此有了基于聚类的提取方法。为能够直接依据压缩视频中的某些特征来提取关键帧,需要首先检测视频镜头的切换,研究前后镜头间帧的运动补偿关系,然后确定关键帧,这就是基于压缩和切换的提取方法。安防监控视频很少出现镜头补偿,因此这两种方法在安防监控视频提取关键帧的方案中很少使用。

3.视频特征提取与索引

        对中低层视频特征数据建模,采用的技术是传统的图像处理与视频处理技术,提取这些特征,实现诸如“某日白天的视频”、“有物体经过的视频”,以及“从画面左边运动到右边的视频”等的查询。对于高层语义数据建模,釆用的是计算机视觉、认知科学、统计与逻辑推理、人工智能等技术,提取视频对象及相关关系,甚至产生对场景事件的摘要,实现诸如“有人经过的视频”、“有人越过安全线的视频”,以及“有交通事故发生的视频”等的检索。
        视频内容分析过程中的特征提取与视频结构分析,所依据的特征不甚相同,用于描述不同层次视频单元内容,既包括视觉特征同时又包括语义特征。内容特征,特别是语义特征的提取,是一个相当复杂的问题,当前大多停留在研究领域,即使现在正在使用的一些技术(如人脸识别),都对视频的背景提出了较高的要求。
视频索引是利用视频数据来实例化视频数据模型的过程,它与传统的数据库索引具有相当大的差异,它不仅仅是一种索引结构,更重要的是,它还要提供一种抽象数据类型,用来对视频数据的视觉和语义特征进行封装,才能给对基于内容的视频检索提供支持。
        从索引的产生方式来看,索引可划分为人工索引、半自动索引及自动索引。自动索引实现起来相对困难,人工索引受人为主观因素的影响太大,半自动索引首先运用计算机对那些能够自动识别的内容进行自动索引,其余内容交给由人工索引来完成。
从索引内容来看,视频检索分为如下两类。
        (1)基于注释的索引,通常是高级索引,涉及视频的语义内容,亦称为关键词索引;基于特征的索引,通常是低级索引,主要涉及视频的视觉内容,其目标是建立全自动索引。当前,学术界研究最多的,依旧是基于特征的索引。
        (2)视频特征索引的一个重要特征是多维数据索引,用于建立索引的特征往往在几十维甚至达到上百维,如此高的维度必然会使检索的性能遭到破坏。解决多维索引有两种途径:一是降维,二是利用空间访问的方法(SpatialAccessMethods,SAM),降维又可由特征选择与提取两种方式实现。而SAM方法主要是使用各种索引结构,如R-树,来避免产生时间复杂度因数据库的规模而线性增加的问题。

4.内容相似性检索

        基于内容的视频检索的一个相当重要的特点是:它是一种相似性检索,这与基于关键词的检索方法是不甚相同的。基于关键词的检索方法釆取的是精确匹配,而基于内容的视频检索则釆取的是相似性匹配,其评价标准是用户提供的查询关键词(或样例帧)跟数据库中视频的特征向量之间的相似度,因此在基于内容的视频检索中,相似性度量是一个非常关键的问题。
       (1)用户查询的描述方式。为进行视频检索,用户提交的检索要求通常支持三种描述方式。
       ①自然语言或格式化的自然语言描述,即通过关键词查询,这需要匹配关键词和视频的标注信息,这些标注信息属于特征提取信息。
        ②通过样例帧或视频图像的方式来检索,这样可降低语言描述的认为主观因素的影响,例如借助截取到的某人的视频图像,就可以在监控视频中搜索到它出现在监控镜头中的时间,通过获得的相似帧可浏览它所代表的视频片段。
       ③通过样例视频来描述检索对象的动态特征,例如,人的面容特征可通过化妆、衣帽遮挡等躲避监控系统,不过人的行走姿势倒是不会轻易改变的,因而可依据含有目标的视频片段检索到对象岀现的时间和地点。
当然,这样的应用对视频目标动态特征的数据建模以及相似度匹配算法都提出了极高的要求,并且其应用领域也比较单一。
       (2)相似性检索方法。基于内容的视频检索釆用的方法是近邻搜索和范围搜索。近邻搜索指的是把与用户查询最相近的一组检索单元递交给用户;范围搜索则是把与用户查询的相似度小于某一门限的全部检索单元或者与用户查询最相似的&个检索结果提交给用户,因而也称为k-NN-Searchc桶算法(Bucketing Algoruthm)是最早的近邻搜索算法,它有规则地划分数据集空间,并把每个划分里的数据点储存到一个桶中。那么怎么在所有的桶中定位到跟给定点最近的桶,成为桶算法待解决的主要问题。实验结果表明,桶算法对数据空间进行的规则划分,特别是对于均匀分布的数据集来讲,是相当有效的。
       另外一种较为实用的检索方法是基于k-d树的多维超立体(Multi-Dimensional Rectangulationwithkd-tree)的方法,它的做法是按照一定规则选取某一坐标轴方向当成切分方向,借助空间划分的方法把数据集切分成两个子数据集,然后对这两个子数据集进行递归切分,形成一棵检索树。该结构不仅具有检索速度快的特点,而且其空间复杂度跟数据集的维数成线性关系,是当前解决k-NN-Search问题最行之有效的方法之一。 
        按照不同的匹配范围,相似性量度又可划分为局部匹配及全局匹配两种,这两种方法各有优缺点。局部相似性量度方法借助了视频片段间的时序关系,但仅限制在简单的线性关系上;而全局相似性量度方法具有检索信息少、检索速度快等优点,但却缺乏描述视频的时序关系。针对以上方法的缺陷,有关研究人员研究了基于运动物体轨迹的方法,以及基于流形假设的最短特征线方法等。
        到目前为止,绝大多数的视频检索系统,都建立在度量低级视频特征变量的相似性的基础之上,高层的语义特征相似性度量依旧是检索系统的重点和难点。因为视频结构复杂,语义信息丰富且歧义较多,例如,“人骑着自行车经过”,以及“人推着自行车经过”,这样的查询请求看似简单,但对计算机系统来讲,却要借助庞大的人类知识库,数据、行为建模的过程也是非常复杂的。
        (3)快速检索的方法。基于内容的视频检索,需要在高维的数据空间中寻找类似的视频片段,而这个过程需要相当大的计算量。因而,怎样提高检索的效率,是所有视频检索系统都要解决的难题。在某些应用环境下,倘若检索结果中仅仅存在一个或几个满意的视频片段,就能够极大提升用户的满意度。因此,许多时候会牺牲搜索的精确度,来换取更高的检索速度,从而产生了近似最近邻搜索技术。
        提升检索速度的另外一个杀手铜是分层索引。例如,把视频片段分成“片段-帧”两层或者“片段-镜头-帧”三层,高层媒体对象(如片段)的相似性需要依据低层的相似性来衡量,在进行低层相似性比较之前,首先通过高层过滤掉一部分待选视频。例如,对于二次型距离的直方图匹配检索而言,可釆用计算量较小的距离度量,先对信息库进行一番检索,得到一组候选的媒体对象集后,再对此候选媒体对象集,运用原距离度量,这样可极大降低计算量。

5.视频语义分析与检索

        在视频内容检索中,语义是一个十分重要的概念,但目前语义的定义还不甚完善。因同一张图像或同一片段视频可能会面对多种不同的重用需求,可能要依据许多不同的、无法预料的甚至可能是矛盾的需求,来对同一种内容进行解释,这就需要媒体数据内容要利用某种更有条理的语义领域模型,而不是关键词来进行描述。语义数据涵盖媒体所要表达的内容以及对象,把它们连接成为领域概念集,将媒体数据本身与“概念世界”架起桥梁。
        对语义的理解是人们能够从图像或视频中获得的信息,它包括视频中存在的重要的物体、它们之间的时空关系,以及视频背后所隐含的内容。例如,物体I和物体II的上面,而物体III在物体IV的下面,在它们的位置发生改变时,我们所得到的信息也发生改变的;又如在足球比赛中,当足球在两个门柱之间时,我们得到的信息是进球了,而检测发现足球在两个门柱外,则没有进球;另外时间信息对于视频理解也是十分重要的,如事件X发生在事件Y之前还是之后,人们所得到的信息也是不同的。
        多媒体数据语义模型应具有三个基本属性。
      (1)模型的提炼性。语义模型要高于多媒体数据自身,可充分表达多媒体数据的语义内容结构,并指导相关的各种语义处理过程。
      (2)模型的继承性。语义模型本身是一种在演变和进化过程中的继承模型,这是模型发展的前提条件;另外,语义模型中的语义概念和关系存在着继承关系,在相关的语义对象间需继承上层对象对应的属性等内容。
       (3)模型的自适应性和可扩充性。语义模型必须要能够适应不同领域的语义应用需求,  
迫切需要更为灵活、高适应性的多媒体数据语义模型。
        有别于结构建模,语义模型着重开发高层概念化的模型,用于表示和管理视频中包含的对象、事件和关系等语义信息来支撑语义査询的实现。有研究者已经调研了VIMSYS、VideoGraph、AVIS、Extended ExlF02,Videx、BilVideo.THVDM等系统,调研结果表明,语义模型可以划分为基于标注的模型,以及所谓的丰富语义模型。丰富语义模型来源于人工智能领域的语义网络、本体论和数理逻辑等方法,可以描述现实世界中的实体(如概念、事件、对象),以及它们之间的多种复杂关系。利用分层结构,在最底层表示原始的视频流,在最高层表示语义信息,中间可能涉及逻辑视频段层、特性层及媒体对象层等。
        语义获取主要有三种方式:基于人工标注与反馈、基于知识映射及基于内部信息提取。语义获取模型,如图7-11所示。

图7-11   语义获取模型
        基于人工标注和反馈提取语义包括两方面含义:一是人工添加文本与元数据,属于人工标注方法,具有表达信息直观、易于机器处理的特点,而缺点是将其大规模实现起来存在困难,工作量巨大;二是通过UI反馈技术,利用交互学习的方法来修正多媒体数据的语义描述。
        基于知识映射来提取语义,就是把计算视觉与图像理解的相关技术引入到多媒体索引和检索领域,根据领域知识建立基于模型的语义探测与识别方法。换言之,就是对照内容中所探测到的概念建立对的模板,通过监督学习的方法,对底层特征进行训练,建立概念与特征间的映射关系。
        基于内部信息提取语义主要是指使用自动语音识别技术或者文字识别技术,进行自动或半自动的标注工作,当前已成功在新闻视频和广播视频数据等领域得到有效应用,但对于格式、类型、结构复杂,内容多变,表现多样的多媒体数据来说,却无法适用。
        在获得语义信息后,对于发现语义内容的结构、指导语义处理而言,语义的层次分析具有十分重要的意义。语义表示模型的研究需要将底层特征(如颜色、字频等)包含在语义范畴内,通过分析原始数据,利用导出的数据和内容来组建底层语义层,如颜色、音调、字频、词频等底层特征;在此基础之上,借助知识、经验、模型等将导出或者发现的高层语义信息纳入到高层语义层,如对象语义、抽象语义以及空间语义。
       对于任何利用语义以达到跨越语义搜索鸿沟的目的,当前主要采用的是相关反馈和自动标注的方法。前者借助系统和用户的交互获取多媒体数据高层语义与底层特征间的映射关系;后者则使用关键词标注多媒体数据,这一技术在图像领域得到了广泛应用。但目前对于彻底解决语义搜索鸿沟问题,基于语义的方法还不甚有效和完善。

下一篇

智能化弱电工程学习资料免费送

弱电工程

智能化弱电工程学习资料免费送

本次主要对智能化弱电工程资料文章及目录进行重新分类定义,涉及到“报警、公共广播、可视对讲、门禁、综合布线、无线覆盖、数字电视、楼宇自控“等常见系统施工报价的内容,非常全面,是做弱电智能化项目非常实用的资料,可以直接参考,省时省力。 ...

相关内容

通过视频客服咨询隐私安全是否有保障?

通过视频客服咨询隐私安全是否有保障?

在探讨视频客服系统的安全和隐私保护之前,我们首先需要了解其基本定义和主要特点。视......

最新动态

2025-01-22

客户资料管理系统:如何实现快速资料检索?

客户资料管理系统:如何实现快速资料检索?

客户资料管理系统是一种集成化的软件解决方案,旨在帮助企业高效管理客户数据和信息。......

最新动态

2025-01-17

即时通讯软件为何不能实现多人同时高清视频通话?

即时通讯软件为何不能实现多人同时高清视频通话?

即时通讯(Instant Messaging,简称IM)是一种实时的、双向的电子......

最新动态

2025-01-16