English Version | 关于 | 帮助  
 首页 | 高级检索 | 图像检索 | 视频检索 | 书法字检索 | 特色服务 | 出土文物 登录
 
 
   技术介绍
   双语服务 
   视频结构化与摘要 
   多媒体信息检索 
   文物数字化修复 
   多媒体资源综合推理 
   海量信息检索与知识服务 
   多模式信息呈现 
   虚拟现实服务 


·视频内容结构化与摘要生成:

    数字图书馆中含有大量的视频和音频等多媒体资源,然而,由于这些资源的缺乏内容索引和摘要描述的非结构 化特点,给使用者的高效浏览和实时检索等造成了很大的困难。如对视频而言,以流式媒体格式的顺序播放,既增加了用户时间,又无端地增 大了网络带宽开销。

   为了解决上述问题,需要通过视频内容结构化和摘要生成的手段简洁表示视频流所蕴涵的语义内容。因此,视 频内容结构化和摘要生成的目的就是通过分析视频数据中视觉、运动、听觉和字幕等多媒质信息,自动得到原始视频流中的关键帧、镜头、组 和场景等结构化索引信息,以及重要场景和重要场景之间联系的内容摘要,最终能够让用户通过网络浏览视频内容的这些简洁表示。具体而言, 研究分为以下几个部分:

   (1) 视频内容结构化。视频内容结构化的目的是得到原始视频流中的镜头边界、关键帧、组和场景等单元, 形成视频目录,来对视频内容进行索引。在镜头边界检测中,通过视觉特征(如直方图和纹理等)突变分析得到骤变和渐变 (如Fade和Dissolve等镜头效果)两种镜头的边界,然后聚类分析提取每个镜头中的关键帧,接着提取相邻镜头之间的时间相关特征,将相似 镜头合并成组。由于场景与人的感知语义相关,要提取更高语义特征,所以需要通过形状分析得到视频帧中对象信息,通过光流场分析得到视 频流中的运动特征,通过音频分割和听觉特征提取得到音频内容的表示,最后将得到的视觉、听觉和运动特征融合起来分析,形成视频场景。

   (2) 视频摘要生成。与文本文件中所存在的摘要类似,提取视频摘要可以让用户对冗长的视频内容快速了 解,这对包含了海量视频信息(如新闻和记录片等)的数字图书馆实现信息的高效选择,方便浏览和访问十分关键。视频摘要生成中,在得到 视频结构化的基础上,通过字幕OCR识别转换、人脸定位确认、语音转录和视频统计学习等技术,对视频流中地点、人物和事件进行时序分析和 模板学习,进行冗余性数据去除检查后,生成以图象、音频和文字共同表达的精彩场景(Highlights)以及场景之间的联系,这些精彩场景和 场景之间的联系就构成了视频摘要,用户可以对视频摘要中每个精彩场景进行浏览,如果感兴趣,也可以浏览每个精彩场景所对应的详尽内容, 还可以通过精彩场景之间的联系,在不同精彩场景之间,以人物、地点和事件等不同视点来了解原始的整个视频流数据。

   (3) 视频内容结构化和摘要的网络浏览。为了节约网络带宽和节省用户浏览时间,需要对原始视频流以视 频目录和视频摘要形式提供用户浏览和检索,而不是通常情况下提供整个视频流数据下载或者按照流媒体格式进行发布。这里需要实现以J2EE 等中间件平台为模式的多媒体摘要和目录发布形式。

   目前,浙江大学数字图书馆技术小组已经在视频目录生成、视频字幕定位和音频分析方面有积累,开发了“视频 目录生成”和“音频分割与特征提取”等软件,为视频内容结构化与摘要生成打下了基础。

进入子系统-->  

 
 
   

Copyright 2005 China-US Million Book Digital Library Project