本文档涉及用于在递送多媒体内容的电视装置或视频服务器上标识多媒体内容和相关联的信息,并使嵌入式软件应用程序能够利用多媒体内容来提供与所述多媒体内容同步的内容和服务的技术。各种实施例涉及用于提供自动化音频分析以从描绘体育事件的电视节目内容标识和提取信息,以便创建与用于比赛中和比赛后观看的视频精彩片段相关联的元数据的方法和系统。
背景技术:
1、长期以来,已经设想例如交互式广告的增强型电视应用程序以及具有比赛前、比赛中和比赛后交互式应用程序的增强型节目指南。正在要求原先为广播电视而设计的现有电缆系统支持许多新应用程序和服务,包括交互式电视服务和增强型(交互式)节目指南。
2、用于实现增强型电视应用程序的一些框架已经标准化。示例包括opencabletm增强型电视应用程序消息传递规范以及tru2way规范,它们是指通过有线视频网络递送的交互式数字电缆服务,并包括例如交互式节目指南、交互式广告、比赛等的特征。另外,有线电视运营商“ocap”程序提供了例如电子商务购物、在线银行、电子节目指南和数字视频录制的交互式服务。这些努力已实现了第一代视频同步应用程序,与编程者/广播公司递送的视频内容同步,并为电视节目提供了额外的数据和交互性。
3、视频/音频内容分析技术和功能强大的移动装置的最新发展为开发与实况电视节目事件同步地运行的复杂应用程序开辟了一系列新的可能性。在音频信号处理和计算机视觉方面的这些新技术和进步,以及现代处理器计算能力的提高,使得能够实时生成伴有当前在电视和其它媒体环境中缺乏的元数据的复杂的节目内容精彩片段。
技术实现思路
1、呈现了一种系统和方法以实现音频数据的自动实时处理,例如从体育事件电视节目内容提取的音频流,以用于检测、选择和跟踪明显的人群噪声(例如观众欢呼)。
2、在至少一个实施例中,构建音频数据的频谱图,并且在滑动二维时频区域窗口的每个位置处标识频谱幅度峰值的任何明显集合。针对分析窗口的每个位置生成频谱指示符,并且形成具有相关联的时间位置的频谱指示符向量。在后续处理步骤中,将具有窄时间间隔的选定指示符-位置对的游程标识为潜在的感兴趣的事件。对于每个游程,对内部指示符值进行排序,以便获得具有相关联的时间位置的最大幅度指示符值。另外,针对每个游程提取时间位置(开始/中间)和持续时间(指示符-位置对的计数)。形成初步事件向量,其含有表示每个事件的最大指示符值、开始/中间时间位置和游程持续时间的参数三元组(m,p,d)。随后处理此初步事件向量以生成对应于期望的事件间隔、事件响度和事件持续时间的最终人群噪声事件向量。
3、在至少一个实施例中,一旦已经提取了人群噪声事件信息,就将其自动地附加到与体育事件视频精彩片段相关联的体育事件元数据,并且随后可以与精彩片段的自动生成结合而使用。
4、在至少一个实施例中,一种用于从事件的视听流提取元数据的方法可以包括:在数据存储区处存储从视听流提取的音频数据;使用处理器来自动地标识音频数据的指示事件发生时的人群兴奋的一个或多个部分;以及在数据存储区中存储元数据,元数据至少包括指示每个部分发生的在视听流内的时间的时间索引。替代地,音频数据可以从音频流或从先前存储的视听内容或音频内容被提取。
5、视听流可以是事件的广播。事件可以是体育事件或任何其它类型的事件。元数据可以与被认为是一个或多个用户特别感兴趣的精彩片段有关。
6、所述方法可以进一步包括在一个或多个用户中的一个观看精彩片段期间使用输出装置来呈现元数据以指示与精彩片段有关的人群兴奋水平。
7、所述方法可以进一步包括使用时间索引来标识精彩片段的开始和/或结束。如下文所描述,精彩片段的开始和/或结束可以基于偏移量被调整。
8、所述方法可以进一步包括在自动地标识一个或多个部分期间使用输出装置以将精彩片段呈现给一个或多个用户中的一个。
9、所述方法可以进一步包括:在自动地标识一个或多个部分之前,通过将音频数据重新采样到期望的采样速率来预处理音频数据。
10、所述方法可以进一步包括:在自动地标识一个或多个部分之前,通过对音频数据进行滤波以减少或去除噪声来预处理音频数据。
11、所述方法可以进一步包括:在自动地标识一个或多个部分之前,预处理音频数据以针对音频数据的至少一部分生成频谱图(二维时频表示)。
12、自动地标识一个或多个部分可以包括标识频谱图的滑动二维时频分析窗口的每个位置中的频谱幅度峰值。
13、自动地标识一个或多个部分可以进一步包括:针对分析窗口的每个位置生成频谱指示符;以及使用频谱指示符来形成具有相关联的时间部分的频谱指示符向量。
14、所述方法可以进一步包括:标识频谱指示符和分析窗口位置的选定对的游程;在一组r向量中捕获所标识的游程;以及使用一组r向量来获得一个或多个最大幅度指示符。
15、所述方法可以进一步包括从每个r向量提取时间索引。
16、所述方法可以进一步包括通过用表示最大幅度指示符、时间索引和一个游程的游程长度的参数三元组替换每个r向量来生成初步事件向量。
17、所述方法可以进一步包括处理初步事件向量以生成包括时间索引的人群噪声事件信息。
18、本文中描述了其它细节和变化。
1.一种用于从事件的描绘提取元数据的方法,包含:
2.根据权利要求1所述的方法,进一步包含:
3.根据权利要求1所述的方法,进一步包含:
4.根据权利要求1所述的方法,进一步包含:
5.根据权利要求1所述的方法,进一步包含:
6.根据权利要求1所述的方法,进一步包含:
7.根据权利要求1所述的方法,其中通过所述处理器标识所述音频数据包括人群兴奋数据的一个或多个部分包括分析对应于所述音频数据的视频数据。
8.一种包括一个或多个指令序列的非暂时性计算机可读介质,所述指令序列在由处理器执行时使计算机系统执行以下操作:
9.根据权利要求8所述的非暂时性计算机可读介质,所述操作还包括:
10.根据权利要求8所述的非暂时性计算机可读介质,所述操作还包括:
11.根据权利要求8所述的非暂时性计算机可读介质,所述操作还包括:
12.根据权利要求8所述的非暂时性计算机可读介质,所述操作还包括:
13.根据权利要求8所述的非暂时性计算机可读介质,所述操作还包括:
14.根据权利要求8所述的非暂时性计算机可读介质,其中通过所述处理器标识所述音频数据包括人群兴奋数据的一个或多个部分包括分析对应于所述音频数据的视频数据。
15.一种计算机系统,包括:
16.根据权利要求15所述的计算机系统,所述操作进一步包含:
17.根据权利要求15所述的计算机系统,所述操作进一步包含:
18.根据权利要求15所述的计算机系统,所述操作进一步包含:
19.根据权利要求15所述的计算机系统,所述操作进一步包含:
20.根据权利要求15所述的计算机系统,所述操作进一步包含:
