具有运动视频的音乐服务的制作方法

专利2024-06-16 65

本申请是分案申请，其原案申请是申请号为pct/us2018/025392、申请日为2018年3月30日的pct申请并且于2019年9月29日进入中国国家阶段，申请号为201880023124.8，名称为“具有运动视频的音乐服务”。

本申请要求2017年3月31日提交的美国专利申请15/475,488的优先权，其公开内容通过引用全部加入本文。

本申请一般涉及数据处理的技术领域，并且在各种实施例中涉及提供与音频内容一起的运动视频内容的方法和系统。

背景技术：

音频内容的呈现通常缺少相应的运动视频内容。将运动视频内容的呈现与这种音频内容的呈现结合存在很多技术挑战，包括但不限于，确定使用什么运动视频以及如何将运动视频内容和音频内容结合。

技术实现要素：

公开了提供与音频内容一起的运动视频内容的示例方法和系统。在以下描述中，出于解释的目的，阐述了许多具体细节以便提供对示例实施例的透彻理解。然而，对于本领域技术人员显而易见的是，可以在没有这些具体细节的情况下实践本实施例。

在一些示例实施例中，计算机实现的方法包括：接收主要音频内容；基于主要音频内容与至少一个参考音频内容的比较，来确定至少一个参考音频内容满足预定的相似度阈值；针对所述至少一个参考音频内容中的每一个参考音频内容，基于与所述参考音频内容相关联地存储而不是与所述主要音频内容相关联地存储的运动视频内容来识别运动视频内容；以及与所述主要音频内容在设备上的呈现同时地使所识别的运动视频内容显示在所述设备上。在一些实施例中，主要音频内容包括音乐。

在一些实施例中，所述比较包括将主要音频内容的指纹数据与至少一个参考音频内容的指纹数据进行比较。

在一些实施例中，运动视频内容的识别还基于与设备相关联的用户的配置文件。

在一些实施例中，与所述主要音频内容在设备上的呈现同时地使所识别的运动视频内容显示在所述设备上，包括：将所述至少一个参考音频内容的数据与所述主要音频内容的数据同步；以及基于所述至少一个参考音频内容的数据与所述主要音频内容的数据的同步，将所识别的运动视频内容与所述主要音频内容同步。在一些实施例中，基于至少一个参考音频内容的指纹数据与主要音频内容的指纹数据的比较，使所述至少一个参考音频内容的数据与所述主要音频内容的数据同步。

在一些实施例中，至少一个参考音频内容包括至少两个参考音频内容，所述至少两个参考音频内容中的每一个与不同的运动视频内容相关联地存储，并且所识别的运动音频内容包括不同的运动视频内容中的每一个的一部分。

本发明公开的方法或实施例可以被实现为具有一个或更多个模块(例如，硬件模块或软件模块)的计算机系统。这些模块能够由计算机系统的一个或更多个处理器执行。本发明公开的方法或实施例能够实例化为存储在机器可读介质上的指令，该指令在被一个或更多个处理器执行时，使一个或更多个处理器执行所述指令。

附图说明

本发明的一些实施例通过示例而非限制的方式在附图中示出，其中相同的附图标记表示类似的元件。

图1是示出根据一些示例实施例的适用于提供与音频内容一起的运动视频的网络环境的框图。

图2示出根据一些示例实施例的主要音频内容与多个参考音频内容的比较。

图3a-3b是示出根据一些示例实施例将运动视频内容与主要音频内容同步的概念图。

图4a-4b是示出根据一些示例实施例将不同运动视频内容与主要音频内容同步的概念图。

图5是示出根据一些示例实施例的提供与音频内容一起的运动视频内容的方法的流程图。

图6是示出根据一些示例实施例的使运动视频内容与设备上呈现的音频内容同时在设备上显示的方法的流程图。

图7是示出根据一些示例实施例的移动设备的框图。

图8是根据一些示例实施例的能够在其上执行本文描述的方法的示例计算机系统的框图。

具体实施方式

图1是示出根据一些示例实施例的适于提供与音频内容一起的运动视频内容的网络环境100的框图。网络环境100包括内容提供者110、一个或更多个设备130和一个或更多个数据源140(例如，数据源140-1至数据源140-n)，所有以上这些都经由网络120彼此通信地耦合。内容提供者110、设备130和数据源140中的每一个可以全部或部分地在计算机系统中实现，如下文参考图8所述。

用户132也在图1中示出。用户132可以是人类用户(例如，人类)、机器用户(例如，由软件程序配置为与设备130交互的计算机)或其任何合适的组合(例如，机器协助的人类或人类监督的机器)。用户132不是网络环境100的一部分，而是与设备130相关联并可以是设备130的用户。例如，设备130可以是属于用户132的台式计算机、车载计算机、平板电脑、导航设备、移动媒体设备或智能手机。

图1中示出的任何机器、提供者、模块、数据库、设备或数据源可以在计算机中实现，该计算机由软件修改(例如，配置或编程)为特定目的的计算机，为机器、提供者、模块、数据库、设备或数据源执行本发明描述的功能中的一个或更多个。例如，能够实现本发明所述的方法的一个或更多个的计算机系统在下文参考图8进行讨论。如本发明所使用的，“数据库”是数据存储资源，并且可以存储结构化为文本文件、表格、电子表格、关系数据库(例如，对象关系数据库)、三元组存储、分层数据存储或其任何合适的组合的数据。此外，图1中示出的数据库、设备或数据源中的两个或更多个可以组合成单个机器，而本发明描述的用于任何单个数据库、设备或数据源的功能可以细分为多个数据库、设备或数据源。

网络120可以是能够在机器、数据库和设备之间或之中通信的任何网络。因此，网络120可以是有线网、无线网(例如，移动网或蜂窝网)或其任何合适的组合。网络120可以包括构成专用网、公共网(例如，因特网)或其任何合适组合的一个或更多个部分。因此，网络120可以包括结合局域网(lan)、广域网(wan)、因特网、移动电话网络(例如，蜂窝网)、有线电话网络(例如，普通老式电话系统(pots)网络)、无线数据网络(例如，wifi网络或wimax网络)或其任何合适的组合。网络190的一个或更多个部分可以经由传输介质传送信息。如本发明所使用的，“传输介质”应该包括任何能够存储、编码或携带用于机器执行指令的无形介质，并包括数字或模拟通信信号或其它无形介质以辅助这类软件的通信。

内容提供者110包括计算机系统，该计算机系统配置为向设备(例如设备130)提供音频内容和视频内容。在一些示例实施例中，内容提供者110包括参考确定模块112、视频识别模块114、呈现模块116和一个或更多个数据库118中的一个或更多个的任何组合。在一些示例实施例中，模块112、模块114和模块116，以及数据库118驻留在具有存储器和至少一个处理器的机器上。在一些示例实施例中，模块112、114和116，以及数据库118驻留在相同的机器上，而在其它的示例实施例中，模块112、模块114和模块116以及数据库118中的一个或更多个驻留在经由网络(例如网络120)彼此通信的单独的远程机器上。

在一些示例实施例中，参考确定模块112被配置为接收主要音频内容。音频内容可以包括音乐，例如单首歌曲。然而，可以想到，其它类型音频内容也在本发明的范围内。在一些示例实施例中，参考确定模块112配置为根据主要音频内容与参考音频内容的比较来识别或确定至少一个参考音频内容满足预定的相似度阈值。例如，参考确定模块112可以在数据库118上存储的多个考音频内容中搜索满足预定的相似度阈值的参考音频内容。附加地或可替代地，参考确定模块112可以在一个或更多个外部数据源140中搜索满足预定的相似度阈值的参考音频内容。外部数据源140可以包括与内容提供者110分开且独立的数据源。

在一些示例实施例中，主要音频内容与参考音频内容的比较包括将主要音频内容的数据与参考音频内容的数据进行比较。被比较的数据可以包括唯一地标识或表征相应的音频内容的指纹数据。图2示出根据一些示例实施例的主要音频内容与多个参考音频内容的比较。在图2中，将主要音频内容210的指纹数据212与多个参考音频内容220(例如，参考音频内容220-1，...,参考音频内容220-n)的多个指纹数据222(例如，指纹数据222-1，...,指纹数据222-n)比较。在一些示例实施例中，每一次比较产生指示主要音频内容和参考音频内容之间的相似度的相应的统计数据。这类统计数据的一个示例是误码率。然而，可以想到，其它统计数据也在本发明的范围内。在一些示例实施例中，参考确定模块112确定对应于参考音频内容220的统计数据是否满足预定阈值。

在一些示例实施例中，参考确定模块112配置为使用主要音频内容210的指纹数据212与参考音频内容220的指纹数据222之间的精确指纹匹配作为预定阈值。例如，参考确定模块112可以在多个参考音频内容220中搜索以将音频记录的一个版本(例如，压缩的或噪音的)与相同音频记录的一个未降级版本进行匹配。

在一些示例实施例中，参考确定模块112配置为使用主要音频内容210的指纹数据212与参考音频内容220的指纹数据222之间的模糊指纹匹配作为预定阈值。例如，参考确定模块112可以在多个参考音频内容220中搜索并将歌曲记录(或戏剧表演，旁白等)与相同歌曲(或戏剧表演，旁白等)的不同表现形式或记录进行匹配。

在一些示例实施例中，参考确定模块112配置为使用主要音频内容210的音频特征(例如和弦、节奏特征、乐器声部等)与参考音频内容220的这类音频特征之间的匹配作为预定阈值。例如，参考确定模块112可以在多个参考音频内容220中搜索，并根据不同音频记录的音频特征之间的特定相似度将一个音频记录与另一音频记录进行匹配，例如根据确定两首不同歌曲的节奏特征之间的高度相似度来匹配两首不同歌曲。

在一些示例实施中，针对已确定满足相似度阈值的参考音频内容220的一个或更多个，视频识别模块114基于与参考音频内容相关联地存储而不与主要音频内容相关联地存储的运动视频内容来识别运动视频内容。在一些示例实施例中，视频识别模块114配置为根据与设备130相关联的用户132的配置文件来进一步识别运动视频内容，所述设备将呈现主要音频内容和已识别的运动视频内容的组合。在一些示例实施例中，用户配置文件存储在数据库118中。用户132的配置文件可以包括以下的一个或更多个的组合：用户132收听的音频内容的历史记录、用户132喜欢某类或某种音频内容的指示、音频内容的购买历史、用户132观看的运动视频内容的历史、用户132喜欢某类或某种运动视频的指示以及用户132的人口统计信息(例如，性别、年龄、地理位置)。指示对某类音频内容或某类视频内容的潜在喜好的其他信息也可以包括在用户132的配置文件中。在几种不同的运动视频内容满足相似度阈值的情况中，视频识别模块114可以使用用户132的配置文件根据什么运动视频内容与用户132最相关来选择一个或更多个运动视频内容。

在一些示例实施例中，呈现模块116配置为使得由视频识别模块114识别的运动视频内容与设备132上呈现的主要音频内容同时在设备130上显示。在主要音频内容包括歌曲的一些示例实施例中，因此，内容提供者110已经为内容提供者110正在为其存储音乐视频的歌曲动态地创建了音乐视频。

在一些示例实施例中，呈现模块116配置为将参考音频内容的数据与主要音频内容的数据同步，然后基于参考音频内容的数据与主要音频内容的数据的同步，将已识别的运动视频内容与主要音频内容同步。在一些实施例中，根据参考音频内容的指纹数据与主要音频内容的指纹数据的比较，将参考音频内容的数据与主要音频内容的数据进行同步。

图3a-3b是示出根据一些示例实施例的将运动视频内容与主要音频内容同步的概念图。在图3a中，主要音频内容210被示出为由音频段310-1、310-2、310-3和310-4构成，参考音频内容220被示出为由音频段320-1、320-2、320-3和320-4构成。参考音频内容220还被示为与运动视频内容320相关联地存储，运动视频内容被示出为由视频段322-1、322-2、322-3和322-4构成。可以想到，其它分段配置也在本发明的范围内。在图3a中，作为呈现模块116同步主要音频内容210的音频段310和参考音频内容220的音频段320的结果，主要音频内容的音频段和参考音频内容的音频段根据其各自的时间戳在时域对齐。类似地，运动视频内容320的视频段322和与该运动视频内容相关联的参考音频内容220的音频段320对齐。

在图3b中，使用参考音频内容220的音频段320与主要音频内容210的音频段310的同步，以及运动视频内容320的视频段322与参考音频内容220的音频段320的同步，呈现模块116将运动视频内容320的视频段322与主要音频内容210的音频段310同步。

在一些示例实施例中，与多个不同参考音频内容相关联的多个不同运动视频内容中的部分与主要音频内容结合。图4a-4b是示出根据一些示例实施例的将不同运动视频内容与主要音频内容同步的概念图。在图4a中，与3a类似，示出了主要音频内容210由音频段310-1、310-2、310-3和310-4构成，参考音频内容220由音频段320-1、320-2、320-3和320-4构成。参考音频内容220还被示出与运动视频内容320相关联地存储，该运动视频内容由视频段322-1、322-2、322-3和322-4构成。作为呈现模块116同步主要音频内容210的音频段310和参考音频内容220的音频段320的结果，主要音频内容的音频段和参考音频内容的音频段根据其各自的时间戳在时域对齐。类似地，运动视频内容320的视频段322和与该运动视频内容相关联的参考音频内容220的音频段320对齐。

附加地，在图4a中，示出另一参考音频内容420由音频段420-1、420-2、420-3和420-4构成。参考音频内容420还被示出与运动视频内容420相关联地存储，该运动视频内容由视频段422-1、422-2、422-3和422-4构成。参考音频内容420的视频段420-1、420-2、420-3和420-4和视频段422-1、422-2、422-3和422-4与主要音频内容210的音频段310-1、310-2、310-3和310-4对齐。

利用同步，呈现模块116从运动视频内容320的部分和运动视频内容420的部分生成运动视频内容425。作为结果，视频段322-1与音频段310-1同步，视频段322-2与音频段310-2同步，视频段422-3与音频段310-3同步，并且视频段422-4与音频段310-4同步。

在一些示例实施例中，呈现模块116配置为基于主要音频内容210的音频段310与参考音频内容220的音频段320之间的精确指纹匹配将主要音频内容210的音频段310与参考音频内容220的音频段320进行同步。例如，呈现模块116可以基于音频记录(例如，压缩的或噪音的)一个版本与相同音频记录的一个未降级版本之间的匹配将主要音频内容210的音频段310与参考音频内容220的音频段320同步。

在一些示例实施例中，呈现模块116配置为基于主要音频内容210的音频段310与参考音频内容220的音频段320之间的模糊指纹匹配将主要音频内容210的音频段310与参考音频内容220的音频段320进行同步。例如，呈现模块116可以根据歌曲记录(或戏剧表演、旁白等)与相同歌曲(或戏剧表演、旁白等)的不同表现形式或记录之间的匹配将主要音频内容210的音频段310与参考音频内容220的音频段320同步。

在一些示例实施例中，呈现模块116配置为利用主要音频内容210的音频段310的音频特征(例如，和弦、节奏特征、乐器声部等)与参考音频内容220的音频段320的这类音频特征之间的匹配将主要音频内容210的音频段310与参考音频内容220的音频段320进行同步。例如，呈现模块116可以基于不同音频记录的音频特征之间的特定相似度将主要音频内容210的音频段310与参考音频内容220的音频段320同步，例如，基于确定两首不同歌曲的节奏特征之间的高度相似度来同步两首不同歌曲。

在一些示例实施例中，视频识别模块114和呈现模块116配置为识别不同的运动视频内容以将其与相同的主要音频内容同步并同时显示，从而将相同音频内容的视频体验从一个播放更改为下一个播放。从主要音频内容的一个呈现到下一个呈现的视频体验的改变可以是部分的，例如通过将一个视频段或一个场景换成另一视频段或另一场景，同时将一个呈现中的至少一个音频段或一个场景保持到下一呈现中。可替代地，从主要音频内容的一个呈现到下一个呈现的视频体验的改变可能是完整的，例如，通过将用于呈现主要音频内容的所有视频段替换为完全不同的视频段，以用于随后呈现主要音频内容。例如，在一天中，覆盖歌曲的整个现场表演的视频内容可以与主要音频内容同步并同时显示，然后在第二天，涵盖工作室(例如，与现场表演不同)中同一首歌曲的整个表演的视频内容，而不是涵盖歌曲整个现场表演的视频内容，可以与相同的主要音频内容同步并同时显示。视频体验的这种改变可以基于检测到的视频内容的流行度变化(例如，每天视频内容的总youtube观看量的变化)，或可以基于检测到的将与主要音频内容一起的视频内容所呈现给的用户的喜好或行为的改变(例如，youtube上的用户观看视频内容的习惯的改变)或可以是随机的。可以想到，可以使用其它因素引起视频内容从一个呈现到另一呈现的改变。

图5是示出根据一些示例实施例的提供与音频内容一起的运动视频内容的方法500的流程图。方法500可以由处理逻辑执行，该处理逻辑可以包括硬件(例如，电路、专用逻辑、可编程逻辑、微代码等)、软件(例如，处理设备上运行的指令)或其组合。在一个示例实施例中，方法500由图1中的内容提供者110或其组件或模块中的一个或更多个的任何组合执行。

在操作510，内容提供者110接收主要音频内容。在一些实施例中，主要音频内容包括音乐(例如，歌曲)。在操作520，内容提供者110基于主要音频内容与至少一个参考音频内容的比较来确定至少一个参考音频内容满足预定的相似度阈值。在一些实施例中，比较包括将主要音频内容的指纹数据与至少一个参考音频内容的指纹数据进行比较。在操作530，针对至少一个参考音频内容的每一个参考音频内容，内容提供者110基于与至少一个参考音频内容相关联地存储而不是与主要音频内容相关联地存储的运动视频内容来识别运动视频内容。在一些实施例中，基于与设备相关联的用户的配置文件来进一步识别运动视频内容。在操作540，内容提供者110使所识别的运动视频内容与设备上呈现的主要音频内容同时在设备上显示。可以想到，本发明描述的任何其它特征能够并入方法500。

图6是示出根据一些示例实施例的使运动视频内容与设备上呈现的音频内容同时在设备上显示的方法600的流程图。方法600可以由处理逻辑执行，该处理逻辑可以包括硬件(例如，电路、专用逻辑、可编程逻辑、微码等)、软件(例如，处理设备上运行的指令)或其组合。在一个示例实施例中，方法600由图1中的内容提供者110或其组件或模块中的一个或更多个的任何组合执行。

在操作610，内容提供者将至少一个参考音频内容的数据与主要音频内容的数据进行同步。在操作620，内容提供者110基于至少一个参考音频内容的数据与主要音频内容的数据的同步来将所识别的运动视频内容与主要音频内容进行同步。在一些实施例中，基于至少一个参考音频内容的指纹数据与主要音频内容的指纹数据的比较，来将至少一个参考音频内容的数据与主要音频内容的数据进行同步。可以想到，本发明描述的任何其它特征能够并入方法600。

示例移动设备

图7是示出根据示例实施例的移动设备的框图。移动设备700能够包括处理器702。处理器702可以是适合于移动设备700的各种不同类型的商用处理器中的任何一种(例如，xscale架构微处理器，无互锁管线阶段的微处理器(mips)架构的处理器或其它类型的处理器)。存储器704、例如随机存储器(ram)、闪存或其它类型的存储器通常可访问处理器702。存储器704能够适用于存储操作系统(os)706和应用程序708，诸如可以向用户提供lbs的启用移动位置的应用。处理器702能够直接地或经由适当的中间硬件耦合到显示器710和一个或更多个输入/输出(i/o)设备712，例如，键盘、触摸面板传感器、麦克风等。类似地，在一些实施例中，处理器702能够耦合到与天线716连接的收发器714。收发器714能够配置为根据移动设备700的性质经由天线716既发送又接收蜂窝网络信号、无线数据信号或其它类型的信号。此外，在一些配置中，gps接收器718还能够使用天线716来接收gps信号。

模块、组件和逻辑

本文将某些实施例描述为包括逻辑或多个组件、模块或机制。模块能够构成软件模块(例如，机器可读介质上或传输信号中包含的代码)或硬件模块。硬件模块是能够执行某些操作和能够以某种方式配置或设置的有形单元。在示例实施例中，一个或更多个计算机系统(例如，独立的、客户端或服务器计算机系统)或计算机系统的一个或更多个硬件模块(例如，处理器或处理器组)能够由软件(例如，应用或应用部分)配置为操作以执行本文所描述的某些操作的硬件模块。

在各种实施例中，可以机械地或电子地实现硬件模块。例如，硬件模块能够包括永久性配置为执行某些操作的专用电路或逻辑(例如，如专用处理器，例如现场可编程门阵列(fpga)或专用集成电路(asic))。硬件模块行还可包括由软件临时配置以执行某些操作的可编程逻辑或电路(例如，如包含在通用处理器或其他可编程处理器中)。应该意识到，成本和时间的考虑能够决定将硬件模块机械地实现为专用的和永久配置的电路还是临时配置的电路(例如，软件配置的)。

因此，应该明白术语“硬件模块”具有有形实体，该实体是物理构造的实体，其被永久性配置(例如，电路连接的)或临时配置(例如，编程的)为以某种方式操作和/或执行本文所述的某些操作。考虑其中硬件模块是临时配置(例如，编程的)实施例，每个硬件模块都不需要在任何时候及时配置或实例化。例如，在硬件模块包括使用软件配置的通用处理器的情况下，可以在不同时间将通用处理器配置为各个不同的硬件模块。因此，软件可以相应地配置处理器，例如，在一个时刻构成特定的硬件模块，而在另一不同时刻构成不同的硬件模块。

硬件模块能够提供信息给其它硬件模块以及从其它硬件模块接收信息。因此，所描述的硬件模块能够被认为是通信耦合的。当多个这样的硬件模块同时存在时，可以通过将模块中的硬件连接起来的信号传输(例如，通过适当的电路和总线)来实现通信。在其中在不同时间配置或实例化多个硬件模块的实施例中，可以例如通过在多个硬件模块可以访问的存储器结构中存储和检索信息来实现这种硬件模块之间的通信。例如，一个硬件模块能够执行操作并将该操作的输出存储到与其通信耦合的存储设备中。然后，另一个硬件模块可以在以后的时间访问存储设备，以检索和处理存储的输出。硬件模块还能够发起与输入或输出设备的通信并能够对资源(例如，信息集合)进行操作。

本文所述的示例方法的各种操作可以至少部分地由临时配置(例如，通过软件)或永久性配置以执行相关操作的一个或更多个处理器执行。无论是临时配置或永久性配置，这些处理器能够构成处理器实现的模块，这些模块可以执行一个或更多个操作或功能。在一些示例实施例中，本文提到的模块能够包括处理器实现的模块。

类似地，本文描述的方法能够至少部分地由处理器实现。例如，一个或更多个处理器或处理器实现的模块能够执行方法中的至少一些操作。某些操作的执行能够分布在一个或更多个处理器之间，不仅驻留在单个机器内，也部署在许多机器上。在一些示例实施例中，一个或更多个处理器能够位于单个位置(例如，在家庭环境、办公室环境内或作为服务器群)，而在其它实施例中，处理器能够分布在多个位置。

一个或更多个处理器还能够在“云计算”环境中或作为“软件即服务”(saas)来支持相关操作的性能。例如，至少一些操作能够由计算机组(例如包括处理器的机器)执行，这些操作可经由网络以及通过一个或更多个合适的接口(例如，api)访问。

示例实施例能够实现为数字电子电路或计算机硬件、固件、软件或其组合。示例实施例能够使用计算机程序产品实现，该计算机程序例如是有形地包括在信息载体中的计算机程序，该信息载体例如是通过数据处理装置执行的或控制数据处理装置操作的机器可读介质，所述数据处理装置例如是可编程处理器、计算机或多个计算机。

计算机程序能够以任何形式的编程语言写入，包括编译或解释的编程语言，并且计算机程序能够以任何形式部署，包括作为独立程序或作为模块、子程序或其它适用于在计算环境中使用的单元。计算机程序能够部署为在一个计算机上或在一个站点或分布在多个站点并通过通信网络相互连接的多个计算机上执行。

在示例实施例中，可以通过执行计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器来执行操作。方法操作也可以通过专用逻辑电路(例如，fpga或asic)执行，并且示例实施例的装置可以实现为专用逻辑电路。

计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离并通常通过通信网络进行交互。客户端和服务器的关系是通过在各个计算机上运行并彼此具有客户端-服务器关系的计算机程序产生的。在部署可编程计算系统的实施例中，应该意识到，硬件和软件架构均值得考虑。具体地，应该意识到选择在永久配置的硬件(例如，asic)中，还是在临时配置的硬件(例如软件和可编程处理器的结合)中，还是在永久配置和临时配置的硬件的组合中实现某些功能可以作为设计选择。在各种示例实施例中，以下列出了可以部署的硬件(例如，机器)和软件架构。

图8是根据一些示例实施例的计算机系统800的示例形式的机器的框图，在在计算机系统中，可以执行使该机器执行本文所描述的一个或更多个方法的指令824。在可选实施例中，机器作为独立设备运行或可以连接(网络连接)到其它设备。在网络连接的部署中，机器可以在服务器-客户端网络环境中以服务器或客户端机器的身份运行或在对等(分布式)网络环境中作为对等机器运行。机器能够是个人计算机(pc)、平板电脑、机顶盒(stb)、个人数字助理(pda)、蜂窝电话、网络设备、网络路由器、交换机或网桥或任何能够执行使机器采取指定动作的指令(顺序的或其它的)的机器。此外，虽然仅示出单个机器，但是术语“机器”也应被理解为包括机器的任何集合，这些机器单独地或共同地执行指令集(或多个指令集)以执行本文描述的一个或更多个方法。

示例计算机系统800包括处理器802(例如，中央处理单元(cpu)、图像处理器(gpu)或两者)、主存储器804和静态存储器806，它们经由总线808彼此通信。计算系统800可以进一步包括视频显示单元810(例如，液晶显示器(lcd)或阴极射线管(crt))。计算系统800还包括字母数字输入设备812(例如，键盘)、用户界面(ui)导航(或光标控制)设备814(例如，鼠标)、磁盘驱动器单元816、信号生成设备818(例如，扬声器)和网络接口设备820。

磁盘驱动器单元816包括机器可读介质822，其上存储了一组或更多组数据结构和指令824(例如，软件)，这些数据结构和指令被被本文描述的任何一种或更多种方法或功能所体现或利用。在计算机系统800执行指令824期间，指令824也可以全部或至少部分地驻留在主存储器804内和/或处理器802内，主存储器804和处理器802也构成机器可读介质。指令824也可以全部或至少部分地驻留在静态存储器806内。

尽管在示例实施例中将机器可读介质822示为单个介质，但是术语“机器可读介质”能够包括存储一个或更多个指令824或数据结构的单个介质或多个介质(例如，集中式或分布式数据库和/或关联的缓存和服务器)。术语“机器可读介质”也应被认为包括能够存储、编码或携带由机器执行的指令并使机器执行本实施例的一个或更多个方法，或者能够存储、编码或携带被所述指令使用或与其相关联的数据结构的任何有形介质。术语“机器可读介质”应被认为包括但不限于固态存储器，以及光学和磁性介质。机器可读介质的具体示例包括非易失性存储器，其包括半导体存储设备(例如，可擦可编程只读存储器(eprom)，电可擦可编程只读存储器(eeprom)和闪存设备)、诸如内部硬盘和可移动磁盘的磁盘、磁光盘以及光盘只读存储器(cd-rom)磁盘和数字通用光盘(或数字视频光盘)只读存储器(dvd-rom)磁盘。

指令824还能够通过通信网络826使用传输介质发送或接收。指令824还能够使用网络接口设备820和许多已知传输协议(例如，http)的任何一种传送。通信网络的示例包括lan、wan、因特网、移动电话网、pots网络和无线数据网(例如，wifi和wimax网络)。术语“传输介质”应该包括任何能够存储、编码或携带由机器执行指令的无形介质，并包括数字或模拟通信信号或其它无形介质以辅助这类软件的通信。

尽管已经参考具体示例实施例描述了实施例，但是显而易见的是，可以对这些实施例进行各种修改和改变，而不脱离本发明的更广泛的精神和范围。因此，本文和附图应被认为是说明性的而不是限制性的。形成其一部分的附图以说明而非限制的方式示出了可以实践本发明主题的具体实施例。足够详细地描述了所示的实施例，以使本领域技术人员能够实践本文公开的教导。能够利用其它实施例，并从中得出其它实施例，使得能够在不脱离本发明的范围的情况下进行结构和逻辑上的替换和改变。因此，不应在限制意义上理解此具体实施方式，并且各种实施例的范围仅由所附权利要求以及这些权利要求所赋予的等同物的全部范围来限定。

尽管本文已经图示和描述了具体实施例，但是应当理解，为实现相同目的而设计的任何布置都可以代替所示的具体实施例。本发明意图覆盖各种实施例的任何和所有修改或变化。通过阅读以上描述，以上实施例的组合以及本文中未具体描述的其它实施例对于本领域技术人员将是显而易见的。

技术特征：

1.一种计算机实现的方法，包括：

接收主要音频内容；

由至少一个硬件处理器基于主要音频内容与至少一个参考音频内容的比较，来确定至少一个参考音频内容满足预定的相似度阈值；

针对所述至少一个参考音频内容中的每一个参考音频内容，基于与该一个参考音频内容相关联地存储而不是与所述主要音频内容相关联地存储的运动视频内容来识别运动视频内容；以及

与所述主要音频内容在设备上的呈现同时地使所识别的运动视频内容显示在相同设备上。

2.根据权利要求1所述的计算机实现的方法，其中，所述主要音频内容包括音乐。

3.根据权利要求1所述的计算机实现的方法，其中，所述比较包括将所述主要音频内容的指纹数据与所述至少一个参考音频内容的指纹数据进行比较。

4.根据权利要求1所述的计算机实现的方法，其中，运动视频内容的识别还基于与设备相关联的用户的配置文件。

5.根据权利要求1所述的计算机实现的方法，其中，与所述主要音频内容在设备上的呈现同时地使所识别的运动视频内容显示在所述设备上包括：

将所述至少一个参考音频内容的数据与所述主要音频内容的数据同步；以及

基于所述至少一个参考音频内容的数据与主要音频内容的数据的同步，使识别的运动视频内容与所述主要音频内容同步。

6.根据权利要求5所述的计算机实现的方法，其中，所述至少一个参考音频内容包括至少两个参考音频内容，所述至少两个参考音频内容中的每一个与不同的运动视频内容相关联地存储，并且所识别的运动音频内容包括不同的运动视频内容中的每一个的一部分。

7.根据权利要求1所述的计算机实现的方法，其中，所述比较包括将所述主要音频内容的第一音频特征与所述至少一个参考音频内容的第二音频特征进行比较，其中所述第一音频特征和所述第二音频特征选自：和弦、节奏特征和乐器声部。

8.一种系统，包括：

至少一个处理器；和

存储有可执行指令的非暂时性计算机可读介质，所述可执行指令在被执行时使所述至少一个处理器执行操作，所述操作包括：

接收主要音频内容；

基于所述主要音频内容与至少一个参考音频内容的比较来确定至少一个参考音频内容满足预定的相似度阈值；

与所述主要音频内容在设备上的呈现同时地使所识别的运动视频内容显示在相同设备上。

9.根据权利要求8所述的系统，其中，所述主要音频内容包括音乐。

10.根据权利要求8所述的系统，其中，所述比较包括将所述主要音频内容的指纹数据与所述至少一个参考音频内容的指纹数据进行比较。

11.根据权利要求8所述的系统，其中，运动视频内容的识别还基于与设备相关联的用户的配置文件。

12.根据权利要求8所述的系统，其中，与所述主要音频内容在设备上的呈现同时地使所识别的运动视频内容显示在所述设备上包括：

将所述至少一个参考音频内容的数据与所述主要音频内容的数据同步；以及

基于所述至少一个参考音频内容的数据与主要音频内容的数据的同步，使识别的运动视频内容与所述主要音频内容同步。

13.根据权利要求12所述的系统，其中，所述至少一个参考音频内容包括至少两个参考音频内容，所述至少两个参考音频内容中的每一个与不同的运动视频内容相关联地存储，并且所识别的运动音频内容包括不同的运动视频内容中的每一个的一部分。

14.根据权利要求8所述的系统，其中，所述比较包括将所述主要音频内容的第一音频特征与所述至少一个参考音频内容的第二音频特征进行比较，其中所述第一音频特征和所述第二音频特征选自：和弦、节奏特征和乐器声部。

15.一种非暂时性机器可读存储介质，有形地包括指令集，所述指令集在被至少一个处理器执行时，使所述至少一个处理器执行操作，所述操作包括：

接收主要音频内容；

由至少一个硬件处理器基于主要音频内容与至少一个参考音频内容的比较，来确定至少一个参考音频内容满足预定的相似度阈值；

与所述主要音频内容在设备上的呈现同时地使所识别的运动视频内容显示在相同设备上。

16.根据权利要求15所述的非暂时性机器可读存储介质，其中，所述比较包括将所述主要音频内容的指纹数据与所述至少一个参考音频内容的指纹数据进行比较。

17.根据权利要求15所述的非暂时性机器可读存储介质，其中，运动视频内容的识别还基于与设备相关联的用户的配置文件。

18.根据权利要求15所述的非暂时性机器可读存储介质，其中，与所述主要音频内容在设备上的呈现同时地使所识别的运动视频内容显示在所述设备上包括：

将所述至少一个参考音频内容的数据与所述主要音频内容的数据同步；以及

基于所述至少一个参考音频内容的数据与主要音频内容的数据的同步，使识别的运动视频内容与所述主要音频内容同步。

19.根据权利要求18所述的非暂时性机器可读存储介质，其中，所述至少一个参考音频内容包括至少两个参考音频内容，所述至少两个参考音频内容中的每一个与不同的运动视频内容相关联地存储，并且所识别的运动音频内容包括不同的运动视频内容中的每一个的一部分。

20.根据权利要求15所述的非暂时性机器可读存储介质，其中，所述比较包括将所述主要音频内容的第一音频特征与所述至少一个参考音频内容的第二音频特征进行比较，其中所述第一音频特征和所述第二音频特征选自：和弦、节奏特征和乐器声部。

技术总结
公开了一种与音频内容一起提供运动视频内容的技术。在一些示例实施例中，计算机实现的系统被配置为执行包括以下的操作：接收主要音频内容；基于主要音频内容与至少一个参考音频内容的比较，来确定至少一个参考音频内容满足预定的相似阈值；针对至少一个参考音频内容中的每一个参考音频内容，基于与该一个参考音频内容相关联地存储而不是与所述主要音频内容相关联地存储的运动视频内容来识别运动视频内容；与所述主要音频内容在设备上的呈现同时地使所识别的运动视频内容显示在所述设备上。

技术研发人员：马库斯·K·克莱莫
受保护的技术使用者：格雷斯诺特公司
技术研发日：2018.03.30
技术公布日：2021.04.06

转载请注明原文地址:https://xbbs.6miu.com/read-19703.html