直播流处理方法、装置、设备及存储介质与流程

专利2025-01-18 102

1.本公开涉及信息技术领域，尤其涉及一种直播流处理方法、装置、设备及存储介质。

背景技术：

2.随着直播技术的不断发展，用户可以通过观看直播视频实现边看边购物的体验。
3.但是，本技术的发明人发现，如果用户是中途进入的直播间，那么用户只能看到主播当前正在讲解的内容，而无法观看用户进入直播间之前主播所讲解过的内容，从而导致用户可能会错过较为重要或精彩的直播内容。

技术实现要素：

4.为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种直播流处理方法、装置、设备及存储介质，使得中途进入该直播间的用户不仅可以看到主播当前正在讲解的内容，同时还可以观看到进入该直播间之前的精华片段，从而避免用户错过较为重要或精彩的直播内容。
5.第一方面，本公开实施例提供一种直播流处理方法，包括：
6.从正在直播的直播流中实时截取候选视频片段；
7.根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息；
8.响应于针对所述直播流的播放请求，获取从所述直播流的直播开始时刻到所述播放请求的接收时刻之间截取到的至少一个候选视频片段，并从所述至少一个候选视频片段中确定出至少一个精华片段；
9.将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端。
10.第二方面，本公开实施例提供一种直播流处理装置，包括：
11.截取模块，用于从正在直播的直播流中实时截取候选视频片段；
12.识别模块，用于根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息；
13.获取模块，用于响应于针对所述直播流的播放请求，获取从所述直播流的直播开始时刻到所述播放请求的接收时刻之间截取到的至少一个候选视频片段，并从所述至少一个候选视频片段中确定出至少一个精华片段；
14.发送模块，用于将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端。
15.第三方面，本公开实施例提供一种电子设备，包括：
16.存储器；
17.处理器；以及
18.计算机程序；
19.其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。
20.第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。
21.本公开实施例提供的直播流处理方法、装置、设备及存储介质，通过从正在直播的直播流中实时截取候选视频片段，并根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息。在直播开始之后若某个用户终端才进入直播间以请求获取直播流或请求播放直播视频时，可以获取从所述直播流的直播开始时刻到所述播放请求的接收时刻之间截取到的至少一个候选视频片段，并从所述至少一个候选视频片段中确定出至少一个精华片段，然后将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给中途进入该直播间的用户终端，使得中途进入该直播间的用户不仅可以看到主播当前正在讲解的内容，同时还可以观看到进入该直播间之前的精华片段，从而避免用户错过较为重要或精彩的直播内容。
附图说明
22.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
23.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
24.图1为本公开实施例提供的直播流处理方法流程图；
25.图2为本公开实施例提供的应用场景的示意图；
26.图3为本公开实施例提供的应用场景的示意图；
27.图4为本公开另一实施例提供的直播流处理方法流程图；
28.图5为本公开另一实施例提供的直播流处理方法流程图；
29.图6为本公开另一实施例提供的直播流处理方法流程图；
30.图7为本公开另一实施例提供的直播流处理装置的结构示意图；
31.图8为本公开实施例提供的电子设备实施例的结构示意图。
具体实施方式
32.为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。
33.在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施
例，而不是全部的实施例。
34.通常情况下，如果用户是中途进入的直播间，那么用户只能看到主播当前正在讲解的内容，而无法观看用户进入直播间之前主播所讲解过的内容，从而导致用户可能会错过较为重要或精彩的直播内容。针对该问题，本公开实施例提供了一种直播流处理方法，下面结合具体的实施例对该方法进行介绍。
35.图1为本公开实施例提供的直播流处理方法流程图。该方法可以由直播流处理装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如服务器或终端，其中，终端具体包括手机、电脑或平板电脑等。另外，本实施例可以适用于如图2所示的应用场景，该应用场景中包括终端21、服务器22和终端23，其中，终端21可以生成直播流，并将直播流实时发送给服务器22，服务器22可以将该直播流实时推送给其他终端，例如，终端23。可以理解的是，接收直播流的终端不限于终端23，例如，可以是两个或两个以上的终端。另外，直播流并不限于由终端21生成，例如服务器22也可以生成直播流。如图1所示，该方法具体步骤如下：
36.s101、从正在直播的直播流中实时截取候选视频片段。
37.例如，服务器22从终端21实时的接收直播流，并将该直播流实时的推送给终端23，使得终端23可以实时的播放该直播流所对应的直播视频。例如，服务器22接收到直播流之后，可以对该直播流进行解码，从而得到直播视频。进一步，服务器22可以从该直播视频中实时截取候选视频片段，该候选视频片段的个数不限于一个，例如可以是多个。另外，候选视频片段可以是随机截取出来的，或者候选视频片段是在满足一定条件下截取出来的。
38.s102、根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息。
39.如图2所示，终端21的用户可以是主播，主播可以在一场直播中讲解一个或多个商品，每个商品可以作为一个待讲解对象。在直播开始之前，主播可以通过终端21将其在该场直播中待讲解的一个或多个商品分别对应的相关信息发送给服务器22。其中，每个商品的相关信息可以是多模态信息，例如，本实施例将每个商品的相关信息记为第一多模态信息。
40.可选的，所述待讲解对象对应的第一多模态信息包括如下至少一种：所述待讲解对象的标题信息、所述待讲解对象的图像信息、所述待讲解对象的库存量单位。
41.例如，每个商品的相关信息可以包括如下至少一种：商品编号、商品主标题、商品子标题、商品主图、商品的库存量单位(stock keeping unit，sku)。其中，商品编号用于表示该商品是该场直播中的第几号商品，第几号商品是指该场直播中第几个被讲解到的商品，即商品编号是该商品的待讲解序号。商品的sku可以是图像信息，或者也可以是文本信息。sku是库存进出计量的单位，买家购买、商家进货、供应商备货、工厂生产等都是依据sku进行的。例如，某品牌女士风衣、m码、粉色就是一组sku的组合。
42.另外，每个候选视频片段的相关信息可以记为第二多模态信息。所述候选视频片段对应的第二多模态信息包括如下至少一种：所述候选视频片段中的关键帧、所述候选视频片段中包括所述关键帧的多帧图像、所述候选视频片段中所述主播的音频信息对应的文本信息。
43.进一步，根据一个或多个商品分别对应的第一多模态信息、以及某个候选视频片
段对应的第二多模态信息，确定出与该第二多模态信息最为匹配的第一多模态信息，并将该第一多模态信息对应的商品作为主播在该候选视频片段中讲解的商品。主播在该候选视频片段中讲解的商品可以记为目标对象。由于该第一多模态信息对应的商品在本场直播中对应有商品编号，因此，根据该商品编号可以确定出该商品在数据库中对应的标识信息，该标识信息可以是该商品在数据库中的唯一标识。
44.s103、响应于针对所述直播流的播放请求，获取从所述直播流的直播开始时刻到所述播放请求的接收时刻之间截取到的至少一个候选视频片段，并从所述至少一个候选视频片段中确定出至少一个精华片段。
45.假设本场直播是从t1时刻开始的，该t1时刻也可以记为直播流的直播开始时刻，也就是说，假设终端23在t1时刻之前进入了直播间，那么正常情况下，终端23的用户可以在t1时刻观看到直播视频，或者在t1时刻之后的一个较小的延时期间内观看到直播视频。在直播过程中，服务器22可以从该直播流中不断的截取出候选视频片段，并识别出每次截取出的候选视频片段中的目标对象的标识信息。在一种可行的实现方式中，服务器22可以实时的截取出多个候选视频片段，然后识别该多个候选视频片段分别包括的目标对象的标识信息。在另一种可行的实现方式中，服务器22可以实时的截取出某个候选视频片段，并识别该候选视频片段中包括的目标对象的标识信息，然后服务器22可以再次截取另一个候选视频片段，并识别另一个候选视频片段中包括的目标对象的标识信息，以此类推。假设在t1时刻之后的t2时刻，如图3所示的终端31进入了直播间，此时，终端31可以向服务器22发送针对该直播流的播放请求。服务器22可以响应于该播放请求，获取t1时刻到t2时刻之间截取到的所有候选视频片段，此时候选视频片段的个数可以不做限制，例如可以是一个或多个。假设t1时刻到t2时刻之间，服务器22一共截取到5个候选视频片段。此时，服务器22可以进一步从该5个候选视频片段中确定出至少一个精华片段。
46.s104、将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端。
47.例如，服务器22可以将该至少一个精华片段、以及该至少一个精华片段分别包括的目标对象的标识信息推送给该播放请求对应的用户终端，即如图3所示的终端31。
48.在一种可实现方式中，将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端，包括：按照所述至少一个精华片段的时间顺序，将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端。
49.例如，确定出至少一个精华片段后，服务器22可以按照时间倒排或顺排，将该至少一个精华片段、以及该至少一个精华片段分别包括的目标对象的标识信息推送给终端31，终端31可以按照该时间倒排或顺排播放将该至少一个精华片段展示给用户。另外，每个精华片段包括的目标对象的标识信息可以是以文本或图片的形式展示给用户。
50.在另一种可实现方式中，将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端，包括：根据所述至少一个精华片段分别对应的内容分类信息，对所述至少一个精华片段进行聚类处理，得到聚类结果；根据所述聚类结果，将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端。
51.例如，在确定出至少一个精华片段后，还可以根据至少一个精华片段分别对应的内容分类信息，对该至少一个精华片段进行聚类处理，使得同种类型的精华片段可以构成一个聚类簇。进一步，服务器22可以按照一个一个的聚类簇，将该至少一个精华片段、以及该至少一个精华片段分别包括的目标对象的标识信息推送给终端31。使得终端31可以按照各个聚类簇的业务标签将各个聚类簇展示给用户。
52.在再一种可实现方式中，将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端，包括：根据所述用户终端对应的用户信息，从所述至少一个精华片段中选取待推送的精华片段；根据所述用户终端对应的用户信息，确定所述待推送的精华片段的推送顺序；按照所述推送顺序将所述待推送的精华片段推送给所述播放请求对应的用户终端。
53.例如，在确定出至少一个精华片段后，可以根据终端31的用户信息，从该至少一个精华片段中选取出该用户喜好的精华片段作为待推送的精华片段。另外，还可以根据该终端31的用户信息，确定该待推送的精华片段的推送顺序。进一步，服务器22按照该推送顺序将该待推送的精华片段推送给终端31。使得终端31可以按照该推送顺序展示该待推送的精华片段。
54.本公开实施例通过从正在直播的直播流中实时截取候选视频片段，并根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息。在直播开始之后若某个用户终端才进入直播间以请求获取直播流或请求播放直播视频时，可以获取从所述直播流的直播开始时刻到所述播放请求的接收时刻之间截取到的至少一个候选视频片段，并从所述至少一个候选视频片段中确定出至少一个精华片段，然后将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给中途进入该直播间的用户终端，使得中途进入该直播间的用户不仅可以看到主播当前正在讲解的内容，同时还可以观看到进入该直播间之前的精华片段，从而避免用户错过较为重要或精彩的直播内容。
55.图4为本公开另一实施例提供的直播流处理方法流程图。在本实施例中，该方法具体步骤如下：
56.s401、从正在直播的直播流中实时截取候选视频片段。
57.在本实施例中，从正在直播的直播流中实时截取候选视频片段，包括如下几种可实现方式。
58.在一种可实现方式中，从所述正在直播的直播流中实时截取在线人数大于或等于预设阈值的候选视频片段。
59.例如，在直播流的直播过程中，服务器22可以实时监测该直播流的在线人数，在线人数可以是观看直播视频的用户个数。当服务器22确定在线人数大于或等于预设阈值时，服务器22可以确定出在线人数大于或等于预设阈值时的这一帧图像，并以该帧图像为中心、截取窗口大小为10秒的候选视频片段。
60.在另一种可实现方式中，根据所述主播的音频信息对应的文本信息，从所述正在直播的直播流中实时截取候选视频片段。
61.例如，直播流中包括主播的音频流，服务器22接收到音频流时，可以对该音频流进
行解码得到该主播的音频信息，该音频信息可以是该主播的语音。进一步，服务器22可以通过自动语音识别技术(automatic speech recognition，asr)将该主播的音频信息转换为文本信息，并根据该文本信息从该直播流中实时截取候选视频片段。例如，当前时刻主播说“现在介绍7号商品”，转换后的文本信息也是“现在介绍7号商品”，此时，服务器22可以从当前时刻开始截取候选视频片段。
62.在再一种可实现方式中，确定所述正在直播的直播流中的关键帧，并从所述直播流中实时截取包括所述关键帧的候选视频片段。
63.例如，服务器22将正在直播的直播流进行解码得到直播视频后，可以判断该直播视频中的每一帧画面是否为关键帧，若是关键帧，则从该直播流中实时截取包括该关键帧的候选视频片段，候选视频片段的时间长度例如可以是10秒钟。该关键帧可以是主播做特定动作的一帧或连续多帧画面，该特定动作例如可以是展示动作、扬手动作等。或者，该关键帧还可以是商品的细节图，例如，商品在某一帧或连续多帧画面中占据了较大的区域，则该帧或连续多帧画面可以作为关键帧。
64.s402、根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息。
65.在一种可行的实现方式中，根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息，包括：将所述直播流中至少一个待讲解对象分别对应的第一多模态信息和所述候选视频片段对应的第二多模态信息进行匹配，得到与所述第二多模态信息的匹配度最高的第一多模态信息，并将所述匹配度最高的第一多模态信息对应的待讲解对象作为所述主播在所述候选视频片段中讲解的目标对象；根据所述匹配度最高的第一多模态信息对应的待讲解对象的待讲解序号，确定所述目标对象的标识信息。
66.例如，主播在本场直播中要介绍10款商品，主播可以在直播开始之前，通过终端21将该10款商品分别对应的第一多模态信息发送给服务器22。在直播过程中，假设服务器22从直播流中截取到某个候选视频片段，此时，服务器22可以将每款商品的第一多模态信息分别与该候选视频片段的第二多模态信息进行匹配，从而得到与该第二多模态信息的匹配度最高的第一多模态信息，例如，第5款商品的第一多模态信息与该第二多模态信息的匹配度最高，则将第5款商品作为主播在该候选视频片段中讲解的目标对象。另外，根据第5款商品的待讲解序号即5，确定出第5款商品在数据库中对应的唯一标识(identity，id)。也就是说，在本实施例中，商品编号与商品id是不同的概念，商品编号是本场直播中商品的编号或序号，而商品id是数据库中存储的商品的唯一标识。
67.在另一种可行的实现方式中，根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息，包括：若所述主播在所述候选视频片段中播报有任一待讲解对象的待讲解序号，则从所述至少一个待讲解对象分别对应的第一多模态信息中获取与所述任一待讲解对象对应的第一多模态信息；若所述任一待讲解对象对应的第一多模态信息与所述候选视频片段对应的第二多模态信息匹配，则将所述任一待讲解对象确定为所述主播在所述候选视频片段中讲解的目标对象；根据所述任一待讲解对象的待讲解序
号，确定所述目标对象的标识信息。
68.假设主播在该候选视频片段中播报了某个商品的编号，例如，在该候选视频片段中，主播播报了“第7号商品的产地是xxxx”，则服务器22可以直接从10款商品的第一多模态信息中获取出第7号商品的第一多模态信息，并将第7号商品的第一多模态信息和该候选视频片段的第二多模态信息进行匹配，若匹配成功，则将第7号商品作为主播在该候选视频片段中讲解的目标对象。进一步，根据第7号商品的商品编号“7”确定该目标对象在数据库中的唯一标识。
69.另外，若所述任一待讲解对象对应的第一多模态信息与所述候选视频片段对应的第二多模态信息不匹配，则将所述至少一个待讲解对象中除所述任一待讲解对象之外的其他待讲解对象分别对应的第一多模态信息和所述候选视频片段对应的第二多模态信息进行匹配，得到与所述第二多模态信息的匹配度最高的第一多模态信息，并将所述匹配度最高的第一多模态信息对应的待讲解对象作为所述主播在所述候选视频片段中讲解的目标对象；根据所述匹配度最高的第一多模态信息对应的待讲解对象的待讲解序号，确定所述目标对象的标识信息。
70.例如，将第7号商品的第一多模态信息和该候选视频片段的第二多模态信息进行匹配之后，确定两者无法匹配，则将该10款商品中除第7号商品之外的其他9个商品的第一多模态信息和该候选视频片段的第二多模态信息继续进行匹配，从该9个商品的第一多模态信息中确定出与该第二多模态信息的匹配度最高的第一多模态信息，例如，第6号商品的第一多模态信息与该第二多模态信息的匹配度最高，则将第6号商品作为主播在该候选视频片段中讲解的目标对象，进一步，根据第6号商品的商品编号“6”确定该目标对象在数据库中的唯一标识。
71.在本实施例中，可以将至少一个待讲解对象分别对应的第一多模态信息记为待播商品侧信息或直播间内的口袋商品信息，将候选视频片段对应的第二多模态信息记为直播间侧信息。通过将待播商品侧信息和直播间侧信息进行匹配，可以确定出主播在该候选视频片段中讲解的目标对象的标识信息。由于待播商品侧信息包括文本模态信息和图像模态信息，直播间侧信息也包括文本模态信息和图像模态信息，因此，在匹配过程中，可以将待播商品侧信息中的文本模态信息和直播间侧信息中的文本模态信息进行匹配，将待播商品侧信息中的图像模态信息和直播间侧信息中的图像模态信息进行匹配。例如，对于待播商品侧信息而言，上述实施例所述的商品编号、商品主标题、商品子标题、文本信息的sku分别是文本模态信息，商品主图、图像信息的sku分别是图像模态信息。对于直播间侧信息而言，候选视频片段中的关键帧、候选视频片段中包括所述关键帧的多帧图像分别是图像模态信息，候选视频片段中所述主播的音频信息对应的文本信息是文本模态信息。其中，假设候选视频片段一共包括20帧图像，该20帧图像中包括一个关键帧，从该关键帧的前后分别抽取若干帧图像，该若干帧图像和该关键帧构成的集合即为包括所述关键帧的多帧图像，在其他一些实施例中，包括所述关键帧的多帧图像还可以记为视频表示。
72.另外，在本实施例中，还可以通过识别商品id的模块或模型对待播商品侧信息和直播间侧信息进行匹配。例如，该模块或模型的输入信息包括待播商品侧信息和直播间侧信息，该模块或模型用于对待播商品侧信息和直播间侧信息进行匹配，匹配完之后，该模块或模型的输出信息是口袋商品中分数最高的商品id，其中，口袋商品可以是如上所述的主
播在本场直播中要介绍10款商品，分数最高的商品可以是与候选视频片段的第二多模态信息匹配度最高的第一多模态信息所对应的商品。
73.在一种可行的实现方式中，若该模块或模型确定候选视频片段中所述主播的音频信息对应的文本信息包括商品编号，则可以直接根据该商品编号确定商品id。
74.在另一种可行的实现方式中，若该模块或模型确定候选视频片段中所述主播的音频信息对应的文本信息包括商品编号，则可以获取该商品编号对应的第一多模态信息，进一步，确定该商品编号对应的第一多模态信息和该候选视频片段对应的第二多模态信息是否匹配，如果匹配，则根据该商品编号确定商品id，如果不匹配，则需要获取其他待播商品的第一多模态信息，继续匹配。
75.在又一种可行的实现方式中，若该模块或模型确定候选视频片段中所述主播的音频信息对应的文本信息不包括商品编号，则将每个待播商品的第一多模态信息依次与该候选视频片段对应的第二多模态信息进行匹配。
76.在匹配过程中，可以先进行文本模态信息的匹配，如果匹配不到待播商品，再进行图像模态信息的匹配。或者，可以先进行图像模态信息的匹配，如果匹配不到待播商品，再进行文本模态信息的匹配。再或者，图像模态信息的匹配和文本模态信息的匹配可以同时进行，通过图像模态信息的匹配可以确定出每个待播商品的图像模态信息与该候选视频片段的图像模态信息之间的第一匹配度，通过文本模态信息的匹配可以确定出每个待播商品的文本模态信息与该候选视频片段的文本模态信息之间的第二匹配度。针对同一个待播商品，可以计算出该待播商品对应的第一匹配度和第二匹配度的和值，该和值可以作为目标匹配度。进一步，从本场直播中多个待播商品中确定出一个目标匹配度最大的待播商品，并将该待播商品作为主播在该候选视频片段中讲解的目标对象。
77.s403、确定所述候选视频片段对应的内容分类信息。
78.例如，在确定出主播在该候选视频片段中讲解的目标对象之后，还可以进一步确定该候选视频片段对应的内容分类信息，该内容分类信息可以是给该候选视频片段打上的业务标签。该业务标签用于表示该候选视频片段所讲解的内容是什么类型的。具体的，本实施例可以通过行业标签模型、通用标签模型、视频生成文本模型给候选视频片段打上业务标签。具体的，行业标签模型可以使用行业视频分类算法，给候选视频片段打上行业标签，例如，该候选视频片段是关于美妆的，则行业标签可以是“试妆妆效”、“精选色号”、“适合肤质或适合群体”、“功能或成分”等。通用标签模型可以使用视频分类算法给候选视频片段打上通用标签，例如，“真人商品讲解”、“主播试穿展示”、“适用场景人群”、“人物使用展示”、“人物佩戴展示”、“商品细节展示”、“原料试吃制作展示”、“人物效果展示”、“商品使用展示”等。视频生成文本模型可以使用视频转文本的算法，得到候选视频片段的文本摘要，根据该摘要确定该候选视频片段的标签。
79.s404、响应于针对所述直播流的播放请求，获取从所述直播流的直播开始时刻到所述播放请求的接收时刻之间截取到的至少一个候选视频片段，并从所述至少一个候选视频片段中确定出至少一个精华片段。
80.例如，本场直播是从t1时刻开始的，t1时刻之后的t2时刻，终端31才进入直播间。t1时刻到t2时刻之间，服务器22一共截取到5个候选视频片段。此时，服务器22可以将该5个候选视频片段中能够确定出目标对象以及内容分类信息的候选视频片段作为精华片段。也
就是说，在一些实施例中，对于某个候选视频片段而言，可能确定出该候选视频片段中的目标对象，也可能确定不出该候选视频片段中的目标对象，同理，可能确定出该候选视频片段的内容分类信息，也可能确定不出该候选视频片段的内容分类信息。因此，本实施例可以将能够确定出目标对象以及内容分类信息的候选视频片段作为精华片段。
81.s405、将所述至少一个精华片段、所述至少一个精华片段分别包括的目标对象的标识信息、以及所述至少一个精华片段分别对应的内容分类信息推送给所述播放请求对应的用户终端。
82.例如，在向终端31推送至少一个精华片段时，同时还可以向终端31推送该至少一个精华片段分别包括的目标对象的标识信息、以及该至少一个精华片段分别对应的内容分类信息。从而使得终端31不仅可以向用户展示该至少一个精华片段，同时还可以将每个精华片段包括的目标对象的标识信息、以及每个精华片段的内容分类信息以文本或图片的形式显示给用户，使得用户不仅可以点击观看精华片段，同时还可以了解每个精华片段包括的目标对象的标识信息、以及每个精华片段的内容分类信息。例如，用户可以根据每个精华片段包括的目标对象的标识信息、以及每个精华片段的内容分类信息，决定点击播放哪个精华片段。
83.s406、响应于针对任一精华片段的播放请求，向所述用户终端发送所述任一精华片段的播放方式。
84.例如，当用户点击某个精华片段时，终端31还可以向服务器22发送针对该精华片段的播放请求，此时，服务器22可以向终端31发送该精华片段的播放方式，例如全屏播放、或者与主播在t2时刻之后的直播视频进行同屏播放。进一步，终端31可以按照该播放方式来播放该精华片段。可以理解的是，由于终端31是在t2时刻才加入直播间的，而精华片段是t2时刻之前截取到的历史片段，因此，在t2时刻或t2时刻之后，终端31的屏幕中可以同时播放直播视频和精华片段，或者当用户点击某个精华片段后可以全屏播放该精华片段。
85.本实施例通过识别候选视频片段中包括的目标对象的标识信息、以及候选视频片段对应的内容分类信息，使得本实施例不仅可以从直播流中挖掘出主播讲解的精华片段，同时还可以让后进入直播间的用户知道主播在每个精华片段中讲解的是哪个商品的哪方便的内容。从而使得直播间前面的精彩视频以一定的策略聚合后，准实时的展示给用户。
86.图5为本公开另一实施例提供的直播流处理方法流程图。在本实施例中，该方法主要包括如下几个步骤：
87.s501、从直播流中实时挖掘出候选视频片段并打上业务标签。
88.具体的，s501包括如图5所示的5个方面的内容。该5个方面的内容是有先后顺序的，该顺序如图5所示的横向箭头。例如，该5个方面的内容如下所示：
89.1.直播流处理
90.例如，处理直播间的视频流。
91.2.得到候选视频片段的集合
92.例如，截取在线人数较高的候选视频片段或根据asr截取候选视频片段。
93.3.商品识别
94.例如，对待播商品侧信息和直播间侧信息进行匹配，以确定主播在候选视频片段中讲解的商品。
95.4.确定业务标签
96.例如，给候选视频片段打上业务标签。
97.5.质量优化
98.例如，对候选视频片段进行边界切割和低质量过滤。其中，边界切割可以是切割出候选视频片段的最佳边界，该最佳边界是该候选视频片段的开始时间和结束时间。低质量过滤是指如果候选视频片段的画面出现抖动、不清晰、广告植入过多时，删除该候选视频片段。
99.s502、将精华片段按照一定策略展示给用户。
100.例如，可以按照时间顺序、按照业务标签、或按照用户信息，将精华片段展示给用户。其中，按照时间顺序展示精华片段时具体可以按照时间倒排或顺排将精华片段展示给用户。按照业务标签展示精华片段时具体可以按照聚合的业务标签将精华片段展示给用户。按照用户信息展示精华片段时具体可以按照用户信息对精华片段进行个性化排序后展示给用户。
101.另外，如上s501所述的从直播流中实时挖掘出候选视频片段并打上业务标签，可以进一步细化为如图6所示的流程图，例如，如图5所示的5个方面的内容可以细化为如下内容：
102.1.直播流处理
103.例如，根据店铺id(account id)得到正在直播的直播流id(live id)，然后根据直播流id处理直播间的视频流。
104.2.得到候选视频片段的集合
105.例如，截取在线人数较高的候选视频片段。或者根据主播的特定动作，截取包括该特定动作的候选视频片段。或者截取包括商品细节图的候选视频片段。再或者根据主播asr的文本内容截取候选视频片段。如图6所示，假设截取到n个候选视频片段。
106.3.商品识别
107.例如，对待播商品侧信息和直播间侧信息进行匹配，以确定主播在候选视频片段中讲解的商品。例如，可以确定出候选视频片段2、候选视频片段4和候选视频片段n分别包括的商品，无法确定出其他候选视频片段中的商品。其中，itema表示主播在候选视频片段2中讲解的商品的标识。itemb表示主播在候选视频片段4中讲解的商品的标识。itemz表示主播在候选视频片段n中讲解的商品的标识。因此，候选视频片段2、候选视频片段4和候选视频片段n可以作为精华片段。
108.4.确定业务标签
109.例如，通过行业标签模型、通用标签模型、或视频生成文本模型，给候选视频片段打上业务标签。例如，候选视频片段2的业务标签是tag1，候选视频片段4的业务标签是tag2，候选视频片段n的业务标签是tagx。
110.5.质量优化
111.例如，对候选视频片段进行边界切割和低质量过滤。假设候选视频片段2、候选视频片段4和候选视频片段n中没有被过滤掉的候选视频片段，因此，最终可以输出候选视频片段2、候选视频片段4和候选视频片段n这3个候选视频片段。最终输出的3个候选视频片段的边界是各自的最佳边界。
112.本实施例通过实时分析直播间的视频流，从而准实时挖掘出主播在候选视频片段中讲解的商品的id，并从正在直播的视频流中截取出精华片段。另外，还可以结合多模态视频理解技术给精华片段打上相应的业务标签。使得用户进入直播间时，通过将结构化的精华片段(例如包括商品id和业务标签的精华片段)按照时间顺序、业务标签、用户信息等策略推送给用户，使得用户在观看当前的直播视频的同时还可以观看到历史的精华片段，并且还能了解到每个精华片段是关于哪个商品的什么内容，以便用户从多个精华片段中选取出期望观看的精华片段，从而吸引用户点击、浏览、进店购买商品，提高了用户体验。
113.图7为本公开实施例提供的直播流处理装置的结构示意图。本公开实施例提供的直播流处理装置可以执行直播流处理方法实施例提供的处理流程，如图7所示，直播流处理装置70包括：
114.截取模块71，用于从正在直播的直播流中实时截取候选视频片段；
115.识别模块72，用于根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息；
116.获取模块73，用于响应于针对所述直播流的播放请求，获取从所述直播流的直播开始时刻到所述播放请求的接收时刻之间截取到的至少一个候选视频片段，并从所述至少一个候选视频片段中确定出至少一个精华片段；
117.发送模块74，用于将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端。
118.可选的，发送模块74还用于：响应于针对任一精华片段的播放请求，向所述用户终端发送所述任一精华片段的播放方式。
119.可选的，直播流处理装置70还包括确定模块75，用于在识别模块72识别主播在所述候选视频片段中讲解的目标对象的标识信息之后，确定所述候选视频片段对应的内容分类信息；相应的，发送模块74在将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端时，具体用于：将所述至少一个精华片段、所述至少一个精华片段分别包括的目标对象的标识信息、以及所述至少一个精华片段分别对应的内容分类信息推送给所述播放请求对应的用户终端。
120.可选的，截取模块71从正在直播的直播流中实时截取候选视频片段时，具体用于：
121.从所述正在直播的直播流中实时截取在线人数大于或等于预设阈值的候选视频片段；或者
122.根据所述主播的音频信息对应的文本信息，从所述正在直播的直播流中实时截取候选视频片段；或者
123.确定所述正在直播的直播流中的关键帧，并从所述直播流中实时截取包括所述关键帧的候选视频片段。
124.可选的，识别模块72根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息时，具体用于：
125.将所述直播流中至少一个待讲解对象分别对应的第一多模态信息和所述候选视频片段对应的第二多模态信息进行匹配，得到与所述第二多模态信息的匹配度最高的第一
多模态信息，并将所述匹配度最高的第一多模态信息对应的待讲解对象作为所述主播在所述候选视频片段中讲解的目标对象；
126.根据所述匹配度最高的第一多模态信息对应的待讲解对象的待讲解序号，确定所述目标对象的标识信息。
127.可选的，识别模块72根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息时，具体用于：
128.若所述主播在所述候选视频片段中播报有任一待讲解对象的待讲解序号，则从所述至少一个待讲解对象分别对应的第一多模态信息中获取与所述任一待讲解对象对应的第一多模态信息；
129.若所述任一待讲解对象对应的第一多模态信息与所述候选视频片段对应的第二多模态信息匹配，则将所述任一待讲解对象确定为所述主播在所述候选视频片段中讲解的目标对象；
130.根据所述任一待讲解对象的待讲解序号，确定所述目标对象的标识信息。
131.可选的，识别模块72还用于：
132.若所述任一待讲解对象对应的第一多模态信息与所述候选视频片段对应的第二多模态信息不匹配，则将所述至少一个待讲解对象中除所述任一待讲解对象之外的其他待讲解对象分别对应的第一多模态信息和所述候选视频片段对应的第二多模态信息进行匹配，得到与所述第二多模态信息的匹配度最高的第一多模态信息，并将所述匹配度最高的第一多模态信息对应的待讲解对象作为所述主播在所述候选视频片段中讲解的目标对象；
133.根据所述匹配度最高的第一多模态信息对应的待讲解对象的待讲解序号，确定所述目标对象的标识信息。
134.可选的，发送模块74将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端时，具体用于：
135.按照所述至少一个精华片段的时间顺序，将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端。
136.可选的，发送模块74将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端时，具体用于：
137.根据所述至少一个精华片段分别对应的内容分类信息，对所述至少一个精华片段进行聚类处理，得到聚类结果；
138.根据所述聚类结果，将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端。
139.可选的，发送模块74将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端时，具体用于：
140.根据所述用户终端对应的用户信息，从所述至少一个精华片段中选取待推送的精华片段；
141.根据所述用户终端对应的用户信息，确定所述待推送的精华片段的推送顺序；
142.按照所述推送顺序将所述待推送的精华片段推送给所述播放请求对应的用户终端。
143.图7所示实施例的直播流处理装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。
144.以上描述了直播流处理装置的内部功能和结构，该装置可实现为一种电子设备。图8为本公开实施例提供的电子设备实施例的结构示意图。如图8所示，该电子设备包括存储器81和处理器82。
145.存储器81用于存储程序。除上述程序之外，存储器81还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。
146.存储器81可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
147.处理器82与存储器81耦合，执行存储器81所存储的程序，以用于：
148.从正在直播的直播流中实时截取候选视频片段；
149.根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息；
150.响应于针对所述直播流的播放请求，获取从所述直播流的直播开始时刻到所述播放请求的接收时刻之间截取到的至少一个候选视频片段，并从所述至少一个候选视频片段中确定出至少一个精华片段；
151.将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端。
152.进一步，如图8所示，电子设备还可以包括：通信组件83、电源组件84、音频组件85、显示器86等其它组件。图8中仅示意性给出部分组件，并不意味着电子设备只包括图8所示组件。
153.通信组件83被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件83经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件83还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
154.电源组件84，为电子设备的各种组件提供电力。电源组件84可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。
155.音频组件85被配置为输出和/或输入音频信号。例如，音频组件85包括一个麦克风(mic)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器81或经由通信组件83发送。在一些实施例中，音频组件85还包括一个扬声器，用于输出音频信号。
156.显示器86包括屏幕，其屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个
或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。
157.另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的直播流处理方法。
158.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
159.以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征：
1.一种直播流处理方法，其中，所述方法包括：从正在直播的直播流中实时截取候选视频片段；根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息；响应于针对所述直播流的播放请求，获取从所述直播流的直播开始时刻到所述播放请求的接收时刻之间截取到的至少一个候选视频片段，并从所述至少一个候选视频片段中确定出至少一个精华片段；将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端。2.根据权利要求1所述的方法，其中，所述方法还包括：响应于针对任一精华片段的播放请求，向所述用户终端发送所述任一精华片段的播放方式。3.根据权利要求1所述的方法，其中，识别主播在所述候选视频片段中讲解的目标对象的标识信息之后，所述方法还包括：确定所述候选视频片段对应的内容分类信息；将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端，包括：将所述至少一个精华片段、所述至少一个精华片段分别包括的目标对象的标识信息、以及所述至少一个精华片段分别对应的内容分类信息推送给所述播放请求对应的用户终端。4.根据权利要求1所述的方法，其中，从正在直播的直播流中实时截取候选视频片段，包括：从所述正在直播的直播流中实时截取在线人数大于或等于预设阈值的候选视频片段；或者根据所述主播的音频信息对应的文本信息，从所述正在直播的直播流中实时截取候选视频片段；或者确定所述正在直播的直播流中的关键帧，并从所述直播流中实时截取包括所述关键帧的候选视频片段。5.根据权利要求1所述的方法，其中，根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息，包括：将所述直播流中至少一个待讲解对象分别对应的第一多模态信息和所述候选视频片段对应的第二多模态信息进行匹配，得到与所述第二多模态信息的匹配度最高的第一多模态信息，并将所述匹配度最高的第一多模态信息对应的待讲解对象作为所述主播在所述候选视频片段中讲解的目标对象；根据所述匹配度最高的第一多模态信息对应的待讲解对象的待讲解序号，确定所述目标对象的标识信息。6.根据权利要求1所述的方法，其中，根据所述直播流中至少一个待讲解对象分别对应
的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息，包括：若所述主播在所述候选视频片段中播报有任一待讲解对象的待讲解序号，则从所述至少一个待讲解对象分别对应的第一多模态信息中获取与所述任一待讲解对象对应的第一多模态信息；若所述任一待讲解对象对应的第一多模态信息与所述候选视频片段对应的第二多模态信息匹配，则将所述任一待讲解对象确定为所述主播在所述候选视频片段中讲解的目标对象；根据所述任一待讲解对象的待讲解序号，确定所述目标对象的标识信息。7.根据权利要求6所述的方法，其中，所述方法还包括：若所述任一待讲解对象对应的第一多模态信息与所述候选视频片段对应的第二多模态信息不匹配，则将所述至少一个待讲解对象中除所述任一待讲解对象之外的其他待讲解对象分别对应的第一多模态信息和所述候选视频片段对应的第二多模态信息进行匹配，得到与所述第二多模态信息的匹配度最高的第一多模态信息，并将所述匹配度最高的第一多模态信息对应的待讲解对象作为所述主播在所述候选视频片段中讲解的目标对象；根据所述匹配度最高的第一多模态信息对应的待讲解对象的待讲解序号，确定所述目标对象的标识信息。8.根据权利要求1所述的方法，其中，将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端，包括：按照所述至少一个精华片段的时间顺序，将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端。9.根据权利要求1所述的方法，其中，将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端，包括：根据所述至少一个精华片段分别对应的内容分类信息，对所述至少一个精华片段进行聚类处理，得到聚类结果；根据所述聚类结果，将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端。10.根据权利要求1所述的方法，其中，将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端，包括：根据所述用户终端对应的用户信息，从所述至少一个精华片段中选取待推送的精华片段；根据所述用户终端对应的用户信息，确定所述待推送的精华片段的推送顺序；按照所述推送顺序将所述待推送的精华片段推送给所述播放请求对应的用户终端。11.一种直播流处理装置，其中，包括：截取模块，用于从正在直播的直播流中实时截取候选视频片段；识别模块，用于根据所述直播流中至少一个待讲解对象分别对应的第一多模态信息、以及所述候选视频片段对应的第二多模态信息，识别主播在所述候选视频片段中讲解的目标对象的标识信息；获取模块，用于响应于针对所述直播流的播放请求，获取从所述直播流的直播开始时
刻到所述播放请求的接收时刻之间截取到的至少一个候选视频片段，并从所述至少一个候选视频片段中确定出至少一个精华片段；发送模块，用于将所述至少一个精华片段、以及所述至少一个精华片段分别包括的目标对象的标识信息推送给所述播放请求对应的用户终端。12.一种电子设备，其中，包括：存储器；处理器；以及计算机程序；其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-10中任一项所述的方法。13.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-10中任一项所述的方法。

技术总结
本公开涉及一种直播流处理方法、装置、设备及存储介质。本公开从正在直播的直播流中实时截取候选视频片段，并识别主播在候选视频片段中讲解的目标对象的标识信息。在直播开始之后若某个用户终端才进入直播间，可以获取从直播流的直播开始时刻到播放请求的接收时刻之间截取到的至少一个候选视频片段，并从至少一个候选视频片段中确定出至少一个精华片段，然后将至少一个精华片段、以及至少一个精华片段分别包括的目标对象的标识信息推送给中途进入该直播间的用户终端，使得中途进入该直播间的用户不仅可以看到主播当前正在讲解的内容，同时还可以观看到进入该直播间之前的精华片段，从而避免用户错过较为重要或精彩的直播内容。容。容。

技术研发人员：王雄威蒲黎明赵中州冷海涛周伟史运洲
受保护的技术使用者：阿里巴巴（中国）有限公司
技术研发日：2022.06.15
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-11550.html

专利

最新回复(0)