1.本公开一般涉及多用户通信会话,尤其涉及用于在多用户通信会话期间调用公共或私有交互的系统、方法和设备。
背景技术:2.在多用户通信会话(例如,电话会议、视频会议、计算机生成现实(cgr)会议等)期间,用户可以请求信息(例如,基于语音的数字助理请求)。当前的系统缺乏逻辑部件来确定请求的输出是应当与(a)多用户通信会话的所有用户共享(即,公共交互)还是应当与(b)仅请求用户共享(即,私有交互)。因此,根据一些具体实施,本文描述的多用户通信系统将接收请求,并且根据请求用户的状态或移动,对多用户通信会话的所有用户进行公开响应,或者对多用户通信会话的用户子集进行私下响应。
附图说明
3.因此,本公开可被本领域的普通技术人员理解,更详细的描述可参考一些例示性具体实施的方面,其中一些具体实施在附图中示出。
4.图1是根据一些具体实施的示例性操作架构的框图。
5.图2是根据一些具体实施的示例性控制器的框图。
6.图3是根据一些具体实施的示例性电子设备的框图。
7.图4是根据一些具体实施的示例性多用户计算机生成现实(cgr)体验的框图。
8.图5a至图5d示出了根据一些具体实施的用于在多用户通信会话期间基于搜索查询的量调用公共和私有交互的实例序列。
9.图6a至图6d示出了根据一些具体实施的用于在多用户通信会话期间基于凝视方向调用公共和私有交互的实例序列。
10.图7a至图7d示出了根据一些具体实施的用于在多用户通信会话期间基于手势的存在或不存在来调用公共和私有交互的实例序列。
11.图8是根据一些具体实施的在多用户通信会话期间调用公共和私有交互的方法的流程图表示。
12.根据通常的做法,附图中示出的各种特征部可能未按比例绘制。因此,为了清楚起见,可以任意地扩展或减小各种特征部的尺寸。另外,一些附图可能未描绘给定的系统、方法或设备的所有部件。最后,在整个说明书和附图中,类似的附图标号可用于表示类似的特征部。
技术实现要素:13.本文公开的各种具体实施包括用于在多用户通信会话期间调用公共和私有交互的设备、系统和方法。根据一些具体实施,该方法在包括非暂态存储器和一个或多个处理器
的计算系统处执行,其中该计算系统通信地耦接到显示设备、一个或多个输入设备和一个或多个输出设备。该方法包括呈现多用户通信会话,该多用户通信会话包括与该计算系统相关联的第一用户和与一个或多个其他电子设备相关联的一个或多个其他用户。在呈现多用户通信会话的同时,该方法包括检测用户调用输入,该用户调用输入对应于对数字助理的触发;检测用户搜索输入,该用户搜索输入对应于信息请求。响应于检测到该用户搜索输入,该方法包括基于该请求获得该信息。该方法还包括根据确定该用户调用输入和该用户搜索输入中的至少一者满足与第一请求类型相关联的第一输入标准:呈现该信息;以及将该信息传输到该一个或多个其他电子设备以呈现给该一个或多个其他用户。该方法还包括根据确定该用户调用输入和该用户搜索输入中的至少一者满足与第二请求类型相关联的第二输入标准:呈现该信息;以及放弃将该信息传输到该一个或多个其他电子设备以呈现给该一个或多个其他用户。
14.根据一些具体实施,一种设备包括一个或多个处理器、非暂态存储器以及一个或多个程序;该一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行,并且该一个或多个程序包括用于执行或使得执行本文所述方法中的任一种的指令。根据一些具体实施,一种非暂态计算机可读存储介质中存储有指令,这些指令在由设备的一个或多个处理器执行时使该设备执行或使执行本文所述方法中的任一种。根据一些具体实施,一种设备包括:一个或多个处理器、非暂态存储器以及用于执行或使执行本文所述方法中的任一种的装置。
15.根据一些具体实施,一种计算系统包括一个或多个处理器、非暂态存储器、用于与显示设备和一个或多个输入设备进行通信的接口、以及一个或多个程序;一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行,并且一个或多个程序包括用于执行或导致执行本文所述的方法中的任一种方法的操作的指令。根据一些实施方案,一种非暂态计算机可读存储介质具有存储在其中的指令,这些指令当由具有与显示设备和一个或多个输入设备通信的接口的计算系统的一个或多个处理器执行时,使得所述计算系统执行或使得执行本文所述的方法中的任一种方法的操作。根据一些具体实施,一种计算系统包括一个或多个处理器、非暂态存储器、用于与显示设备和一个或多个输入设备通信的接口、以及用于执行或导致执行本文所述的方法中的任一种方法的操作的装置。
具体实施方式
16.描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而,附图仅示出了本公开的一些示例方面,因此不应被视为限制。本领域的普通技术人员将理解,其他有效方面和/或变体不包括本文所述的所有具体细节。此外,没有详尽地描述众所周知的系统、方法、部件、设备和电路,以免模糊本文所述的示例性具体实施的更多相关方面。
17.物理环境是指人们在没有电子设备帮助的情况下能够对其感测和/或与其交互的物理世界。物理环境可包括物理特征,诸如物理表面或物理对象。例如,物理环境对应于包括物理树木、物理建筑物和物理人的物理公园。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。相反,计算机生成现实(cgr)环境是指人们经由电子设备感知和/或交互的完全或部分模拟的环境。例如,cgr环境可包括增强现实(ar)内容、混合现实(mr)内容、虚拟现实(vr)内容等。在cgr系统的情况下,跟踪人的物理运
动的一个子集或其表示,并且作为响应,以符合至少一个物理定律的方式调节在cgr系统中模拟的一个或多个虚拟对象的一个或多个特征。例如,cgr系统可以检测头部移动,并且作为响应,以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。又如,cgr系统可以检测呈现cgr环境的电子设备(例如,移动电话、平板电脑、膝上型电脑等)的移动,并且作为响应,以类似于此类视图和声音在物理环境中将如何改变的方式调节呈现给人的图形内容和声场。在一些情况下(例如,出于可达性原因),cgr系统可响应于物理运动的表示(例如,声音命令)来调节cgr环境中图形内容的特征。
18.有许多不同类型的电子系统使人能够感测和/或与各种cgr环境交互。示例包括头戴式系统、基于投影的系统、平视显示器(hud)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为设计用于放置在人的眼睛上的透镜的显示器(例如,类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如,具有或不具有触觉反馈的可穿戴或手持式控制器)、智能电话、平板电脑、以及台式/膝上型计算机。头戴式系统可具有集成不透明显示器和一个或多个扬声器。另选地,头戴式系统可被配置为接受外部不透明显示器(例如,智能电话)。头戴式系统可结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可具有透明或半透明显示器,而不是不透明显示器。透明或半透明显示器可以具有媒介,代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、oled、led、uled、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一些具体实施中,透明或半透明显示器可被配置为选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置为将虚拟对象投影到物理环境中,例如作为全息图或在物理表面上。
19.图1是根据一些具体实施的示例性操作架构100的框图。尽管示出了相关特征,但本领域的普通技术人员将从本公开中认识到,为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面,未示出各种其他特征。为此,作为非限制性示例,操作架构100包括任选的控制器110和电子设备120(例如,平板电脑、移动电话、膝上型电脑、可穿戴计算设备等)。
20.在一些具体实施中,控制器110被配置为管理和协调用户150的cgr体验(在本文中有时也称为“cgr环境”或“图形环境”)。在一些具体实施中,控制器110包括软件、固件和/或硬件的合适组合。下文参考图2更详细地描述控制器110。在一些具体实施中,控制器110是相对于物理环境105处于本地或远程位置的计算设备。例如,控制器110是位于物理环境105内的本地服务器。在另一个示例中,控制器110是位于物理环境105之外的远程服务器(例如,云服务器、中央服务器等)。在一些具体实施中,控制器110经由一个或多个有线或无线通信信道144(例如,蓝牙、ieee 802.11x、ieee 802.16x、ieee 802.3x等)与电子设备120通信地耦接。在一些具体实施中,控制器110的功能由电子设备120提供。这样,在一些具体实施中,控制器110的部件集成到电子设备120中。
21.在一些具体实施中,电子设备120被配置为向用户150呈现音频和/或视频内容。在一些具体实施中,电子设备120被配置为向用户150呈现cgr体验。在一些具体实施中,电子设备120包括软件、固件和/或硬件的合适组合。下文参考图3更详细地描述电子设备120。
22.根据一些具体实施,当用户150物理地存在于物理环境105内时,电子设备120向用
户150呈现cgr体验,其中物理环境在电子设备120的视场(fov)111内。这样,在一些具体实施中,用户150将电子设备120拿在他/她的一只或两只手中。在一些具体实施中,在呈现cgr体验时,电子设备120被配置为呈现cgr内容(在本文中有时也称为“图形内容”或“虚拟内容”),并且使得能够实现显示器122上物理环境105的视频透传。在一些具体实施中,可视环境500a表示电子设备120的fov 111内的物理环境105的视频表示。例如,电子设备120对应于近眼系统、移动电话、平板电脑、膝上型电脑、可穿戴计算设备等。
23.在一个示例中,cgr内容对应于显示器锁定的内容,使得当fov 111由于电子设备120的平移和/或旋转移动而改变时,cgr内容保持显示在显示器122上的相同位置处。作为另一示例,cgr内容对应于世界锁定的内容,使得当fov 111由于电子设备120的平移和/或旋转移动而改变时,cgr内容保持显示在其原始位置处。因此,在该示例中,如果fov 111不包括原始位置,则cgr环境将不包括cgr内容。
24.在一些具体实施中,显示器122对应于能够实现物理环境105的光学透传的加成显示器。例如,显示器122对应于透明透镜,并且电子设备120对应于用户150佩戴的一副眼镜。因此,在一些具体实施中,电子设备120通过将cgr内容投影到加成显示器上而呈现用户界面,其继而从用户150的视角覆盖在物理环境105上。在一些具体实施中,电子设备120通过将cgr内容显示在加成显示器上而呈现用户界面,其继而从用户150的视角覆盖在物理环境105上。
25.在一些具体实施中,用户150穿戴电子设备120,诸如近眼系统。因此,电子设备120包括被提供以显示cgr内容的一个或多个显示器(例如,单个显示器或每只眼睛一个显示器)。例如,电子设备120包围用户150的视场。在此类具体实施中,电子设备120通过在一个或多个显示器上显示对应于cgr环境的数据或通过将对应于cgr环境的数据投影到用户150的视网膜上来呈现cgr环境。
26.在一些具体实施中,电子设备120包括显示cgr环境的集成显示器(例如,内置显示器)。在一些具体实施中,电子设备120包括可头戴式壳体。在各种具体实施中,头戴式壳体包括附接区,具有显示器的另一设备可附接到该附接区。例如,在一些具体实施中,电子设备120可附接到可头戴式壳体。在各种具体实施中,可头戴式壳体被成形为形成用于接收包括显示器的另一设备(例如,电子设备120)的接收器。例如,在一些具体实施中,电子设备120滑动/卡扣到可头戴式壳体中或以其他方式附接到该可头戴式壳体。在一些具体实施中,附接到头戴式壳体的设备的显示器呈现(例如,显示)cgr环境。在一些具体实施中,将电子设备120替换成被配置为呈现cgr内容的cgr室、壳体或房间,在其中用户150不穿戴电子设备120。
27.在一些具体实施中,控制器110和/或电子设备120使得用户150的cgr表示基于来自电子设备120和/或物理环境105内的可选的远程输入设备的移动信息(例如,身体姿态数据、眼睛跟踪数据、手跟踪数据等)在cgr环境内移动。在一些具体实施中,可选的远程输入设备对应于物理环境105内的固定或可移动的感官设备(例如,图像传感器、深度传感器、红外(ir)传感器、事件相机、麦克风等)。在一些具体实施中,每个远程输入设备被配置为在用户150物理地在物理环境105内时收集/捕获输入数据并且将输入数据提供给控制器110和/或电子设备120。在一些具体实施中,远程输入设备包括麦克风,并且输入数据包括与用户150相关联的音频数据(例如,语音样本)。在一些具体实施中,远程输入设备包括图像传感
器(例如,相机),并且输入数据包括用户150的图像。在一些具体实施中,输入数据表征用户150在不同时间的身体姿态。在一些具体实施中,输入数据表征用户150在不同时间的头部姿态。在一些具体实施中,输入数据表征在不同时间与用户150的手相关联的手跟踪信息。在一些具体实施中,输入数据表征用户150的身体部分(诸如他/她的手)的速度和/或加速度。在一些具体实施中,输入数据指示用户150的关节位置和/或关节取向。在一些具体实施中,远程输入设备包括反馈设备,诸如扬声器、灯等。在一些具体实施中,一个或多个输入设备跟踪手势和眼睛或凝视方向中的至少一者。
28.图2是根据一些具体实施的控制器110的示例的框图。尽管示出了一些具体特征,但本领域的技术人员将从本公开中认识到,为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面,未示出各种其他特征。为此,作为非限制性示例,在一些具体实施中,控制器110包括一个或多个处理单元202(例如,微处理器、专用集成电路(asic)、现场可编程门阵列(fpga)、图形处理单元(gpu)、中央处理单元(cpu)、处理内核等)、一个或多个输入/输出(i/o)设备206、一个或多个通信接口208(例如,通用串行总线(usb)、ieee 802.3x、ieee 802.11x、ieee 802.16x、全球移动通信系统(gsm)、码分多址(cdma)、时分多址(tdma)、全球定位系统(gps)、红外(ir)、蓝牙、zigbee和/或类似类型的接口)、一个或多个编程(例如,i/o)接口210、存储器220以及用于互连这些部件和各种其他部件的一条或多条通信总线204。
29.在一些具体实施中,输入设备尤其包括一个或多个相机、触摸屏和麦克风设备等。相机和麦克风设备可以分别捕获人类感知范围之内或之外的视觉或音频信息,并且可以包括超声、红外或其他频率的光或声音。在一些具体实施中,输出设备尤其包括扬声器、显示设备和触觉反馈电动机等。显示器可以包括平板显示器、具有透明、半透明或不透明显示器的可佩带显示器、投影仪或其他二维或三维显示设备。
30.在一些具体实施中,该一条或多条通信总线204包括互连系统部件和控制系统部件之间的通信的电路。在一些具体实施中,一个或多个i/o设备206包括键盘、鼠标、触控板、操纵杆、一个或多个麦克风、一个或多个扬声器、一个或多个图像传感器、一个或多个显示器等中的至少一种。
31.存储器220包括高速随机存取存储器,诸如动态随机存取存储器(dram)、静态随机存取存储器(sram)、双倍数据速率随机存取存储器(ddr ram)或者其他随机存取固态存储器设备。在一些具体实施中,存储器220包括非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器220任选地包括远离所述一个或多个处理单元202定位的一个或多个存储设备。存储器220包括非暂态计算机可读存储介质。在一些具体实施中,存储器220或存储器220的非暂态计算机可读存储介质存储下述程序、模块和数据结构或它们的子集,其中包括任选的操作系统230、多用户通信会话处理程序232、计算机生成现实(cgr)体验引擎240和公共-私有交互引擎250。
32.操作系统230包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。
33.在一些具体实施中,多用户通信会话处理程序232被配置为处理电子设备120和能够与之通信的至少一个其他电子设备之间的通信。在一些具体实施中,多用户通信会话处理程序232被配置为处理电子设备120和能够与之通信的至少一个其他电子设备之间的至少半双工或全双工音频通信。在一些具体实施中,多用户通信会话处理程序232被配置为处
理电子设备120和能够与之通信的至少一个其他电子设备之间的视频通信。在一些具体实施中,多用户通信会话处理程序232被配置为处理电子设备120和能够与之通信的至少一个其他电子设备之间的视频和音频通信。为此,在各种具体实施中,多用户通信会话处理程序232包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。
34.在一些具体实施中,cgr体验引擎240被配置为管理和协调一个或多个用户的一次或多次cgr体验(在本文中有时也称为“cgr环境”)(例如,一个或多个用户的单次cgr体验或一个或多个用户的相应群组的多次cgr体验)。为此,在各种具体实施中,cgr体验引擎240包括数据获取器242、数据传输器244和cgr内容引擎246。
35.在一些具体实施中,数据获取器242被配置为从控制器110的i/o设备206、电子设备120和可选的远程输入设备中的至少一者获取数据(例如,呈现数据、输入数据、用户交互数据、头部跟踪信息、相机姿态跟踪信息、眼睛跟踪信息、手/肢体跟踪信息、传感器数据、位置数据等)。为此,在各种具体实施中,数据获取器242包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。
36.在一些具体实施中,数据传输器244被配置为至少向电子设备120传输数据(例如,呈现数据诸如与cgr环境相关联的经渲染的图像帧、位置数据等)。为此,在各种具体实施中,数据传输器244包括指令和/或用于指令的逻辑部件以及启发法和用于该启发法的元数据。
37.在一些具体实施中,cgr内容引擎246被配置为生成(即,呈现)、管理和修改呈现给用户的cgr环境。为此,在各种具体实施中,cgr内容引擎246包括指令和/或用于指令的逻辑部件以及启发法和用于该启发法的元数据。
38.在一些具体实施中,公共-私有交互引擎250被配置为标识用于公共、私有或半公共交互的用户调用,并且响应于公共、私有或半公共交互来执行一个或多个搜索查询。在一些具体实施中,公共交互包括在电子设备120处接收并通过多用户通信会话返回到电子设备120和与其通信的所有其他电子设备的搜索请求。在一些具体实施中,私有交互包括在电子设备120处接收并且仅返回到电子设备120的搜索输入。在示例性私有交互中,公共-私有交互引擎250被配置为放弃将返回的搜索输入传输到通过多用户通信会话与电子设备120通信的所有其他电子设备。在一些具体实施中,半公共交互包括在电子设备120处接收并通过多用户通信会话返回到电子设备120和少于与其通信的所有电子设备的搜索请求。在示例性半公共交互中,公共-私有交互引擎250被配置为放弃将返回的搜索请求传输到通过未包括在预定的设备子集中的多用户通信会话与电子设备120通信的各种其他电子设备。在一些具体实施中,预定的设备子集可以包括在多用户通信会话内定义、由多用户通信会话定义或者与多用户通信会话相关联的一组用户或电子设备。例如,预定子集可以包括多用户通信会话中的一个或多个电子设备或用户,这些电子设备或用户按组织、标题、位置、安全级别、不利方指定、设备硬件特性、网络延迟或拓扑特征、法律限制等分组。为此,在各种具体实施中,公共-私有交互引擎250包括用户调用处理程序252和用户搜索处理程序254。
39.在一些具体实施中,用户调用处理程序252被配置为检测通过控制器110的一个或多个i/o设备206、通信接口208或编程接口210在电子设备120处接收的用户输入,并且将用户调用标识为公共、私有或半公共交互指令。在一些具体实施中,用户调用处理程序252被配置为检测以下各项中的一项或多项:手势、身体移动以及相对于电子设备120的身体位
置、身体姿势、一个或多个手指或足趾的取向、一只或多只眼睛的凝视、一只或多只眼睛的方向、一只或多只眼睛的扩张、语音输入的音量、音色或包括细语或情绪的语音输入的调制等。在一些具体实施中,用户语音的一个或多个特征的变化基于一个或多个语音特征与一个或多个请求类型之间的关联来启动第一请求类型、第二请求类型、第三请求类型或其他请求类型。在一些具体实施中,正常说话水平的语音输入将指示要与所有用户共享的公共交互,并且细语的语音输入将指示要分别与仅请求用户或所有用户的子集共享的私有或半公共交互。在一些具体实施中,用户可以排他地与所有用户的子集通信,例如,用户是其成员的团队或组织。用户可以用特定的用户调用输入、用户搜索输入或预定的定义来创建这样的“半公共”或“侧边栏”通信。为此,在各种具体实施中,用户调用处理程序252包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。
40.在一些具体实施中,用户搜索处理程序254被配置为检测通过控制器110的i/o设备206、通信接口208或编程接口210中的一者或多者在电子设备120处接收的用户输入,标识定义搜索查询的用户输入,向搜索引擎或其他信息源提交搜索查询,以及从搜索引擎或其他信息源接收结果。在一些具体实施中,用户搜索处理程序254可以包括基于语音的数字助理等,以标识在电子设备120处接收到的搜索查询。在一些具体实施中,用户搜索处理程序254可以与本地或远程搜索引擎或其他信息源通信,以执行所接收的搜索查询并获得一个或多个搜索结果。为此,在各种具体实施中,用户搜索处理程序254包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。
41.虽然操作系统230、多用户通信会话处理程序232、cgr体验引擎240和公共-私有交互引擎250被示为驻留在单个设备(例如,控制器110)上,但是应当理解,在其他具体实施中,操作系统230、多用户通信会话处理程序232、cgr体验引擎240和公共-私有交互引擎250的任何组合可以位于单独的计算设备中。
42.在一些具体实施中,控制器110的功能和/或部件与下文在图3中所示的电子设备120组合或由其提供。此外,图2更多地用作存在于特定具体实施中的各种特征部的功能描述,而不是本文所述的具体实施的结构示意图。如本领域的普通技术人员将认识到的,单独显示的项目可以组合,并且一些项目可以分开。例如,图2中单独示出的一些功能模块可以在单个模块中实现,并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化,并且在一些具体实施中,部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。
43.图3是根据一些具体实施的电子设备120(例如,移动电话、平板电脑、膝上型电脑、可穿戴计算设备等)的示例的框图。尽管示出了一些具体特征,但本领域的技术人员将从本公开中认识到,为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面,未示出各种其他特征。出于该目的,作为非限制性示例,在一些具体实施中,电子设备120包括一个或多个处理单元302(例如,微处理器、asic、fpga、gpu、cpu、处理核心等)、一个或多个输入/输出(i/o)设备及传感器306、一个或多个通信接口308(例如,usb、ieee 802.3x、ieee 802.11x、ieee 802.16x、gsm、cdma、tdma、gps、ir、bluetooth、zigbee和/或类似类型的接口)、一个或多个编程(例如,i/o)接口310、一个或多个显示器312、一个或多个任选的面向内部和/或面向外部的图像传感器314、存储器320以及用于互连这些部件和各种其他部件
的一条或多条通信总线304。
44.在一些具体实施中,一条或多条通信总线304包括互连和控制系统部件之间的通信的电路。在一些具体实施中,一个或多个i/o设备及传感器306包括惯性测量单元(imu)、加速度计、陀螺仪、磁力仪、温度计、一个或多个生理传感器(例如,血压监测仪、心率监测仪、血氧传感器、血糖传感器等)、一个或多个麦克风、一个或多个扬声器、触觉引擎、加热和/或冷却单元、皮肤剪切引擎、一个或多个深度传感器(例如,结构化光、飞行时间等)、眼睛跟踪引擎、头部姿态跟踪引擎、身体姿态跟踪引擎、相机姿态跟踪引擎、手/肢体跟踪引擎和/或等等中的至少一者。在一些具体实施中,电子设备120包括用于解释语音命令的自然语言处理(nlp)引擎。
45.在一些具体实施中,一个或多个显示器312被配置为向用户呈现cgr环境。在一些具体实施中,一个或多个显示器312也被配置为向用户呈现平面视频内容(例如,与电视剧或电影相关联的二维或“平面”avi、flv、wmv、mov、mp4等文件,或物理环境105的实时视频透传)。在一些具体实施中,一个或多个显示器312对应于触摸屏显示器。在一些具体实施中,一个或多个显示器312对应于全息、数字光处理(dlp)、液晶显示器(lcd)、硅上液晶(lcos)、有机发光场效应晶体管(olet)、有机发光二极管(oled)、表面传导电子发射器显示器(sed)、场发射显示器(fed)、量子点发光二极管(qd-led)、微机电系统(mems)和/或相似显示器类型。在一些具体实施中,一个或多个显示器312对应于衍射、反射、偏振、全息等波导显示器。例如,电子设备120包括单个显示器。又如,电子设备120包括针对用户的每只眼睛的显示器。在一些具体实施中,一个或多个显示器312能够呈现ar和vr内容。在一些具体实施中,一个或多个显示器312能够呈现ar或vr内容。
46.在一些具体实施中,一个或多个任选的面向内部和/或外部的图像传感器314对应于一个或多个rgb相机(例如,具有互补金属氧化物半导体(cmos)图像传感器或电荷耦合器件(ccd)图像传感器)、ir图像传感器、基于事件的相机等。
47.存储器320包括高速随机存取存储器,诸如dram、sram、ddr ram或其他随机存取固态存储器设备。在一些具体实施中,存储器320包括非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器320任选地包括远离一个或多个处理单元302定位的一个或多个存储设备。存储器320包括非暂态计算机可读存储介质。在一些具体实施中,存储器320或者存储器320的非暂态计算机可读存储介质存储下述程序、模块和数据结构或者它们的子集,其中包括可选的操作系统330和cgr呈现引擎340。
48.操作系统330包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。
49.在一些具体实施中,多用户通信会话处理程序332被配置为处理电子设备120和能够与之通信的至少一个其他电子设备之间的通信。在一些具体实施中,多用户通信会话处理程序332被配置为处理电子设备120和能够与之通信的至少一个其他电子设备之间的至少半双工或全双工音频通信。在一些具体实施中,多用户通信会话处理程序332被配置为处理电子设备120和能够与之通信的至少一个其他电子设备之间的视频通信。在一些具体实施中,多用户通信会话处理程序332被配置为处理电子设备120和能够与之通信的至少一个其他电子设备之间的视频和音频通信。为此,在各种具体实施中,多用户通信会话处理程序332包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。
50.在一些具体实施中,cgr呈现引擎340被配置为呈现和更新cgr内容(例如,与cgr环境相关联的经渲染的图像帧),包括但不限于与一个或多个搜索结果相关联的、从一个或多个搜索结果导出的或以其他方式响应于一个或多个搜索结果的信息。在一些具体实施中,cgr呈现引擎340可以呈现与搜索结果相关联的一个或多个对象或者与电子设备120、物理环境105或用户150相关联的特征。在一些具体实施中,cgr呈现引擎340可定位与电子设备120a的可视环境100a内的特定虚拟或物理对象邻近或覆盖在其上的一个或多个搜索结果相关联的对象,包括但不限于虚拟或物理人、化身、肢体、植物、动物、家具、自然或人造结构、天体等。在一些具体实施中,呈现可以包括输出音频、视频、触觉或其他用户可感知介质中的一者或多者。为此,在各种具体实施中,cgr呈现引擎340包括数据获取器342、数据传输器344和cgr呈现器346。
51.在一些具体实施中,数据获取器342被配置为从电子设备120的i/o设备及传感器306、控制器110和远程输入设备中的至少一者获取数据(例如,呈现数据,诸如与cgr环境相关联的经渲染的图像帧、输入数据、用户交互数据、头部跟踪信息、相机姿态跟踪信息、眼睛跟踪信息、传感器数据、位置数据等)。为此,在各种具体实施中,数据获取器342包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。
52.在一些具体实施中,数据传输器344被配置为至少向控制器110传输数据(例如,呈现数据、位置数据、用户交互数据、头部跟踪信息、相机姿态跟踪信息、眼睛跟踪信息、手/肢体跟踪信息等)。为此,在各种具体实施中,数据传输器344包括指令和/或用于指令的逻辑部件以及启发法和用于该启发法的元数据。
53.在一些具体实施中,cgr呈现器346被配置为经由一个或多个显示器312呈现和更新cgr内容(例如,与cgr环境相关联的经渲染的图像帧)。为此,在各种具体实施中,cgr呈现器346包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。
54.虽然操作系统330、多用户通信会话处理程序332和cgr呈现引擎340被示为驻留在单个设备(例如,电子设备120)上,但是应当理解,在其他具体实施中,操作系统330、多用户通信会话处理程序332和cgr呈现引擎340的任何组合可以位于单独的计算设备中。
55.此外,图3更多地用作可存在于特定具体实施中的各种特征部的功能描述,而不是本文所述的具体实施的结构示意。如本领域的普通技术人员将认识到的,单独显示的项目可以组合,并且一些项目可以分开。例如,图3中单独示出的一些功能模块可以在单个模块中实现,并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化,并且在一些具体实施中,部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。
56.图4是根据一些具体实施的示例性多用户cgr体验400(或类似地,cgr体验)的框图。尽管示出了相关特征,但本领域的普通技术人员将从本公开中认识到,为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面,未示出各种其他特征。
57.如图4所示,与电子设备420a相关联的第一用户、与电子设备420b相关联的第二用户和与电子设备420c相关联的第三用户参与多用户cgr体验400。根据一些具体实施,电子设备420a、420b和420c类似于图1和图3中所示的电子设备120并与其相适应。
58.如图4所示,电子设备420a向多用户cgr体验400的第一用户呈现cgr环境405的第
一视角410a。例如,cgr环境405的第一视角410a包括与第二用户相关联的第二化身430b和与第三用户相关联的第三化身430c。如图4中进一步所示,电子设备420b向多用户cgr体验400的第二用户呈现cgr环境405的第二视角410b。例如,cgr环境405的第二视角410b包括与第一用户相关联的第一化身430a和与第三用户相关联的第三化身430c。如图4中进一步所示,电子设备420a向多用户cgr体验400的第三用户呈现cgr环境405的第三视角410c。例如,cgr环境405的第三视角410c包括与第二用户相关联的第二化身430b和与第一用户相关联的第一化身430a。
59.如图4所示,控制器110通过管理cgr环境405的不同视角410a、410b和410c而为多个用户协调多用户cgr体验400。为此,控制器110分别经由有线或无线通信信道444a、444b和444c(例如,蓝牙、ieee802.11x、ieee 802.16x、ieee 802.3x等)与电子设备420a、420b和420c通信地耦接。本领域的普通技术人员将理解,控制器110可以为任何数量的用户协调共享的cgr体验。作为一个示例,cgr环境405对应于远程呈现会议室、基于视频的群组聊天或呼叫系统、虚拟会议空间、多用户cgr环境等。
60.作为涉及第一用户的一个示例,根据一些具体实施,控制器110基于第一用户的身体姿态和/或头部姿态的改变来更新cgr环境405的第一视角410a。根据一些具体实施,如果用户之一操纵或以其他方式修改cgr环境405内的cgr对象和/或cgr内容,则控制器110相应地更新cgr环境405,并且随后更新多用户cgr体验400的第一视角410a、第二视角410b和视角410c。
61.图5a至图7d示出了根据一些具体实施的计算机生成现实(cgr)呈现场景的实例的六个不同序列。尽管示出了相关特征,但本领域的普通技术人员将从本公开中认识到,为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面,未示出各种其他特征。
62.如图5a至图5d所示,音频驱动的cgr呈现场景包括与第一用户510相关联的第一电子设备120a和与第二用户512相关联的第二电子设备。在一些具体实施中,电子设备120a的fov 111a内的物理环境105a的一部分作为可视环境500a显现在显示器122a上。在一些具体实施中,显示器122a包括与电子设备120b相关联的用户512和不与电子设备120a或120b相关联的用户514的一个或多个化身或图像。在一些具体实施中,用户510与电子设备120a相关联并且在电子设备120a的视场(fov)505内。在一些具体实施中,用户510面对显示器122a并且在fov 505内,同时基本上或部分地能够观看显示器122a的平面。例如,fov 111a对应于面向场景的图像传感器,而fov 505对应于面向用户的图像传感器,其也通俗地称为自拍相机。
63.在一些具体实施中,电子设备120b的fov 111b内的物理环境105b的一部分作为可视环境500b显现在显示器122b上。在一些具体实施中,显示器122b包括与电子设备120a相关联的用户510b和不与电子设备120a或120b相关联的用户514的一个或多个化身或图像。虽然图5a至图5d示出了用户510b、512和514的化身或图像,但是本领域的普通技术人员将从本公开中理解,与电子设备120a和120b中的任何一个相关联或与其均不相关联的用户的更多或更少数量的化身或图像可以呈现在显示器122a或122b上。作为一个示例,用户510b、512和514正在参与电话会议或多用户cgr体验(在本文中有时称为“多用户通信会话”)。在一些具体实施中,可视区域500a和500b对应于单独的cgr环境。在一些具体实施中,可视区
域500a和500b对应于共享的多用户cgr体验。
64.如图5a所示,用户510基于音量范围522内的公共语音命令520u调用公共交互。在一些具体实施中,公共语音命令520u包括以高于音量阈值524的音量级526u做出的给数字助理的用户搜索输入。例如,用户510可以用命令“助理,让我看看艾菲尔铁塔”启动高于音量阈值524的用户搜索输入。应当理解,音量阈值524可以是静态的,或者可以基于环境因素、硬件因素、用户因素等动态地改变。在一些具体实施中,环境因素包括但不限于背景噪声、串扰等。在一些具体实施中,硬件因素包括但不限于网络延迟、传感器灵敏度等。在一些具体实施中,用户因素包括但不限于听力损伤、语音损伤、说话语音的典型水平或范围、语音的音色或调制等。
65.另选地,在一些实施方案中,公共语音命令520u包括但不限于以音量级526u做出高于音量阈值524的用户调用输入。在一些具体实施中,音量级526u是处于或高于以分贝(db)为单位的特定强度的音频或者具有与打算在特定物理距离上共享的语音相关联的特定音频特征。在一些具体实施中,特定音频特征可以包括指示高于细语的语音的音色或强度。例如,用户510可以用高于音量阈值524的命令“嗨,助理”来调用数字助理。
66.如图5b所示,响应于以高于音量阈值524的音量级526u检测到来自用户510的公共语音命令520u,电子设备120a在可视环境500a内呈现对象520a。同时,响应于以高于音量阈值524的音量级526u检测到来自用户510的公共语音命令520u,电子设备120b在可视环境500b内呈现对象520b。例如,响应于用户510做出公共语音命令520u“助理,让我看看艾菲尔铁塔”,在与电子设备120a相关联的用户510的可视环境500a和与电子设备120b相关联的用户512(或任何其他用户)的可视环境500b内呈现艾菲尔铁塔的视觉表示。
67.如图5c所示,用户510基于音量范围522内的私有语音命令520v调用私有交互。在一些具体实施中,私有语音命令520v包括但不限于以低于音量阈值524的音量级526v做出的给数字助理的用户搜索输入。例如,用户510可以用命令“助理,让我看看艾菲尔铁塔”以细语或嘶哑级调用低于音量阈值524的搜索查询。
68.另选地,在一些具体实施中,私有语音命令520v包括但不限于以音量级526v做出低于音量阈值524的用户调用输入。例如,用户510可以用低于音量阈值524的命令“嗨,助理”来调用数字助理。
69.如图5d所示,响应于检测到来自用户510的低于音量阈值524的音量级526v的私有语音命令520v,电子设备120a在可视环境500a内呈现对象520a。同时,响应于检测到来自用户510的私有语音命令520v,电子设备120b在可视环境500b内不呈现对象或响应。例如,响应于用户510做出私有语音命令“助理,让我看看艾菲尔铁塔”,仅在与电子设备120a相关联的用户510的可视环境500a内呈现艾菲尔铁塔的视觉表示。然而,电子设备120b放弃在可视环境500b内呈现任何对象或响应。
70.如图6a至图6d所示,凝视驱动的cgr呈现场景包括与第一用户610相关联的一个电子设备120a。在一些具体实施中,显示器122b包括与电子设备120a相关联的用户610a的一个或多个化身或图像。图6a至图6d类似于并改编自图5a至图5d。因此,在它们之间使用类似的附图标记,并且为了简洁起见,本文仅描述不同之处。
71.如图6a所示,用户610基于公共凝视方向命令620u调用公共交互。在一些具体实施中,电子设备120a同时检测凝视方向命令620u和以任何音量阈值或音量级给数字助理的用
户搜索输入。例如,用户610可以用命令“助理,让我看看艾菲尔铁塔”在凝视显示器122a的一部分或在该部分附近时提供用户搜索输入。在一些具体实施中,指向可视区域500a的用户凝视包括公共凝视方向620u。应当理解,凝视方向命令可以根据如以上关于音量阈值524所讨论的一个或多个环境因素、硬件因素、用户因素等来覆盖或补充基于音量的公共-私有交互阈值。在一些具体实施中,背景噪声或串扰可能使音频驱动的公共-私有交互调用不可靠或不切实际。在这种情况下,凝视驱动的公共-私有交互调用可以代替或增强音频驱动的公共-私有交互调用。
72.另选地,在一些具体实施中,公共凝视方向命令620u包括但不限于以相对于音量阈值524的任何音量级做出的用户调用输入。例如,用户610可以用命令“嗨,助理”调用数字助理。
73.如图6b所示,响应于检测到来自用户610的公共凝视方向命令620u,同时也检测到用户搜索输入,电子设备120a在可视环境500a中呈现对象620a。同时,响应于检测到来自用户610的公共凝视方向命令620u,同时也检测到用户搜索输入,电子设备120b在可视环境500b中呈现对象620b。例如,响应于用户510提供语音命令“助理,让我看看艾菲尔铁塔”,同时凝视电子设备120a,电子设备120a在与电子设备120a相关联的用户610的可视环境500a内呈现艾菲尔铁塔的视觉表示。电子设备120b还在与用户512(或任何其他用户)相关联的可视环境500b内呈现艾菲尔铁塔的视觉表示。在一些具体实施中,凝视方向可以调用仅凝视的公共命令。例如,用户610的凝视方向620u可以指向与特定搜索相关联的可视环境中的特定区域或对象。例如,可视环境500a的区域可以与文档或幻灯片相关联,并且电子设备120a和120b可以分别将文档或幻灯片呈现为对象620a和620b。
74.如图6c所示,用户610基于私有凝视方向命令620v调用私有交互。在一些具体实施中,电子设备120a同时检测私有凝视方向命令620v和以任何音量阈值或音量级给数字助理的用户搜索输入。例如,用户610可以用命令“助理,让我看看艾菲尔铁塔”在凝视离开显示器122a的一部分或凝视保留用于私有交互的显示器122a的指定部分时提供搜索输入。在一些具体实施中,指向离开可视区域500a的用户凝视包括私有凝视方向620v。在一些具体实施中,在电子设备120a上呈现的指向用户512或用户514的用户凝视包括私有凝视方向620v。
75.另选地,在一些具体实施中,私有凝视方向命令620v包括但不限于以相对于音量阈值524的任何音量级做出的用户调用输入。例如,用户610可以用命令“嗨,助理”调用数字助理。
76.如图6d所示,响应于检测到来自用户610的私有凝视方向命令620v,同时也检测到用户搜索输入,电子设备120a在可视环境500a中呈现对象520a。同时,响应于检测到来自用户610的私有凝视方向命令620v,同时也检测到用户搜索输入,电子设备120b在可视环境500b中不呈现对象或响应。例如,用户610提供语音命令“助理,让我看看艾菲尔铁塔”,同时大致凝视电子设备120a、其特定区域或部分或在可视环境500a内的特定物理或虚拟对象。作为响应,电子设备120a仅在与电子设备120a相关联的用户610的可视环境500a内呈现艾菲尔铁塔的视觉表示,而电子设备120b放弃在可视环境500b内呈现任何对象或响应。
77.在一些具体实施中,私有凝视方向命令620v单独就足以调用私有或半公共交互。在一些具体实施中,私有凝视方向命令720v与私有语音命令配对以调用私有或半公共交
互。在一些具体实施中,具有高于音量阈值524的语音命令的私有凝视方向命令720v将调用半公共交互。在一些具体实施中,具有低于音量阈值524的语音命令的公共凝视方向命令将调用半公共交互。
78.如图7a至图7d所示,手势驱动的cgr呈现场景包括与第一用户710相关联的一个电子设备120a。在一些具体实施中,显示器122b包括与电子设备120a相关联的用户710a的一个或多个化身或图像。图7a至图7d类似于并改编自图5a至图5d。因此,在它们之间使用类似的附图标记,并且为了简洁起见,本文仅描述不同之处。
79.如图7a所示,用户710基于fov 111a内不存在手势720u来调用公共交互。在一些具体实施中,电子设备120a同时检测fov 111a内不存在手势720u以及以任何音量阈值或音量级给数字助理的用户搜索输入。例如,当说出命令“助理,让我看看艾菲尔铁塔”时,用户710可以调用用户搜索输入,同时不在fov 111a内摆姿势或放置任何身体部分。
80.另选地,在一些具体实施中,不存在手势720u包括但不限于以相对于音量阈值524的任何音量级做出的用户调用输入。例如,用户710可以用命令“嗨,助理”调用数字助理。
81.应当理解,手势输入可以根据如以上关于音量阈值524所讨论的一个或多个环境因素、硬件因素、用户因素等来覆盖或补充基于音量和基于凝视的公共-私有交互阈值中的一者或多者。在一些具体实施中,背景噪声或串扰可能使音频驱动的公共-私有交互调用不可靠或不切实际。在这种情况下,手势驱动的公共-私有交互调用可以代替或增强音频驱动的公共-私有交互调用。
82.如图7b所示,响应于检测到fov 111a内不存在手势720u,同时也检测到用户搜索输入,电子设备120a在可视环境500a中呈现对象720a。同时,响应于检测到fov 111a内不存在手势720u,同时也检测到用户搜索输入,电子设备120b在可视环境500b中呈现对象720b。例如,响应于在具有语音命令“助理,让我看看艾菲尔铁塔”的fov 111a内不存在手势720u,在与电子设备120a相关联的用户710的可视环境500a和与电子设备120b相关联的用户512(或任何其他用户)的可视环境500b内呈现艾菲尔铁塔的视觉表示。在一些具体实施中,用户710可以用与图7c至图7d所示的私有手势720v不同的公共手势来调用公共交互。示例性公共手势包括但不限于指点、挥动等。
83.如图7c所示,用户710基于fov 111a内的私有手势命令720v调用私有交互。在一些具体实施中,电子设备120a同时检测fov 111a内的私有手势命令720v以及以任何音量阈值或音量级给数字助理的用户搜索输入。例如,用户710可以在电子设备120a的fov 111a内握住手720v时用命令“助理,让我看看艾菲尔铁塔”调用用户搜索输入。在一些具体实施中,私有手势命令可以包括用户710用他们的手720v捂住他们的嘴,或将他们的手基本上放在他们的嘴附近,并且手掌面向嘴唇,以接近或字面上模糊更多或更多的口语或口头语言或一个或多个面部表情,包括但不限于微笑、皱眉等。在一些具体实施中,电子设备120a在如图5a至图5d中的fov 505中的示例所示的面向用户的相机的视场内检测私有手势命令720v。
84.另选地,在一些具体实施中,私有手势命令720v包括但不限于以相对于音量阈值524的任何音量级做出的用户调用输入。例如,用户710可以用命令“嗨,助理”调用数字助理。
85.如图7d所示,响应于检测到fov 111a内的私有手势命令720v,同时也检测到用户搜索输入,电子设备120a在可视环境500a中呈现对象720a。同时,响应于检测到fov 111a内
的私有手势命令720v,同时也检测到用户搜索输入,电子设备120b在可视环境500b中不呈现对象或响应。例如,用户710用语音命令“助理,让我看看艾菲尔铁塔”做出私有手势命令。作为响应,电子设备120a仅在与电子设备120a相关联的用户710的可视环境500a内呈现艾菲尔铁塔的视觉表示。然而,电子设备120b放弃在可视环境500b内呈现任何对象或响应。
86.在一些具体实施中,对象720a被呈现为接近或覆盖在用户710的私有手势命令720v的视觉表示710c上。在一些具体实施中,对象720a被呈现为平行于或正交于与私有手势命令720v的视觉表示710c对齐的平面。例如,用户710可做出私有手势命令720v,其中手掌710v用语音命令“助理,让我看看艾菲尔铁塔”基本上垂直定向。作为响应,在平行于手掌710v的平面的前面呈现艾菲尔铁塔的视觉表示。又如,用户710可以做出私有手势命令720v,其中手掌710v用语音命令“助理,让我看看艾菲尔铁塔”基本上平坦定向并指向上方。作为响应,在与手掌710v正交的平面上呈现艾菲尔铁塔的视觉表示,给出用户710在平坦的向上手掌720v的视觉表示710c中握持艾菲尔铁塔的cgr模型的外观。应当理解,电子设备120a或120b可以将虚拟对象520a、520b、620a、620b、720a和720b中的任何一者或全部分别覆盖在可视环境500a或500b内的任何物理对象或表面上。
87.在一些具体实施中,对象520a、520b、620a、620b、720a和720b包括一个或多个不同的或相同的对象,可以包括与其相关联的一个或多个不同的或相同的对象,并且可以包括一个或多个不同的或相同的视觉特征。在一些具体实施中,对象520a、520b、620a、620b、720a和720b可基于用户510、610、710、512、514或其他用户中的一者或多者的特征而显现为彼此相同或不同。在一些具体实施中,对象520a、520b、620a、620b、720a和720b可基于可视环境500a或500b中的一者或多者的特征(包括但不限于可视环境500a和500b是否与同一物理环境105相关联)而显现为彼此相同或不同。
88.在一些具体实施中,私有手势命令单独就足以调用私有或半公共交互。在一些具体实施中,私有手势命令与私有语音命令或私有凝视方向命令配对,以调用私有或半公共交互。在一些具体实施中,具有高于音量阈值524的语音命令的私有手势命令720v或公共凝视命令620u将调用半公共交互。在一些具体实施中,在具有低于音量阈值524的语音命令或私人凝视方向命令620v的fov 111a内不存在手势720u将调用半公开交互。
89.在一些具体实施中,修改用户的化身包括使用户对其他用户的视觉呈现模糊,例如,使用户的化身或视频呈现像素化、模糊或动画化。在一些具体实施中,如图7c和图7d所示,电子设备120b可以响应于电子设备120a接收到私有手势命令720v而在电子设备120b处修改用户710的视频呈现710b。在一些具体实施中,电子设备120b可以响应于接收私有语音命令520v或私有凝视方向命令620v来修改视频呈现510b或610b。在一些具体实施中,修改与用户相关联的指示符,例如,向用户正在调用私有或半公共交互的其他用户传输状态指示符。在一些具体实施中,用户设备本身可以不修改其通信,而是可以将修改指令传输到另一用户设备或传输到该用户设备本地或远程的通信控制器。修改指令可以指示另一节点、模块或设备在接收到时修改用户的通信。
90.图8是根据一些具体实施的在多用户通信会话期间调用公共和私有交互的方法800的流程图表示。在各种具体实施中,方法800由具有非暂态存储器和与该非暂态存储器耦接的一个或多个处理器的设备(例如,图1和图2中的控制器110;图1和图3中的电子设备120;或它们的合适组合)或其部件执行。在一些具体实施中,方法800由处理逻辑部件(包括
硬件、固件、软件或其组合)执行。在一些具体实施中,方法800由执行存储在非暂态计算机可读介质(例如,存储器)中的代码的处理器执行。在各种具体实施中,方法800中的一些操作任选地被组合,并且/或者一些操作的次序任选地被改变。
91.如上所述,在多用户通信会话(例如,电话会议、视频会议、cgr会议等)期间,用户可以请求信息(例如,语音请求)。当前的方法不能确定请求的输出是应当与(a)多用户通信会话的所有用户共享(即,公共交互)还是应当与(b)仅请求用户共享(即,私有交互)。因此,根据一些具体实施,本文描述的该方法将接收请求,并且根据请求用户的状态或移动,对多用户通信会话的所有用户进行公开响应,或者对多用户通信会话的用户子集进行私下响应。
92.如框810所示,方法800包括呈现多用户通信会话。在一些具体实施中,电子设备120、120a或120b显示多用户通信会话,该多用户通信会话分别包括可视环境100、500a或500b以及任选地包括一个或多个用户,包括但不限于与电子设备120a相关联的用户510、610或710以及与与其通信的电子设备相关联的用户512和514。在一些具体实施中,多用户通信会话包括在电子设备120或120a和与其通信的其他电子设备之间通过因特网协议(ip)网络进行的基本上实时的视频或音频电话会议。在一些具体实施中,cgr环境包括虚拟现实(vr)内容和表示用户的化身。在一些具体实施中,cgr环境包括与完全或部分虚拟环境中的至少一者相结合的具有一个或多个用户的视频图像的增强现实(ar)内容。在一些具体实施中,cgr环境包括在具有一个或多个用户的自然环境中的一个或多个用户的视频图像的ar内容。在一些具体实施中,cgr环境包括基于云的2d或3d渲染系统、基于云的电话会议或视频会议系统或近眼显示系统。在一些具体实施中,多用户通信会话处理程序232或332被配置为根据框810呈现多用户通信会话。
93.如框820所示,方法800包括检测用户调用输入。在一些具体实施中,用户调用输入包括环境音频输入、语音内容输入、手势、身体移动、相对于电子设备120的身体位置、身体姿势、一个或多个手指或足趾的取向、一只或多只眼睛的凝视、一只或多只眼睛的方向、一只或多只眼睛的扩张、语音输入的音量、音色或包括细语或情绪的语音输入的调制等中的一者或多者。在一些具体实施中,调用输入是由用户说出的“唤醒词”或“唤醒短语”,其指示搜索请求的开始或前缀或预定手势。在一些具体实施中,预定手势是用户的手在用户的嘴或脸前举起。在一些具体实施中,预定手势包括将用户的手掌面向用户的面部,以创建面向用户的基本上平面的表面。在一些具体实施中,公共-私有交互引擎250和用户调用处理程序252中的一者或多者被配置为根据框820来检测用户调用输入。
94.如框830所示,方法800包括检测用户搜索输入。在一些具体实施中,用户搜索输入包括由数字助理接收的口头搜索查询、美国手语(asl)或另一手语中的一个或多个手势或在物理或软件键盘处接收的文本搜索查询。在一些具体实施中,经由手跟踪引擎、身体姿态引擎、凝视跟踪引擎、自然语言处理器等中的至少一者来检测用户搜索输入。在一些具体实施中,检测用户搜索输入可以包括接收用户的搜索查询和其他检测到的用户状态,诸如相机输入、除了口头输入的内容之外的麦克风输入或其他元数据。在一些具体实施中,公共-私有交互引擎250和用户搜索处理程序254中的一者或多者被配置为根据框830来检测用户搜索输入。在一些具体实施中,用户搜索输入包括一个或多个疑问词或命令词、语句、短语等。作为一个示例,用户搜索输入可以是问题“助理,巴黎最高的建筑是什么?”作为另一示
例,用户搜索输入可以是语句“助理,让我看看巴黎最高的建筑”。作为又一示例,用户搜索输入可以是短语“艾菲尔铁塔”。
95.如框840所示,方法800包括获得搜索信息。在一些具体实施中,搜索信息包括来自与数字助理相关联的基于因特网的搜索引擎的结果。在一些具体实施中,获得包括以下各项中的一项或多项:从外部设备、节点或服务器接收数据或元数据;从本地存储器或外部设备、节点或服务器检索数据或元数据;或在本地设备处生成数据或元数据。在一些具体实施中,电子设备向集中管理的多用户搜索引擎或数字助理提交搜索请求,并接收完整的搜索查询。在一些具体实施中,电子设备向本地或远程搜索引擎或数字助理提交用户搜索输入。在一些具体实施中,公共-私有交互引擎250和用户搜索处理程序254中的一者或多者被配置为根据框840来检测用户搜索输入。
96.如框850所示,方法800包括确定是否满足第一标准。在一些具体实施中,第一标准包括语音输入标准、凝视输入标准和手势输入标准中的一者或多者,如图5a至图5d、图6a至图6d和图7a至图7d中的示例分别所示。作为一个示例,响应于检测到以或高于说话音量和/或音色说话的公共语音命令520u,满足第一标准,如图5a和图5b所示。作为另一示例,响应于检测到基本上朝向电子设备120a的显示器122a的公共凝视方向命令620u,满足第一标准,如图6a和图6b所示。作为又一示例,响应于检测到电子设备120a的fov 111a内不存在身体或手720u,满足第一标准,如图7a和图7b所示。
97.在一些具体实施中,这些示例性第一标准中的一个或多个可以根据环境、硬件或用户偏好优先于示例性第一标准中的另一个或多个。在一些具体实施中,第一请求类型包括公共交互模式,其中对信息请求的响应与参与多用户通信会话的所有用户共享。在一些具体实施中,第一输入标准可以包括来自用户的指示第一请求类型的一个或多个视觉或音频提示,例如,以标准姿势定向的用户身体、处于标准调制或音量的用户语音或用户说出指示第一请求类型的不同命令。在一些具体实施中,根据框850,公共-私有交互引擎250被配置为确定是否满足第一标准。
98.如框852所示,方法800包括根据确定在框850处满足第一标准来呈现公共交互。在一些具体实施中,呈现公共交互包括在电子设备120a的可视环境500a内呈现对象520a、620a或720a,以及在电子设备120b的可视环境500b内呈现对象520b、620b或720b。在一些具体实施中,cgr体验引擎240、cgr内容引擎246、cgr呈现引擎340和cgr呈现器346中的至少一者被配置为根据框852呈现公共交互。
99.如框860所示,方法800包括确定是否满足第二标准。在一些具体实施中,第二标准包括语音输入标准、凝视输入标准和手势输入标准中的一者或多者,如图5a至图5d、图6a至图6d和图7a至图7d中的示例分别所示。作为一个示例,第二标准由低于说话音量和音色或以细语说出的私有语音命令520v来满足。作为另一示例,第一标准由基本背离电子设备120a的显示器122a或指向电子设备120a的显示器122a的预定部分的私有凝视方向命令620v来满足。作为又一示例,第二标准由定位在电子设备120a的fov 111a内的私有手势命令720v来满足。作为又一示例,第二标准由手向上举起并且手掌面向电子设备的相机来满足。
100.在一些具体实施中,这些示例性第二标准中的一个或多个可以根据环境、硬件或用户偏好优先于示例性第一标准或第二标准中的另一个或多个。在一些具体实施中,第二
输入标准包括特定的手势,其中用户的手臂在用户的前方至少部分地伸出,同时手掌面向用户。在一些具体实施中,增强现实内容可以呈现在手掌上或手掌附近,并且与由手掌创建的平面对齐。类似地,增强现实对象可以呈现在与其他手势或身体部分相关联的其他平面上。在一些具体实施中,根据框860,公共-私有交互引擎250被配置为确定是否满足第二标准。
101.如框862所示,方法800包括根据确定在框860处满足第二标准来呈现私有交互。在一些具体实施中,呈现私有交互包括在电子设备120a的可视环境500a内呈现对象520a、620a或720a,以及放弃在电子设备120b的可视环境500b内呈现对象520b、620b或720b。在一些具体实施中,cgr体验引擎240、cgr内容引擎246、cgr呈现引擎340和cgr呈现器346中的至少一者被配置为根据框852呈现私有交互。
102.在一些具体实施中,如框870所示,方法800可选地包括确定是否满足第三标准。在一些具体实施中,第三标准包括语音输入标准、凝视输入标准和手势输入标准中的一者或多者,如图5a至图5d、图6a至图6d和图7a至图7d中的示例分别所示。在一些具体实施中,第三标准包括以下各项中的一项或多项:低于说话音量和音色或以细语说出的语音命令520v、基本上背离电子设备120a的显示器122a或指向电子设备120a的显示器122a的预定部分的私有凝视方向命令620v以及定位在电子设备120a的fov 111a内的私有手势命令720v。例如,参考图5a至图5d,音量范围522可以包括高于或低于音量阈值524的第二阈值,并且当搜索请求或调用命令的音量在阈值之间、高于两个阈值或低于两个阈值时,满足第三标准。例如,参考图6a至图7d,当用户610或710在fov 111a或505中的一者或两者内做出不同于私有手势720v或不存在手势720u的手势或身体姿态时,满足第三标准。例如,不同的手势或身体姿态可以包括交叉双臂、握拳、手指指向、斜躺或部分斜躺位置等。
103.在一些具体实施中,这些示例性第三标准中的一个或多个可以根据环境、硬件或用户偏好优先于示例性第三标准中的另一个或多个。在一些具体实施中,半公共交互是方法800的可选阶段,并且可以包括与用于确定公共交互的标准或用于确定私有交互的标准相同或不同的标准。在一些具体实施中,根据框870,公共-私有交互引擎250被配置为确定是否满足第三标准。
104.如框872所示,方法800包括根据确定在框870处满足第一标准来呈现半公共交互。在一些具体实施中,呈现半公共交互包括在电子设备120a的可视环境500a内呈现对象520a、620a或720a,在电子设备120b的可视环境500b内呈现对象520b、620b或720b,以及放弃在通过多用户通信会话与电子设备120a通信的至少一个电子设备的可视环境内呈现任何对象或响应。作为一个示例,电子设备120a将分别呈现对象520a、620a或720a,电子设备120b将分别呈现对象520b、620b或720b,并且与用户514相关联的至少一个电子设备将放弃呈现任何对象或响应。在一些具体实施中,cgr体验引擎240、cgr内容引擎246、cgr呈现引擎340和cgr呈现器346中的至少一者被配置为根据框872呈现半公共交互。
105.在一些具体实施中,对象520a、520b、620a、620b、720a和720b中的一者或多者包括三维虚拟对象,该三维虚拟对象可以可选地是动画的或连接的或与附加媒体内容相关联。例如,所呈现的艾菲尔铁塔的三维模型也可以与补充信息一起呈现,该补充信息包括与艾菲尔铁塔相关联的关键历史、地理、工程或政治事实的口头概要、书面材料或与其一起在近侧呈现的书面材料的超链接。在一些具体实施中,根据半公共交互将补充信息呈现给用户
510、610或710,并且将补充信息呈现给通过多用户通信与电子设备120a通信的其他电子设备的子集。在一些具体实施中,电子设备的子集包括除电子设备120a之外的至少一个电子设备,但少于通过多用户通信会话与电子设备120a通信的所有电子设备。在一些具体实施中,信息可包括音频、视频、文本、增强现实对象或事件、虚拟现实对象或事件或其他类似的静态或动态内容。在一些具体实施中,所获得的信息或所获得的对象可以包括音频、视频、文本、增强现实对象或事件、虚拟现实对象或事件或其他类似的静态或动态内容。
106.在一些具体实施中,物理环境被捕获在视频上,并且与虚拟或增强现实内容一起显示在显示器上,该虚拟或增强现实内容覆盖环境的视频或由其复合。在一些具体实施中,呈现发生在手持设备、平板设备或其他平板屏幕设备上。在一些具体实施中,物理环境通过透明显示器自然地显现,其中虚拟或增强现实内容覆盖或投影在自然可见的环境和其中的对象上。在一些具体实施中,呈现发生在眼镜或另一其他近眼系统上。在一些具体实施中,电子设备接收在环境内投影的ar/vr内容。例如,用户设备可以请求查看艾菲尔铁塔,并且可以响应于该请求在用户设备上呈现艾菲尔铁塔的2d或3d模型。
107.在一些具体实施中,方法800包括:呈现多用户通信会话,该多用户通信会话包括与电子设备相关联的第一用户和与一个或多个其他电子设备相关联的一个或多个其他用户;在呈现该多用户通信会话的同时,检测用户调用输入,该用户调用输入对应于对数字助理的触发;检测用户搜索输入,该用户搜索输入对应于信息请求;响应于检测到该用户搜索输入,基于该请求获得该信息;根据确定该用户调用输入和该用户搜索输入中的至少一者满足与第一请求类型相关联的第一输入标准:呈现该信息;以及将该信息传输到该一个或多个其他电子设备以呈现给该一个或多个其他用户;以及根据确定该用户调用输入和该用户搜索输入中的至少一者满足与第二请求类型相关联的第二输入标准:呈现该信息;以及放弃将该信息传输到该一个或多个其他电子设备以呈现给该一个或多个其他用户。
108.在一些具体实施中,方法800包括:根据确定该用户调用输入和该用户搜索输入中的至少一者满足与第三请求类型相关联的第三输入标准:经由该一个或多个输出设备呈现该信息;以及将该信息传输到该一个或多个其他电子设备的子集以呈现给该一个或多个其他用户。
109.在一些具体实施中,方法800包括:根据确定该用户调用输入和该用户搜索输入中的至少一者满足与第二请求类型相关联的第二输入标准,将该第二请求类型的指示传输到该一个或多个其他电子设备。在一些具体实施中,该指示包括传输用于暂停该请求用户的视频、静音该请求用户的音频、修改该请求用户的化身以及修改与该请求用户相关联的指示符中的至少一者的指令。例如,响应于来自用户510、610或710的公共调用,对象520b、620b或720b可包括用户510、610、710请求产生返回对象的信息的指示。
110.在一些具体实施中,该指示包括第一用户正在根据“私有”或“半公共”模式与电子设备交互的警告。指示还可以包括特定交互是公共、私有或半公共的指示。指示还可以包括在排除在交互之外的所有电子设备处暂停或调暗进行私有或半公共交互的参与者的视频。例如,在来自用户510的私有或半公共请求的调用期间,电子设备120b可以在电子设备120a处将用户510的表示510b呈现为暂停、变暗、变黑或静音。应当理解,响应于用户610或710调用私有凝视方向命令620v或私有手势命令720v,电子设备可以以这些方式或类似方式修改用户610a或710b的表示。在一些具体实施中,被排除在半公开或私有交互之外的用户可以
接收在多用户通信会话内发生一个或多个私有交互的指示。例如,可以使指定的发言人、讲师、教授或教师知道多用户通信会话中的各种听众、学生或参与者参与半公共或私有通信。
111.虽然上文描述了在所附权利要求书范围内的具体实施的各个方面,但是应当显而易见的是,上述具体实施的各种特征可通过各种各样的形式体现,并且上述任何特定结构和/或功能仅是例示性的。基于本公开,本领域的技术人员应当理解,本文所述的方面可以独立于任何其他方面来实现,并且这些方面中的两个或更多个可以采用各种方式组合。例如,可以使用本文阐述的任何数量的方面来实现装置和/或可以实践方法。另外,除了本文阐述的一个或多个方面之外或者不同于本文阐述的一个或多个方面,可以使用其他结构和/或功能来实现这样的装置和/或可以实践这样的方法。
112.还将理解的是,虽然术语“第一”、“第二”等可能在本文中用于描述各种元素,但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如,第一节点可以被称为第二节点,并且类似地,第二节点可以被称为第一节点,其改变描述的含义,只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点,但它们不是同一个节点。
113.本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求中所使用的那样,单数形式的“一个”和“该”旨在也涵盖复数形式,除非上下文清楚地另有指示。还将理解的是,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是,术语“包括”在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件,和/或其分组。
114.如本文所使用的,术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真,具体取决于上下文。类似地,短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真,具体取决于上下文。
技术特征:1.一种方法,包括:在包括非暂态存储器和一个或多个处理器的计算系统处,其中所述计算系统通信地耦接到显示设备、一个或多个输入设备和一个或多个输出设备:经由所述显示设备呈现多用户通信会话,所述多用户通信会话包括与所述计算系统相关联的第一用户和与一个或多个其他电子设备相关联的一个或多个其他用户;在呈现所述多用户通信会话的同时,经由所述一个或多个输入设备检测用户调用输入,所述用户调用输入对应于对数字助理的触发;经由所述一个或多个输入设备检测用户搜索输入,所述用户搜索输入对应于信息请求;响应于检测到所述用户搜索输入,基于所述请求获得所述信息;根据确定所述用户调用输入和所述用户搜索输入中的至少一者满足与第一请求类型相关联的第一输入标准:经由所述显示设备呈现所述信息;以及将所述信息传输到所述一个或多个其他电子设备以呈现给所述一个或多个其他用户;以及根据确定所述用户调用输入和所述用户搜索输入中的至少一者满足与第二请求类型相关联的第二输入标准:经由所述显示设备呈现所述信息;以及放弃将所述信息传输到所述一个或多个其他电子设备以呈现给所述一个或多个其他用户。2.根据权利要求1所述的方法,其中所述用户调用输入和所述用户搜索输入中的至少一者包括凝视方向。3.根据权利要求2所述的方法,其中所述凝视方向基本上朝向虚拟对象。4.根据权利要求1至3中任一项所述的方法,其中所述用户调用输入和所述用户搜索输入中的至少一者包括所述用户的身体或身体部分的移动或位置。5.根据权利要求4所述的方法,其中响应于检测到手向前举起并且手掌面向所述计算系统的相机而满足所述第二输入标准。6.根据权利要求4至5中任一项所述的方法,其中响应于检测到预定手势或移动或预定头部方向或移动中的至少一者而满足所述第二输入标准。7.根据权利要求1至6中任一项所述的方法,其中所述用户调用输入和所述用户搜索输入中的至少一者包括音量、音高、音色或其他音频特征中的一者或多者的调制。8.根据权利要求7所述的方法,其中响应于检测到具有第一音量的语音输入而满足所述第一输入标准,并且响应于检测到具有小于所述第一音量的第二音量的所述语音输入而满足所述第二输入标准。9.根据权利要求1至8中任一项所述的方法,还包括:根据确定所述用户调用输入和所述用户搜索输入中的至少一者满足与第三请求类型相关联的第三输入标准:经由所述显示设备呈现所述信息;以及将所述信息传输到所述一个或多个其他电子设备的子集以呈现给所述一个或多个其
他用户。10.根据权利要求1至9中任一项所述的方法,还包括:根据所述确定所述用户调用输入和所述用户搜索输入中的至少一者满足与所述第二请求类型相关联的所述第二输入标准,将所述第二请求类型的指示传输到所述一个或多个其他电子设备。11.根据权利要求10所述的方法,其中所述指示包括传输用于暂停所述请求用户的视频、静音所述请求用户的音频、修改所述请求用户的化身以及修改与所述请求用户相关联的指示符中的至少一者的指令。12.根据权利要求1至11中任一项所述的方法,其中所述信息包括搜索结果或搜索查询,所述搜索结果或搜索查询包括视频、音频和文本内容中的至少一者。13.根据权利要求1至12中任一项所述的方法,其中所述信息包括增强现实对象或事件或者虚拟现实对象或事件中的至少一者。14.根据权利要求1至13中任一项所述的方法,其中所述多用户通信会话包括计算机生成现实(cgr)环境。15.根据权利要求1至14中任一项所述的方法,其中呈现所述信息包括显示覆盖在物理环境或其中的物理对象上的cgr内容。16.根据权利要求15所述的方法,其中所述物理对象包括所述用户的手或手掌的至少一部分。17.根据权利要求15至16中任一项所述的方法,其中所述物理环境和其中的所述物理对象由所述一个或多个输入设备捕获并且经由所述显示设备呈现。18.根据权利要求15至17中任一项所述的方法,其中所述物理环境和其中的所述物理对象通过所述显示设备的透明显示器自然地显现。19.根据权利要求1至18中任一项所述的方法,其中所述用户搜索输入包括至少一个询问性或命令性命令。20.一种计算系统,所述计算系统包括:一个或多个处理器;非暂态存储器;通信接口,所述通信接口用于与显示设备、一个或多个输入设备和一个或多个输出设备通信;以及存储在所述非暂态存储器中的一个或多个程序,所述一个或多个程序当由所述一个或多个处理器执行时使所述计算系统执行根据权利要求1至19所述的方法中的任一种方法。21.一种存储一个或多个程序的非暂态存储器,所述一个或多个程序当由具有显示设备、一个或多个输入设备和一个或多个输出设备的计算系统的一个或多个处理器执行时使所述计算系统执行根据权利要求1至19所述的方法中的任一种方法。22.一种计算系统,所述计算系统包括:显示设备;一个或多个输入设备;一个或多个输出设备;一个或多个处理器;
非暂态存储器;以及用于使所述计算系统执行根据权利要求1至18所述的方法中的任一种方法的装置。
技术总结一种在多用户通信会话期间调用公共和私有交互的方法,该方法包括:呈现多用户通信会话;检测用户调用输入,该用户调用输入对应于对数字助理的触发;检测用户搜索输入,该用户搜索输入对应于信息请求;基于该请求获得该信息;呈现该信息;根据确定该用户调用输入和该用户搜索输入中的至少一者满足与第一请求类型相关联的第一输入标准:将该信息传输到其他电子设备以呈现给其他用户;以及根据确定该用户调用输入和该用户搜索输入中的至少一者满足与第二请求类型相关联的第二输入标准:放弃将该信息传输到该其他电子设备以呈现给其他用户。用户。用户。
技术研发人员:J
受保护的技术使用者:苹果公司
技术研发日:2021.03.03
技术公布日:2022/11/1