OpenCLDNN库的集成方法及装置、系统和电子设备

专利2024-11-20 71

opencl dnn库的集成方法及装置、系统和电子设备
技术领域
1.本公开涉及人工智能技术领域，尤其涉及一种opencl dnn库的集成方法及装置、系统和电子设备。

背景技术：

2.深度学习模型的构建、训练以及推理离不开主流机器学习框架中的支撑，尤其是对于深度学习中被高频调用或计算密集型的算子，机器学习框架一般通过调用深度神经网络加速库来提升计算速度。
3.上述方法虽然能够提升计算速度，但是现有深度神经网络加速库主要由少数国外厂商开发并根据自有硬件设备特点进行了优化，其封闭性导致其他厂商生产的通用加速器尤其是国产加速器难以在深度学习领域发挥作用，因此，如何使现有深度神经网络加速库支持国产加速器，是目前亟需解决的问题。

技术实现要素：

4.本公开提供了一种opencl dnn库的集成方法、装置、系统和电子设备。其主要目的在于实现现有深度神经网络加速库支持国产加速器。
5.根据本公开的第一方面，提供了一种opencl dnn库的集成方法，其中，包括：
6.在streamexecutor中实现opencl platform，并注册到tensorflow框架中；所述opencl platform为根据指令进行创建、指定对应的设备platform；
7.在streamexecutor中实现opencl executor，并注册到tensorflow框架中；
8.在streamexecutor中的librarysupport层完成opencl dnn的注册和接入；
9.在tensorflow框架中将opencl dnn库中对应的算子与opencl设备绑定并进行注册。
10.可选的，所述在streamexecutor中的librarysupport层完成opencl dnn的注册和接入包括：
11.创建并获取opencl dnn库的handle对象实例；
12.将所述opencl dnn库中handle对象实例与所述streamexecutor绑定；
13.将绑定后的opencl dnn库注册到所述streamexecutor中。
14.可选的，所述在streamexecutor中实现opencl platform，并注册到tensorflow框架中包括：
15.执行openclplatform类的声明以及opencl platform的初始化；
16.基于multiplatformmanager管理所述openclplatform。
17.可选的，所述在tensorflow中将opencl dnn库中对应算子与opencl设备绑定并注册中包括：
18.将所述opencl dnn算子通过宏register_kernel_builder与所述opencl设备绑定，并注册到tensorflow框架中。
19.可选的，所述在streamexecutor中实现opencl executor，并注册到tensorflow框架中包括：
20.基于所述opencl executor完成执行器的初始化、计算资源管理和调度以及opencl核函数的准备和执行工作中的至少一种。
21.可选的，所述方法还包括：
22.基于所述streamexecutor通过stream对象实现对opencl dnn库中对应算子的调用。
23.可选的，所述方法还包括：
24.基于接口函数接收调用所述opencl dnn库中对应算子的指令信息，所述指令信息中包含访问所述opencl dnn库中的标识信息；
25.基于所述streamexecutor根据所述指令信息调用所述opencl dnn库中对应的算子。
26.根据本公开的第二方面，提供了一种opencl dnn库的集成装置，包括：
27.第一注册单元，用于在streamexecutor中实现opencl platform，并注册到tensorflow框架中；所述opencl platform为根据指令进行创建、指定对应的设备platform；
28.第二注册单元，用于在streamexecutor中实现opencl executor，并注册到tensorflow框架中；
29.第三注册单元，用于在streamexecutor中的librarysupport层完成opencl dnn的注册和接入；
30.第四注册单元，用于在tensorflow框架中将opencl dnn库中对应的算子与opencl设备绑定并进行注册。
31.可选的，所述第三注册单元还用于：
32.创建并获取opencl dnn库的handle对象实例；
33.将所述opencl dnn库中handle对象实例与所述streamexecutor绑定；
34.将绑定后的opencl dnn库注册到所述streamexecutor中。
35.可选的，所述第一注册单元还用于：
36.执行openclplatform类的声明以及opencl platform的初始化；
37.基于multiplatformmanager管理所述openclplatform。
38.可选的，所述第四注册单元还用于：
39.将所述opencl dnn算子通过宏register_kernel_builder与所述opencl设备绑定，并注册到tensorflow框架中。
40.可选的，所述第二注册单元还用于：
41.基于所述opencl executor完成执行器的初始化、计算资源管理和调度以及opencl核函数的准备和执行工作中的至少一种。
42.可选的，所述装置还包括：
43.第一调用单元，用于基于所述streamexecutor通过stream对象实现对opencl dnn库中对应算子的调用。
44.可选的，所述装置还包括：
45.第二调用单元，用于基于接口函数接收调用所述opencl dnn库中对应算子的指令信息，所述指令信息中包含访问所述opencl dnn库中的标识信息；
46.第三调用单元，用于基于所述streamexecutor根据所述指令信息调用所述opencl dnn库中对应的算子。
47.根据本公开的第三方面，提供了一种系统，所述系统包含前述第二方面所述的装置。
48.根据本公开的第四方面，提供了一种电子设备，包括：
49.至少一个处理器；以及
50.与所述至少一个处理器通信连接的存储器；其中，
51.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述第一方面所述的方法。
52.根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如前述第一方面所述的方法。
53.本公开提供的opencl dnn库的集成方法、装置、系统和电子设备，在streamexecutor中实现opencl platform，并注册到tensorflow框架中；所述opencl platform为根据指令进行创建、指定对应的设备platform；在streamexecutor中实现openclexecutor，并注册到tensorflow框架中；在streamexecutor中的librarysupport层完成opencl dnn的注册和接入；在tensorflow框架中将opencldnn库中对应的算子与opencl设备绑定并进行注册；与相关技术相比，本技术实施例实现了opencl dnn库在tensorflow框架中的集成，使得tensorflow框架在opencl硬件设备上运行时可以对深度神经网络常用的算子进行计算加速。
54.应当理解，本部分所描述的内容并非旨在标识本技术的实施例的关键或重要特征，也不用于限制本技术的范围。本技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
55.附图用于更好地理解本方案，不构成对本公开的限定。其中：
56.图1为本公开实施例所提供的一种opencl dnn库的集成方法的流程示意图；
57.图2为本技术实施例所提供的一种将opencl dnn库中对应的算子与opencl设备绑定并注册到tensorflow框架中的实例图；
58.图3为本技术实施例所提供的一种opencl dnn在streamexecutor中的注册流程图；
59.图4为本技术实施例所提供的一种tensorflow框架调用opencl dnn库中对应算子的方法的流程示意图；
60.图5为本公开实施例提供的一种opencl dnn库的集成装置的结构示意图；
61.图6为本公开实施例提供的另一种opencl dnn库的集成装置的结构示意图；
62.图7为本公开实施例提供的示例电子设备400的示意性框图。
具体实施方式
63.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种
细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
64.下面参考附图描述本公开实施例的opencl dnn库的集成方法、装置、系统和电子设备。
65.图1为本公开实施例所提供的一种opencl dnn库的集成方法的流程示意图。
66.如图1所示，该方法包含以下步骤：
67.步骤101，在streamexecutor中实现opencl platform，并注册到tensorflow框架中；所述opencl platform为根据指令进行创建、指定对应的设备platform。
68.步骤102，在streamexecutor中实现openclexecutor，并注册到tensorflow框架中。
69.executor层隐藏了platform的复杂设计，并向上层调用提供了统一的streamexecutor类。
70.步骤103，在streamexecutor中的librarysupport层完成opencl dnn的注册和接入。
71.librarysupport层提供了用机器学习计算的底层库的接入，将opencl dnn库(ocldnn：南开大学软件学院研发实现的opencl深度神经网络库(dnn库)，包含卷积、池化、归一化等深度神经网络常用算子)注册并接入librarysupport，则streamexecutor在进行计算时便能调用opencl dnn库进行加速计算。
72.步骤104，在tensorflow框架中将opencl dnn库中对应的算子与opencl设备绑定并进行注册。
73.请参考图2，图2为本技术实施例所提供的一种将opencl dnn库中对应的算子与opencl设备绑定并注册到tensorflow框架中的实例图，对tensorflow源码中与gpu缓存传输相关的部分进行修改由于无法提前将数据传输到opencl运算设备上，所以在构造opencldnn库中对应的算子时，使用主机端数据指针；由于ocldnn库仅支持nchw格式做为输入的卷积操作，因此当输入数据格式为nhwc时，需要进行一定的转换；在执行将opencl dnn库中对应的算子与opencl设备绑定并注册到tensorflow框架中时，可采用如图2所示的方法，但是，该种实现方式并非是对具体实施方式的限定，本技术实施例对此不进行限定。
74.本公开提供的opencl dnn库的集成方法，在streamexecutor中实现opencl platform，并注册到tensorflow框架中；所述opencl platform为根据指令进行创建、指定对应的设备platform；在streamexecutor中实现openclexecutor，并注册到tensorflow框架中；在streamexecutor中的librarysupport层完成opencl dnn的注册和接入；在tensorflow框架中将opencl dnn库中对应的算子与opencl设备绑定并进行注册；与相关技术相比，本技术实施例实现了opencl dnn库在tensorflow框架中的集成，使得tensorflow框架在opencl硬件设备上运行时可以对深度神经网络常用的算子进行计算加速。
75.作为对上述申请实施例的扩展，在步骤103在streamexecutor中的librarysupport层完成opencl dnn的注册和接入时，还包括以下内容：创建并获取opencl dnn库的handle对象实例；将所述opencl dnn库中handle对象实例与所述streamexecutor绑定；将绑定后的opencl dnn库注册到所述streamexecutor中。
76.作为对上述申请实施例的扩展，在步骤101在streamexecutor中实现opencl platform，并注册到tensorflow框架中时，还包括以下内容：执行openclplatform类的声明以及opencl platform的初始化；基于multiplatformmanager管理所述openclplatform。
77.作为对上述申请实施例的扩展，在tensorflow中将opencl dnn库中对应算子与opencl设备绑定并注册还包括：将所述opencl dnn算子通过宏register_kernel_builder与所述opencl设备绑定，并注册到tensorflow框架中。
78.作为对上述申请实施例的扩展，在本步骤102在streamexecutor中实现opencl executor，并注册到tensorflow框架中时，还包括以下方法：基于所述opencl executor完成执行器的初始化、计算资源管理和调度以及opencl核函数的准备和执行工作中的至少一种，请参考图3，图3为本技术实施例所提供的一种opencl dnn在streamexecutor中的注册流程图。
79.通过上述步骤即可实现将opencl dnn库集成到tensorflow框架中，当tensorflow框架opencl硬件设备上运行时，即可调用opencl dnn库进行加速计算，如图4所示，图4为本技术实施例所提供的一种tensorflow框架调用opencl dnn库中对应算子的方法的流程示意图，包括：
80.步骤201，基于接口函数接收调用所述opencl dnn库中对应算子的指令信息，所述指令信息中包含访问所述opencl dnn库中的标识信息。
81.tensorflow框架运行时会根据当前运行设备的标识信息，确定要访问加速库的类型，，若当前运行环境为opencl，则会访问opencl dnn库。
82.步骤202.基于所述streamexecutor根据所述指令信息调用所述opencl dnn库中对应的算子。
83.所述streamexecutor通过stream对象实现对opencl dnn库中对应算子的调用，并基于所述算子进行计算加速。
84.与上述的opencl dnn库的集成方法相对应，本发明还提出一种opencl dnn库的集成的装置。由于本发明的装置实施例与上述的方法实施例相对应，对于装置实施例中未披露的细节可参照上述的方法实施例，本发明中不再进行赘述。
85.图5为本公开实施例提供的一种opencl dnn库的集成装置的结构示意图，如图5所示，包括：
86.第一注册单元31，用于在streamexecutor中实现opencl platform，并注册到tensorflow框架中；所述opencl platform为根据指令进行创建、指定对应的设备platform；
87.第二注册单元32，用于在streamexecutor中实现opencl executor，并注册到tensorflow框架中；
88.第三注册单元33，用于在streamexecutor中的librarysupport层完成opencl dnn的注册和接入；
89.第四注册单元34，用于在tensorflow框架中将opencl dnn库中对应的算子与opencl设备绑定并进行注册。
90.本公开提供的opencl dnn库的集成装置，在streamexecutor中实现opencl platform，并注册到tensorflow框架中；所述opencl platform为根据指令进行创建、指定
对应的设备platform；在streamexecutor中实现openclexecutor，并注册到tensorflow框架中；在streamexecutor中的librarysupport层完成opencl dnn的注册和接入；在tensorflow框架中将opencl dnn库中对应的算子与opencl设备绑定并进行注册；与相关技术相比，本技术实施例实现了opencl dnn库在tensorflow框架中的集成，使得tensorflow框架在opencl硬件设备上运行时可以对深度神经网络常用的算子进行计算加速。
91.进一步地，在本实施例一种可能的实现方式中，所述第三注册单元33还用于：
92.创建并获取opencl dnn库的handle对象实例；
93.将所述opencl dnn库中handle对象实例与所述streamexecutor绑定；
94.将绑定后的opencl dnn库注册到所述streamexecutor中。
95.进一步地，在本实施例一种可能的实现方式中，所述第一注册单元31还用于：
96.执行openclplatform类的声明以及opencl platform的初始化；
97.基于multiplatformmanager管理所述openclplatform。
98.进一步地，在本实施例一种可能的实现方式中，所述第四注册单元34还用于：
99.将所述opencl dnn算子通过宏register_kernel_builder与所述opencl设备绑定，并注册到tensorflow框架中。
100.进一步地，在本实施例一种可能的实现方式中，所述第二注册单元32还用于：
101.基于所述opencl executor完成执行器的初始化、计算资源管理和调度以及opencl核函数的准备和执行工作中的至少一种。
102.进一步地，在本实施例一种可能的实现方式中，如图6所示，所述装置还包括：
103.第一调用单元35，用于基于所述streamexecutor通过stream对象实现对opencl dnn库中对应算子的调用。
104.进一步地，在本实施例一种可能的实现方式中，如图6所示，所述装置还包括：
105.第二调用单元36，用于基于接口函数接收调用所述opencl dnn库中对应算子的指令信息，所述指令信息中包含访问所述opencl dnn库中的标识信息；
106.第三调用单元37，用于基于所述streamexecutor根据所述指令信息调用所述opencl dnn库中对应的算子。
107.需要说明的是，前述对方法实施例的解释说明，也适用于本实施例的装置，原理相同，本实施例中不再限定。
108.根据本公开的实施例，本公开还提供了一种电子设备和一种计算机程序产品。
109.图7示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
110.如图7所示，设备400包括计算单元401，其可以根据存储在rom(read-only memory，只读存储器)402中的计算机程序或者从存储单元408加载到ram(random access memory，随机访问/存取存储器)403中的计算机程序，来执行各种适当的动作和处理。在ram 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、rom 402以及ram 403
通过总线404彼此相连。i/o(input/output，输入/输出)接口405也连接至总线404。
111.设备400中的多个部件连接至i/o接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
112.计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于cpu(central processing unit，中央处理单元)、gpu(graphic processing units，图形处理单元)、各种专用的ai(artificial intell igence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、dsp(digital signal processor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如opencl dnn库的集成方法。例如，在一些实施例中，opencl dnn库的集成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由rom 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到ram 403并由计算单元401执行时，可以执行上文描述的方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行前述opencl dnn库的集成方法。
113.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、fpga(field programmable gate array，现场可编程门阵列)、asic(appl ication-specific integrated circuit，专用集成电路)、assp(application specific standard product，专用标准产品)、soc(system on chip，芯片上系统的系统)、cpld(complex programmable logic device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
114.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
115.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、ram、rom、eprom(electrically programmable read-only-memory，可擦除可编程只读存储器)或快闪存储器、光纤、cd-rom(compact disc read-only memory，便捷式
紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
116.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(cathode-ray tube，阴极射线管)或者lcd(liquid crystal display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
117.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：lan(local area network，局域网)、wan(wide area network，广域网)、互联网和区块链网络。
118.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务("virtual private server"，或简称"vps")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。
119.其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
120.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
121.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

技术特征：
1.一种opencl dnn库的集成方法，其特征在于，包括：在streamexecutor中实现opencl platform，并注册到tensorflow框架中；所述opencl platform为根据指令进行创建、指定对应的设备platform；在streamexecutor中实现openclexecutor，并注册到tensorflow框架中；在streamexecutor中的librarysupport层完成opencl dnn的注册和接入；在tensorflow框架中将opencl dnn库中对应的算子与opencl设备绑定并进行注册。2.根据权利要求1所述的方法，其特征在于，所述在streamexecutor中的librarysupport层完成opencl dnn的注册和接入包括：创建并获取opencl dnn库的handle对象实例；将所述opencl dnn库中handle对象实例与所述streamexecutor绑定；将绑定后的opencl dnn库注册到所述streamexecutor中。3.根据权利要求1所述的方法，其特征在于，所述在streamexecutor中实现opencl platform，并注册到tensorflow框架中包括：执行openclplatform类的声明以及openclplatform的初始化；基于multiplatformmanager管理所述openclplatform。4.根据权利要求1所述的方法，其特征在于，所述在tensorflow中将opencl dnn库中对应算子与opencl设备绑定并注册中包括：将所述opencldnn算子通过宏register_kernel_builder与所述opencl设备绑定，并注册到tensorflow框架中。5.根据权利要求1所述的方法，其特征在于，所述在streamexecutor中实现openclexecutor，并注册到tensorflow框架中包括：基于所述openclexecutor完成执行器的初始化、计算资源管理和调度以及opencl核函数的准备和执行工作中的至少一种。6.根据权利要求1-4所述的方法，其特征在于，所述方法还包括：基于所述streamexecutor通过stream对象实现对opencl dnn库中对应算子的调用。7.根据权利要求1-4所述的方法，其特征在于，所述方法还包括：基于接口函数接收调用所述opencl dnn库中对应算子的指令信息，所述指令信息中包含访问所述opencl dnn库中的标识信息；基于所述streamexecutor根据所述指令信息调用所述opencl dnn库中对应的算子。8.一种opencl dnn库的集成装置，其特征在于，包括：第一注册单元，用于在streamexecutor中实现opencl platform，并注册到tensorflow框架中；所述opencl platform为根据指令进行创建、指定对应的设备platform；第二注册单元，用于在streamexecutor中实现opencl executor，并注册到tensorflow框架中；第三注册单元，用于在streamexecutor中的librarysupport层完成opencl dnn的注册和接入；第四注册单元，用于在tensorflow框架中将opencl dnn库中对应的算子与opencl设备绑定并进行注册。9.一种opencl dnn库的集成系统，其特征在于，所述系统包括如权利要求8所述的装
置。10.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。11.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。

技术总结
本公开公开了OpenCLDNN库的集成方法及装置、系统和电子设备，具体涉及人工智能技术领域，在StreamExecutor中实现OpenCL Platform，并注册到TensorFlow框架中；所述OpenCL Platform为根据指令进行创建、指定对应的设备Platform；在StreamExecutor中实现OpenCLExecutor，并注册到TensorFlow框架中；在StreamExecutor中的LibrarySupport层完成OpenCL DNN的注册和接入；在TensorFlow框架中将OpenCL DNN库中对应的算子与OpenCL设备绑定并进行注册；实现了OpenCL DNN库在TensorFlow框架中的集成，使得TensorFlow框架在OpenCL硬件设备上运行时可以对深度神经网络常用的算子进行计算加速。络常用的算子进行计算加速。络常用的算子进行计算加速。

技术研发人员：孙羽菲陈锐石昌青郭强陈禹乔周建宇张玉志
受保护的技术使用者：南开大学
技术研发日：2022.06.20
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-10423.html

专利

最新回复(0)