本发明涉及ai算力抢占,尤其涉及一种任务调度方法、系统及电子设备。
背景技术:
1、在ai计算的领域中,由于算力的稀缺性,存在大量算力竞争的场景。面向任务之间由于优先级等算力抢占的场景,业界的通用做法是停止掉低优先级的任务,释放算力,然后部署高优先级的任务。比如在训推一体的场景中,这种算力竞争的情况就更为明显,传统的训推一体方案,都是基于波峰波谷的策略,强制回收训练任务的算力,将释放出来的算力重分配给推理任务使用。
2、基于上述算力抢占技术现状,在算力抢占过程中只能以任务为单位进行抢占,而不能细粒度到任务下的任务副本,必须要停止被抢占任务,导致对低优先级的被抢占任务破坏性较大,无论抢占多少算力,都必须强制终止任务。
技术实现思路
1、为了克服现有技术的不足,本发明的目的在于提供一种任务调度方法、系统及电子设备,可以在不终止任务的前提下,实现对任务下的副本细粒度算力抢占,从而提高算力资源的利用效率,减少对低优先级任务的破坏性影响。
2、为了解决上述问题,本发明按以下方案予以实现:
3、提供了一种任务调度方法,包括:
4、根据待执行任务,确定待抢占任务;
5、根据所述待执行任务及所述待抢占任务,确定目标抢占模式;
6、根据所述待执行任务,确定所述待抢占任务的待抢占副本;
7、根据所述目标抢占模式,对所述待抢占副本进行抢占。
8、与现有技术相比,本发明提供的一种任务调度方法的有益效果如下:通过对待抢占任务的待抢占任务副本进行细粒度抢占,可以在不中断待抢占任务的情况下进行算力调整,减少了对低优先级任务的破坏性影响,并且可以有效地利用算力资源,避免了因任务终止而导致的资源浪费,同时通过不同的目标抢占模式,为任务调度提供了不同的调度方式,提高了任务调度应用场景的灵活性。
9、可选的,所述根据待执行任务,确定待抢占任务,包括:
10、确定所述待执行任务的优先级别及待执行算力;
11、根据所述优先级别,确定待抢占集合;
12、根据所述待执行算力,从所述待抢占集合中确定所述待抢占任务。
13、可选的,所述根据所述待执行任务及所述待抢占任务,确定目标抢占模式,包括:
14、确定所述待抢占任务的可抢占算力;
15、根据所述可抢占算力及所述待执行算力,确定所述目标抢占模式。
16、可选的,所述根据所述可抢占算力及所述待执行算力,确定所述目标抢占模式,包括:
17、当所述可抢占算力大于所述待执行算力,所述目标抢占模式为部分抢占模式;
18、当所述可抢占算力小于或等于所述待执行算力,所述目标抢占模式为完全抢占模式。
19、可选的,所述根据所述待执行任务,确定所述待抢占任务的待抢占任务副本,包括:
20、对所述待抢占任务进行颗粒度细化,确定任务副本集合;
21、根据所述待执行算力,从所述任务副本集合中确定所述待抢占任务副本。
22、可选的,所述根据所述目标抢占模式,对所述待抢占任务副本进行抢占,包括:
23、根据所述目标抢占模式,确定抢占比例及所述待抢占任务副本的运算位置;
24、根据所述抢占比例及所述运算位置,确定所述待抢占任务副本的休眠时间;
25、根据所述休眠时间,对所述待抢占任务副本进行抢占。
26、可选的,所述根据所述目标抢占模式,确定抢占比例及运算位置,包括:
27、确定所述待抢占任务副本的副本算力;
28、当所述目标抢占模式为所述部分抢占模式时,所述运算位置为第一处理器,并根据所述待执行算力及所述副本算力,确定所述抢占比例;
29、当所述目标抢占模式为所述完全抢占模式时,所述运算位置为第二处理器,且所述抢占比例为预设值。
30、可选的,所述根据所述抢占比例及所述运算位置,确定所述待抢占任务副本的休眠时间,包括:
31、当所述运算位置为第一处理器时,确定所述待抢占任务副本的调用时间,并根据所述抢占比例及所述调用时间,确定所述休眠时间;
32、当所述运算位置为第二处理器时,所述休眠时间为预设值。
33、还提供一种任务调度系统,应用于上述的任务调度方法,包括:
34、调度模块、算力抢占模块、抢占控制模块及算力劫持模块;
35、所述调度模块,用于根据所述待执行任务的优先级别及待执行算力,确定所述待抢占任务副本;
36、所述算力抢占模块,用于确定所述待执行任务的待执行算力、所述待抢占任务副本的副本算力及抢占比例;
37、所述抢占控制模块,用于根据所述待执行算力、所述副本算力及所述抢占比例,发出控制信号;
38、所述算力劫持模块,用于根据所述控制信号对所述待抢占任务副本进行抢占。
39、还提供一种电子设备,包括处理器和存储器所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现上述的任务调度方法。
1.一种任务调度方法,其特征在于,包括:
2.根据权利要求1所述的一种任务调度方法,其特征在于,所述根据待执行任务,确定待抢占任务,包括:
3.根据权利要求2所述的一种任务调度方法,其特征在于,所述根据所述待执行任务及所述待抢占任务,确定目标抢占模式,包括:
4.根据权利要求3所述的一种任务调度方法,其特征在于,所述根据所述可抢占算力及所述待执行算力,确定所述目标抢占模式,包括:
5.根据权利要求3所述的一种任务调度方法,其特征在于,所述根据所述待执行任务,确定所述待抢占任务的待抢占任务副本,包括:
6.根据权利要求4所述的一种任务调度方法,其特征在于,所述根据所述目标抢占模式,对所述待抢占任务副本进行抢占,包括:
7.根据权利要求6所述的一种任务调度方法,其特征在于,所述根据所述目标抢占模式,确定抢占比例及运算位置,包括:
8.根据权利要求7所述的一种任务调度方法,其特征在于,所述根据所述抢占比例及所述运算位置,确定所述待抢占任务副本的休眠时间,包括:
9.一种任务调度系统,应用于上述的权利要求1-8,其特征在于,包括:
10.一种电子设备,其特征在于,所述电子设备包括处理器和存储器所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1-8所述的任务调度方法。
