本发明属于认知神经科学与计算机科学领域,特别涉及一种基于pvt实验范式的精神疲劳检测数据集构建方法。
背景技术:
1、目前,精神疲劳通常被认为是在脑力工作中逐渐累积形成的,一般表现为没有能力继续执行工作或丧失继续执行工作的意愿,同时伴随有注意不集中、决策失误、效率降低或记忆衰退等负面现象。精神疲劳是一个许多行业的工作人员都需要面对的挑战,严重的精神疲劳甚至可能造成重大的安全事故。
2、为了科学地衡量人们的精神疲劳状态,实验心理学家们提出了大量认知行为实验范式,pvt(psychomotor vigilance test,精神运动警觉测试)是其中应用最为广泛的方法之一,这在很大程度上要归因于它对精神疲劳的高度敏感性。此外,pvt还具有很多相较于其他精神疲劳测试的优势,例如时间成本低(单次测试只需要10分钟)和不受学习效应与受试者间能力差异的干扰(任务要求极为简单)。具体到实验范式而言,标准版本的pvt会持续10分钟,视觉刺激在此期间以2~10秒的随机刺激间隔(inter-stimulus interval,isi)多次呈现,受试者需要在感知到刺激后尽快做出按键反应,并由系统记录反应时间(responsetime,rt)等行为表现。区别于最简单的刺激-反应模型,pvt除了依赖特定的刺激形式(通常是视觉)和反应方式(通常是按键),还受测试持续时长和isi参数设计等诸多因素的影响。
3、脑电信号(electroencephalography,eeg)反映了神经细胞突触后抑制性电位和兴奋性电位的总和。依靠这种能够直接而及时地反映神经活动的优势,脑电信号被认为是检测精神疲劳的可靠依据。然而,通过机电设备采集到的脑电信号实际上是高度随机的,具有非线性、非高斯和非平稳属性。因此,有效地对大脑神经活动进行分析往往需要从脑电信号中提取出合适的特征,包括时域特征、频域特征、空域特征、非线性特征、网络特征以及融合特征等。其中,适合用来训练精神疲劳检测机器学习模型的常用特征有功率(频域特征)和熵(非线性特征)等。例如,当受试者在警觉和疲劳状态间变化时,其不同脑区和不同频带的eeg功率(power)会随之呈现出显著的差异;熵特征同样是非常有效的精神疲劳神经标记物,例如微分熵(differential entropy,de)可以在一些应用场景中表现出相比频带功率更加优越的性能。
4、在长时间或高负荷的工作中,精神疲劳的累积会大大加快,有必要通过技术手段来对其进行及时的检测与预警以降低风险。利用受试者在疲劳和警觉状态下产生的脑电信号与分类标签,可以训练出具备精神疲劳检测能力的机器学习模型。适用于解决小样本、高维度和非线性模式识别问题的svm(support vector machine,支持向量机)模型是检测精神疲劳的常用方法。为了有效地筛选出重要特征,可以选择rf(random forest,随机森林)等树模型,通过rf模型生成的重要性排序来递归地消除特征,用少量的重要特征取得更好的精神疲劳检测效果。xgboost(extreme gradient boosting,极限梯度提升)是一种高效的梯度提升算法,凭借优秀的易用性、准确性和扩展性而逐渐成为了近些年精神疲劳检测领域的热门选择。
5、为了得到能够准确检测精神疲劳的机器学习模型,需要利用合适的数据集对合适的模型进行训练、评估与调优。在近几年的人工智能浪潮中,机器学习(特别是深度学习)技术日新月异,不断有更好的方法被提出、验证和推广。然而,好的数据集却并不容易获取,这是因为构建精神疲劳检测数据集往往面临着很多困难。首先,诱发精神疲劳的方法在已有数据集中比较同质化,大多是采用模拟驾驶类的实验范式,这在一定程度上限制了模型在驾驶场景之外的泛化性。然后,每个eeg样本所对应的真实精神疲劳程度是难以进行定义和标注的:以体表生物活动和任务绩效指标这两类常用的标签基准为例,前者不能反映精神疲劳导致的外在行为表现变化,而后者又无法与精神疲劳造成的内在生理变化相关联。此外,在脑电信号的众多特征中进行筛选也具有较大的不确定性,在某些实验范式或自然场景中表现优异的特征可能无法适用于其他的实验范式或自然场景,而普适性较强的特征往往又无法让模型拥有最好的性能。
技术实现思路
1、本发明为解决公知技术中存在的技术问题而提供一种基于pvt实验范式的精神疲劳检测数据集构建方法。
2、本发明为解决公知技术中存在的技术问题所采取的技术方案是:
3、一种基于pvt实验范式的精神疲劳检测数据集构建方法,包括如下步骤:
4、步骤1,使用pvt实验范式诱发受试者的精神疲劳,同步采集其行为表现和对应的脑电信号数据;
5、步骤2,对采集的脑电信号数据进行降噪预处理;
6、步骤3,从脑电信号中切分出与各试次相对应的固定长度片段;
7、步骤4,基于pvt的反应时间任务绩效指标,制订多种衍生的任务绩效指标,将这些任务绩效指标及其组合用于表征精神疲劳状态;
8、步骤5,基于任务绩效指标及其所表征的精神疲劳状态,设置分类阈值、分类基准及清洗方法,对脑电信号片段进行分类标注及清洗;
9、步骤6,提取清洗后保留的具有分类标签的脑电信号片段的特征,编制输入特征矩阵与标签向量,从而构建用于训练和测试机器学习模型的数据集;
10、步骤7,对构建的输入特征矩阵与标签向量数据集,进行如下一种或者几种组合的验证:数据标注的有效性验证、特征提取的差异性验证、多种模型的适用性验证。
11、进一步地,步骤1包括如下方法步骤:在执行pvt任务的过程中,受试者始终注视显示器显示的注视点图形,并在注视点图形转换为刺激图形后立即按下按键;在接收到按键信息后,计算刺激呈现到按键反应之间的时间差,记为当前试次的反应时间;定义反应结束为刺激图形切换回注视点图形,从反应结束到下一次刺激呈现的间隔时间由实验程序在2~10秒的范围内随机选取;在一次完整的实验中,每位受试者需要执行3~5次pvt任务,在每完成一次任务后静坐休息5~15分钟;第一次pvt任务的持续时间设置为20~40分钟,其他均为10~20分钟;实验程序在每个试次的刺激呈现时刻和按键反应时刻生成数字标记,并及时发送给脑电信号采集设备;采集脑电信号和生成行为标记的时间分辨率均为1000hz。
12、进一步地,步骤2中,降噪预处理方法包括如下一种或几种组合方法:删除无用片段、删除无用信道、配置信道定位、低通滤波、高通滤波、去除工频干扰、信道重参考、降低采样率、消除坏道、伪迹子空间重建、缺失信道重建、独立成分分解、独立成分选择和带通滤波。
13、进一步地,步骤3中,提取每个试次中刺激呈现时刻之前一段固定时长的脑电信号片段。
14、进一步地,步骤4中,将每个试次的实际反应时间定义为其局部反应时间,将每个试次和与之依次相邻多个试次的局部反应时间加权和作为其全局反应时间,各试次的权重和为1;采用局部反应时间和/或全局反应时间表征受试者的精神疲劳程度,并作为反映精神疲劳状态的任务绩效指标;设i为试次编号,l1表示纳入加权平均的第i个试次之前的相邻试次数量,l2表示纳入加权平均的第i个试次之后的相邻试次数量,依次相邻的试次数量之和为l1+l2+1;则全局反应时间的计算公式如下:
15、
16、式中:
17、wk为第k个试次的权重;
18、lrtk为第k个试次的局部反应时间;
19、grti为第i个试次的全局反应时间。
20、进一步地,步骤5中,设置潜力反应时间、警觉反应时间和疲劳反应时间作为精神疲劳状态的分类阈值;设每位受试者在实验中经历了n个试次,即产生了n个局部反应时间,将所有局部反应时间从小到大地进行排序,则排序位次为5%×n的局部反应时间被定义为潜力反应时间;警觉反应时间被设定为潜力反应时间的1.20~1.30倍;疲劳反应时间被设定为潜力反应时间的1.50~2.00倍;在构建同一个数据集时,警觉反应时间与疲劳反应时间的比率固定;对于每一个样本,如果其局部反应时间和全局反应时间都小于其警觉反应时间,则将其标注为警觉样本;如果其局部反应时间和全局反应时间都大于其疲劳反应时间,则将其标注为疲劳样本;将既不属于警觉样本又不属于疲劳样本的样本清除。
21、进一步地,如果在来自同一个受试者的标注样本集中,疲劳样本和警觉样本的比例大于5或小于0.2,则判断该受试者的样本存在类别不均衡问题,将该受试者的所有样本清除,不纳入数据集的构建。
22、进一步地,步骤6中,提取具有分类标签的脑电信号片段的特征的方法包括如下一种或者几种组合:将样本所对应的脑电信号片段长度设置为1000~2000毫秒;选择提取脑电信号片段的如下一种或几种组合特征:时域特征、频域特征、空域特征、非线性特征、网络特征或融合特征。
23、进一步地,步骤7中,将xgboost作为基准机器学习模型,将从脑电信号片段中提取出的各频带和各信道微分熵作为基准模型输入特征,通过采取不同样本标注方法的模型精神疲劳检测性能对比实验进行数据标注的有效性验证;采用基准特征对xgboost、rf和svm三种机器学习模型进行以评价精神疲劳检测性能为目标的测试,根据三种模型的跨受试者精神疲劳状态分类能力,验证构建的数据集在不同模型之间的泛用性。
24、进一步地,步骤7中,特征提取的差异性验证方法包括如下方法和步骤:取出两种类别的标注样本,计算每个样本各信道和各频带的脑电信号特征,绘制平均值差异脑地形图和显著性检验脑地形图;在平均值差异脑地形图中,每个点的数值等于其中一类标注样本在该信道和该频带的脑电信号特征平均值减去另一类标注样本的对应平均值;显著性检验脑地形图上的每个点代表了两种类别的标注样本在该信道和该频带中该脑电信号特征值的显著性检验结果,即p值;将xgboost作为基准机器学习模型,通过将不同脑电信号特征作为基准模型输入特征的模型精神疲劳检测性能对比实验,进行特征提取的差异性验证。
25、本发明具有的优点和积极效果是:
26、1.本发明基于pvt的认知行为学原理和构建精神疲劳检测数据集的需要,改进了标准pvt实验范式中的部分设计细节和实施流程,使其诱发受试者精神疲劳的效果得到了一定程度的提升。
27、2.本发明使用pvt实验范式诱发受试者的精神疲劳,并采用同步采集的行为表现和与之对应的脑电信号构建数据集,可以扩展疲劳检测机器学习方法在驾驶场景之外的更多场景的泛用性。
28、3.本发明以pvt任务绩效指标中可以直接测得的反应时间为基础,提出了一系列与精神疲劳状态相关性更强的衍生任务绩效指标,即局部反应时间、全局反应时间、潜力反应时间、警觉反应时间和疲劳反应时间。
29、4.通过综合利用所提出的多种新型任务绩效指标,本发明提出了一种有效的数据标注与清洗方法,可以依靠这种方法自然地同时实现对过渡样本的清洗和对疲劳与警觉样本的标注。值得注意的是,这种方法还可以构建出类别和受试者分布相对平衡的数据集,避免机器学习模型在训练和测试时产生对特定类别或特定受试者的倾向性。此外,这种创新数据标注与清洗方法的有效性还经过了对比实验的验证,相关结果证实其比仅使用单一任务绩效指标的方法有着明显的优势。
30、5.对于脑电信号数据,本发明提出了四种可以作为基准的特征提取方法,即两种片段长度和两种特征类型的组合,由此将可标注的eeg片段进一步转换成更适合训练和测试机器学习模型的输入特征矩阵形式。相关的验证实验证明了这些特征提取方法之间存在着精神疲劳状态表征效果方面的差异,在构建数据集时采用优选的特征提取方法可以改善机器学习模型的精神疲劳检测性能。
31、6.关于不同机器学习方法的验证实验可以证明本发明所构建的精神疲劳检测数据集适用于xgboost、rf和svm这三种常见的机器学习模型,即此数据集具有对多种机器学习模型的良好泛用性。
1.一种基于pvt实验范式的精神疲劳检测数据集构建方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于pvt实验范式的精神疲劳检测数据集构建方法,其特征在于,步骤1包括如下方法步骤:在执行pvt任务的过程中,受试者始终注视显示器显示的注视点图形,并在注视点图形转换为刺激图形后立即按下按键;在接收到按键信息后,计算刺激呈现到按键反应之间的时间差,记为当前试次的反应时间;定义反应结束为刺激图形切换回注视点图形,从反应结束到下一次刺激呈现的间隔时间由实验程序在2~10秒的范围内随机选取;在一次完整的实验中,每位受试者需要执行3~5次pvt任务,在每完成一次任务后静坐休息5~15分钟;第一次pvt任务的持续时间设置为20~40分钟,其他均为10~20分钟;实验程序在每个试次的刺激呈现时刻和按键反应时刻生成数字标记,并及时发送给脑电信号采集设备;采集脑电信号和生成行为标记的时间分辨率均为1000hz。
3.根据权利要求1所述的基于pvt实验范式的精神疲劳检测数据集构建方法,其特征在于,步骤2中,降噪预处理方法包括如下一种或几种组合方法:删除无用片段、删除无用信道、配置信道定位、低通滤波、高通滤波、去除工频干扰、信道重参考、降低采样率、消除坏道、伪迹子空间重建、缺失信道重建、独立成分分解、独立成分选择和带通滤波。
4.根据权利要求1所述的基于pvt实验范式的精神疲劳检测数据集构建方法,其特征在于,步骤3中,提取每个试次中刺激呈现时刻之前一段固定时长的脑电信号片段。
5.根据权利要求1所述的基于pvt实验范式的精神疲劳检测数据集构建方法,其特征在于,步骤4中,将每个试次的实际反应时间定义为其局部反应时间,将每个试次和与之依次相邻多个试次的局部反应时间加权和作为其全局反应时间,各试次的权重和为1;采用局部反应时间和/或全局反应时间表征受试者的精神疲劳程度,并作为反映精神疲劳状态的任务绩效指标;设i为试次编号,l1表示纳入加权平均的第i个试次之前的相邻试次数量,l2表示纳入加权平均的第i个试次之后的相邻试次数量,依次相邻的试次数量之和为l1+l2+1;则全局反应时间的计算公式如下:
6.根据权利要求5所述的基于pvt实验范式的精神疲劳检测数据集构建方法,其特征在于,步骤5中,设置潜力反应时间、警觉反应时间和疲劳反应时间作为精神疲劳状态的分类阈值;设每位受试者在实验中经历了n个试次,即产生了n个局部反应时间,将所有局部反应时间从小到大地进行排序,则排序位次为5%×n的局部反应时间被定义为潜力反应时间;警觉反应时间被设定为潜力反应时间的1.20~1.30倍;疲劳反应时间被设定为潜力反应时间的1.50~2.00倍;在构建同一个数据集时,警觉反应时间与疲劳反应时间的比率固定;对于每一个样本,如果其局部反应时间和全局反应时间都小于其警觉反应时间,则将其标注为警觉样本;如果其局部反应时间和全局反应时间都大于其疲劳反应时间,则将其标注为疲劳样本;将既不属于警觉样本又不属于疲劳样本的样本清除。
7.根据权利要求6所述的基于pvt实验范式的精神疲劳检测数据集构建方法,其特征在于,如果在来自同一个受试者的标注样本集中,疲劳样本和警觉样本的比例大于5或小于0.2,则判断该受试者的样本存在类别不均衡问题,将该受试者的所有样本清除,不纳入数据集的构建。
8.根据权利要求1所述的基于pvt实验范式的精神疲劳检测数据集构建方法,其特征在于,步骤6中,提取具有分类标签的脑电信号片段的特征的方法包括如下一种或者几种组合:将样本所对应的脑电信号片段长度设置为1000~2000毫秒;选择提取脑电信号片段的如下一种或几种组合特征:时域特征、频域特征、空域特征、非线性特征、网络特征或融合特征。
9.根据权利要求1所述的基于pvt实验范式的精神疲劳检测数据集构建方法,其特征在于,步骤7中,将xgboost作为基准机器学习模型,将从脑电信号片段中提取出的各频带和各信道微分熵作为基准模型输入特征,通过采取不同样本标注方法的模型精神疲劳检测性能对比实验进行数据标注的有效性验证;采用基准特征对xgboost、rf和svm三种机器学习模型进行以评价精神疲劳检测性能为目标的测试,根据三种模型的跨受试者精神疲劳状态分类能力,验证构建的数据集在不同模型之间的泛用性。
10.根据权利要求1所述的基于pvt实验范式的精神疲劳检测数据集构建方法,其特征在于,步骤7中,特征提取的差异性验证方法包括如下方法和步骤:取出两种类别的标注样本,计算每个样本各信道和各频带的脑电信号特征,绘制平均值差异脑地形图和显著性检验脑地形图;在平均值差异脑地形图中,每个点的数值等于其中一类标注样本在该信道和该频带的脑电信号特征平均值减去另一类标注样本的对应平均值;显著性检验脑地形图上的每个点代表了两种类别的标注样本在该信道和该频带中该脑电信号特征值的显著性检验结果,即p值;将xgboost作为基准机器学习模型,通过将不同脑电信号特征作为基准模型输入特征的模型精神疲劳检测性能对比实验,进行特征提取的差异性验证。