用于智能驾驶的动态场景视觉显著性多特征建模方法
詹智成1,2
1. 北京师范大学地理科学学部, 北京 100875;2. 根特大学地理学院, 比利时 根特 9000
基金项目:国家自然科学基金(41871366);国家留学基金委项目资助(201906040236);地理信息工程国家重点实验室、自然资源部测绘科学与地球空间信息技术重点实验室联合资助基金(2021-04-03)
关键词:视觉显著性 驾驶场景 驾驶环境 动态性
引文格式:詹智成, 董卫华. 用于智能驾驶的动态场景视觉显著性多特征建模方法[J]. 测绘学 ,2021,50(11):1500-1511. DOI:
10.11947/j.AGCS.2021.20210266
ZHAN Zhicheng, DONG Weihua. A multi-feature approach for modeling visual saliency of dynamic scene for intelligent driving[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(11): 1500-1511. DOI: 10.11947/j.AGCS.2021.20210266
阅读全文:
http://xb.sinomaps.com/article/2021/1001-1595/2021-11-1500.htm
引 言
对环境的感知和理解是智能驾驶领域的一个重大挑战。视觉是驾驶过程中驾驶员感知和理解道路场景信息的主要途径。在驾驶过程中,驾驶员会选择性地关注场景中感兴趣的信息,而忽略不重要的信息,这种机制称为驾驶过程的视觉选择性注意机制,选择性注意的区域称为视觉显著区域。在智能驾驶系统开发中,引入人类的视觉选择性注意机制能够降低处理的信息量,提高智能驾驶系统对驾驶环境的理解效率,并有助于预测和定位潜在的风险。视觉显著性建模方法能够模拟人类的视觉注意机制提取场景中的显著区域,从而支持信息处理和决策。对驾驶员在驾驶过程中的视觉注意机制进行研究,开展真实道路场景下动态道路场景的视觉显著性建模,能够准确和快速地提取动态驾驶场景的视觉显著区域,从而提高智能驾驶系统的环境理解效率和能力。
目前,国内外对道路场景视觉显著性的研究已有不少的经验,特别是在行人导航领域。人类的视觉注意机制被归结为场景的低级视觉特征和高级视觉特征[1]。低级视觉特征是图像对视觉的直接刺激,这类特征包括颜色、亮度和纹理等[2]。高级视觉特征一般指语义特征,这种特征与人类的认知相关,比如在某些场景中人脸等物体对视觉具有引导作用[3]。道路场景的视觉显著性分析可以用来评价导航任务下场景中地标的有效性[4]、用户的寻路策略[5]、地图的可用性[5]等。视觉显著性的测量流程主要包括设计眼动跟踪实验,收集眼动数据和分析注视点的分布[6]。视觉显著性模型可以模拟人类的视觉注意机制自动计算和提取场景的视觉显著区域,在导航系统设计[7]、用户导航任务推理[8]和地标设计[9]等方面具有广泛的应用。
虽然场景的视觉显著性在遥感影像检测[10]和行人导航领域等地理信息领域研究比较成熟,但驾驶环境下道路场景的视觉显著性建模的研究相对较少,主要原因是驾驶场景相对复杂。首先,驾驶过程具有动态性[11]。动态性包括3个方面:场景的动态变化、驾驶关注区域的变化和车辆的运动。场景的动态指车辆位置的改变使得驾驶场景不断变化,驾驶关注区域的变化是指驾驶员的视觉注意区域的改变,车辆的运动指车辆的速度,加速度和位置随时间的改变。场景动态特征通常用光流图表征[12],定义为后一个时刻场景像素相对于前一个时刻场景像素位移的方向和强度。其次,驾驶场景的复杂性来自道路场景的多样性[13],主要表现在道路类型、道路结构、交通状况和空旷度等方面, 而这些道路属性也是自动驾驶所需要的基本信息[14]。再次,驾驶环境下驾驶员具有双重任务,驾驶员不仅要保证行驶方向的正确,更要确保行车过程的安全。研究表明,驾驶环境下道路场景的动态性[15]、道路场景特征[16]和任务[17]都是影响驾驶员视觉行为的重要因素。
驾驶员的视觉注意力会受到多种因素的影响。其中驾驶速度是一个关键因素。有研究显示高速行驶时驾驶员的视线更集中[18],同时驾驶员的视觉认知负荷也越大[19]。道路结构也影响驾驶员的视觉注意和认知负担。文献[20]通过模拟器试验发现,驾驶员在交叉口驾驶时注意力分散是导致事故多发的主要原因;文献[21]通过设计40名受试者观察100张静态交通图的眼动试验发现受试者倾向于观察道路消失点;文献[19]发现道路曲率越大,驾驶员的视觉负载越重。不同的语义信息也会导致驾驶员的视觉注意差异。道路场景中出现的车辆、行人和路标等目标都能不同程度地吸引驾驶员的注意,因此现有的辅助驾驶系统大都包含行人检测模块[22]、车辆检测模块[23-24]、道路和车道检测[25-26]及交通信号识别模块[27]。上述分析表明,建立驾驶员的视觉注意机制模型需要考虑多种因素的影响。目前对于驾驶环境道路场景视觉显著性建模的研究大多是在静态桌面环境和虚拟环境为试验平台下进行,见表 1。对于文献[18]开展的真实环境中道路场景显著性的模型研究,虽然考虑了车辆速度的作用,但没有考虑道路结构对驾驶员视觉注意机制的影响。
表 1 驾驶场景视觉显著性模型研究Tab. 1 Review of research on modelling visual saliency during driving task
研究者 | 研究材料 | 任务描述 | 特征 | 方法 | 指标和评价 |
文献[21] | 100张静态城市场景图 | 以驾驶员视角观察图片 | GBVS、AIM、SR、SUN、Itti模型显著图消失点 | 线性加权 | AUC[28]:0.78-0.82 |
文献[18] | DR(eye)VE数据集 | 从指定地点开车到终点 | 原始图片、语义分割图和光流图 | 多分支深度学习模型 | 准确性0.56以上 |
文献[29] | 驾驶模拟器 | 以驾驶员视角观察 | 低级视觉特征:颜色、纹理和亮度、GBVS、AIM、SR和SUN高级视觉特征:消失点和中心偏差 | 随机森林 | AUC: 0.87 NSS[30-31]: 2.4 |
文献[32] | DR(eye)VE数据集 | 从指定地点开车到终点 | 原始图片 | 贝叶斯框架和全卷积神经 络 | 相关系数:0.55以上 |
文献[33] | 200张交通场景图 | 自由观察图片 | 颜色、纹理和亮度 | HOG和SVM | 交通标志检测 |
文献[34] | 模拟器环境 | 任意驾驶 | 原始图片 | 神经 络模型(监督学习和非监督学习) | 平均误差平方和:0.01~0.03 |
文献[35] | 模拟器环境 | 带有驾驶操作的驾驶 | 任务和场景 | SEEV模型 | 相关系数:0.92 |
文献[36] | 驾驶视频 | 观看视频并根据视频做特定的任务 | 语义任务 | 眼动指标统计 | 增强区域提取:道路、行人、道路线 |
表选项
1 数据预处理
1.1 数据
图 1 视频与眼动数据采集Fig. 1 The equipment and process of movement collection
图选项
1.2 标准显著图
(1)
(2)
图 2 标准显著图Fig. 2 Standard visual saliency image
图选项
1.3 道路曲率提取
(3)
图 3 道路曲率计算过程Fig. 3 Calculation of road curvature
图选项
式中,ρi为第i个点的曲率;(xi+1,yi+1)为前一个点的坐标;(xi-1,yi-1)为后一个点的坐标。
1.4 道路消失点提取
图 4 道路消失点提取示例Fig. 4 Examples of vanishing point detection
图选项
1.5 场景语义分割
图 5 语义分割结果Fig. 5 Result of the image segmentation
图选项
2 视觉显著性建模
2.1 视觉特征选取
表 2 视觉特征列表Tab. 2 list of visual features of geographical scene
特征类别 | 特征名称 | 特征描述 |
低级视觉特征 | 颜色特征 | 按照RGB颜色空间将原始图片分解成RGB通道的灰度特征图 |
多尺度纹理特征 | ||
亮度特征 | 亮度特征为RGB通道求和 | |
Itti显著图 | 由Itti显著性模型计算得到 | |
SUN模型显著图 | 由SUN显著性模型计算得到 | |
GBVS显著图 | 由GBVS显著性模型计算得到 | |
高级视觉特征 | 语义特征 | 包括车辆、行人、标识牌和道路 |
道路消失点 | 基于图像纹理信息提取的道路消失点 | |
动态特征 | 运动方向 | 光流图的方向分量 |
运动强度 | 光流图的强度分量 |
表选项
2.2 模型设计
(4)
(5)
式中,hθ(x)为目标函数;g为Sigmoid函数;x为像素的特征向量;xn表示第n个特征;θ为特征向量的系数,表示特征的线性组合。
(2) 对上述经典逻辑回归模型中的系数增加以下的定义
(6)
式中,V为驾驶场景的速度;C为驾驶场景道路曲率;K1、K2、K3分别为速度系数、道路曲率系数和常数项。
(3) 运用训练数据对模型进行最小二乘法拟合,求得各特征系数。残差平方和成本函数用于拟合度的评估为
(7)
式中,SSres为残差平方和;n为测试样本数;f为训练模型;xi为测试像素特征;yi为像素的显著性。
2.3 LR模型计算框架
LR模型运行流程如图 6所示,主要包括特征提取,随机像素抽样、模型训练和模型测试评价。
图 6 LR模型显著图计算框架Fig. 6 Framework of LR model for calculating visual saliency
图选项
3 结果
3.1 模型结果
图 7 注视点分布和预测显著图的比较Fig. 7 Comparison of the gaze point distribution and visual saliency prediction
图选项
3.2 视觉特征分析
LR模型将视觉显著性看作是特征的线性组合,因此LR模型的系数能较好地反映各特征对场景显著性图的贡献大小(表 3)。
表 3 LR模型特征系数Tab. 3 Parameters of visual features in the model
特征类别 | 系数 | 特征类别 | 系数 |
红色通道 | 0.594 1 | 车辆 | 0.155 2 |
绿色通道 | 0.097 0 | 行人 | 0.281 2 |
蓝色通道 | 0.122 2 | 道路 | 0.136 2 |
亮度 | -0.792 8 | 交通标识 | 0.112 0 |
纹理(多尺度均值) | -0.185 3 | 消失点 | 0.832 1 |
GBVS模型 | 0.524 0 | 运动强度 | 0.210 1 |
Itti模型 | -0.133 9 | 运动方向 | -0.507 0 |
SUN模型 | 0.043 6 |
表选项
在所有特征中,消失点对视觉显著图的贡献最大;红色通道的系数明显大于绿色和蓝色通道;在经典显著性模型生成的特征显著图中,GBVS特征系数远大于Itti和SUN特征,仅次于红色通道的系数;高级视觉特征中的4种语义特征均为正值,其中行人特征图对显著图的贡献最大,其次为车辆特征图。运动强度的系数为正值。
对特征系数进行分析,亮度特征对驾驶环境下的场景视觉显著性为负,主要原因可能是整个场景中天空的亮度值最大,然而驾驶员在驾驶过程中并不关注天空。红色通道系数大于绿色和蓝色通道的系数,一个主要的原因在于颜色通道特征和语义特征的关联性。在所有场景中植被区域的绿色通道比重大,天空区域的蓝色通道比重大。而这2类语义信息并不显著,从而导致了RGB 3通道系数的差异。GBVS模型显著图的显著区域集中于图像的中心区域如图 8所示,与道路消失点特征有一定的关联,所以GBVS模型显著图对场景的视觉显著性的贡献较大。Itti模型显著图和SUN显著图对最终显著图的贡献不大,这可能是因为这2个模型侧重于检测边缘信息,然而这类信息在驾驶过程中对视觉引导作用很弱。
图 8 Itti、GBVS和SUN模型显著特征图对比Fig. 8 Comparison of significant features of Itti, GBVS and SUN models
图选项
行人特征图的系数在各系数中最大,其次是车辆语义系数,这2个系数较高的原因可能是2者都是动态的,驾驶员需要判断这2个语义类别是否对自己的驾驶过程有影响;而道路由于覆盖范围较广,只是在消失点处显著,因此总体系数值不大;交通标志贡献不大的主要原因在于有经验的驾驶员熟悉驾驶环境之后并不会特别关注交通标志。运动强度对视觉显著性有正向影响,反映了在驾驶环境下人们对移动目标有一定程度的敏感性。
3.3 不同速度和曲率下的精度对比分析
不同曲率下的ROC曲线如图 9所示,其预测精度在不同曲率下相差很大,当曲率大于1000时,ROC曲线比曲率小于1000的ROC曲线低。各种曲率下的AUC见表 4。
图 9 不同的曲率下的ROC曲线比较Fig. 9 Comparison of ROC under different road curvature
图选项
表 4 不同曲率下的AUCTab. 4 AUC values for different range of curvature
曲率 | AUC/(%) |
0~200 | 91.02 |
200~400 | 90.75 |
400~600 | 90.38 |
600~800 | 90.49 |
800~1000 | 90.81 |
1000~1200 | 89.93 |
1200~1400 | 88.62 |
1400~1600 | 86.41 |
1600~1800 | 88.31 |
1800~2000 | 86.57 |
表选项
不同速度下的ROC曲线如图 10所示。当速度为0时,ROC曲线最高,而其他速度下的ROC曲线比较接近。各种速度的AUC值见表 5。
图 10 不同速度下的ROC曲线比较Fig. 10 Comparison of ROC under different speeds
图选项
表 5 不同速度下的AUCTab. 5 AUC values for different ranges of speed
速度/(km/h) | AUC/(%) |
0~10 | 94.52 |
10~20 | 90.13 |
20~30 | 89.02 |
30~40 | 91.42 |
40~50 | 89.02 |
50~60 | 90.87 |
60~70 | 90.65 |
70~80 | 90.79 |
80~90 | 90.31 |
90~100 | 90.84 |
表选项
3.4 模型对比分析
表 6 各模型AUC值比较Tab. 6 Comparison of visual saliency models
模型 | AUC |
Itti | 0.45 |
GBVS | 0.56 |
SUN | 0.46 |
LR | 0.85 |
扩展的LR | 0.90 |
表选项
4 结论与讨论
附录 曲率和速度对动态场景的视觉显著性影响
1 不同道路曲率的视觉显著性区别
附图 1显示了不同道路曲率的情况下,所有注视点在图片位置的分布情况。
图 附图 1 道路曲率与驾驶员的注视点位置分布Fig. S1 Visualization of drivers’ gaze point position distribution at different curvatures
图选项
图 附图 2 注视点离散度与曲率的关系Fig.S2 The relationship between gaze point dispersion and curvature
图选项
附图 3统计了不同曲率下各目标类型的注视概率。道路的注视概率仍然是最高的,其次为车辆的注视概率。随着道路曲率的增大,道路和建筑的注视概率增大,其中道路的注视概率从低曲率下的74%提高到高曲率下的85%,而建筑的注视概率从低曲率下的27%提高到了高曲率下38%;交通标志的注视概率随着曲率增大而减小,从低曲率下的19%降低到高曲率下的12%。植被、天空的注视概率无明显变化规律。而行人在高曲率下的注视概率降低到了低曲率下的1/3,其低曲率下的注视概率为30%左右,高曲率下仅为10%以下。车辆、天空和植被的注视概率没有明显变化。
图 附图 3 各类别注视概率随曲率变化情况Fig. S3 Fixation probability for each category at different curvatures
图选项
2 不同速度的视觉显著性区别
附图 4显示了不同速度的情况下,所有注视点在图片位置的分布情况。
图 附图 4 速度与注视点分布的关系Fig. S4 Visualization of drivers’ gaze point position dist
声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!