论文推荐 | 耿艳磊:高分辨率遥感影像语义分割的半监督全卷积 络法

《测绘学 》

构建与学术的桥梁 拉近与权威的距离

《测绘学 》抖音自开通以来,聚焦于测绘地理信息学术前沿进展,受到了广大专家学者的大力支持,播放量数万,粉丝1.7万。

复制链接,关注我们哦!

【测绘学 的个人主页】长按复制此条消息,长按复制打开抖音查看TA的更多作品##7NsBSynuc88##[抖音口令]

高分辨率遥感影像语义分割的半监督全卷积 络法

耿艳磊1,2, 陶超1,2

1. 中南大学地球科学与信息物理学院, 湖南 长沙 410083;2. 中南大学有色金属成矿预测与地质环境监测教育部重点实验室, 湖南 长沙 410083

收稿日期:2019-01-24;修回日期:2019-07-11

基金项目:国家自然科学基金(41771458);国家重点研发项目(2018YFB0504501);湖湘青年英才计划(2018RS3012);湖南省国土厅国土资源科研项目(2017-13);湖南省教育厅创新平台开放基金项目(18K005)

关键词:遥感影像 语义分割 半监督 全卷积 络

High-resolution remote sensing image semantic segmentation based on semi-supervised full convolution network method

GENG Yanlei1,2, TAO Chao1,2, SHEN Jing1,2, ZOU Zhengrong1,2

1. School of Geosciences and Info-Physics, Central South University, Changsha 410083, China;2. Key Laboratory of Metallogenic Prediction of Nonferrous Metals and Geological Environment Monitoring(Central South University), Ministry of Education, Changsha 410083, China

Foundation support: The National Natural Science Foundation of China (No. 41771458); The National Key Research and Development Program (No. 2018YFB0504501); The Young Elite Scientists Sponsorship Program by Hunan province of China (No. 2018RS3012); Land and Resource Department Scientific Research Program of Hunan Province, China (No. 2017-13); Hunan Science and Technology Department Innovation Platform Open Fund Project (No. 18K005)

First author: GENG Yanlei(1993—), male, master, majors in semantic segmentation of high resolution remote sensing images based on deep learning.E-mail:gengyanlei@csu.edu.cn.

Corresponding author: TAO Chao, E-mail: kingtaochao@126.com.

Abstract: In the field of remote sensing, the method of realizing image semantic segmentation by using a large amount of label image data to supervise training full convolution network will result in expensive label drawing cost, while the use of a small amount of label data would lead to network performance degradation. To solve this problem, this paper proposes a semi-supervised full convolution network based semantic segmentation method for high resolution remote sensing images. Specifically, we explore an ensemble prediction technique to train the end-to-end semantic segmentation network by simultaneously optimizing a standard supervised classification loss on labeled samples along with an additional unsupervised consistence loss term imposed on labeled and unlabeled data. In the experiments, the image data set of Vaihingen in Germany provided by ISPRS and satellite GF-1 data were used, and the experimental results show that the proposed method can effectively improve the network performance degradation caused by using only a small amount of label data.

Key words: remote sensing image semantic segmentation semi-supervised full convolution network

随着遥感技术的发展,获取到的遥感影像分辨率不断提高,其包含的信息也更加丰富[1],为更好地服务人类提供了有利条件。影像地物提取可以应用到灾害评估、城市规划等众多方向[2],但人工目视解译方法成本昂贵,且更新效率低。如何有效地自动提取遥感影像上不同类别地物,是遥感应用智能化的研究方向,它可以加快推进数字中国、智慧城市建设进程。

为实现自动化遥感影像语义分割,在过去很长的时间内,许多研究工作都是根据人类对各种地物的理解认知,设定不同的特征参数,对影像地物进行提取。根据一种或者多种人为归纳的地物特征对影像地物识别,如采用角点特征、形状特征、颜色纹理梯度等单一特征或者组合特征对地物(建筑、植被、道路等)识别检测[3-8]。然而,影像地物的特征千变万化,即使为同一种地物,其特征也是差异明显。例如建筑物的颜色纹理差异,形状尺寸动态变化,以及成像的光照角度、分辨率不同,都给建筑物提取增加了难度。因此,基于人为设定特征针对多种影像地物的自动提取也更加困难。随着电脑(尤其是显卡)的计算能力提高,深度学习技术得以迅速发展,其中卷积神经 络[9-10](convolutional neural network,CNN)不断在自然图像分类领域创造新的记录。由于卷积神经 络自动学习训练数据特征,不再需要人工假定特征的特性,从而被一些研究者应用到遥感影像地物提取方向[11-14]。核心思路是以较小的影像块作为 络输入,学习影像块的特征,对影像块中心像素分类,进而实现整张影像像素点的分类,完成影像地物语义分割,但是这种方法存在检测成本昂贵(检测时间长,执行效率下降,占用机器大量内存)的弊端,不适用于大量影像的处理。直到全卷积 络[15](full convolution network,FCN)的提出,突破了CNN应用到语义分割领域的限制。但由于FCN仅在CNN基础上采用最后的巻积层特征进行上采样得到最后的分割图,导致分割效果模糊。因此一些研究者尝试将FCN改进应用到遥感影像地物检测,例如HF_FCN[2]是在FCN的基础上改进而来,减少了 络参数,提高了在复杂场景下的建筑物语义分割精度。

1 原理与方法

1.1 全卷积 络

FCN的首次提出实现了端到端的图像语义分割,但由于FCN采用了CNN结构,导致其特征尺度不断下降,直接采用深层高维抽象语义特征上采样实现输入输出尺寸的对等,导致预测结果丢失许多细节,为此,其尝试在原先基础上融合浅层特征以改善分割效果,并证明有效。CNN 络由浅层到深层,每层 络都自动学习输入数据的不同级别特征,其浅层学习的低维特征可以理解为输入图像的直观特征(如颜色、纹理、位置等特征),而 络深层学习的高维特征理解成抽象的语义特征[20]。U_Net则借鉴了FCN尝试融合浅层特征和深层特征以改善分割图效果的思想,继续发扬光大,并采纳了编码-解码的思路,形成一个对称的端对端输出原始图像尺寸预测图的 络结构,在数据较少的医学影像数据集上取得了很高的分割精度。图 1为U_Net 络结构示意图,带颜色矩形代表卷积层。图 1左侧部分(编码结构)为CNN基础结构,其中有4个降采样层,将编码结构分为5层,每层不同尺度;右侧部分(编码结构)逐尺度上采样,并将上采样结果降维与编码结构对应尺度的特征图通过concat操作融合在一起。这样高效的使用了CNN 络深层、浅层特征信息,使得分割定位精确。

图 1 U_Net 络结构Fig. 1 U_Net network structure diagram

图选项

1.2 半监督全卷积 络的遥感影像地物语义分割方法

半监督全卷积 络语义分割算法

Xi:训练数据(有标签数据和无标签数据);

L:训练数据中标签数据索引集合;

yi:标签数据(iL);

w(t):无监督损失的权重;

net(x):全卷积 络;

g(x):高斯噪声函数;

mean(x):均值函数;

max_epochs:训练周期总数;

for tin [1, max_epochs] do:

for every batch B do:

oiB=net (xiB); //第1次输出结果

Ls=-mean(∑i∈(BL)yilog(oi)); //监督损失

Ld=mean(∑iB(oi

Loss=Ls+w(t)Ld; //整体损失

update(net); //通过优化器更新 络参数

end for

end for

输出 络参数;

(1)

式中,z为输入特征图,由输入影像经过全卷积 络得到;N为地物类别总数;Softmax视为指数归一化函数,将N维实数向量压缩成值域为[0, 1]的新N维向量。Softmax(z)表示输入影像中每个像素点属于每种地物类别的概率值,每个像素对应所有地物类别的概率和为1。

训练过程中,首先对训练输入xi进行数据增强,然后经过全卷积 络评估2次,并在第2次输入 络时添加高斯噪声,使得2次预测结果oi和具有差异

根据这种差异可以计算无监督损失,进行无监督训练以及添加高斯噪声可以让 络学习到更加稳健的数据特征,提高 络的稳健性。根据2次预测结果以及标签图yi,计算损失Loss。损失Loss涉及2部分:标准的交叉熵损失Ls(也是监督损失)和平方差损失Ld(无监督损失)。其中Ls仅由 络输入中带标签的数据[xi]和标签yi计算得到

Ld则使用 络输入的全部数据xi

重复输入 络2次得到2次预测结果,计算结果之间的差异,它的意义是最小化这种差异,提高 络的容错性。为了整合监督损失Ls和无监督损失Ld,这里没有采用直接相加的方法,而是采纳了文献[16]提出的时间权重函数w(t),对无监督损失进行尺度化,即在训练过程中,随着时间的变化,给予无监督损失变化的权重,再与监督损失相加,得到总损失Loss

1.3 半监督语义分割模型的影像地物提取流程

半监督语义分割模型的影像地物提取流程分为2个步骤:

(1) 获取模型。首先,对标签数据(影像图和标签图)处理,采用一定大小的窗口同步滑动裁剪影像图和标签图;然后对无标签影像数据处理,采用同样大小的窗口滑动裁剪影像图;最终得到混合的训练数据集,批次输入全卷积 络训练更新 络参数,最终得到模型。

(2) 地物提取。在获取模型的基础上,为了提高模型预测效率,采用更大尺寸的窗口在测试影像上滑动,对窗口内影像进行地物提取,最终得到所有影像的地物语义分割结果,由此计算模型语义分割精度。

2 试验与结果分析2.1 数据集及其预处理

2.1.1 数据集简介

(1) Vaihingen数据集包含16张具有人工标注地物类别标签图的影像以及17张没有标签的影像,该数据集影像均已经过校正等处理,为RGB三通道的正射影像,其分辨率为9 cm。如图 2所示,Vaihingen试验区域共有33张影像,其中测试区域为标号1、3的两张影像。图 3为Vaihingen部分测试影像及其标签展示图,其中共有5类地物。

图 2 Vaihingen数据集Fig. 2 Vaihingen dataset

图选项

图 3 部分测试数据及其标签Fig. 3 Partial test data and labels

图选项

(2) A地区影像数据详情:该数据集为RGB三通道影像,影像分辨率为2 m。图 4为A地区测试影像及其标签展示图,其中共有6类地物。

图 4 A地区测试数据及其标签Fig. 4 Test data and labels in area A

图选项

2.1.2 数据预处理

数据预处理包含3个步骤:①影像裁剪;②数据增强;③数据归一化。其中,影像裁剪在训练前进行,而数据增强和归一化在训练过程中执行。

步骤1:影像裁剪。由于每张影像尺寸不一样,为便于训练 络,需对影像滑动裁剪,处理成统一尺寸。

针对Vaihingen数据集:对训练数据影像采用256×256大小的窗口,以128大小的步长滑动裁剪,共得到3486张含有标签的影像图以及4551张无标签的影像图。

针对A数据集:选取A地区大约1/12的影像,对其采用256×256大小的窗口以及128的步长滑动裁剪,得到942张有标签影像图;对A地区无标签影像滑动裁剪,得到1837张无标签影像图。

(7)

2.2 试验设计

2.2.2 采用U_Net 络进行不同比例数据的试验设计

2.2.5 试验相关软件硬件配置

软件环境为:ubuntu16.04(64位)操作系统,python3.5编程软件和深度学习框架pytorch(GPU);硬件环境为:英特尔i7-CPU,英伟达GTX1080显卡,以及16 GB内存。

2.2.6 试验参数设置

所有试验 络初始学习率lr设置为2.5e-4; 络输入图像批次大小batch_size设置为16;噪声添加次数设置为1;噪声值std设置为0.01;w(t)初始值为0。

2.3 结果分析

2.3.1 精度指标

(%)
有标签
数据量
无标签
数据量
方法 噪声大
小(std)
OA ACR IoU
U_Net 1/8 对比方法 81.30 72.53 60.91
all 0.01 82.43 74.56 63.16
all 0.15 78.65 66.36 55.33

表选项

(%)
有标签
数据量
无标签
数据量
方法 噪声
次数
OA ACR IoU
U_Net 1/8 对比方法 81.30 72.53 60.91
all 1 82.43 74.56 63.16
all 2 81.05 73.59 61.70

表选项

2.3.3 采用U_Net进行不同比例数据的试验结果分析

表 3 Vaihingen地区影像语义分割精度结果比较Tab. 3 Accuracy comparison of image semantic segmentation in Vaihingen region

(%)
有标签
数据量
无标签
数据量
方法 OA ACR IoU
U_Net 1 对比方法 84.29 80.77 67.66
all 87.01 85.17 72.93
1/2 对比方法 83.10 78.03 65.82
all 85.86 83.37 71.00
1/4 对比方法 82.45 75.88 63.08
all 85.58 79.97 68.95
1/8 对比方法 81.30 72.53 60.91
all 82.43 74.56 63.16

表选项

图 5 采用不同比例数据训练U_Net 络的精度对比图Fig. 5 Accuracy contrast diagram of U_Net network training with different proportional data

图选项

从表中以及精度对比图可以直接得出如下结论:

(1) 随着标签数据量的减少,传统的监督训练全卷积 络方法,测试精度也随之降低,进一步说明了采用少量标签数据导致 络性能下降的问题。

(%)
有标签
数据量
无标签
数据量
方法 OA ACR IoU
U_Net 1/8 对比方法 81.30 72.53 60.91
all 82.43 74.56 63.16
HF_FCN 1/8 对比方法 80.18 67.52 56.20
all 81.35 69.31 58.12
deeplab_v3+ 1/8 对比方法 80.06 69.67 58.14
all 80.99 72.12 60.92

表选项

图选项

图 7 不同 络在Vaihingen数据上的语义分割结果Fig. 7 Semantic segmentation results of different networks on Vaihingen data

图选项

表 5 A地区预测结果精度Tab. 5 Accuracy of prediction results in area A

(%)
标签
样本
无标签
样本
方法 OA ACR IOU
U_Net A 对比方法 76.77 57.22 43.66
A A 79.98 56.30 44.68
HF_FCN A 对比方法 78.15 57.11 44.89
A A 79.88 57.49 46.29
deeplab_v3+ A 对比方法 75.84 51.95 40.85
A A 76.73 51.67 41.36

表选项

图 8 A地区语义分割结果Fig. 8 Semantic segmentation results of area A

图选项

3 结论与展望

【引文格式】耿艳磊, 陶超, 沈靖, 等. 高分辨率遥感影像语义分割的半监督全卷积 络法. 测绘学 ,2020,49(4):499-508. DOI:
10.11947/j.AGCS.2020.20190044

来抖音~听刘经南院士讲智能时代的泛在测绘

资讯 | “80后”院士王家耀的9条青春启示

行业 | 北斗珠峰“首秀”国产设备主担纲——细数珠峰高程测量中的“黑科技”

招聘启事 | 中国矿业大学环境与测绘学院2020年人才招聘启事

SCI论文经典词和常用句型

重温经典 | 宁津生:基于卫星加速度恢复地球重力场的去相关滤波法

权威 | 专业 | 学术 | 前沿微信、抖音小视频投稿邮箱 | song_qi_fan@163.com

进群请备注:姓名+单位+稿件编号

声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!

(0)
上一篇 2020年5月11日
下一篇 2020年5月11日

相关推荐