图像融合技术毕业论文 中英文资料对照外文翻译文献综述
使用不变特征的全景图像自动拼接
马修·布朗和戴维?洛 {mbrown|lowe}@cs.ubc.ca 计算机科学系 英国哥伦比亚大学 加拿大温哥华
摘要
本文研究全自动全景图像的拼接问题,尽管一维问题(单一旋转轴)很好研究,但二维或多行拼接却比较困难。以前的方法使用人工输入或限制图像序列,以建立匹配的图像,在这篇文章中,我们假定拼接是一个多图像匹配问题,并使用不变的局部特征来找到所有图像的匹配特征。由于以上这些,该方法对输入图像的顺序、方向、尺度和亮度变化都不敏感;它也对不属于全景图一部分的噪声图像不敏感,并可以在一个无序的图像数据集中识别多个全景图。此外,为了提供更多有关的细节,本文通过引入增益补偿和自动校直步骤延伸了我们以前在该领域的工作。
1. 简介
全景图像拼接已经有了大量的研究文献和一些商业应用。这个问题的基本几何学很好理解,对于每个图像由一个估计的3×3的摄像机矩阵或对应矩阵组成。估计处理通常由用户输入近似的校直图像或者一个固定的图像序列来初始化,例如,佳能数码相机内的图像拼接软件需要水平或垂直扫描,或图像的方阵。在自动定位进行前,第4版的REALVIZ拼接软件有一个用户界面,用鼠标在图像大致定位,而我们的研究是有新意的,因为不需要提供这样的初始化。
根据研究文献,图像自动对齐和拼接的方法大致可分为两类——直接的和基于特征的。直接的方法有这样的优点,它们使用所有可利用的图像数据,因此可以提供非常准确的定位,但是需要一个只有细微差别的初始化处理。基于特征的配准不需要初始化,但是缺少不变性的传统的特征匹配方法(例如,Harris角点图像修补的相关性)需要实现任意全景图像序列的可靠匹配。
在本文中,我们描述了一个基于不变特征的方法实现全自动全景图像的拼接,相比以前的方法有以下几个优点。第一,不变特征的使用实现全景图像序列的可靠匹配,尽管在输入图像中有旋转、缩放和光照变化。第二,通过假定图像拼接是一个多图像匹配问题,我们可以自动发现这些图像间的匹配关系,并且在无序的数据集中识别出全景图。第三,通过使用多波段融合呈现无缝输出的全景图,可以产生高质量的结果。本文通过引入增益补偿和自动校直步骤延伸了我们以前在该领域的工作,我们还描述了一个高效的捆绑调整实现并展示对任意数量波段的多个重叠图像如何进行多波段融合。
本文其余部分的结构如下。第二部分说明所研究问题的几何学和我们选择不变特征的原因。第三部分介绍了图像匹配方法(RANSAC)和验证图像匹配的概率模型。第四部分中,我们描述了图像对准算法(捆绑调整),即共同优化每个摄像头的参数。五到七部分描述了处理过程,包括自动校直、增益补偿和多波段融合。第九部分中,我们给出了结论和对未来工作的展望。
2. 特征匹配
全景识别算法的第一步是在所有图像之间提取和匹配SIFT特征检测点。SIFT特征检测子位于不同尺度空间高斯插值函数的极值点处,对每一个特征点,特征尺度和方向被确定,这为测量提供了一个相似不变的结构。尽管在这个结构中简单的采样强度值是相似不变的,但是不变描述子实际上是通过对方向直方图的局部梯度值进行累积计算得到的,这样就允许边缘有轻微的移动而不会改变描述子的矢量,对仿射变换提供了一定的鲁棒性。空间累积计算对平移不变性同样重要,因为感兴趣点位置通常仅在0~3个像素的范围内是精确的。为了实现亮度不变性可以使用梯度(消除偏差)和对描述子矢量归一化(消除增益)。
由于SIFT特征在旋转和尺度变化时是不变的,我们可以处理具有变化的方向和大小的图像(见图8)。值得注意的是,这是传统的特征匹配技术不能实现的,例如Harris角点图像修补的相关性。传统的相关性在图像旋转时是变化的,Harris角点在改变图像尺度时也是变化的。
假设相机绕光学中心旋转,图像的变换群是一个对应矩阵的特殊群。由一个旋转矢量????1,?2,?3?和焦距f将每个摄像头参数化,就给出了成对的对应矩阵ui?Hijuj,其中
并且ui,uj是均匀的图像坐标(ui?si?ui,1?,其中ui是二维的图像坐标)。4参数的相机模型定义为:
?fiKi???0??0
~~~~~?1Hij?KiRiRTjKj (1)
0fi00?0?? (2) 1??
对旋转使用指数表示:
Ri?e??i??,??i???0????i3????i2??i30?i1?i2???i1?? (3)
0??在这个变换群中,理想条件下将会使用不变的图像特征。可是,在图像坐标中对于小的变换表示如下:
?uiui?ui0??uj或者等价于 ui?Aijuj,其中,
?a11Aij???a21??0a12a220~~?uj (4)
ui0a13?a23?? (5) 1??是通过一个关于ui0的对应线性化得到的仿射变换。这意味着每个小的图像修补经过一次仿射变换,并且合理利用了在仿射变换下局部不变的SIFT特征。
一旦从所有n个图像中提取特征点后(线性时间内),需对特征点进行匹配。由于多个图像可能重叠在一个单一的光线上,在特征空间内每个特征点需和它最近的k个领域点匹配(k=4),通过使用k-d树算法找到近似最近的领域点,时间复杂度为O(nlogn)。k-d树是一种轴对齐的二进制空间划分,它在平均最高方差维递归划分特征空间。
3. 图像匹配
图像匹配的目标是找到所有匹配(例如重叠)图像,稍后图像匹配连通集会成为全景图。由于每个图像可能和任意其他一个匹配,这个问题一开始就呈现是出图像数的二次方。为了得到一个好的拼接结果,对于图像几何而言,每个图像只需要和少数重叠的图像来匹配。
从特征匹配这个步骤中,我们已找出图像间有大量匹配点的图像。对于当前图像,我们将m幅图像作为可能的匹配图像(m=6),这m幅图像与当前图像有最大数量的特征匹配点。首先,使用RANSAC算法选择一系列和图像间对应矩阵兼容的内点,然后应用概率模型做进一步的验证。
3.1 使用RANSAC算法的鲁棒对应矩阵估计
RANSAC(随机抽样一致性算法)算法是使用最少的一组随机采样匹配点的一种鲁棒估计过程,用来估计图像变换参数,并找到与数据具有最好一致性的解决方案。在全景图的情况下,我们选择r=4对匹配特征点,使用直接线性变换(DLT)方法计算图像间的对应矩阵H。重复500次试验,选择内点数最大的解决方案(在像素误差范围内,其
预测和H是一致的)。假设一对匹配图像间的特征匹配点是正确的概率(内点概率)为pi,n次试验后找到正确变换的概率为:
p(His correct)?1?(1?(pi)r)n (6)
经过大量试验后,找到正确对应矩阵的概率非常大。例如,对于内点概率pi?0.5,在500次试验后,未找到正确对应矩阵的概率为1?10?14。
RANSAC算法本质上是一种估计H的采样方法,如果用对数似然和的最大化代替内点数量的最大化,结果是最大似然估计(MLE)。此外,如果变换参数的先验值是有效的,可以计算出最大后验概率(MAP)。这些算法被分别称为MLESAC和MAPSAC。
3.2 图像匹配关系验证的概率模型
对两两图像间是否存在匹配关系,我们使用一系列几何一致的特征匹配点(RANSAC内点)和一系列在重叠区域内,但不一致的特征点(RANSAC外点)来验证。验证模型通过比较这些正确匹配产生的一系列内点和错误匹配产生的一系列外点的概率来进行验证。
对于一幅给定的图像,重叠区域内总的匹配特征点数为nf,内点数为ni。图像是否有效匹配通过二进制变量m??0,1?表示。第i个匹配特征点f?i???0,1?是否为内点被假定为独立的贝努力分布,以便于内点总数服从贝努力分布:
???p?fpf1:nf1:nf??m?0??B?n;n,p? (8)
?m?1?B?ni;nf,p1? (7)
if0其中,p1是可以正确匹配图像时特征点为内点的概率,p0是不能实现图像匹配时特征点为内点的概率;fn?1:nf?表示特征匹配点变量的集合?f?i?,i?1,2,...,nf?,内点数
n!px?1?p?n?x (9)
x!?n?x?!ni??i?f1f?i?,B(.)是贝努力分布,表示如下:
B(x;n,p)?我们选择p1?0.6,p0?0.1,则可以使用贝叶斯规则(式10、11)计算正确图像匹配的先验概率。
pm?1f??1:nf????pf?1:nf?m?1p?m?1?pf???1:nf?? (10)
??1?p?fpf
?1:nf?(1:nf)m?0p(m?0)?m?1?p(m?1)1 (11)
如果满足p(m?1f(1:nf))?pmin
B?ni;nf,p0?p?m?0?B(ni;nf,p1)p?m?1?accept??reject11pmin?1 (12)
我们可以实现图像匹配。假定p(m?1)?10?6,pmin?0.999,进一步得出正确图像匹配的判定条件:
ni????nf (13)
其中??8.0,??0.3。尽管在这我们选择了p0,p1,p?m?0?,p?m?1?和pmin的值,但在原理上可以从数据中进一步确定这些值。例如,可以通过在大的数据集中计算一部分匹配点和正确的对应矩阵相一致来估计p1。
一旦图像间的匹配点对确定,我们可以找到全景序列作为连接匹配图像集,它可以识别图像集中的多个全景,拒绝不匹配的噪声图像(见图2)。
(a)图一 (b)图二
(c)SIFT匹配点1 (d)SIFT匹配点2
(e)RANSAC内点1 (f)RANSAC内点2
(g)依据对应矩阵的图像对准
图1,从所有图像中提取SIFT特征点。使用k-d树匹配所有特征点后,对于一个给定图像,用有最多特征匹配点的m幅图像进行图像匹配。首先执行RANSAC算法计算出对应矩阵,然后调用概率模型验证基于内点数的图像匹配,在这个例子中,输入图像是517×374像素,有247个正确特征匹配点。
(a)图像匹配点
(b)图像匹配点的连接分量
(c)输出全景图
图2,可识别全景图。考虑一个特征匹配点的噪声集,我们使用RANSAC算法和概率验证过程找到一致的图像匹配(a),每个图像对间的箭头表示在图像对间找到一致的特征匹配点集,图像匹配连接分量被找到(b),拼接成全景图(c);注意到该算法对不属于全景图的噪声图像不敏感。
4. 捆绑调整
考虑到图像间的几何一致性匹配集,使用捆绑调整解决所有相机参数的问题,这是重要的一个步骤,由于成对对应矩阵拼接将会造成累计误差,忽略图像间的多重约束,如全景图两端应联合起来。图像一个接一个被添加到捆绑调节器,最佳匹配图像(一致匹配数目最大)在每一步被添加,新图像用与最佳匹配图像具有相同的旋转和焦距长度初始化,然后相机参数使用L-M算法被更新。
我们使用的目标函数是一种抗差总和平方预测误差。也就是说,每个特征点被投影到所有与它匹配的图像中,并且平方图像距离的总和依据相机参数最小化。考虑到对应关系uik?ulj(uik表示在图像i中第k个特征点的位置),残差表示为
krijk?uik?pij (14)
k其中对应到uik的点pij是对应于uik点从图像j到图像i的投影
pij?KiRiRKuj (15)
误差函数是所有图像抗差剩余误差的和,表示如下:
n~kTj?1j~le??i?1j?ik?fi,jh?r? (16) ???????kij其中n是总的图像数,I(i)是和图像i匹配的图像集,f(i,j)是图像i和图像j的特征匹配集。我们使用Huber鲁棒误差函数,如下所示:
2?x?h?x???22?x????ifx??ifx?? (17)
这个误差函数结合将范数L2的快速收敛性作为内点的优化方案(距离小于?),和将范数L1的鲁棒性作为外点的方案(距离大于?)。???作为初始化过程中使用的外点距离,??2个像素点作为最终结果。
这是一个我们使用L-M算法解决的非线性最小二乘问题。每次迭代的形式如下:
?1?1T??(JTJ??Cp)Jr (18)
其中?是所有参数,r是残差,J??r??。在(对角线)协方差矩阵Cp中,我 们先前编码的有关参数改变了,如下所示:
??2???0?Cp??00?0????00000??00???00?? (19) ?20??f?20??????????2000???200?这个矩阵中,角度标准偏差是????焦距长度16,
?f?f10(f是目前为止焦距长度估
??计的平均值)。这有助于选择合适的步长,从而加快收敛,例如,如果用一个球形的协方差矩阵,一弧度的旋转变化将被焦距长度参数中一像素的变化所补偿。最后,在每一次迭代中,改变参数?以确保等式(16)的目标函数的确在减小。
通过链式法则导数被分析计算,例如:
?pkij~k??i1??pkij?pij??i1?pij~k (20)
其中
??xzyz??1z0?xz2???? (21) 2?~k??xyz??01z?yz??pijk?pij?pij??i1~k~l?Ri?1?KiRjKjuj (22)
??i1
?Ri???i???e??i1??i1?000?? (23) ?e??i???00?1????010??4.1 通过直接计算线性系统的快速解决方案
由于矩阵J是稀疏的,J乘以它的转置JT是没有用的,事实上,这是捆绑调整中最有价值的步骤,对M?N的矩阵J(M是测量个数的两倍,N是参数的个数)所需的时间复杂度为O(MN2)。由于每个图像通常只匹配其它图像的一小部分,出现了稀疏性,这意味着在实际中矩阵JTJ中每个元素的计算比M次乘法少的多,如下所示:
?JJ?Tij?k?fi,j??????rijkiT?rijk??j?1?C? (24)
例如,相机i和j间的反向协方差只依赖于i和j间的特征匹配残差值。
相似的,JTr不需要直接计算,可通过下式得到:
?rijkiT?Jr???????????Tii?1j?Iik?fi,jnrijk (25)
在两种情况下,如果每个特征点匹配每个单独的图像,每一个和将需要M次乘法,但在实际中,对于给定的图像,特征匹配点的个数要比这个少的多。因此,每个捆绑调整迭代的时间复杂度为O?N3?,这是解决N?N线性系统的代价。参数N的数量是图像数量的4倍,典型的M值大概是N的100倍。
5. 自动全景校直
使用第2-4部分步骤的图像配准提供了摄像机间的相对旋转,但是对于选定的世界坐标系而言仍有一个未知的3D旋转。对于每一幅图像如果我们简单的假设R=I,我们通常会发现在输出的全景图中有波状效应,这是因为真正的相机不会是完全水平且没有倾斜的。我们可以修正这种波形的输出,并且可以通过利用人们通常拍摄全景图方式的启发式算法自动校直全景图。人们很少相对于视距扭转相机,所以相机的参数X向量(水平轴)通常位于一个平面(见图4)。通过找到相机参数X向量的协方差矩阵的零向量,我们可以找到“向上的向量”u(对包含了相机的中心和视距),如下:
?n???XiXiT?u?0 (26) ?i?0?对一个垂直向上向量u(在呈现的结构中)进行整体旋转,非常有效的从输出全景图中消除了波状效应,如图4。
图3,寻找向上向量u。由于一个好的用于对准波浪形全景图的启发式算法,人们很少相对于视距转动相机,因此,尽管倾斜(如图b)和旋转(如图c) ,相机参数X向量通常位于一个平面,向上向量(与重力方向相反)是这个平面的法线。
(a)没有使用自动校直图像
(b)使用自动校直图像
图4,自动全景校直。利用人们很少相对于视距转动相机的启发式算法允许我们通过计算向上向量(垂直于包含相机中心和视距的平面)校直波浪形全景图。,
6. 增益补偿
在前面的部分中,我们描述了计算相机几何参数(方向和焦距)的方法。在这一部分中,我们描述了如何解决光度测量参数,即图像间的总增益。通过相似的方式建立模型,对所有图像定义一个误差函数,误差函数是所有重叠像素的增益归一化强度误差的和,表示如下:
21nne?????giIi?ui??gjIj?uj?? (27)
2i?1j?1ui?R?i,j?ui?HIJuj~~其中gi,gj是增益,R?i,j?是图像i和图像j的重叠区域。在实际中,我们通过每个重叠区域的平均值Iij来近似I?ui?,如下所示:
?
Iij?????ui?Ri,j?iI?ui?1 (28)
ui?R?i,j?这简化了计算并给外点提供鲁棒性,这可能是由图像间小的位置不正引起的。此外,
g?0是这个问题的最佳解决方案,我们添加了一个预先条件来保持增益一致。因此误
差函数可表示如下:
2?????1nn2?22?e???Nij??giIij?gjIji?/?N??1?gi??g (29) ??2i?1j?1????其中Nij?R?i,j?与图像i和图像j间重叠部分的像素数量相等,参数?N和?g分别是归一化强度误差和增益的标准偏差,我们选择?N?10.0?I??0?255??,?g?0.1。这是一个增益参数g的二次目标函数,可以通过在封闭的形式中设置导数趋于0来解决(见图5)。
(a)完成一半的图像配准
(b)没有增益补偿的图像
(c)有增益补偿的图像
(d)使用增益补偿和多波段混合拼接图像
图5,增益补偿。如果没有应用增益补偿,如(a)(b),图像间大的亮度变化是可见的;增益补偿后,由于未建模的影响,一些图像边缘仍然可见,例如晕映(图c)。这些都可以使用多波段混合有效的平滑掉(图d)。
7. 多波段融合
理想情况下,每个图像中沿一条射线的每个样值(像素)会有相同的强度,它们会相交,但现实并非如此。由于一些未建模的影响,即使在增益补偿后,图像边缘仍然可见,如图像边缘暗淡(朝图像边缘方向强度降低),由于光中心不必要的移动引起的视差效果,摄像头的错误建模、径向畸变等引起的微小的定位误差等。由于这些,一个好的融合策略是很重要的。
1?n??可以被表示在从前面的步骤中,考虑到已知的匹配,有n幅图像Ii?x,y??i??一个共同的(球形)坐标系Ii??,??中。为了从多个图像中合并信息,我们为每个图像分配一个加权函数W?x,y????x???y?,其中??x? 从中心1到边缘0线性变化。加权函数在球形坐标系Wi??,??内重新采样,拼接的一种简单方法是计算沿着每条射线,使用这些加权函数的图像强度的加权总和。如下所示:
Ilinear??,????ii????,??I?,?Wi?1n?ni?1W??,??i (30)
其中,Ilinear??,??是使用线性融合形成的复合球面图像,可是如果有小的匹配错误,这种方法会引起高频细节模糊(见图7)。为了防止这种情况,我们使用Burt和Adelson的多波段融合算法。多波段融合的想法是在一个很大的空间范围内融合低频率,在一个小的范围内融合高频频率。
我们通过找到图像i最有用的点集来初始化每个图像的混合权重,表示如下:
Wimax?1ifWi??,???argmaxjWj??,????,???? (31)
0其它?i?,??为1表示图像i有最大权值,0表示其它一些图像有较高的权例如对于??,??,Wmax?值。这些最大权值的映射连续混合形成了每个波段的混合权值。
所呈现图像的高通版本形式如下:
i??,???Ii??,???I?i??,?? (32) B?i??,???Ii??,???g???,?? (33) I?其中,g???,??是?的高斯标准偏差,?操作符表示卷积,B???,??表示在波长为?0,??范围内的空间频率。我们通过模糊这幅图像的最大权值映射,形成融合权值以融合图像间的该波段,如下:
iW?i??,???Wm?,???g???,?? (34) ax?其中,W?i??,??为波长为?0,??的波段内的融合权值,后续的频段使用低频带通图像和进一步模糊融合权值来融合,例如,对于k?1,
B?ik?1???Iki??I?ik?1?? (35) I?ik?1???Iki??g?? (36) W?ik?1???Wki??g?? (37)
其中设置高斯模糊内核的标准偏差为????2k?1??,如后续波段有相同波长的范围。
对每一个波段,使用对应的融合权值线性合并重叠的图像,如下所示:
Ikmulti???,????ii??B?,?Wk?k???,??i?1n?ni?1Wik???,?? (38)
这会引起高频段(小于k?)在小范围内融合,而低频段(大于k?)在较大的范围内融合(见图6)。
注意到我们选择呈现的全景图在参数为?,?的球面坐标内呈现全景图,原则上从呈现的角度来看,我们可以选择一个表面的任何二维参数。一个好的选择将会呈现一个三角形球面,在图像平面构造融合权值,这样会有统一处理所有图像的优势,同时易于其它表面(在图形硬件)的重采样。?,?参数设置受极点的奇异性影响。
算法:自动全景拼接 输入:n个无序图像 1. 从n幅图像中提取SIFT特征。 2. 使用k-d算法为每个特征点找到k个最邻近的匹配特征点。 3. 对于每一幅图像: (1) (2) (3) 选择m个候选匹配图像,它们与要匹配使用RANSAC算法找到几何一致的特使用概率模型验证图像匹配。 的图像有最多的特征匹配点; 征匹配来得到图像对间的对应矩阵; 4. 找到图像匹配的连接分量。 5. 对于每个连接分量: (1)执行捆绑调整解决所有相机的旋转角?1,?2,?3和焦距f; (2)呈现使用多波段融合拼接的全景图。 输出:全景图像
(a)原始图像和拼接结果
(b)波段1(从0到?)
(c)波段2(从?到2?)
(d)波段3(小于2?)
图6,多波段融合。左边显示的为k=1,2,3的带通图像B(θ, φ),右边为对应的融合权值W(θ, φ)。最初的融合权值指定为1是每个图像的最大权值。为了获得每一个融合函数,在空间频率?中,权值是模糊的,并形成相同空间频率的带通图像。使用基于融合权值的加权和将带通图像融合在一起
(a)线性融合拼接图像 (b)多波段融合拼接图像
图7,线性和多波段融合拼接的比较。右边的图像使用多波段融合,其中使用了5个波段,,? =5个像素。左边的图像是线性融合拼接。关于运动中的人的图像匹配会引起图像间小的错误配准,线性融合拼接的结果会导致图像模糊,而多波段融合拼接图像是清晰的。
百度搜索“70edu”或“70教育网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,70教育网,提供经典综合文库图像融合技术毕业论文中英文资料对照外文翻译文献综述在线全文阅读。
相关推荐: