［草稿］全景视频拼接关键技术

发表于 2016-10-16 分类于算法与硬件阅读次数：

最近忙着写论文，没有时间写博客了。（说得就像会有人看一样）
现在的学术水平已经基本脱离“科学靠脑补、大力出奇迹”的民科状态了

完整的图片拼接步骤，翻译自OpenCV Stitching Pipeline

[1]. _Image stitching techniques for an intelligent portable aerial surveillance system: Proceedings of 2014 IEEE International Conference on Technologies for Practical Robot Applications (Apr. 2014), pp. 14–15 _

此文献制作了一个应用与无人机的轻量、低成本全景摄像机，把三个摄像头的视频拼接成全景图像以增加视野。通过基于Homography的方法能够支持平均15帧的拼接效率以达到实时全景的效果。

[2]. _ Seamless image stitching by minimizing false edges: IEEE Trans. Image Proc., 15 (4) (Apr. 2006), pp. 969–977_

拼接的质量取决于图片融合后接缝的可见性，此文献对比了传统的图片融合技术对接缝的处理效果，并提出了一种新的解决方案GIST1（gradient-domain image stitching）。

当两张图片没有完美的重叠部分时，GIST1算法可以得到最优的边界处理效果。

[3]. _Fast Panorama Stitching for High-Quality Panoramic Images: IEEE Trans. Consumer Electron., 56 (2010), pp. 298–306 _

此文献解决了如何通过一系列连续图片制作高解析度、高质量的全景图片。提出了颜色矫正来减少图像之间的颜色差异，使用动态规划找出重叠区域最优的接缝以拼接相邻图像。

[5]. M. Brown, D. LoweAutomatic panoramic image stitching using invariant features Int. J. Comput. Vis., 74 (1) (2007), pp. 59–73

本文涉及的问题，全自动全景图像拼接。虽然一维的问题（单轴旋转）是很好的研究，二维或多行的拼接是比较困难的。以前的方法已经使用人类输入或限制的图像序列，以建立匹配的图像。在这项工作中，我们制定了拼接作为一个多图像匹配的问题，并使用不变的局部特征，以找到所有的图像之间的匹配。由于这一点，我们的方法是不敏感的输入图像的顺序，方向，规模和照明。它也不是一个全景部分图像噪声不敏感，并能识别在一个无序的图像数据集的多个全景。除了提供更多的细节，本文扩展了我们以前的工作在该地区（2003布朗和Lowe）引入增益补偿和自动校直的步骤。

[6]. R. Szeliski Image alignment and stitching: a tutorial Found. Trends Comput. Graph. Vis., 2 (2006), pp. 1–104

本教程回顾了图像对齐和图像拼接算法。图像对齐算法可以发现不同程度的重叠的图像之间的对应关系。他们非常适合于应用程序，如视频稳定、总结和创造的全景拼图。图像拼接算法的定位估计这样的配准算法，将图像以无缝的方式，小心处理如模糊或重影的视差和运动引起的场景以及不同的图像曝光的潜在问题。本教程介绍的基本运动模式下对准和拼接算法，介绍了有效的直接（像素）和基于特征的比对算法，并介绍了混合算法用于生产无缝拼接。它结束了在该地区的开放性研究问题的讨论。

[14]. J. Lu A load-balancing h.264 stream dispatching scheme utilized in network video monitoring system Proceedings of International Conference On Information Science and Service Science and Data Mining, Taipei (2012), pp. 678–682

在这项研究中，实现独立于平台的网络视频流，H.264 AVC标准作为内流系统的通信语言。然后，提出了一种新的负载均衡调度方案，并在数学上讨论的文件，以克服原生的瓶颈问题，在一个典型的网络视频系统。

[15]. Z. Chen, Y. Fang, F. Wang, Z. Li Implementation of H.264 intra-frame encoding on clustered stream architectures Proceedings of IEEE International Conference On ASIC, Shenzhen (2013), pp. 1–4

大多数视频采用H.264标准获得高压缩比编码。然而，高的计算复杂度和强大的数据依赖性，使实时编码困难。由于流体系结构具有丰富的运算单元和灵活可编程的，他们更适合媒体应用比ASIC和DSP。本文介绍了H.264帧内编码的聚流体系结构的实时实现。在流级和内核级的优化被认为是提高了利用率的算术单元，然后编码性能。在流水平，块与块之间的相似性，利用宏块，切片。在内核级，内核分区和内核融合相结合，得到优化的内核。实验结果表明，所提出的优化技术，提高性能显着。1080p视频编码的帧内编码速率可以达到每秒50.2帧。

[21]. W.F. Liu, J.L. Lu, Z.F. Wang, H.J. Song, X.Z. Han A High Compression Algorithm for Video Stream Proceedings of Congress on Image and Signal Processing, Sanya, Hainan (2008), pp. 287–291

为了减少当前和现有图像之间的相似性的视频帧序列的时间冗余度，本文提出了一种基于零树小波的非常高的压缩的新的视频编码算法。提出了一种新的方案，它采用基于帧序列中检测到的不同运动的自适应策略。用该算法实现了高逼真度的视频流的实时压缩。©IEEE 2008。

[22]. N. Mao, L. Zhuo, J. Zhang, X. Li Fast Compression Domain Video Encryption Scheme for H.264/AVC Streaming Proceedings of International Conference On Advanced Communication Technology, PyeongChang (2012), pp. 425–429

本文提出了一种新方法保护H.264/AVC流。已指出的压缩域视频加密的问题，并充分解决。优化安全水平和计算复杂度之间的权衡，只有在H.264/AVC流重建视频质量的最重要的位进行加密，包括帧内预测模式的编码、帧内和运动矢量差的低频DCT系数（MVD）。保持加密的流媒体格式符合H.264标准的解码器的帧内预测模式的码字加密IPME，对DCT系数的码字符号位加密和MVD的码字后缀加密信息。实验结果表明，该方案具有显着的计算效率和可靠的安全性，可以抵御不仅感性的攻击，但也蛮力攻击。因此，所提出的方案将非常适合于实时和资源有限的系统。©2012女孩。

[23]. Y. Wu, C. Liu, S. Lan, M. Yang Real-time 3D road scene based on virtual-real fusion method Sensors J. IEEE, 15 (12) (Feb. 2015)

道路监控在应急处置、交通事故责任认定、交通趋势分析等领域中起着至关重要的作用。本文设计了一个实时的虚拟现实融合框架的大规模场景的多视角监控，其中二维全景，卫星的纹理，和3D模型合并。该系统的实施与以下的贡献。首先，提出了一种新的多视点重叠图像自动拼接算法。相邻的相机检测到的特征点通过comotion统计地图。此外，变换模型是使用随机抽样一致性算法。其次，多视点图像演变到同一个架空的观点。最后，基于高精度地面控制点，对二维全景图像和三维场景模型进行了组合。所提出的框架已成功地应用到一个大的道路交叉口。随着虚拟现实融合的方法，观察者可以随意监控及大规模三维场景漫游的路。

在本文中，我们提出了一种通过对安装在经历主要平移运动的机载平台上的摄像机收集的光学数据的无缝配准来自动和有效地生成立体马赛克的新颖方法。在本文中讨论了四个关键点：1）使用平行透视表示，一对几何注册的立体马赛克可以
构建之前我们明确地恢复任何3D信息在相当一般的运动。 2）提出了一种PRISM（用于立体马赛克的平行光线插值）技术，使立体马赛克在运动视差的存在下无缝，并且用于相当任意的场景。提出了一种快速PRISM算法，并讨论了缝合点选择和遮挡处理的问题。 3）在约束6自由度运动下产生的平行透视立体马赛克的对极几何被公式化，其显示最佳基线，容易搜索对应和恒定深度分辨率。 4）所提出的方法
生成立体马赛克并且然后重建3D地图在计算和存储两者中是高效的。给出了长视频序列的实验结果。

本文提出了一种新的方法，从大量的图像集合计算深度图，其中相机运动已被约束为平面同心圆。我们将所得的定期视角图像集合重新采样为一组多视角全景图，然后直接从这些重新采样的图像计算深度图。由于我们的全景在三个维度上均匀地采样：旋转角，反径向距离和垂直高度，因此只需要少量的多视角全景图来获得密集和准确的3D重建。使用多视角全景图可以避免原始输入图像之间的有限重叠，从而导致常规多基线立体声出现问题。我们的方法不同于从不同位置拍摄的全景图像的立体匹配，其中对极约束是正弦曲线。对于我们的多视角全景，对极几何，一阶，由水平线组成。因此，任何传统的立体声算法可以应用于多视角全景而无需修改。实验结果表明，我们的方法生成好的深度图，可以用于基于图像的渲染任务，如视图内插和外推。

Omnistereo全景图包括一对全景图像，其中一个全景图用于左眼，另一全景图用于右眼。全景立体对提供了高达360度的立体感。 Omnistereo全景照片不能从两个视点的两个全向相机拍摄，但可以通过将来自旋转立体对的图像拼接在一起来构造。生成全方位全景的更方便的方法是通过拼接来自单个旋转相机的图像。这种方法还使得能够控制立体差异，为远景场景给出更大的基线，并且为更近的场景提供更小的基线。使用旋转相机捕获全景全景图像使得无法以视频速率捕获动态场景，并将全向成像限制在静止场景。因此，我们提出了两个可能性，使用光学没有任何移动部件捕获全景立体摄影。引入特殊镜，使得通过该镜观看场景产生与旋转相机所使用的相同的光线。还介绍了用于全景全景的镜头。反射镜和透镜的设计基于其腐蚀性为圆形的曲线。 Omnistereo全景图也可以通过计算机图形方法来呈现以表示虚拟环境

本文提出了一种从平行投影下捕获的图像计算几何信息的新技术。平行图像对于立体重建是期望的，因为平行投影显着地减少了透视缩短。结果，基于相关性的匹配变得更有效。由于平行投影相机通常不可用，因此通过重组大的视角图像序列来构建平行图像。研究了1D和2D平行立体声的对极几何，深度恢复和投影不变性。从深度重建的不确定性分析，显示平行立体声优于常规立体立体和最近开发的用于视觉重建的多视角立体，其中均匀重建误差是平行立体声的。传统的立体重建技术，例如多基线立体声，仍然可以应用于并行立体声而没有任何修改，因为并行立体声中的核线是完全笔直的。实验结果进一步证实了我们的方法的性能。

图像拼接已经在近年来的许多应用中广泛使用。 [2]介绍了计算机视觉的基础知识，包括如何从相机形成图像，运动模型和常见的图像处理方法。 [3]给出了图像拼接技术的概述。它呈现了从图像获取到图像重新映射以及最终到图像混合的产生全景图像的简化流程图。 [4]介绍了使用不变特征的自动全景图像拼接方法。它提供了关于如何使用SIFT特征和RANSAC单应性估计自动拼接图像的详细算法描述。 [5]充分说明基于特征的图像拼接。这种材料中引入了关于特征提取，特征匹配，单应性估计，图像包裹和图像混合的理论。 [6]综合说明了双视图几何。本书中解释了单应性和无限单应性的概念。为了实现基于无限单应性的拼接方法，使用相机校准。 [2]和[7]介绍了从理论到实践的单摄像机校准和立体声校准。 [8]是使用OpenCV库的教程。它呈现了库提供的功能，以及这些功能如何用于实现照相机校准和图像拼接算法。

0x02 特征匹配

尺度不变特征转换(Scale-invariant feature transform或SIFT)是一种电脑视觉的算法用来侦测与描述影像中的局部性特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量，此算法由 David Lowe在1999年所发表，2004年完善总结。
RANSAC是“RANdom SAmple Consensus（随机抽样一致）”的缩写。它可以从一组包含“局外点”的观测数据集中，通过迭代方式估计数学模型的参数。它是一种不确定的算法——它有一定的概率得出一个合理的结果；为了提高概率必须提高迭代次数。该算法最早由Fischler和Bolles于1981年提出。

原始图像

SIFT角点提取

RANSAC筛选后的角点

图像拼接

0x03 几何调整

寻找Z向量

未进行几何调整

几何调整后

0x04 增益补偿，图像融合

拼接缝隙的消除可采用多频带拼接融合算法．由于多频带融合是通过将图像分解成多幅尺度图像再合成，不仅可实现整图范围内的融合过渡，并可降低对配准误差的敏感度．
左图为线型融合，右图为多频带融合

未完全匹配的图像
没有采用增益补偿

采用增益补偿+多频带融合

0x05 拼接流程

下面是一个简略的拼接流程。

输入: n 幅图像
I. 对全部的 n 幅图像提取角点
II. 用 k-d 树对邻近特征进行提取
III. For (每个图像):
(i) 选择 m 幅图像进行特征匹配
(ii) 对匹配好的特征执行 RANSAC 算法筛选出正确的特征点
(iii) 使用概率模型验证图像匹配
IV. 寻找匹配的图像
V. For (每一对匹配的图像):
(i) 通过旋转角 θ1, θ2, θ3 和焦距 f 执行几何调整
(ii) 使用多频带融合渲染全景
输出: 全景图像

教科书般的流程可直接参照OpenCV源码里的stitching_detailed.cpp

0x01 Related Work

0x02 特征匹配

0x03 几何调整

0x04 增益补偿，图像融合

0x05 拼接流程