TUM-多视图几何-光流估计方法
本讲座围绕多视图几何中的重建问题展开,特别强调了图像间对应点的寻找和处理方法。核心内容包括小基线和大基线的跟踪算法、光流假设、Lucas-Kanade方法、结构张量的概念,以及大位移情况下的挑战和解决方案。
1. 多视图重建中的对应点问题
在多视图重建中,关键任务之一是找到图像之间的对应点。假设我们有来自两个不同视角的图像,通过这些图像,我们可以推断相机的运动和三维点的位置。这种方法是图像重建的经典手段。
1.1 小基线跟踪与光流假设
小基线跟踪: 在小基线情况下,图像间的位移较小,光流法通常表现良好。这种方法主要用于处理图像间的小位移。
光流假设: 光流假设认为,图像亮度在时间上的变化反映了物体的运动。其基本假设包括亮度恒定性和运动一致性。
1.2 大基线跟踪与非刚性变形
大基线跟踪: 当图像间存在大位移或非刚性变形时,传统的光流方法难以适用。因此需要使用更复杂的算法,如描述符匹配或归一化互相关。
亮度恒定性假设: 尽管亮度恒定性假设不总是成立,尤其是在大位移的场景中,它仍然是估计图像间运动的基本假设之一。
2. 亮度恒定性假设及其应用
在图像处理和计算机视觉 ...
TUM-多视图几何-重建三维场景
讨论了如何从图像中的颜色信息提取几何点并重建三维场景。尽管图像包含丰富的信息,但仅通过少量特征点进行重建可能会丢失重要信息。介绍了在小位移和大位移情况下的点跟踪和对应关系问题,并强调了如何在计算效率和精度之间取得平衡。此外,还介绍了一些经典的光流估计方法,如Lucas-Kanade和Horn-Schunck,并探讨了亮度恒定假设在实际应用中的局限性和挑战。
1. 图像颜色信息与三维重建
首先讨论了从图像中的颜色信息恢复几何点的挑战。这一过程涉及将光度信息转换为三维几何信息,并探讨了如何在图像中识别和关联独特的特征点。
颜色与几何信息的转换: 从图像中提取几何信息的挑战在于,观察到的仅是颜色而不是实际的几何点。为了从颜色中恢复三维点,必须有效地将光度值转换为几何概念。
特征点的识别: 在计算机视觉中,成功的三维重建依赖于识别图像中的独特特征点。特征点必须具有足够的独特性,以便在不同图像中能够正确地进行匹配和关联。
特征描述符的设计: 特征描述符的设计是一个重要的研究领域。它们需要具备唯一性和不变性,以便在不同的光照和视角下仍能准确识别相同的特征点,这对三维重建至关重要。
...
TUM-多视图几何-多视几何与透视投影:从图像到三维重建
深入探讨了多视几何中的透视投影,重点是从图像中恢复三维坐标的过程。
1. 多视几何与图像形成过程
多视几何的核心在于理解从三维点到二维图像平面的投影过程,从而实现三维坐标的逆向恢复。通过对投影的基本概念的掌握,我们可以更有效地处理和分析图像数据。
投影的基本概念
投影是指将三维坐标转换为二维图像坐标的过程。该过程涉及相机的位置和方向,这些因素决定了投影的结果。透视投影(Perspective Projection)是一种常见的投影方式,其数学表达式如下:
$$
\begin{aligned}
x’ &= \frac{f \cdot x}{z}, \
y’ &= \frac{f \cdot y}{z},
\end{aligned}
$$
其中,$(x, y, z)$ 表示三维空间中的点,$(x’, y’)$ 表示在图像平面上的对应点,$f$ 是焦距,决定了投影的缩放程度。
2. 透视投影的历史背景
透视投影的发展经历了多个阶段。文艺复兴时期,艺术家重新发现了透视法,并通过艺术作品展示了透视投影在创造深度感方面的重要作用。
透视投影在艺术中的应用
文艺复兴时期的艺术家,如达 ...
TUM-多视图几何-李群与李代数
在多视图几何中,刚体运动的建模可以通过李群(Lie Group)和李代数(Lie Algebra)来实现。这些数学工具能够简化旋转和平移的表示,并为优化问题提供了有效的解决方案。本文将详细探讨李群SE(3)和李代数se(3)的应用、指数映射的使用,以及如何通过这些工具来处理相机的运动和坐标变换。
李群与李代数的基本概念
李群是一类具有连续变换性质的群,用于描述刚体运动中的旋转和平移组合。SE(3)是一个特殊的李群,用于表示三维空间中的刚体运动,包括旋转和位移。而李代数是李群在单位元素附近的切空间,表示为se(3)。通过李代数,我们能够更直观地处理刚体运动中的微小变化。
李群SE(3)与李代数se(3)
李群SE(3): 描述了旋转和平移的组合,是三维刚体运动的基本结构。它由一个旋转矩阵和一个平移向量组成,通常表示为一个4x4的矩阵。
李代数se(3): 是李群SE(3)的切空间。它由一个3x3的斜对称矩阵(表示旋转)和一个3x1的向量(表示平移)构成,用于描述刚体运动的微小变化。
刚体运动的六自由度表示
刚体运动可以通过六个自由度来表示,包括三个旋转自由度和三个平移自由度。与使用4 ...
MVG-多视图几何-写在前面
感觉对于视觉slam和三维重建的相关知识点掌握的都特别散乱,想系统的梳理梳理,于是选了TMU的这门课程,边学习边整理。关键这本书买的是影印版,比较模糊,还是先看TMU的视频了。
TUM-多视图几何-刚体运动建模及其应用
多视图几何是计算机视觉中的一个重要领域,尤其是在3D重建中。刚体运动可以通过数学工具如李群和李代数来建模,它们为相机运动的优化提供了强大的框架。在这种建模中,通过指数映射可以在李群和李代数之间进行转换,进而有效地处理旋转和平移的组合。
2. 三维空间与相机运动建模
2.1 李群与李代数
李群是一个具有连续变换结构的群,用于描述相机的连续运动。李代数是李群在单位元附近的切空间,用于描述微小变换。
李群 (\(G\)):表示刚体运动的连续变换群,具有群的性质(封闭性、结合性、单位元、逆元)。
李代数 (\(\mathfrak{g}\)):描述了李群在单位元附近的局部性质,是李群在单位元处的切空间。
在三维欧几里得空间中,刚体运动可以用特殊欧氏群 \(SE(3)\) 来表示,它结合了旋转和平移。这些数学工具允许我们在复杂的场景中进行相机姿态的优化和三维重建。
2.2 三维空间中的点和向量
在三维空间中,点可以用三个坐标来表示,这些坐标与 \( \mathbb{R}^3 \) 中的元素相关联。向量的概念在多视图几何中尤为重要,包括自由向量和限制向量。自由向量在欧几里得空间中构成一个线性空间 ...
TUM-多视图几何-矩阵变换和奇异值分解
多视图几何在计算机视觉中扮演着关键角色,尤其是在3D重建中。矩阵变换和奇异值分解(SVD)是多视图几何中的重要工具。SVD不仅用于求解欠定的线性方程组,并找到最小范数解,还在3D重建、刚体运动、透视投影等问题中提供了重要帮助。
矩阵变换与特征值分解
矩阵表示旋转和平移
在三维空间中,矩阵通过齐次坐标系来表示旋转和平移。齐次坐标将3D点扩展为4D向量,使得旋转和平移操作可以统一为矩阵乘法。这种表述在刚体运动中尤为重要,描述了相机在三维空间中的运动。
刚体运动:刚体运动可以通过特殊欧几里得群 \(SE(3)\) 来表示,包括旋转矩阵和平移向量。这个表示展示了矩阵在三维空间中的变换和自由度。
特征值与特征向量:特征值与特征向量在复值矩阵中有重要意义。右特征向量在矩阵乘法后仅发生缩放,通过研究它们可以理解矩阵对向量的影响。这在应用线性代数处理图像中的矩阵运算时非常有用。
\[
A\mathbf{v} = \lambda \mathbf{v}
\]
其中,\(\mathbf{v}\) 是特征向量,\(\lambda\) 是特征值。
特征值方程与性质
特征值和特征向量在矩阵代数中起着关 ...
TUM-多视图几何-线性代数基础
介绍了多视图几何的基础知识,重点在于线性代数的关键概念,包括向量空间、线性变换和矩阵的性质。回顾了线性代数的基本定义,如向量空间的封闭性、线性独立性及基的概念,并讨论了奇异值分解和内积的定义。课程还探讨了矩阵的秩、范围和核的概念,以及如何通过这些概念来解决线性方程组。最后,提到了一些重要的矩阵群体,如一般线性群和特殊线性群,以及它们在多视图重建中的应用。
1. 线性代数的基本概念
向量空间是线性代数的基础,定义为一个在向量加法和标量乘法下封闭的集合。向量空间的封闭性意味着对于任意两个向量 \(\mathbf{u}\) 和 \(\mathbf{v}\) 及标量 \(a\),线性组合 \(a\mathbf{u} + \mathbf{v}\) 仍然属于该向量空间。这一性质在理解线性代数时非常重要。
线性变换及矩阵是线性代数的核心概念。矩阵描述了从一个向量空间到另一个向量空间的线性映射。矩阵的秩(rank)、可逆性、以及矩阵的行列式(determinant)是解决实际问题和执行计算时的关键因素。特别地,矩阵的秩决定了线性方程组解的存在性和唯一性。
奇异值分解(SVD, Singular Val ...
中科大-数字几何处理-写在后面
这门课是中科大傅孝明老师面向研究生开始的一门课程,对应的教材是《多边形网格处理》,只有英文版,在熟悉了专业名词后其实就挺好读的。这本书更像是一本面片处理的工具手册。
这门课的数学核心就是离散微分几何,像散度、梯度、拉普拉斯算子等。
同样也有很多的编程练习,记得一上来的作业就是写网格的最小生成树算法。
由于项目中有很多基于面片处理、纹理映射的算法开发工作,为了补充这里领域的知识,就学习了这个课程。
PMP-多边形网格处理-写在后面
和中科大傅孝明老师开设的《数字几何处理》课程一起看的,他的课程也是用的这本书作为教材,没有中文版,不过在熟悉了几个特定的专业词汇后,也不是事。
这个就是一本mesh处理的工具书,几乎所有的和面片相关的传统算法里面都提到了。还有里面的图真的很多,字距和行距也比较宽,排版让人很舒服(读一些硬核技术书籍的时候还是很在意排版的,如果字体排版很密很容易劝退…)
在阅读这本书的时候也看到了一份很优秀的笔记,搭配使用更佳链接:https://blauhimmel.github.io/tags/polygon-mesh-processing/
