深入探讨了多视几何中的透视投影,重点是从图像中恢复三维坐标的过程。

1. 多视几何与图像形成过程

多视几何的核心在于理解从三维点到二维图像平面的投影过程,从而实现三维坐标的逆向恢复。通过对投影的基本概念的掌握,我们可以更有效地处理和分析图像数据。

投影的基本概念

投影是指将三维坐标转换为二维图像坐标的过程。该过程涉及相机的位置和方向,这些因素决定了投影的结果。透视投影(Perspective Projection)是一种常见的投影方式,其数学表达式如下:

$$
\begin{aligned}
x’ &= \frac{f \cdot x}{z}, \
y’ &= \frac{f \cdot y}{z},
\end{aligned}
$$

其中,$(x, y, z)$ 表示三维空间中的点,$(x’, y’)$ 表示在图像平面上的对应点,$f$ 是焦距,决定了投影的缩放程度。

2. 透视投影的历史背景

透视投影的发展经历了多个阶段。文艺复兴时期,艺术家重新发现了透视法,并通过艺术作品展示了透视投影在创造深度感方面的重要作用。

透视投影在艺术中的应用

文艺复兴时期的艺术家,如达·芬奇(Leonardo da Vinci),不仅重新发现了透视投影的规则,还深入研究了光与物质的相互作用,为今天的计算机视觉提供了理论基础。例如,《最后的晚餐》就是透视投影在艺术中的经典应用,其展现了如何利用透视法创造三维空间的错觉。

霍加斯(William Hogarth)在18世纪的作品中通过夸张和幽默的表现手法对透视法进行了讽刺,荷兰画家艾尔(M. C. Escher)则利用透视投影的复杂性,创作了许多视觉上有趣但在物理上不可能存在的艺术作品。

3. 镜头原理与透视投影

镜头通过折射将光束聚集到焦点,从而形成清晰的图像。镜头的厚度和对称性影响光线的传播,因此在实际应用中需要考虑这些因素以避免像差。

折射与像差

光在不同介质中的传播速度不同,导致了折射现象的发生。折射率的变化影响了光线的路径,从而影响最终图像的清晰度。对于薄镜头,光线的入射和出射点可以近似看作相同,这一简化模型在数学处理时尤为重要。

透视投影的数学表达

透视投影本质上是一个非线性变换,其主要通过焦距进行缩放并除以Z坐标来实现:

$$
\begin{aligned}
x’ &= \frac{f \cdot x}{z}, \
y’ &= \frac{f \cdot y}{z}.
\end{aligned}
$$

该过程涉及的非线性因素使得逆转变换变得复杂,但通过引入齐次坐标,可以将非线性部分转化为线性形式,简化计算。

4. 从世界坐标到图像坐标的转换

从世界坐标到图像坐标的转换涉及多个步骤,包括刚体运动和投影矩阵。这些步骤帮助我们理解如何在不同的坐标系统之间进行转换,并确保图像的准确表示。

刚体运动与投影矩阵

在转换过程中,世界坐标通过刚体运动转化为相机坐标,然后通过投影矩阵进一步转化为图像坐标。刚体运动包括旋转和平移,它们决定了相机的方向和位置:

$$
\mathbf{P} = \mathbf{K} [\mathbf{R} | \mathbf{t}] \mathbf{X},
$$

其中,$\mathbf{P}$ 是图像坐标,$\mathbf{K}$ 是内参矩阵,$\mathbf{R}$ 和 $\mathbf{t}$ 分别表示旋转矩阵和平移向量,$\mathbf{X}$ 是世界坐标。

5. 相机的内外部参数

相机的内参矩阵由焦距、比例因子和主点等参数构成,这些参数仅依赖于相机自身的设置,而与其在世界中的位置无关。外参参数代表相机的刚体运动,包括旋转和平移。

内参矩阵

内参矩阵通常表示为:

$$
\mathbf{K} =
\begin{bmatrix}
f_x & 0 & c_x \
0 & f_y & c_y \
0 & 0 & 1
\end{bmatrix},
$$

其中,$f_x$ 和 $f_y$ 是焦距与像素的比例因子,$c_x$ 和 $c_y$ 是主点坐标。

外参与3D重建

外参参数的精确确定对3D重建至关重要。在校准场景中,内参已知,而在非校准场景中,我们需要从图像中推断出这些参数。

6. 投影矩阵与图像变换

投影矩阵的组成及其与像素坐标之间的变换关系是理解计算机视觉中的关键内容。投影变换并非线性,而是涉及到分子和分母的复杂关系。

投影模型

不同的投影模型包括标准透视投影和球面透视投影,它们对三维点的映射方式不同。尽管存在非线性因素,但通过适当的数学处理,可以对这些模型进行统一描述。

径向畸变的校正

在图像处理和相机建模中,径向畸变是一个重要的因素,特别是在使用广角镜头时更加明显。径向畸变模型通常使用以下公式进行描述:

$$
r’ = r (1 + k_1 r^2 + k_2 r^4 + k_3 r^6),
$$

其中,$r$ 是未校正的半径,$r’$ 是校正后的半径,$k_1, k_2, k_3$ 是径向畸变系数。

7. 预像与共像的几何理解

预像是指所有投影到同一二维点的三维位置的集合,这在几何结构恢复中非常重要。共像指的是多条线的交集形成的影像点。通过理解这些概念,可以更好地进行三维几何结构的恢复。

法向量与线性空间

预像可以通过法向量与图像平面的交集进行描述,法向量的引入使得对三维几何关系的理解更加直观。

8. 齐次坐标与投影几何

齐次坐标的使用使我们能够更轻松地处理四维空间中的三维点。齐次坐标表示的点在数学上更复杂,但它们允许我们通过比例因子代表方向,从而简化投影几何的理解。

齐次坐标的转换

齐次坐标表示的三维点为$(x, y, z, w)$,通过对$w$进行归一化处理,我们可以得到对应的三维坐标:

$$
\mathbf{X} = \frac{1}{w} \begin{bmatrix} x \ y \ z \end{bmatrix}.
$$