SLAM LECTURE 2

§2.1 引子

感知 -> 定位（状态）+ 建图（环境）
相机分类：单目（Monocular）相机、双目（Stereo）相机、深度（RGB-D）相机
1. 单目相机通过移动确认深度，但存在尺度不确定性
2. 双目相机有已知Baseline，可测量深度，但计算量大
3. 深度相机通过物理手段判断距离，但使用空间受限，主要用于室内
4. 双目相机/深度相机由于都存在真实时间的参数（baseline/depth）可以解决尺度问题

传感器（相机）信息读取
前端视觉里程计（Visual Odometry, VO，又称为前端Front End）：相邻图像之间的相机运动
- 可能产生的问题：累计漂移（Accumulating Drift）
后端（非线性）优化（Optimization，又称为Back End）：处理噪声问题
- 如何从带有噪声的数据中估计整个系统的状态
- 这个状态估计的不确定性有多大（最大后验概率估计, Maximum-a-Posteriori, MAP）
回环检测（Loop Closure Detection）：解决漂移问题
- 计算图像相似性来判别是否回到原点
建图（Mapping）
- 度量地图（Metric Map）
  - 稀疏（Sparse）图：只保留地标（Landmark），可用于定位
  - 稠密（Dense）图：二维图由许多小格子（Grid）组成，三维图由许多小方块（Voxel）组成；每一块含有占据、空闲、未知三种状态，可用于A*等导航算法
- 拓朴地图（Topological Map）：Graph，由节点和边组成，只考虑节点间连通性

位置用 $x$ 表示，各时刻的位置记作 $x_{i}$ ，路标点则用 $y_{i}$ 表示。

得到运动方程，

x_{k} = f (x_{k - 1}, u_{k}, w_{k}), k = 1, 2, \dots, K

其中， $u_{k}$ 是运动传感器的读数或者输入， $w_{k}$ 为该过程中加入的噪声。

以及观测方程，

z_{k, j} = h (y_{j}, x_{k}, v_{k, j}), (k, j) \in O

其中 $z_{k, j}$ 为在 $x_{k}$ 观测到路标点 $y_{j}$ 时产生的观测数据， $v_{k, j}$ 是观测里的噪声， $O$ 是一个记录着哪个时刻观察到了哪个路标的集合。

从而，我们把SLAM问题建模成了一个状态估计问题，根据运动和观测方程是否线性，噪声是否服从高斯分布进行分类，分为线性/非线性和高斯/非高斯系统。

#SLAM

SLAM LECTURE 2

http://example.com/2026/01/25/SLAM-LECTURE-2/

作者

William Lu/Linkun Lu

发布于

2026年1月25日

许可协议