AL-iLQR实践指南 2.理解 Bellman 递推和 Riccati 方程

目标：理解 Bellman 递推和 Riccati 方程，实现从"给定控制"到"求解最优控制"的跨越

代码仓库：https://github.com/my-al-ilqr/al-ilqr-starter

2.1 从"评估"到"优化"

在 Chapter 1 中，我们只能做"评估"——给定控制序列，计算轨迹和代价。但我们真正想做的是找到最优的控制序列。

LQR（Linear Quadratic Regulator，线性二次调节器）是这个问题的线性特例，具有解析解。它是理解 iLQR 的基础。

2.2 LQR 问题定义

基础概念

LQR 处理的是线性动力学 + 二次代价的特殊情况。本文讲解的是参考跟踪（reference-tracking）形式的 LQR：

\min_{u_0, \ldots, u_{N-1}} \quad \frac{1}{2} (x_N - x_{\text{ref}})^T Q_f (x_N - x_{\text{ref}}) + \frac{1}{2} \sum_{k=0}^{N-1} \left[ (x_k - x_{\text{ref}})^T Q (x_k - x_{\text{ref}}) + (u_k - u_{\text{ref}})^T R (u_k - u_{\text{ref}}) \right]

\text{s.t.} \quad x_{k+1} = A x_k + B u_k

其中：

$A \in \mathbb{R}^{n \times n}$ 是状态转移矩阵
$B \in \mathbb{R}^{n \times m}$ 是控制输入矩阵
$Q \succeq 0$ 是状态代价矩阵（半正定）
$R \succ 0$ 是控制代价矩阵（正定）
$Q_f \succeq 0$ 是终端代价矩阵
$x_{\text{ref}}$ 是状态参考点（目标状态）， $u_{\text{ref}}$ 是控制参考点

参考跟踪 vs 调节器形式：当 $x_{\text{ref}} = 0, u_{\text{ref}} = 0$ 时退化为标准调节器形式。后续推导中，Riccati 递推（求增益 $K_k$ ）与参考点无关；参考点只影响控制律的应用： $u_k = u_{\text{ref}} + K_k (x_k - x_{\text{ref}})$ 。

对应代码中的问题定义（include/lqr/finite_horizon_lqr_solver.hpp）：

 
struct FiniteHorizonLQRProblem {
  Matrix A;                    // 状态转移矩阵 (n×n)
  Matrix B;                    // 控制输入矩阵 (n×m)
  Matrix Q;                    // 状态代价矩阵 (n×n)
  Matrix R;                    // 控制代价矩阵 (m×m)
  Matrix Qf;                   // 终端代价矩阵 (n×n)
  Vector state_reference;      // 状态参考点
  Vector control_reference;    // 控制参考点
  int horizon = 0;             // 时域长度 N
};

我们要找一组控制序列 $u₀, u₁, ..., u_{N-1}$ ，使系统从初始状态 $x₀$ 出发，尽量靠近参考点 $x_ref$ ，同时不消耗过多控制能量。

本步得到：一个 N 步全局优化问题。变量维度很高（n×N + m×N），直接求解不现实。下一步要做：引入动态规划，把全局问题拆成 N 个单步问题。

2.3 LQR 动态规划的完整推导

下图为总览流程图：下图为核心推导细节，展示 Bellman 方程如何一步步变成 Riccati 递推和控制律

动态规划的核心思想是：最优策略的子策略也是最优的（最优性原理）。动态规划的关键是从后往前思考：假设我们已经知道从第 $k+1$ 步到终点的最优代价，那么在第 $k$ 步该如何选择 $u_k$ ？

值函数

如果我们定义值函数（Value Function）为从第 $k$ 步开始到终点的最小代价：

V_k(x_k) = \min_{u_k, \ldots, u_{N-1}} \left[ \frac{1}{2} δx_N^T Q_f δx_N + \sum_{i=k}^{N-1} \frac{1}{2}(δx_i^T Q δx_i + δu_i^T R δu_i) \right]

Bellman方程

Bellman 方程（最优性原理），把 $V_k$ 拆成"当前步代价 + 未来最优代价":

V_k(x_k) = \min_{u_k} [ ½ δx_kᵀ Q δx_k + ½ δu_kᵀ R δu_k + V_{k+1}(x_{k+1}) ]

其中：

δx_k = x_k − x_{ref} , δu_k = u_k − u_{ref} , x_{k+1} = A x_k + B u_k

这就是 Bellman 方程——它把一个 $N$ 步优化问题递归地分解成了一系列单步优化问题。含义：第 $k$ 步的最优代价 = 当前代价 + 从下一状态出发的最优代价。

本步得到：Bellman 递推结构。 $N$ 步全局优化 → $N$ 个单步 $min$ 问题。下一步要做：确定 $V_k$ 的具体函数形式，才能真正求解。

二次型假设

终端条件（ $k = N$ ）：没有后续代价了，只有终端代价： $V_N = ½(x_N − x_{ref})ᵀ Q_f (x_N − x_{ref})$ 假设每一步的 $V_k$ 都保持二次型： $V_k(x_k) = ½ (x_k − x_{ref})ᵀ P_k (x_k − x_{ref})$ 其中 $P_k$ 是待求的对称正半定矩阵，终端条件： $P_N = Q_f$

本步得到：值函数的参数化形式。求 $V_k$ 转化为求矩阵 $P_k$ 。下一步要做：把假设代入 Bellman 方程，展开并对 $u_k$ 求导。

二次型假设带入Bellman方程

将 $V_{k+1} = ½ δx_{k+1}ᵀ P_{k+1} δx_{k+1}$ 和动力学 $δx_{k+1} = A δx_k + B δu_k$ 代入 Bellman 方程：（这里有一个重要的注意点：当参考点是系统的平衡点（即 $x_{ref} = A x_{ref} + B u_{ref}$ ）时，交叉项消失，递推可以完全用偏差量 $\delta x, \delta u$ 表示。）

V_k = min_{δu_k} ½ [ δx_kᵀ Q δx_k + δu_kᵀ R δu_k + (Aδx_k + Bδu_k)ᵀ P_{k+1} (Aδx_k + Bδu_k) ]

这是关于 $δu_k$ 的凸二次函数（因为 $R ≻ 0$ ），对 $δu_k$ 求导并令其为零：

∂/∂(δu_k) = R δu_k + Bᵀ P_{k+1} (A δx_k + B δu_k) = 0

整理：

(R + Bᵀ P_{k+1} B) δu_k = −Bᵀ P_{k+1} A δx_k

本步得到：最优 $δu_k$ 关于 $δx_k$ 的线性方程。下一步要做：解这个方程，得到反馈增益 $K_k$ 。

解出增益与 Riccati 方程

由于 $R ≻ 0$ 且 $P_{k+1} ⪰ 0$ ，矩阵 $(R + Bᵀ P_{k+1} B)$ 一定可逆。直接解出增益矩阵： $K_k = −(R + Bᵀ P_{k+1} B)⁻¹ Bᵀ P_{k+1} A$ 将最优 $δu_k* = K_k δx_k$ 代回值函数，整理后得到 $P_k$ 关于 $P_{k+1}$ 的递推： $离散 Riccati 方程: P_k = Q + Aᵀ P_{k+1} A − Aᵀ P_{k+1} B (R + Bᵀ P_{k+1} B)⁻¹ Bᵀ P_{k+1} A$ 从 $P_N = Q_f$ 开始，逐步算出 $P_{N-1}, P_{N-2}, ..., P_0$ ，同时得到每一步的 $K_k$ 。

本步得到：两个核心公式 —— 增益 $K_k$ 和 $Riccati$ 递推。注意它们只依赖 $A, B, Q, R$ ，与参考点无关。下一步要做：将增益应用到实际控制中。

离线阶段：反向递推

前向执行：实时计算控制量

反向递推阶段（离线）已经算好了所有 $K_k$ 。现在正向运行系统，得到最终控制律 : $u_k* = u_{ref} + K_k (x_k − x_{ref})$ 每一步只需做一次矩阵乘法，不需要任何数值搜索或迭代优化，非常适合实时控制。

2.6 代码实现

Backward Pass：Riccati 递推

// src/lqr/finite_horizon_lqr_solver.cpp
void FiniteHorizonLQRSolver::Solve() {
  // Step 1: 终端条件
  riccati_matrices_.back() = problem_.Qf;    // P_N = Q_f
  // Step 2: 从 k=N-1 递推到 k=0
  for (int k = problem_.horizon - 1; k >= 0; --k) {
    const Matrix& P_next = riccati_matrices_[k + 1];          // P_{k+1}
    // S = R + Bᵀ P_{k+1} B
    const Matrix S = problem_.R + problem_.B.transpose() * P_next * problem_.B;
    // K_k = -S⁻¹ Bᵀ P_{k+1} A
    const Matrix rhs = problem_.B.transpose() * P_next * problem_.A;
    feedback_gains_[k] = -S.ldlt().solve(rhs);                // 用 LDLT 分解求解
    // P_k = Q + Aᵀ P_{k+1} (A + B K_k)
    riccati_matrices_[k] =
        problem_.Q + problem_.A.transpose() * P_next * (problem_.A + problem_.B * feedback_gains_[k]);
  }
  is_solved_ = true;
}

Forward Simulate：闭环仿真

Trajectory FiniteHorizonLQRSolver::Simulate(const Vector& initial_state) const {
  Trajectory trajectory(problem_.StateDim(), problem_.ControlDim(), problem_.horizon);
  trajectory.State(0) = initial_state;
  for (int k = 0; k < problem_.horizon; ++k) {
    // 反馈控制律: u_k = u_ref + K_k (x_k - x_ref)
    trajectory.Control(k) = Control(trajectory.State(k), k);
    // 线性动力学: x_{k+1} = A x_k + B u_k
    trajectory.State(k + 1) = problem_.A * trajectory.State(k)
                             + problem_.B * trajectory.Control(k);
  }
  return trajectory;
}
 
Vector FiniteHorizonLQRSolver::Control(const Vector& state, int k) const {
  const Vector state_error = state - problem_.state_reference;
  return problem_.control_reference + feedback_gains_[k] * state_error;
}

2.7 LQR 与 iLQR 的关系

LQR 是 iLQR 的"内核"。两者的关键区别：

特性	LQR	iLQR
动力学	线性 $x_{k+1} = Ax + Bu$	非线性 $x_{k+1} = f(x,u)$
代价	二次	任意（用二次近似）
求解方式	一次 backward + forward	迭代：多次 backward + forward
Jacobian	$A, B$ 已知	需要在每次迭代时重新计算

iLQR 的核心思想：在当前轨迹处将非线性问题局部线性化/二次化，得到一个 LQR 子问题，求解后更新轨迹，如此反复迭代。


  iLQR = 迭代地做以下事情:
  ┌──────────────────────────────────────────┐
  │ 1. 在当前轨迹处线性化动力学 → A_k, B_k    │
  │ 2. 在当前轨迹处二次化代价 → Q, R 等       │
  │ 3. 用 LQR 思路求解反馈增益 K_k, d_k       │  ← 这一步和 LQR 几乎一样！
  │ 4. 用增益更新轨迹                         │
  │ 5. 若未收敛，回到 1                       │
  └──────────────────────────────────────────┘

2.8 本章小结

我们从一个维度很高的全局优化问题出发，通过 Bellman 方程把它拆成 N 个单步问题；然后利用 LQR 的二次型结构，让每一步都有解析解（不用数值搜索）；最终反向算完所有增益矩阵后，正向运行时每步只需要一次矩阵乘法就能算出最优控制量。

核心收获：

Backward pass + Forward simulate 的"双向"结构，是后续 iLQR 和 AL-iLQR 的核心骨架
LQR 反馈增益 $K_k$ 的求解方式（Riccati 递推），将在 iLQR 中以几乎相同的形式出现

目标：理解 Bellman 递推和 Riccati 方程，实现从"给定控制"到"求解最优控制"的跨越

代码仓库：https://github.com/my-al-ilqr/al-ilqr-starter

2.1 从"评估"到"优化"

在 Chapter 1 中，我们只能做"评估"——给定控制序列，计算轨迹和代价。但我们真正想做的是找到最优的控制序列。

LQR（Linear Quadratic Regulator，线性二次调节器）是这个问题的线性特例，具有解析解。它是理解 iLQR 的基础。

2.2 LQR 问题定义

基础概念

LQR 处理的是线性动力学 + 二次代价的特殊情况。本文讲解的是参考跟踪（reference-tracking）形式的 LQR：

\min_{u_0, \ldots, u_{N-1}} \quad \frac{1}{2} (x_N - x_{\text{ref}})^T Q_f (x_N - x_{\text{ref}}) + \frac{1}{2} \sum_{k=0}^{N-1} \left[ (x_k - x_{\text{ref}})^T Q (x_k - x_{\text{ref}}) + (u_k - u_{\text{ref}})^T R (u_k - u_{\text{ref}}) \right]

\text{s.t.} \quad x_{k+1} = A x_k + B u_k

其中：

$A \in \mathbb{R}^{n \times n}$ 是状态转移矩阵
$B \in \mathbb{R}^{n \times m}$ 是控制输入矩阵
$Q \succeq 0$ 是状态代价矩阵（半正定）
$R \succ 0$ 是控制代价矩阵（正定）
$Q_f \succeq 0$ 是终端代价矩阵
$x_{\text{ref}}$ 是状态参考点（目标状态）， $u_{\text{ref}}$ 是控制参考点

参考跟踪 vs 调节器形式：当 $x_{\text{ref}} = 0, u_{\text{ref}} = 0$ 时退化为标准调节器形式。后续推导中，Riccati 递推（求增益 $K_k$ ）与参考点无关；参考点只影响控制律的应用： $u_k = u_{\text{ref}} + K_k (x_k - x_{\text{ref}})$ 。

对应代码中的问题定义（include/lqr/finite_horizon_lqr_solver.hpp）：

 
struct FiniteHorizonLQRProblem {
  Matrix A;                    // 状态转移矩阵 (n×n)
  Matrix B;                    // 控制输入矩阵 (n×m)
  Matrix Q;                    // 状态代价矩阵 (n×n)
  Matrix R;                    // 控制代价矩阵 (m×m)
  Matrix Qf;                   // 终端代价矩阵 (n×n)
  Vector state_reference;      // 状态参考点
  Vector control_reference;    // 控制参考点
  int horizon = 0;             // 时域长度 N
};

我们要找一组控制序列 $u₀, u₁, ..., u_{N-1}$ ，使系统从初始状态 $x₀$ 出发，尽量靠近参考点 $x_ref$ ，同时不消耗过多控制能量。

本步得到：一个 N 步全局优化问题。变量维度很高（n×N + m×N），直接求解不现实。下一步要做：引入动态规划，把全局问题拆成 N 个单步问题。

2.3 LQR 动态规划的完整推导

下图为总览流程图：下图为核心推导细节，展示 Bellman 方程如何一步步变成 Riccati 递推和控制律

值函数

如果我们定义值函数（Value Function）为从第 $k$ 步开始到终点的最小代价：

V_k(x_k) = \min_{u_k, \ldots, u_{N-1}} \left[ \frac{1}{2} δx_N^T Q_f δx_N + \sum_{i=k}^{N-1} \frac{1}{2}(δx_i^T Q δx_i + δu_i^T R δu_i) \right]

Bellman方程

Bellman 方程（最优性原理），把 $V_k$ 拆成"当前步代价 + 未来最优代价":

V_k(x_k) = \min_{u_k} [ ½ δx_kᵀ Q δx_k + ½ δu_kᵀ R δu_k + V_{k+1}(x_{k+1}) ]

其中：

δx_k = x_k − x_{ref} , δu_k = u_k − u_{ref} , x_{k+1} = A x_k + B u_k

本步得到：Bellman 递推结构。 $N$ 步全局优化 → $N$ 个单步 $min$ 问题。下一步要做：确定 $V_k$ 的具体函数形式，才能真正求解。

二次型假设

本步得到：值函数的参数化形式。求 $V_k$ 转化为求矩阵 $P_k$ 。下一步要做：把假设代入 Bellman 方程，展开并对 $u_k$ 求导。

二次型假设带入Bellman方程

V_k = min_{δu_k} ½ [ δx_kᵀ Q δx_k + δu_kᵀ R δu_k + (Aδx_k + Bδu_k)ᵀ P_{k+1} (Aδx_k + Bδu_k) ]

这是关于 $δu_k$ 的凸二次函数（因为 $R ≻ 0$ ），对 $δu_k$ 求导并令其为零：

∂/∂(δu_k) = R δu_k + Bᵀ P_{k+1} (A δx_k + B δu_k) = 0

整理：

(R + Bᵀ P_{k+1} B) δu_k = −Bᵀ P_{k+1} A δx_k

本步得到：最优 $δu_k$ 关于 $δx_k$ 的线性方程。下一步要做：解这个方程，得到反馈增益 $K_k$ 。

解出增益与 Riccati 方程

本步得到：两个核心公式 —— 增益 $K_k$ 和 $Riccati$ 递推。注意它们只依赖 $A, B, Q, R$ ，与参考点无关。下一步要做：将增益应用到实际控制中。

离线阶段：反向递推

前向执行：实时计算控制量

2.6 代码实现

Backward Pass：Riccati 递推

// src/lqr/finite_horizon_lqr_solver.cpp
void FiniteHorizonLQRSolver::Solve() {
  // Step 1: 终端条件
  riccati_matrices_.back() = problem_.Qf;    // P_N = Q_f
  // Step 2: 从 k=N-1 递推到 k=0
  for (int k = problem_.horizon - 1; k >= 0; --k) {
    const Matrix& P_next = riccati_matrices_[k + 1];          // P_{k+1}
    // S = R + Bᵀ P_{k+1} B
    const Matrix S = problem_.R + problem_.B.transpose() * P_next * problem_.B;
    // K_k = -S⁻¹ Bᵀ P_{k+1} A
    const Matrix rhs = problem_.B.transpose() * P_next * problem_.A;
    feedback_gains_[k] = -S.ldlt().solve(rhs);                // 用 LDLT 分解求解
    // P_k = Q + Aᵀ P_{k+1} (A + B K_k)
    riccati_matrices_[k] =
        problem_.Q + problem_.A.transpose() * P_next * (problem_.A + problem_.B * feedback_gains_[k]);
  }
  is_solved_ = true;
}

Forward Simulate：闭环仿真

Trajectory FiniteHorizonLQRSolver::Simulate(const Vector& initial_state) const {
  Trajectory trajectory(problem_.StateDim(), problem_.ControlDim(), problem_.horizon);
  trajectory.State(0) = initial_state;
  for (int k = 0; k < problem_.horizon; ++k) {
    // 反馈控制律: u_k = u_ref + K_k (x_k - x_ref)
    trajectory.Control(k) = Control(trajectory.State(k), k);
    // 线性动力学: x_{k+1} = A x_k + B u_k
    trajectory.State(k + 1) = problem_.A * trajectory.State(k)
                             + problem_.B * trajectory.Control(k);
  }
  return trajectory;
}
 
Vector FiniteHorizonLQRSolver::Control(const Vector& state, int k) const {
  const Vector state_error = state - problem_.state_reference;
  return problem_.control_reference + feedback_gains_[k] * state_error;
}

2.7 LQR 与 iLQR 的关系

LQR 是 iLQR 的"内核"。两者的关键区别：

特性	LQR	iLQR
动力学	线性 $x_{k+1} = Ax + Bu$	非线性 $x_{k+1} = f(x,u)$
代价	二次	任意（用二次近似）
求解方式	一次 backward + forward	迭代：多次 backward + forward
Jacobian	$A, B$ 已知	需要在每次迭代时重新计算

iLQR 的核心思想：在当前轨迹处将非线性问题局部线性化/二次化，得到一个 LQR 子问题，求解后更新轨迹，如此反复迭代。


  iLQR = 迭代地做以下事情:
  ┌──────────────────────────────────────────┐
  │ 1. 在当前轨迹处线性化动力学 → A_k, B_k    │
  │ 2. 在当前轨迹处二次化代价 → Q, R 等       │
  │ 3. 用 LQR 思路求解反馈增益 K_k, d_k       │  ← 这一步和 LQR 几乎一样！
  │ 4. 用增益更新轨迹                         │
  │ 5. 若未收敛，回到 1                       │
  └──────────────────────────────────────────┘

2.8 本章小结

核心收获：

Backward pass + Forward simulate 的"双向"结构，是后续 iLQR 和 AL-iLQR 的核心骨架
LQR 反馈增益 $K_k$ 的求解方式（Riccati 递推），将在 iLQR 中以几乎相同的形式出现

2.1 从"评估"到"优化"

2.2 LQR 问题定义

基础概念

2.3 LQR 动态规划的完整推导

值函数

Bellman方程

二次型假设

二次型假设带入Bellman方程

解出增益与 Riccati 方程

离线阶段：反向递推

前向执行：实时计算控制量

2.6 代码实现

Backward Pass：Riccati 递推

Forward Simulate：闭环仿真

2.7 LQR 与 iLQR 的关系

2.8 本章小结

评论

加入讨论

0 条评论

AL-iLQR实践指南 2.理解 Bellman 递推和 Riccati 方程

2.1 从"评估"到"优化"

2.2 LQR 问题定义

基础概念

2.3 LQR 动态规划的完整推导

值函数

Bellman方程

二次型假设

二次型假设带入Bellman方程

解出增益与 Riccati 方程

离线阶段：反向递推

前向执行：实时计算控制量

2.6 代码实现

Backward Pass：Riccati 递推

Forward Simulate：闭环仿真

2.7 LQR 与 iLQR 的关系

2.8 本章小结

评论

加入讨论

0 条评论