# 【论文阅读】ICLR 2022: Scene Transformer: A unified architecture for predicting future trajectories of multiple agents

ICLR 2022: Scene Transformer: A unified architecture for predicting future trajectories of multiple agents

Type: ICLR
Year: 2022

# 1. Motivation

## 问题场景

• marginal prediction：未来时刻 不同agent预测的轨迹可能会有冲突部分，即两者相交
• joint prediction：在同一未来时刻，不同agent的预测轨迹不会冲突， respect each others’ prediction

## Contribution

formulate a model 去同时(jointly)预测所有的agent行为，producing consistent future 来解释agent之间的行为

1. A novel, scene-centric approach that allows us to gracefully switch training the model to produce either marginal (independent) and joint agent predictions in a single feed-forward pass.

仅在单个feed-forward中进行marginal和joint prediction之间的切换

2. A permutation equivariant Transformer-based architecture factored over agents, time, and road graph elements that exploits the inherent symmetries of the problem.

使用与 transformer 相同(等价)的permutation 来将agents, time和road graph都考虑在系统内

3. A masked sequence modeling approach that enables us to condition on hypothetical agent futures at inference time, enabling conditional motion prediction or goal conditioned prediction.

• 摘要的方法没看懂，三个一个都没看懂…. TBD阅读到后面在回答这个问题吧

Through combining a scene-centric approach, agent permutation equivariant model, and a sequence masking strategy

• 介绍中引入scene-centric说的是为了scaling to large numbers of agents，但是在贡献中却说的是切换？emmm 是数量大了就切换？小了就joint？
• 评估时为什么是marginal and joint motion predictions，后者可以理解，前者的marginal是什么预测？单独agent的预测与真值对比嘛？

后面介绍部分解释了，见前面解释

• 为什么要切换 为什么[要切换](https://www.notion.so/ICLR-2022-Scene-Transformer-A-unified-architecture-for-predicting-future-trajectories-of-multiple–37a700f54efb4e4f87eee9f682c6a0d5)？直接整体进行joint prediction不是更好吗？

方法处说明了 是不同的任务之间都可以用这一个网络进行，主要任务是：motion prediction、conditional motion prediction、goal-conditioned prediction

• transformer？attention 机制？考虑时形式以vector形式吗？

方法中有具体介绍，静止的road graph用feature vector形式，动态的比如红绿灯是one feature vector per object形式

• 是直接对未来的agent进行假设嘛？可能是前情提要知识缺的有点多，可能得套娃比较多

mask的原因其实是切换… The approach is flexible, enabling us to simultaneously train a single model for MP, CMP, GCP.

• 如果有榜的话 不是第一，也可以称自己为state-of-art嘛？毕竟这篇在waymo online 排行榜中，排名挺后的

# 2. Method

• motion prediction框架：说明成功的模型大多都会考虑agent motion history和道路结构（包括lane, stop line, 红绿灯等等）；

相关方式：

• 直接将输入渲染为多通道的鸟瞰图 top-down image，然后使用卷积，但是receptive field并不利于capturing spatially-distant intersection
• entity-centric approach：可以将agent的历史状态使用sequence modeling方式例如 RNN，进行编码，其中将道路结构中 pose 信息和 semantic type 都编码（比如以piecewise-linear segments）进入系统；使用如下方法将信息进行聚合：employ pooling, soft-attention, graph neural networks
• scene-centric 和 agent-centric representation：主要是讨论 representation encoding所用的框架

• 以scene-level 作为坐标系，rasterized top-down image，虽然能有效的表示world状态在common的坐标系下，但是丧失了一些潜在的pose信息
• 以agent-coordinate 为坐标系，但是随着agent数量上升 同时 交互的数量也会二次方上升。

后续说明 waymo的另一篇工作LaneGCN就是以agent为中心 但是实在global frame下做的。同时也不需要将场景表示成为图像的形式

• Representing multi-agent futures：主要是如何表示多agent的未来状态，常用的有直接对每个agent的轨迹使用权重

• 第二点提到的representation不就是第一点里面的相关方式嘛？感觉这篇文章好多地方有耦合 方法和方法之间的原因很像，为何不直接总结成一个？

一个是representation，一个是以什么为中心进行

## 2.1 输入与输出

a feature for every agent at every time step

an output for every agent at every time step

## 2.2 框架

2. employ attention-based network 去 encode agents和road graph之间的交互
3. 使用attention-based network 去 decode multiple future

### A. Scene-Centric Representation

1. 为每个agent生成 time step内的feature，if time step is visible
2. 使用 PointNet 为static road graph和其余的元素 learning one feature vecctor per polyline，其中交通标志 sign为长度为1的polylines
3. 为dynamics road graph 比如在空间上是静止的在时间上是变换的红绿灯，生成为 one feature vector per object

### D. Joint and Marginal Loss Formulation

• encode和decode都是一个attention-based network… 那

有框图解释了两者的设计方式

• 这里的预计motion 是根据规划得到的吗？规划是deterministic的吗？还是直接针对的是数据集

应该是数据集，所以可以直接获取未来数据集内的motion进行此任务

• an agent of interest’s position 是感兴趣的agent的位置吧… 为啥写的这么绕.. select an interest agent’s position不好吗…

• 选择指标是？

脚注和open reivew中也有审稿人问了 hhh，脚注说明了 对于waymo是 自身车辆，对于Argoverse是需要预测的车辆

• 这里的所有是指？ 这里的[所有是指？](https://www.notion.so/ICLR-2022-Scene-Transformer-A-unified-architecture-for-predicting-future-trajectories-of-multiple–37a700f54efb4e4f87eee9f682c6a0d5)所有？整张地图的道路结构？还是选取了以选择定的agent 画了框？

# 3. 实验

• L2: A simple and common distance-based metric is to measure the L2 norm between a given trajectory and the ground truth
• minADE: reports the L2 norm of the trajectory with the minimal distance
• minFDE: reports the L2 norm of the trajectory with the smallest distance only evaluated at the final location of the trajectory.

• miss rate (MR) and mean average precision (mAP) to capture how well a model predicts all of the future trajectories of agents probabilistically

# 碎碎念

open review值得一看 还是这种开放审稿的有意思啊，因为有审稿人对GCP的结果说明产生了问题，类似于建议作者在CARLA做 就是以目标点的condition prediction其实已经很像planning了，基本就是 加一下控制器，然后作者谢谢提醒，我知道（内心OS:但是我不做hhhh）

原文作者：Kin_Zhang
原文地址: https://www.cnblogs.com/kin-zhang/p/16104211.html
本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。