学一个新东西,我会怎么开始

标签：#博客 #思考笔记 #信息收集 #学习方法

导读图

这篇文章讲什么

接到一个陌生任务，或者想学一个完全不懂的东西，第一步应该做什么？

很多人的反应是：

打开浏览器，搜关键词

然后看一下午，啥也没学到。

这篇讲讲我有关"怎样开始"的思考。

先看一个很常见的问题

导师说：

你看看强化学习能不能用在车辆控制里。

很多人接到这种任务，第一反应是去 Google Scholar 搜：

reinforcement learning vehicle control

搜出来几千篇论文，从第一篇开始读，读 3 小时，出来：

不知道领域分几支
不知道谁是关键人物
不知道现在的热点是什么
也没记住自己读过什么

问题不在"读得不够多"，问题在方向错了。

调研的根本矛盾

入门一个新领域有一个绕不开的矛盾：

你需要先懂一点，才能问出好问题
但你正是因为不懂才需要去查

这不是 bug，是结构性问题。

正确的做法是承认这个矛盾，然后分阶段处理。

每个阶段目标不同，信源也不同。

第 0 步：澄清任务

如果任务是别人交给你的，不要直接开始调研。

先去问。

但不是问：

您是想让我做 A 还是 B？

这是把决策推回给对方。

应该是：

我理解任务可以两种切法：
A. ...
B. ...
我倾向 A，因为 ...
您看？

带方案 = 你思考过了 = 5 分钟解决。

不带方案 = 你期待对方告诉你怎么做 = 对方烦，你低效。

布置任务的人脑子里通常有你不知道的约束：经费、合作方、时间窗口。

你直觉再准，也猜不到这些。

第 1 步：扫盲

任务澄清完，但你可能对这个领域还是一无所知。

这时候不要立刻去搜论文。

先做一轮扫盲。

扫盲的目标只有一个：

认词

不是学懂，只是认词。

因为下一步要搜更精确的东西，没有关键词就搜不到精确的东西。

具体动作：

信源	时间	目的
维基百科词条	5 分钟	看分类、看术语
15 分钟科普视频（1.5 倍速）	10 分钟	看直觉、看应用
一篇综述的摘要 + 引言 + 结论	15 分钟	看分类，跳过正文

总时间：30 分钟，严格限时。

产出：你嘴里能说出 5-10 个这个领域的关键术语。

这一步严禁的事：

深挖某一个术语
做笔记做到完美
看到有趣的论文就精读

扫盲只是为了拿到下一步的搜索钩子。

不限时就会无限往深处沉，最后变成"假装自己在调研"。

第 2 步：画地图

扫盲完，你能说出几个关键词了。

但你还不知道这些词在整个领域里是什么位置。

有个比喻：

陌生领域像一座山
新手一上来就找一棵树研究（钻井）
老手先爬到山顶看地形（地图）

画地图的时间盒：60 分钟。

画完后，你要能用一张纸回答：

这个领域分几个主要方向？
每个方向的代表方法、代表人物、代表团队？
当前热点在哪？瓶颈在哪？
我的具体问题落在地图的哪个位置？

最后一问最关键。

如果你的问题在地图上找不到对应位置，说明问题本身还得改。

信源：

信源类型	找法
近 2-3 年综述（1-2 篇）	顶刊优先，Google Scholar 按引用排序
GitHub awesome-X 列表	搜 `awesome 领域名`
顶会 tutorial 第一节	B 站搜领域名
position / perspective 论文	可选，看争议和瓶颈

读综述的方式：

只读三部分：
- 摘要
- 引言里的分类图
- 结论里的 future work

正文跳过，留给下一步。

这一步严禁的事：

精读任何论文
跑代码、复现
写自己的方案

看到好东西标"待读"，别动。

第 3 步：锁承重墙

地图画完，但不能开始精读所有论文。

任何细分方向真正撑场的，通常就 2-3 个人 / repo / 论文。

这些就是承重墙。

找到它们，顺着挖，信息密度是散读的 10 倍。

怎么找承重墙：

综述里被反复引用、被当 baseline 的论文
多个综述都提到的同一团队或个人
GitHub 上 star 多、fork 多、issue 活跃的 repo

挖法：

核心人物的 Google Scholar 主页 → 近 3 年所有论文标题扫一遍
核心 repo 的 commit history、issues、README → 看做什么、用什么 baseline
核心论文的被引用网络 → 接下来谁在做什么

信源这时候切到一手：论文原文、源码、GitHub issues、作者本人博客。

散读和顺挖的区别：

散读：看 20 篇论文，记住 0 篇
顺挖：跟 3 个核心团队的近 10 篇，记住 7 篇，还知道他们之间的关系

第 4 步：动手做 MVP

调研做到这里，你可能想继续往深读。

不要。

给整个调研一个总时间盒（2-4 小时），到点就动手。

"我再读一篇就开始" = 逃避

第一轮调研只是为了让你能动手，不是为了让你懂透。

撞墙之后回来读第二轮，带着具体问题读，效率是第一轮的 5 倍。

信息收集和实操是交替的，不是先收集完再动手。

一个完整例子

还是刚才那个任务：

导师说，你看看强化学习能不能用在车辆控制里。

第 0 步：澄清任务

带方案去问导师：

我理解这个任务可以两种切法：
A. 接入我现在的 platoon，把 MPC 换成或混合 RL，延续现有工作
B. 开一个新场景，比如变道决策或端到端
我倾向 A，因为可以复用现有仿真和实车环境
您看？

导师回：走 A，实车方向，过程中找创新点投会议。

第 1 步：扫盲（30 分钟）

维基"强化学习"词条
B 站"强化学习是什么"科普，1.5 倍速
一篇 RL 综述的摘要 + 引言

产出术语：

策略、奖励函数、value-based、policy-based、PPO、SAC、
sim-to-real、safe RL、model-based RL、learning-based MPC

第 2 步：画地图（60 分钟）

读一篇"RL for Autonomous Driving"综述，只看分类和 future work。

画出地图：

RL 在车辆控制里大致分几支：
- RL 直接控制：端到端，sim-to-real 难
- 高层决策 RL + 底层 MPC 执行
- RL 调 MPC 参数
- Learning-based MPC：用 RL 学动力学模型
- Safe RL：MPC 当 safety filter

发现：

我的问题落在「RL 与 MPC 在 platoon 间距控制中的结合方式」

这比一开始的"RL 能不能用"具体多了。

第 3 步：锁承重墙

找到 platoon + RL 的核心工作集中在某 2-3 个团队。

顺着他们的 Google Scholar 主页扫近 3 年论文，找到 5 篇核心论文 + 2 个 GitHub repo。

第 4 步：动手

不再继续读。

打开 CARLA，把现有 platoon 仿真改一个版本，试着接一个最简单的 RL 训练 loop，看跑不跑得通。

撞墙后回来读第二轮。

总耗时：从接到任务到开始动手，大约 3 小时。

不同阶段用什么信源

阶段	推荐信源	不推荐
扫盲期	维基、科普视频、综述摘要	论文原文
画地图期	综述、awesome 列表、tutorial	单篇论文精读
深入期	论文原文、源码、GitHub issues	中文公众号、二手解读
争议期	作者本人 Twitter、个人博客、批评者反驳	综述（滞后）

总原则：

论文原文 > 源码 > GitHub Issues > 作者本人博客 > 二手解读 > 中文公众号

容易踩的坑

1. 跳过澄清，直接开搜          → 几周做错方向
2. 扫盲期想学懂                → 目标错位，30 分钟变 3 小时
3. 跳过画地图直接精读论文      → 看到一棵树以为是森林
4. 没承重墙，散读 20 篇        → 不如顺着 2-3 个核心团队挖
5. 一直读不动手                → 信息越读越多，行动越拖越久
6. 写问题时预设结论            → 把调研做窄
7. 靠直觉代替和布置人确认      → 布置人有你不知道的约束
8. 不限时间盒                  → 每一步都会无限拖

总结

学一个新东西，核心不是读得多，而是顺序对。

完整流程：

模糊任务
    ↓
澄清任务
    ↓
扫盲
    ↓
画地图（横向）
    ↓
锁承重墙（纵向）
    ↓
动手做 MVP