学一个新东西,我会怎么开始

学一个新东西,我会怎么开始

标签:#博客 #思考笔记 #信息收集 #学习方法

导读图

这篇文章讲什么

接到一个陌生任务,或者想学一个完全不懂的东西,第一步应该做什么?

很多人的反应是:

打开浏览器,搜关键词

然后看一下午,啥也没学到。

这篇讲讲我有关"怎样开始"的思考。

先看一个很常见的问题

导师说:

你看看强化学习能不能用在车辆控制里。

很多人接到这种任务,第一反应是去 Google Scholar 搜:

reinforcement learning vehicle control

搜出来几千篇论文,从第一篇开始读,读 3 小时,出来:

  • 不知道领域分几支
  • 不知道谁是关键人物
  • 不知道现在的热点是什么
  • 也没记住自己读过什么

问题不在"读得不够多",问题在方向错了

调研的根本矛盾

入门一个新领域有一个绕不开的矛盾:

你需要先懂一点,才能问出好问题
但你正是因为不懂才需要去查

这不是 bug,是结构性问题。

正确的做法是承认这个矛盾,然后分阶段处理

每个阶段目标不同,信源也不同。

第 0 步:澄清任务

如果任务是别人交给你的,不要直接开始调研。

先去问。

但不是问:

您是想让我做 A 还是 B?

这是把决策推回给对方。

应该是:

我理解任务可以两种切法:
A. ...
B. ...
我倾向 A,因为 ...
您看?

带方案 = 你思考过了 = 5 分钟解决。

不带方案 = 你期待对方告诉你怎么做 = 对方烦,你低效。

布置任务的人脑子里通常有你不知道的约束:经费、合作方、时间窗口。

你直觉再准,也猜不到这些。

第 1 步:扫盲

任务澄清完,但你可能对这个领域还是一无所知。

这时候不要立刻去搜论文。

先做一轮扫盲

扫盲的目标只有一个:

认词

不是学懂,只是认词。

因为下一步要搜更精确的东西,没有关键词就搜不到精确的东西。

具体动作:

信源 时间 目的
维基百科词条 5 分钟 看分类、看术语
15 分钟科普视频(1.5 倍速) 10 分钟 看直觉、看应用
一篇综述的摘要 + 引言 + 结论 15 分钟 看分类,跳过正文

总时间:30 分钟,严格限时

产出:你嘴里能说出 5-10 个这个领域的关键术语。

这一步严禁的事:

深挖某一个术语
做笔记做到完美
看到有趣的论文就精读

扫盲只是为了拿到下一步的搜索钩子。

不限时就会无限往深处沉,最后变成"假装自己在调研"。

第 2 步:画地图

扫盲完,你能说出几个关键词了。

但你还不知道这些词在整个领域里是什么位置。

有个比喻:

陌生领域像一座山
新手一上来就找一棵树研究(钻井)
老手先爬到山顶看地形(地图)

画地图的时间盒:60 分钟

画完后,你要能用一张纸回答:

  • 这个领域分几个主要方向?
  • 每个方向的代表方法、代表人物、代表团队?
  • 当前热点在哪?瓶颈在哪?
  • 我的具体问题落在地图的哪个位置?

最后一问最关键。

如果你的问题在地图上找不到对应位置,说明问题本身还得改。

信源:

信源类型 找法
近 2-3 年综述(1-2 篇) 顶刊优先,Google Scholar 按引用排序
GitHub awesome-X 列表 awesome 领域名
顶会 tutorial 第一节 B 站搜领域名
position / perspective 论文 可选,看争议和瓶颈

读综述的方式:

只读三部分:
- 摘要
- 引言里的分类图
- 结论里的 future work

正文跳过,留给下一步。

这一步严禁的事:

精读任何论文
跑代码、复现
写自己的方案

看到好东西标"待读",别动。

第 3 步:锁承重墙

地图画完,但不能开始精读所有论文。

任何细分方向真正撑场的,通常就 2-3 个人 / repo / 论文。

这些就是承重墙

找到它们,顺着挖,信息密度是散读的 10 倍。

怎么找承重墙:

综述里被反复引用、被当 baseline 的论文
多个综述都提到的同一团队或个人
GitHub 上 star 多、fork 多、issue 活跃的 repo

挖法:

核心人物的 Google Scholar 主页 → 近 3 年所有论文标题扫一遍
核心 repo 的 commit history、issues、README → 看做什么、用什么 baseline
核心论文的被引用网络 → 接下来谁在做什么

信源这时候切到一手:论文原文、源码、GitHub issues、作者本人博客。

散读和顺挖的区别:

散读:看 20 篇论文,记住 0 篇
顺挖:跟 3 个核心团队的近 10 篇,记住 7 篇,还知道他们之间的关系

第 4 步:动手做 MVP

调研做到这里,你可能想继续往深读。

不要。

给整个调研一个总时间盒(2-4 小时),到点就动手。

"我再读一篇就开始" = 逃避

第一轮调研只是为了让你能动手,不是为了让你懂透。

撞墙之后回来读第二轮,带着具体问题读,效率是第一轮的 5 倍。

信息收集和实操是交替的,不是先收集完再动手。

一个完整例子

还是刚才那个任务:

导师说,你看看强化学习能不能用在车辆控制里。

第 0 步:澄清任务

带方案去问导师:

我理解这个任务可以两种切法:
A. 接入我现在的 platoon,把 MPC 换成或混合 RL,延续现有工作
B. 开一个新场景,比如变道决策或端到端
我倾向 A,因为可以复用现有仿真和实车环境
您看?

导师回:走 A,实车方向,过程中找创新点投会议。

第 1 步:扫盲(30 分钟)

  • 维基"强化学习"词条
  • B 站"强化学习是什么"科普,1.5 倍速
  • 一篇 RL 综述的摘要 + 引言

产出术语:

策略、奖励函数、value-based、policy-based、PPO、SAC、
sim-to-real、safe RL、model-based RL、learning-based MPC

第 2 步:画地图(60 分钟)

读一篇"RL for Autonomous Driving"综述,只看分类和 future work。

画出地图:

RL 在车辆控制里大致分几支:
- RL 直接控制:端到端,sim-to-real 难
- 高层决策 RL + 底层 MPC 执行
- RL 调 MPC 参数
- Learning-based MPC:用 RL 学动力学模型
- Safe RL:MPC 当 safety filter

发现:

我的问题落在「RL 与 MPC 在 platoon 间距控制中的结合方式」

这比一开始的"RL 能不能用"具体多了。

第 3 步:锁承重墙

找到 platoon + RL 的核心工作集中在某 2-3 个团队。

顺着他们的 Google Scholar 主页扫近 3 年论文,找到 5 篇核心论文 + 2 个 GitHub repo。

第 4 步:动手

不再继续读。

打开 CARLA,把现有 platoon 仿真改一个版本,试着接一个最简单的 RL 训练 loop,看跑不跑得通。

撞墙后回来读第二轮。

总耗时:从接到任务到开始动手,大约 3 小时。

不同阶段用什么信源

阶段 推荐信源 不推荐
扫盲期 维基、科普视频、综述摘要 论文原文
画地图期 综述、awesome 列表、tutorial 单篇论文精读
深入期 论文原文、源码、GitHub issues 中文公众号、二手解读
争议期 作者本人 Twitter、个人博客、批评者反驳 综述(滞后)

总原则:

论文原文 > 源码 > GitHub Issues > 作者本人博客 > 二手解读 > 中文公众号

容易踩的坑

1. 跳过澄清,直接开搜          → 几周做错方向
2. 扫盲期想学懂                → 目标错位,30 分钟变 3 小时
3. 跳过画地图直接精读论文      → 看到一棵树以为是森林
4. 没承重墙,散读 20 篇        → 不如顺着 2-3 个核心团队挖
5. 一直读不动手                → 信息越读越多,行动越拖越久
6. 写问题时预设结论            → 把调研做窄
7. 靠直觉代替和布置人确认      → 布置人有你不知道的约束
8. 不限时间盒                  → 每一步都会无限拖

总结

学一个新东西,核心不是读得多,而是顺序对。

完整流程:

模糊任务
澄清任务
扫盲
画地图(横向)
锁承重墙(纵向)
动手做 MVP