跳到主要内容

25.2冬入东京大学CBMS-研究方向选择、套瓷与RP撰写经验分享

·阅读需 16 分钟
issyugk3
Master Student in CBMS at The University of Tokyo

写在前面:本经验贴可能比较适用于有相对知识基础,具有比较长备考周期的同学。本帖以CBMS导向,其他专攻也可以适当参考。

实际上,如果你考试的学校不需要套瓷,或者说你本人没有学术追求,那我个人认为参考本帖意义不大。我在这里强烈建议找出真正喜欢的研究方向,这样准备更有力。

本帖将以我个人当时挑选研究方向撰写RP的经历过程为基础,来讲解你该如何做。出于避免被抄袭的原因,我在这里不放出我本来的完整的rp内容。

1. 个人背景梳理

1.1 个人情况的梳理

在我套瓷的时候,这些都是我的现在的老板对我进行考前相谈/面试所提到的问题,因此如果你可以很好的梳理出来,我觉得会很有帮助。

在你套瓷撰写RP之前,我希望你可以首先梳理自己学过的知识,例如我有什么专业的背景?做过什么竞赛/科研项目?会使用什么框架?你能做到什么事情?使用哪种编程语言?

我最擅长使用Python,同时我会Vite/Vue等经典前端,以及SpringBoot/Flask等经典JAVA/PYTHON后端及其它框架。

我在本科期间参与过三个方向的实验室与内容:第一个是计算机网络(认知无线电),在这个实验室我学过各种Clustering 的算法,了解过启发式算法、深度强化学习的使用,网络场景的仿真建模;第二个是医学图像处理(分割/配准),在这个实验室我学习过Pytorch的使用与基本原理,模型的构建训练/测试,深度学习架构的原理知识;第三个是数据可视化,在这里我学习过D3js实现可视化平台交互与构建,深度学习模型的一些基本可解释性理论与使用,以及多模态模型的一些原理。

1.2 方向选择

你对什么大方向最感兴趣?为什么?

在我的研究经历中,特别是医学图像处理的研究经历中,我感到对生物医学与计算机这样的交叉领域最感兴趣,原因是家里亲戚从医的职业熏陶/做交叉领域既满足了个人对AI理论技术的追求又满足了个人对寻求解决科学问题的学术追求。

同时,我注意到我比较讨厌盲目的炼丹/刷榜。因此,我选择了东京大学CBMS/大阪大学バイオ情報两个专攻作为准备目标(因为我很幸运冬入提前上岸了,没有阪大备考经历)。

大方向选完了,那具体的小方向呢?

具体的小方向将成为最关键的一环。因为有些教授不是你随便说说就能糊弄过去的。

因为我选择了交叉领域,那我自身有了足够的算法储备知识,接下来我需要补的是生物学知识(同理,如果你做的纯CV、NLP内容,你可能需要考虑的是你对模型结构/训练方法等等论文的学习与了解)。在这里,我非常推荐b站MIT分子生物学第一部分、第二部分视频内容,能够给你打基础,另外推荐 up 生物信息学习小组,这是国内的李学沧老师及其学生做的内容,非常便于你了解生物信息都在处理什么样的数据,以及传统的算法都做了什么。

这一部分我花了两个月的时间。然后可以大致了解到,CBMS的主要方向在于计算神经、医学图像、蛋白质计算、计算化学、单细胞数据分析、bulk数据分析、序列算法等等多个方向(主要在于不同的sequencing获取方法及其意义)。在我生物学相关的实验知识和对数据的了解下,我当时对三维基因组最感兴趣,也对实际揭示疾病最感兴趣,因此我选择了我的第一志愿,并且开始阅读其质量最高的几篇pub。

到此为止,你已经对自己想做的事情有了基本的了解。如果你什么都不清楚,那我建议你从review、survey看起,了解不同领域的前沿进展,然后感知你最喜欢的或者有好感的。

2. 套瓷

套瓷大概在募集要项出来就可以套了。

首先,选择你喜欢的老师,第一封信可以先表明自己喜欢的研究方向,有没有教授那篇具体的文献打动了自己。最好附上CV,可以不用带RP,如果你写了可以直接发。如果没写,等到教授回复你向你索要的时候,你可以开始写然后附上rp。最好在一个星期之内回复rp,如果超过一个星期,出于礼貌请先回信需要一点时间准备。

第一封信最多等一个星期,如果没回复可以再发一封,第二个星期还不回复就放弃。另外,同一个专攻不能同时套瓷多位教授,可能会被他们背后聊起来。

3. RP撰写

3.1 创新点的寻找

实际上,很多的同学在寻找创新点的过程中会抱有以下几种比较错误的思想:

  • 我就是个学生,我还能做出花不成?随便想个创新点就得了。(敷衍,找出无实际意义的点)
  • 创新点好难,我找不出什么创新点。(以为必须是相对论级别的创新点)

一个好的创新点实际上能以很多形式出现,例如一个好的问题的提出,或者原始方法的改进,或者现有方法在其它领域的拓展都可能成为创新点。实际上RP并不在乎你的结果是否可以work,而是在于体现你是否有找问题的能力,也就是基本的研究能力。另外,创新点的提出必须是具体的,有实际意义的。 教授和你要RP,本质是想要看看你能不能找出一个具体的问题研究,而不是天马行空画大饼,囊括世间万物,这和科研的基本客观规律相违背。因此,越细致、越具体,越好。

**找不到创新点,其实本质的问题在于,你对你自己现在准备着手做的领域丝毫不了解。**你没有做过实验,你不知道有什么问题,你可能甚至没有去仔细读过教授论文的introduction。找问题很难吗?并不是。你甚至完全可以看introduction,看看教授的论文提出的方法是为了解决的数据存在什么样的问题?论文是否提到过自己的局限性?从这些局限性当中,我从我的知识里能不能找到有类似的解决方法?

我拿最经典的几个问题来说:

  • 开放性问题:在CV或者NLP领域,Transformer带来的计算量非常大,有没有办法减少计算量?在生物信息领域,数据好多都是出现dropout的,这怎么办?BatchEffect怎么更好的解决?
  • 对应的教授领域下特定的情景问题:教授在做的数据是不是有问题?论文用到的模型是不是太多了,它们之间的假设真的都一致吗,有没有一步到位的结构?这个方法能不能配合其它的方法在别的领域也突出作用(A+B)?
  • 探索性问题:生物信息领域中不同的基准工具的比较,例如适应性/计算速度等等,还有pipeline整合。传统统计模型是否有假设上的缺陷?

所以本质上是两个方向:

  • 从模型/方法上找问题
  • 从数据本身找问题

生物信息领域里,除了上面两种,还可以从生物过程去找问题,比如说转录事件,基因调控网络,基因互作等等角度。所以生物信息实际上是非常广阔的。

以我个人举例。我注意到我老板的主要研究的三维基因组数据,以及某个特定蛋白。于是乎我寻找它们是不是存在某些对生物体的影响,我在nature communication/advanced science等等期刊上找到结论,发现它们本质上是和调控基因表达相关的,其中最有可能的问题在于是否在转录过程中影响急性髓系白血病(AML)产生和发育。那么我的任务就很简单了,AML在哪个转录事件中最容易被影响,这个事件是不是可以用模型去量化计算得到?我运气非常的好,找到了相关的模型成果。

因此我也就定义了我的问题,也就是我想探索这个特定蛋白其位点、活性对三位基因的调控导致的对转录事件的影响,以及其最终导致AML致病的结果。接下来,就是从第一章里个人梳理的结果结合教授的成果进行有机融合的过程。

我注意到教授目前已有的成果实现了多组学数据的分析结果,但是没有能够探测最直接性影响AML的转录事件的工具,因此我可以整合pipeline,这样就得到了第一个创新点。我注意到多组学的数据没有很好的整合,我没有办法直观的看出事件之间的关系,那么我是不是可以采用多模态模型去整合,用类似VAE的方法做无监督训练或者用下游去预测其是否存在AML致病或者其情况做有监督训练,然后得到统一高维特征做这个事情,这样就得到了我第二个创新点。接着,这些模型本质是dl的,本质比较黑盒,我是不是可以用我学过的可解释性方法比如SHAP/DIME/LIME什么的去配合找出重要性因子比较高的部分,这样反过来可以提示研究者哪些蛋白结合的位点是最关键的,这样就有了第三个创新点。

3.2 研究计划书的结构

我使用的是Latex语言去写,用Overleaf来找模版。

一份研究计划书应该包含:

  • 介绍 introduction

    这篇工作研究的领域是什么,比如它具有什么样的特征。它最开始的提出至今的简单的历史发展情况是怎么样的。现在你要研究的问题,它的特征又是什么,它是否被前人解决过,它还遗留着什么样的问题,解决了它有什么实际的社会意义。

  • 先前的方法 或 相关工作 Previous methods/Related work

    前面的人有没有做过解决这个问题的尝试,它们的方法大概是怎么样的,具有什么样的缺点?前面的人如果没有做过,那有没有别的模型方法可以为你接下来的工作提供帮助?有没有给你启发的工作或思想?它们大概是怎么样的方法,有什么样的有点可以被你采用,能为你的问题带来什么样的解决能力?

  • 本研究的问题与期望目标 Questions & Objectives

    定义你的问题。以及你希望你这篇工作最后能够做到什么,能够实现什么样的目标。

  • 研究方法 Methodology

    描述你的方法论。我的过程参考了细胞养殖、数据产生、数据处理、下游分析(采用的模型及其构建)

  • 结论 conclusion

    简要总结你的方法以及其如果成功了可以带来的社会意义

  • 参考文献 Reference

    按照标准格式去写

我的研究计划书是英文的,大概在5000词左右。一般而言其实不需要这么多,但是我建议如果你有很好的点子或者喜欢的教授应该细致的写,可以用AI润色,但是不要用AI去生成