第一部分:基础知识学习

1. 深度学习的基本原理和代码功底 1

  1. 深度学习的基本原理和代码功底(一周左右):
  1. 科研基础(1天左右):通过网络搜索,了解什么是arXiv、什么是Overleaf,并初步了解如何使用Zotero等文献管理软件,如何做文献笔记和论文调研报告,了解PapersWithCode, Google Scholar;学习使用Powerpoint,或者可选LaTeX的Beamer包完成汇报PPT的制作;了解BibTeX,知道参考文献的几种写法和格式;

2. 论文精读

学习顺序:先学任务1,之后学任务2345

  1. 李宏毅《机器学习/深度学习》2021课程 链接:李宏毅《机器学习/深度学习》2021课程
    只需要看到transformer部分,生成对抗网络后面不需要看

    • 在听课程内容时,优先听Class Material,其余的Preparation - zh和Extra Material作为补充;
    • 强烈建议在4-7天之内完成这个课程。
    • 你可以参考这个CS231N专栏,学习计算机视觉的基本原理。这个教程和李宏毅的机器学习课程有一些重复,因此可以主学一个,然后快速过一遍这个专栏来查漏补缺。强烈推荐看完9、12、13和16。
  2. ViT论文逐段精读【论文精读】 链接:ViT论文逐段精读【论文精读】

  3. MoCo 论文逐段精读【论文精读】 链接:MoCo 论文逐段精读【论文精读】

  4. 对比学习论文综述【论文精读】 链接: 对比学习论文综述【论文精读】

  5. CLIP 论文逐段精读【论文精读】 链接:CLIP 论文逐段精读【论文精读】

  6. VGGT:纯前馈Transformer架构,快速3D重建新范式 链接:VGGT一作亲解

  7. 3D Gaussian Splatting全解 链接:原理+代码+公式

此外,你还需要了解DINO-V1,V2,V3,SAMv2等视觉基础模型,如果做3D相关的要了解VGGT和3DGS

目前整理的 OVSS综述 3DGS综述

第二部分:研究工作开展

  1. 首先,通过一个经典论文+代码弄清楚你研究的问题是什么?要求就是通过详细读代码了解:
    1)你的模型的输入是什么?
    2)输出是什么?
    3)网络是怎么将输入一步步得到输出的(这个经典论文一般是我或者你的学长制定);
  2. 在相关的人工智能的顶级会议和期刊(主要是CCF-A类会议和期刊,包括ICCV,CVPR,ICLR,ICML,NeruIPS,AAAI,IJCAI,ECCV,IEEE-TPAMI)上搜索相关的论文,并整理到个人的主页上;
  3. 将该领域的论文粗读2-3遍,了解并总结大家的研究思路。粗读不要求你把每个方法都搞明白,只需要脑子里面有个印象,了解它大概做了什么事;
  4. 在粗读的基础上,从上述文献中挑选出来5篇左右文章精读,挑选的标准:
    1)有代码;
    2)比较新效果好;
    3)方法简单易懂;
    4)是上述研究思路的代表性工作。
    精读是指搞清楚文章以及代码的所有细节;
  5. 我们一起讨论潜在的解决方案。

第三部分:建议

  1. 每天看论文,开阔自己的视野;
  2. 只有自己能监督自己;
  3. 我只能给你提供大概的研究思路,这个思路是有可能走不通的,需要你自己评判;
  4. 我没办法去帮你调代码,改BUG,代码问题请找学长或者网络请教。
  5. 知道就是知道,不知道就是不知道。我不会因为我的学生不知道而生气,不知道、不懂的你可以来问我。如果是不知道说知道的话,那我会很生气的!!!

致谢

1这部分内容参考叶老师课题组,感谢叶老师课题组。