户老师课题组

第一部分：基础知识学习

做LLM相关可以速览一遍：大模型入门教程，coding可以完成：从零开始训练大模型
如果对Python语言没有太多了解，可以先学习Python基础教程，也可以学习Python Numpy Tutorial和Jupyter Notebook教程。对Linux不熟练的，学习Linux 简易教学。对Git不熟悉的，学习一小时Git教程。
PyTorch的学习，建议在掌握理论知识，听完了李宏毅老师的课程的基础上，学习PyTorch官方文档给出的教程和几个示例（选择性）。同时，强烈推荐学习PyTorch深度学习快速入门教程（如果想快点上手，重点推荐这个教程）。
对LaTeX不熟悉的同学请学习LaTeX 排版论文。

科研基础（1天左右）：通过网络搜索，了解什么是arXiv、什么是Overleaf，并初步了解如何使用Zotero等文献管理软件，如何做文献笔记和论文调研报告，了解PapersWithCode, Google Scholar；学习使用Powerpoint，或者可选LaTeX的Beamer包完成汇报PPT的制作；了解BibTeX，知道参考文献的几种写法和格式；

学习顺序：先学任务1，之后学任务2345

李宏毅《机器学习/深度学习》2021课程 链接：李宏毅《机器学习/深度学习》2021课程
只需要看到transformer部分，生成对抗网络后面不需要看
- 在听课程内容时，优先听Class Material，其余的Preparation - zh和Extra Material作为补充；
- 强烈建议在4-7天之内完成这个课程。
- 你可以参考这个CS231N专栏，学习计算机视觉的基本原理。这个教程和李宏毅的机器学习课程有一些重复，因此可以主学一个，然后快速过一遍这个专栏来查漏补缺。强烈推荐看完9、12、13和16。
ViT论文逐段精读【论文精读】 链接：ViT论文逐段精读【论文精读】
MoCo 论文逐段精读【论文精读】 链接：MoCo 论文逐段精读【论文精读】
对比学习论文综述【论文精读】 链接：对比学习论文综述【论文精读】
CLIP 论文逐段精读【论文精读】 链接：CLIP 论文逐段精读【论文精读】
VGGT：纯前馈Transformer架构，快速3D重建新范式 链接：VGGT一作亲解
3D Gaussian Splatting全解 链接：原理+代码+公式

此外，你还需要了解DINO-V1,V2,V3，SAMv2等视觉基础模型，如果做3D相关的要了解VGGT和3DGS。

首先，通过一个经典论文+代码弄清楚你研究的问题是什么？要求就是通过详细读代码了解：
1）你的模型的输入是什么？
2）输出是什么？
3）网络是怎么将输入一步步得到输出的（这个经典论文一般是我或者你的学长制定）；
在相关的人工智能的顶级会议和期刊（主要是CCF-A类会议和期刊，包括ICCV,CVPR,ICLR,ICML,NeruIPS,AAAI,IJCAI,ECCV,IEEE-TPAMI）上搜索相关的论文，并整理到个人的主页上；
将该领域的论文粗读2-3遍，了解并总结大家的研究思路。粗读不要求你把每个方法都搞明白，只需要脑子里面有个印象，了解它大概做了什么事；
在粗读的基础上，从上述文献中挑选出来5篇左右文章精读，挑选的标准：
1）有代码；
2）比较新效果好；
3）方法简单易懂；
4）是上述研究思路的代表性工作。
精读是指搞清楚文章以及代码的所有细节；
我们一起讨论潜在的解决方案。

¹这部分内容参考叶老师课题组，感谢叶老师课题组。