LLM Learning Roadmap
Encoder
Transformer
《Attention Is All You Need》(2017)
https://arxiv.org/pdf/1706.03762.pdf
- 贡献:提出Transformer架构,取代传统RNN/CNN,奠定了所有现代LLM的基础。核心创新是自注意力机制,支持并行计算和长距离依赖建模610。
- 研读重点:多头注意力机制、位置编码、编码器-解码器结构。
《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》(2019)
https://arxiv.org/pdf/1901.02860
- Abstract:讓Transformer可以吃更長的句子
《Reformer: The Efficient Transformer》(2020)
https://arxiv.org/pdf/2001.04451.pdf
- Abstract:讓Transformer運算更快、使用記憶體更有效
BERT族
《BERT: Pre-training of Deep Bidirectional Transformers》(2018)
https://arxiv.org/pdf/1810.04805
- 贡献:引入双向Transformer编码器,通过掩码语言模型(MLM)和下一句预测(NSP)任务,显著提升文本理解能力610。
- 研读重点:双向上下文建模与预训练任务设计。
《ALBERT: A Lite BERT for Self-supervised Learning of Language Representations》(2019)
https://arxiv.org/pdf/1909.11942.pdf
- Abstract:我把BERT參數減少,然後加上了一個酷酷的自监督学习
《RoBERTa: A Robustly Optimized BERT Pretraining Approach》(2019)
https://arxiv.org/pdf/1907.11692.pdf
- Abstract:我用了更多資源、更猛的方法訓練一個更猛的BERT
《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》(2019)
- Abstract:利用知識蒸餾訓練更小的BERT。
ERNIE
《ERNIE: Enhanced Language Representation with Informative Entities》(2019)
https://arxiv.org/pdf/1905.07129
- 贡献:将知识图谱融入BERT,提升模型对结构化知识的理解能力,开辟知识增强型LLM方向610。
- 研读重点:知识注入方法、异构信息融合。
Decoder
GPT-1
《Improving Language Understanding by Generative Pre-Training》(GPT-1)(2018)
https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
- 贡献:首次将Transformer解码器用于生成式预训练,提出“预训练+微调”范式,验证了无监督预训练在NLP任务中的有效性610。
- 研读重点:自回归语言模型、任务适配微调方法。
GPT-2
《Language Models are Unsupervised Multitask Learners》(GPT-2)(2019)
- 贡献:证明大规模模型可通过无监督预训练实现多任务Zero-Shot学习,推动模型参数向百亿级扩展610。
- 研读重点:Zero-Shot推理能力与模型规模的关系。
GPT-3
《Language Models are Few-Shot Learners》(GPT-3)(2020)
https://arxiv.org/pdf/2005.14165
- 贡献:千亿参数模型展示出强大的上下文学习(In-Context Learning)能力,推动了对“涌现能力”的研究210。
- 研读重点:Few-Shot提示工程、模型规模与泛化性能的关系。
《Scaling Laws for Neural Language Models》(2020)
- Abstract:最早的LLM規模定律全面分析
https://arxiv.org/pdf/2001.08361.pdf
GPT-4
GPT-4 Technical Report (2023)
https://arxiv.org/pdf/2303.08774.pdf
- Abstract:目前世界上最強的LLM之一
InstructGPT
Training language models to follow instructions with human feedback (2022)
https://arxiv.org/pdf/2203.02155.pdf
- Abstract:ChatGPT的前身,讓人類來教GPT-3社會化
LLaMA
LLaMA: Open and Efficient Foundation Language Models (2023)
- Abstract:最有名的開源LLM第一代
https://arxiv.org/pdf/2302.13971.pdf
Llama 2: Open Foundation and Fine-Tuned Chat Models (2023)
https://arxiv.org/pdf/2307.09288.pdf
- Abstract:開源LLM第二代,可以和人對話了
Decoder-Encoder
UniLM
《Unified Language Model Pre-training for Natural Language Understanding and Generation》(2019)
https://arxiv.org/pdf/1905.03197.pdf
- Abstract:讓我們把NLU和NLG預訓練統一吧
T-5
《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》(T5)(2020)
https://arxiv.org/pdf/1910.10683
- 贡献:将各类NLP任务统一为文本到文本的框架,验证了模型泛化能力的极限611。
- 研读重点:任务统一化设计、模型容量与数据量的平衡。
BART
《BART: Denoising Sequence-to-Sequence Pre-training》(2019)
https://arxiv.org/pdf/1910.13461
- 贡献:结合双向编码器与自回归解码器,支持文本生成与重构任务,成为多任务适配的经典架构1012。
- 研读重点:去噪自编码预训练、多任务适应性。
《Multimodal Chain-of-Thought》(2023,参考多模态LLM综述)
- 贡献:扩展思维链(CoT)至多模态推理,推动LLM在视觉-语言任务中的复杂推理能力。
- 研读重点:多模态信息整合、跨模态推理框架。
《LoRA: Low-Rank Adaptation of Large Language Models》(2021)
- 贡献:提出低秩适配微调方法,显著降低大模型微调成本,成为轻量化部署的核心技术。
- 研读重点:参数高效微调、适配器设计原理。