Encoder

Transformer

《Attention Is All You Need》（2017）

https://arxiv.org/pdf/1706.03762.pdf

贡献：提出Transformer架构，取代传统RNN/CNN，奠定了所有现代LLM的基础。核心创新是自注意力机制，支持并行计算和长距离依赖建模610。
研读重点：多头注意力机制、位置编码、编码器-解码器结构。

《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》（2019）

https://arxiv.org/pdf/1901.02860

Abstract：讓Transformer可以吃更長的句子

《Reformer: The Efficient Transformer》（2020）

https://arxiv.org/pdf/2001.04451.pdf

Abstract：讓Transformer運算更快、使用記憶體更有效

BERT族

《BERT: Pre-training of Deep Bidirectional Transformers》（2018）

https://arxiv.org/pdf/1810.04805

贡献：引入双向Transformer编码器，通过掩码语言模型（MLM）和下一句预测（NSP）任务，显著提升文本理解能力610。
研读重点：双向上下文建模与预训练任务设计。

《ALBERT: A Lite BERT for Self-supervised Learning of Language Representations》（2019）

https://arxiv.org/pdf/1909.11942.pdf

Abstract：我把BERT參數減少，然後加上了一個酷酷的自监督学习

《RoBERTa: A Robustly Optimized BERT Pretraining Approach》（2019）

https://arxiv.org/pdf/1907.11692.pdf

Abstract：我用了更多資源、更猛的方法訓練一個更猛的BERT

《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》（2019）

Abstract：利用知識蒸餾訓練更小的BERT。

ERNIE

《ERNIE: Enhanced Language Representation with Informative Entities》（2019）

https://arxiv.org/pdf/1905.07129

贡献：将知识图谱融入BERT，提升模型对结构化知识的理解能力，开辟知识增强型LLM方向610。
研读重点：知识注入方法、异构信息融合。

Decoder

GPT-1

《Improving Language Understanding by Generative Pre-Training》（GPT-1）（2018）

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

贡献：首次将Transformer解码器用于生成式预训练，提出“预训练+微调”范式，验证了无监督预训练在NLP任务中的有效性610。
研读重点：自回归语言模型、任务适配微调方法。

GPT-2

《Language Models are Unsupervised Multitask Learners》（GPT-2）（2019）

贡献：证明大规模模型可通过无监督预训练实现多任务Zero-Shot学习，推动模型参数向百亿级扩展610。
研读重点：Zero-Shot推理能力与模型规模的关系。

GPT-3

《Language Models are Few-Shot Learners》（GPT-3）（2020）

https://arxiv.org/pdf/2005.14165

贡献：千亿参数模型展示出强大的上下文学习（In-Context Learning）能力，推动了对“涌现能力”的研究210。
研读重点：Few-Shot提示工程、模型规模与泛化性能的关系。

《Scaling Laws for Neural Language Models》（2020）

Abstract：最早的LLM規模定律全面分析

https://arxiv.org/pdf/2001.08361.pdf

GPT-4

GPT-4 Technical Report (2023)

https://arxiv.org/pdf/2303.08774.pdf

Abstract：目前世界上最強的LLM之一

InstructGPT

Training language models to follow instructions with human feedback （2022）

https://arxiv.org/pdf/2203.02155.pdf

Abstract：ChatGPT的前身，讓人類來教GPT-3社會化

LLaMA

LLaMA: Open and Efficient Foundation Language Models （2023）

Abstract：最有名的開源LLM第一代

https://arxiv.org/pdf/2302.13971.pdf

Llama 2: Open Foundation and Fine-Tuned Chat Models （2023）

https://arxiv.org/pdf/2307.09288.pdf

Abstract：開源LLM第二代，可以和人對話了

Decoder-Encoder

UniLM

《Unified Language Model Pre-training for Natural Language Understanding and Generation》（2019）

https://arxiv.org/pdf/1905.03197.pdf

Abstract：讓我們把NLU和NLG預訓練統一吧

T-5

《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》（T5）（2020）

https://arxiv.org/pdf/1910.10683

贡献：将各类NLP任务统一为文本到文本的框架，验证了模型泛化能力的极限611。
研读重点：任务统一化设计、模型容量与数据量的平衡。

BART

《BART: Denoising Sequence-to-Sequence Pre-training》（2019）

https://arxiv.org/pdf/1910.13461

贡献：结合双向编码器与自回归解码器，支持文本生成与重构任务，成为多任务适配的经典架构1012。
研读重点：去噪自编码预训练、多任务适应性。

《Multimodal Chain-of-Thought》（2023，参考多模态LLM综述）

贡献：扩展思维链（CoT）至多模态推理，推动LLM在视觉-语言任务中的复杂推理能力。
研读重点：多模态信息整合、跨模态推理框架。

《LoRA: Low-Rank Adaptation of Large Language Models》（2021）

贡献：提出低秩适配微调方法，显著降低大模型微调成本，成为轻量化部署的核心技术。
研读重点：参数高效微调、适配器设计原理。