Skip to content

Efficient LLM Inference Systems

Appendix

Resources

Books

Papers

Splitwise: Efficient generative LLM inference using phase splitting (2023.11)
Efficiently Scaling Transformer Inference (2022.11)
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale (2022.08)
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers (2022.10)
SmoothQuant: Accurate and Efficient Post-Training Quantization for LLMs (2022.11)
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration (2023.06)
Scaling Laws for Neural Language Models (2020.01)

LLM Architecture