精選 LLM 大型語言模型資源

精選大型語言模型資源

:fire: 大型語言模型 (LLM) 已席捲 整個世界。這是一個關於大型語言模型的論文精選列表,特別是與 ChatGPT 相關的論文。它還包含用於 LLM 訓練的框架、部署 LLM 的工具、關於 LLM 的課程和教程,以及所有公開可用的 LLM 檢查點和 API。

熱門 LLM 項目

  • Deep-Live-Cam - 僅使用單張圖像即可進行實時換臉和一鍵式視頻深度偽造(未經審查)。
  • MiniCPM-V 2.6 - 在您的手機上實現 GPT-4V 級別的多模態大型語言模型,適用於單張圖像、多張圖像和視頻。
  • GPT-SoVITS - 1 分鐘的語音數據也可以用於訓練一個優秀的文本轉語音模型!(小樣本語音克隆)。

目錄

里程碑論文

日期 關鍵詞 研究機構 論文
2017-06 Transformers Google Attention Is All You Need
2018-06 GPT 1.0 OpenAI Improving Language Understanding by Generative Pre-Training
2018-10 BERT Google BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
2019-02 GPT 2.0 OpenAI Language Models are Unsupervised Multitask Learners
2019-09 Megatron-LM NVIDIA Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
2019-10 T5 Google Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
2019-10 ZeRO Microsoft ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
2020-01 Scaling Law OpenAI Scaling Laws for Neural Language Models
2020-05 GPT 3.0 OpenAI Language models are few-shot learners
2021-01 Switch Transformers Google Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
2021-08 Codex OpenAI Evaluating Large Language Models Trained on Code
2021-08 Foundation Models Stanford On the Opportunities and Risks of Foundation Models
2021-09 FLAN Google Finetuned Language Models are Zero-Shot Learners
2021-10 T0 HuggingFace et al. Multitask Prompted Training Enables Zero-Shot Task Generalization
2021-12 GLaM Google GLaM: Efficient Scaling of Language Models with Mixture-of-Experts
2021-12 WebGPT OpenAI WebGPT: Browser-assisted question-answering with human feedback
2021-12 Retro DeepMind Improving language models by retrieving from trillions of tokens
2021-12 Gopher DeepMind Scaling Language Models: Methods, Analysis & Insights from Training Gopher
2022-01 COT Google Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
2022-01 LaMDA Google LaMDA: Language Models for Dialog Applications
2022-01 Minerva Google Solving Quantitative Reasoning Problems with Language Models
2022-01 Megatron-Turing NLG Microsoft&NVIDIA Using Deep and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model
2022-03 InstructGPT OpenAI Training language models to follow instructions with human feedback
2022-04 PaLM Google PaLM: Scaling Language Modeling with Pathways
2022-04 Chinchilla DeepMind An empirical analysis of compute-optimal large language model training
2022-05 OPT Meta OPT: Open Pre-trained Transformer Language Models
2022-05 UL2 Google Unifying Language Learning Paradigms
2022-06 Emergent Abilities Google Emergent Abilities of Large Language Models
2022-06 BIG-bench Google Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
2022-06 METALM Microsoft Language Models are General-Purpose Interfaces
2022-09 Sparrow DeepMind Improving alignment of dialogue agents via targeted human judgements
2022-10 Flan-T5/PaLM Google Scaling Instruction-Finetuned Language Models
2022-10 GLM-130B Tsinghua GLM-130B: An Open Bilingual Pre-trained Model
2022-11 HELM Stanford Holistic Evaluation of Language Models
2022-11 BLOOM BigScience BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
2022-11 Galactica Meta Galactica: A Large Language Model for Science
2022-12 OPT-IML Meta OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization
2023-01 Flan 2022 Collection Google The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
2023-02 LLaMA Meta LLaMA: Open and Efficient Foundation Language Models
2023-02 Kosmos-1 Microsoft Language Is Not All You Need: Aligning Perception with Language Models
2023-03 LRU DeepMind Resurrecting Recurrent Neural Networks for Long Sequences
2023-03 PaLM-E Google PaLM-E: An Embodied Multimodal Language Model
2023-03 GPT 4 OpenAI GPT-4 Technical Report
2023-04 LLaVA UW–Madison&Microsoft Visual Instruction Tuning
2023-04 Pythia EleutherAI et al. Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling
2023-05 Dromedary CMU et al. Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision
2023-05 PaLM 2 Google PaLM 2 Technical Report
2023-05 RWKV Bo Peng RWKV: Reinventing RNNs for the Transformer Era
2023-05 DPO Stanford Direct Preference Optimization: Your Language Model is Secretly a Reward Model
2023-05 ToT Google&Princeton Tree of Thoughts: Deliberate Problem Solving with Large Language Models
2023-07 LLaMA2 Meta Llama 2: Open Foundation and Fine-Tuned Chat Models
2023-10 Mistral 7B Mistral Mistral 7B
2023-12 Mamba CMU&Princeton Mamba: Linear-Time Sequence Modeling with Selective State Spaces
2024-01 DeepSeek-v2 DeepSeek DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
2024-03 Jamba AI21 Labs Jamba: A Hybrid Transformer-Mamba Language Model
2024-05 Mamba2 CMU&Princeton Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
2024-05 Llama3 Meta The Llama 3 Herd of Models

其他論文

如果您對 LLM 領域感興趣,您可能會發現上述里程碑論文列表有助於探索其歷史和最新進展。然而,LLM 的每個方向都提供了一組獨特的見解和貢獻,這對於理解整個領域至關重要。有關各個子領域論文的詳細列表,請參閱以下鏈接:

LLM 排行榜

  • Chatbot Arena Leaderboard - 一個大型語言模型 (LLM) 的基準測試平台,以眾包的方式提供匿名、隨機的戰鬥。
  • MixEval Leaderboard - 一個基於基本事實的動態基準測試,源自現成的基準測試混合,它使用高性能模型排名 (即與 Chatbot Arena 的相關性為 0.96) 評估 LLM,同時在本地快速運行 (6% 的時間和 MMLU 的成本)。
  • AlpacaEval Leaderboard - 使用 Nous 基準測試套件的指令遵循語言模型的自動評估器。
  • Open LLM Leaderboard - 旨在跟踪、排名和評估 LLM 和聊天機器人在發布時的表現。
  • OpenCompass 2.0 LLM Leaderboard - OpenCompass 是一個 LLM 評估平台,支持 100 多個數據集上的各種模型 (InternLM2、GPT-4、LLaMa2、Qwen、GLM、Claude 等)。
  • Berkeley Function-Calling Leaderboard - 評估 LLM 調用外部函數/工具的能力。

開源 LLM

LLM 數據

LLM 評估

  • lm-evaluation-harness - 語言模型小樣本評估框架。
  • MixEval - 一個可靠的、即插即用的評估套件,兼容開源和專有模型,支持 MixEval 和其他基準測試。
  • lighteval - Hugging Face 內部一直在使用的輕量級 LLM 評估套件。
  • OLMO-eval - 評估開源語言模型的存儲庫。
  • instruct-eval - 此存儲庫包含代碼,用於在保留任務上定量評估指令微調模型,例如 Alpaca 和 Flan-T5。
  • simple-evals - OpenAI 的評估工具。
  • Giskard - LLM 應用程序的測試和評估庫,尤其是 RAG。
  • LangSmith - LangChain 框架的統一平台,用於:評估、協作 HITL(人工參與迴路)、記錄和監控 LLM 應用程序。
  • Ragas - 一個框架,可幫助您評估檢索增強生成 (RAG) 管道。

LLM 訓練框架

  • DeepSpeed - DeepSpeed 是一個深度學習優化庫,使分佈式訓練和推理變得簡單、高效且有效。
  • Megatron-DeepSpeed - NVIDIA Megatron-LM 的 DeepSpeed 版本,增加了對多個功能的支持,例如 MoE 模型訓練、課程學習、3D 並行等。
  • torchtune - 用於 LLM 微調的原生 PyTorch 庫。
  • torchtitan - 用於大型模型訓練的原生 PyTorch 庫。
  • Megatron-LM - 正在進行的規模化 Transformer 模型訓練研究。
  • Colossal-AI - 使大型 AI 模型更便宜、更快、更易於訪問。
  • BMTrain - 高效訓練大型模型。
  • Mesh Tensorflow - Mesh TensorFlow:模型並行化變得更容易。
  • maxtext - 一個簡單、高效且可擴展的 Jax LLM!
  • Alpa - Alpa 是一個用於訓練和服務大型神經網絡的系統。
  • GPT-NeoX - 基於 DeepSpeed 庫在 GPU 上實現模型並行自回歸 Transformer。

LLM 部署

參考:llm-inference-solutions

  • vLLM - 一種高吞吐量、高內存效率的 LLM 推理和服務引擎。
  • TGI - 一個用於部署和服務大型語言模型 (LLM) 的工具包。
  • exllama - 對 Llama 的 HF Transformer 實現進行了更節省內存的重寫,以便與量化權重一起使用。
  • llama.cpp - C/C++ 中的 LLM 推理。
  • ollama - 使用 Llama 3、Mistral、Gemma 和其他大型語言模型快速入門並運行。
  • Langfuse - 開源 LLM 工程平台 :knot: 跟踪、評估、提示管理、評估和遊樂場。
  • FastChat - 具有 Web UI 和與 OpenAI 兼容的 RESTful API 的分佈式多模型 LLM 服務系統。
  • mistral.rs - 極速 LLM 推理。
  • MindSQL - 一個 Python 包,用於 Txt-to-SQL,具有自託管功能和與專有以及開源 LLM 兼容的 RESTful API。
  • SkyPilot - 在任何雲上運行 LLM 和批處理作業。以簡單的界面獲得最大的成本節省、最高的 GPU 可用性和託管執行。
  • Haystack - 一個開源 NLP 框架,允許您使用來自 Hugging Face、OpenAI 和 Cohere 的 LLM 和基於 Transformer 的模型與您自己的數據進行交互。
  • Sidekick - LLM 的數據集成平台。
  • QA-Pilot - 一個交互式聊天項目,利用 Ollama/OpenAI/MistralAI LLM 快速理解和導航 GitHub 代碼倉庫或壓縮文件資源。
  • Shell-Pilot - 在您的 Linux(或 MacOS)系統上通過純 shell 腳本與使用 Ollama 模型(或 openAI、mistralAI)的 LLM 進行交互,從而增強智能系統管理,而無需任何依賴項。
  • LangChain - 通過可組合性構建 LLM 應用程序。
  • Floom 面向開發人員的 AI 網關和市場,可將 AI 功能簡化集成到產品中。
  • Swiss Army Llama - 一套用於處理本地 LLM 以完成各種任務的綜合工具。
  • LiteChain - LangChain 的輕量級替代品,用於組合 LLM。
  • magentic - 將 LLM 無縫集成為 Python 函數。
  • wechat-chatgpt - 通過 wechaty 在微信上使用 ChatGPT。
  • promptfoo - 測試您的提示。評估和比較 LLM 輸出,捕獲回歸並提高提示質量。
  • Agenta - 輕鬆構建、版本控制、評估和部署您的 LLM 驅動的應用程序。
  • Serge - 使用 llama.cpp 製作的聊天界面,用於運行 Alpaca 模型。無需 API 密鑰,完全自託管!
  • Langroid - 使用多代理編程利用 LLM。
  • Embedchain - 在您的數據集上創建類似 ChatGPT 的機器人的框架。
  • CometLLM - 一個 100% 開源的 LLMOps 平台,用於記錄、管理和可視化您的 LLM 提示和鏈。跟踪提示模板、提示變量、提示持續時間、令牌使用情況和其他元數據。在單個 UI 中對提示輸出進行評分並可視化聊天歷史記錄。
  • IntelliServer - 通過提供統一的微服務來訪問和測試多個 AI 模型,從而簡化 LLM 的評估。
  • OpenLLM - 在生產環境中微調、服務、部署和監控任何開源 LLM。在 BentoML 中用於基於 LLM 的應用程序的生產。
  • DeepSpeed-Mii - MII 進行低延遲和高吞吐量推理,類似於由 DeepSpeed 提供支持的 vLLM。
  • Text-Embeddings-Inference - Rust 中的文本嵌入推理,HFOIL 許可證。
  • Infinity - Python 中的文本嵌入推理。
  • TensorRT-LLM - Nvidia LLM 推理框架。
  • FasterTransformer - NVIDIA LLM 推理框架(已轉換為 TensorRT-LLM)。
  • Flash-Attention - 一種旨在提高 Transformer 模型效率的方法。
  • Langchain-Chatchat - 以前稱為 langchain-ChatGLM,使用 langchain 的本地知識庫 LLM(如 ChatGLM)問答應用程序。
  • Search with Lepton - 通過 LeptonAI 使用不到 500 行代碼構建您自己的會話搜索引擎。
  • Robocorp - 在任何地方使用 Python 創建、部署和操作 Actions,以增強您的 AI 代理和助手。包含大量庫、幫助程序和日誌記錄。
  • LMDeploy - 一種高吞吐量、低延遲的 LLM 和 VL 推理和服務框架。
  • Tune Studio - 開發人員微調和部署 LLM 的遊樂場。
  • LLocalSearch - 使用 LLM 鏈在本地運行網絡搜索。
  • AI Gateway — Gateway 通過統一的 API 簡化了對 100 多個開源和閉源模型的請求。它還支持生產環境,支持緩存、回退、重試、超時、負載均衡,並且可以邊緣部署以實現最低延遲。
  • talkd.ai dialog - 用於部署任何 RAG 或 LLM 的簡單 API,您可以添加插件。
  • Wllama - llama.cpp 的 WebAssembly 綁定 - 啟用瀏覽器內 LLM 推理。
  • GPUStack - 用於運行 LLM 的開源 GPU 集群管理器。

LLM 應用

  • AdalFlow - AdalFlow:用於 LLM 應用的 PyTorch 庫。
  • dspy - DSPy:用於編程(而非提示)基礎模型的框架。
  • YiVal — 評估和發展:YiVal 是一個開源 GenAI-Ops 工具,用於使用可自定義的數據集、評估方法和改進策略來調整和評估提示、配置和模型參數。
  • Guidance — 來自 Microsoft 的一個方便的 Python 庫,它使用 Handlebars 模板來交錯生成、提示和邏輯控制。
  • LangChain — 一個流行的 Python/JavaScript 庫,用於鏈接語言模型提示序列。
  • Evidently — 一個開源框架,用於評估、測試和監控 ML 和 LLM 驅動的系統。
  • FLAML(自動化機器學習和調整的快速庫):一個 Python 庫,用於自動選擇模型、超參數和其他可調整的選項。
  • Chainlit — 一個用於製作聊天機器人界面的 Python 庫。
  • Guardrails.ai — 一個用於驗證輸出和重試失敗的 Python 庫。仍處於 alpha 階段,因此預計會出現尖銳的邊緣和錯誤。
  • Semantic Kernel — 來自 Microsoft 的 Python/C#/Java 庫,支持提示模板、函數鏈接、向量化內存和智能規劃。
  • Prompttools — 用於測試和評估模型、向量數據庫和提示的開源 Python 工具。
  • Outlines — 一個 Python 庫,它提供了一種特定領域的語言來簡化提示和約束生成。
  • Promptify — 一個小型 Python 庫,用於使用語言模型執行 NLP 任務。
  • Scale Spellbook — 用於構建、比較和發佈語言模型應用程序的付費產品。
  • PromptPerfect — 用於測試和改進提示的付費產品。
  • Weights & Biases — 用於跟踪模型訓練和提示工程實驗的付費產品。
  • OpenAI Evals — 一個開源庫,用於評估語言模型和提示的任務性能。
  • LlamaIndex — 一個 Python 庫,用於使用數據增強 LLM 應用程序。
  • Arthur Shield — 用於檢測毒性、幻覺、提示注入等的付費產品。
  • LMQL — 一種用於 LLM 交互的編程語言,支持類型提示、控制流、約束和工具。
  • ModelFusion - 一個 TypeScript 庫,用於使用 LLM 和其他 ML 模型(語音到文本、文本到語音、圖像生成)構建應用程序。
  • Flappy — 面向每個開發人員的生產就緒 LLM 代理 SDK。
  • GPTRouter - GPTRouter 是一個開源 LLM API 網關,它為 30 多個 LLM、視覺和圖像模型提供通用 API,並基於正常運行時間和延遲提供智能回退、自動重試和流式傳輸。即使 OpenAI 停止運行也能保持正常運行。
  • QAnything - 一個本地知識庫問答系統,旨在支持各種文件格式和數據庫。
  • OneKE — 一個雙語中英文知識提取模型,具有知識圖譜和自然語言處理技術。
  • llm-ui - 一個用於構建 LLM UI 的 React 庫。
  • Wordware - 一個網絡託管的 IDE,非技術領域專家與 AI 工程師合作構建特定任務的 AI 代理。我們將提示視為一種新的編程語言,而不是低代碼/無代碼塊。
  • Wallaroo.AI - 從雲到邊緣,在任何環境中大規模部署、管理、優化任何模型。讓您在幾分鐘內從 Python 筆記本電腦轉到推理。
  • Dify - 一個開源 LLM 應用程序開發平台,具有直觀的界面,可簡化 AI 工作流程、模型管理和生產部署。
  • LazyLLM - 一個開源 LLM 應用程序,用於以簡單且懶惰的方式構建多代理 LLM 應用程序,支持模型部署和微調。
  • MemFree - 開源混合 AI 搜索引擎,立即從 Internet、書籤、筆記和文檔中獲得準確的答案。支持一鍵部署。
  • unslothai - 一個專注於高效微調的框架。在其 GitHub 頁面上,您可以找到各種 LLM 的現成微調模板,允許您輕鬆地在 Google Colab 雲上免費訓練自己的數據。

LLM 教程和課程

LLM 書籍

關於 LLM 的深刻思考

其他

  • Arize-Phoenix - 在您的筆記本電腦環境中運行的 ML 可觀察性的開源工具。監控和微調 LLM、CV 和表格模型。
  • Emergent Mind - GPT-4 精選和解釋的最新 AI 新聞。
  • ShareGPT - 一鍵分享您最狂野的 ChatGPT 對話。
  • Major LLMs + Data Availability
  • 500+ Best AI Tools
  • Cohere Summarize Beta - 推出 Cohere Summarize Beta:文本摘要的新端點。
  • chatgpt-wrapper - ChatGPT Wrapper 是一個開源的非官方 Python API 和 CLI,允許您與 ChatGPT 進行交互。
  • Open-evals - 一個框架,擴展了 openai 的 Evals 以適用於不同的語言模型。
  • Cursor - 使用強大的 AI 編寫、編輯和討論您的代碼。
  • AutoGPT - 一個實驗性的開源應用程序,展示了 GPT-4 語言模型的功能。
  • OpenAGI - 當 LLM 遇見領域專家。
  • EasyEdit - 一個易於使用的框架來編輯大型語言模型。
  • chatgpt-shroud - OpenAI 的 ChatGPT 的 Chrome 擴展程序,通過啟用輕鬆隱藏和取消隱藏聊天歷史記錄來增強用戶隱私。非常適合在屏幕共享期間保護隱私。

貢獻

這是一個活躍的存儲庫,歡迎您的貢獻!

如果我不確定它們是否對 LLM 有用,我會保留一些拉取請求,您可以通過添加 :+1: 對它們進行投票。


如果您對此意見列表有任何疑問,請隨時通過 chengxin1998@stu.pku.edu.cn 與我聯繫。

[^1]:這不是法律建議。請聯繫模型的原作者以獲取更多信息。
CDN