旨在记录开源开发大模型发展情况,随时更新,欢迎在Issues中提供提供线索和素材
使用数据请注明来源:微信公众号:走向未来 和 仓库:https://github.com/wgwang/awesome-open-foundation-models
Awesome family related to LLMS includes:
- https://github.com/wgwang/awesome-LLM-benchmarks
- https://github.com/wgwang/awesome-LLMs-In-China
- https://github.com/wgwang/awesome-open-foundation-models
大模型相关的Awesome系列包括:
- 大模型评测数据集: https://github.com/wgwang/awesome-LLM-benchmarks
- 中国大模型列表: https://github.com/wgwang/awesome-LLMs-In-China
- 开源开放基础大模型列表: https://github.com/wgwang/awesome-open-foundation-models
微信扫码关注我的微信公众号:走向未来,分享有关大模型、AGI、知识图谱、深度学习、强化学习、计算机视觉、自然语言处理等等与人工智能有关的内容。
Star一下,举手之劳!
- 国内开源大模型两大霸主
- Qwen
- DeepSeeker
- 两个都在杭州,杭州上大分!
- 国外开源大模型两大霸主
- LLaMA 美国
- Mistral 欧洲
| 序号 | 名称 | 参数规模 | 数据规模 | 发布时间 | 说明 |
|---|---|---|---|---|---|
| 1 | LLaMA-2 | 7B,13B,34B,70B | 2T | 2023-07-18 | 可商用 |
| 2 | Falcon | 7B,40B,180B | 3.5T | 2023-09-06 | 数据集 RefinedWeb |
| 3 | baichuan-2 | 7B,13B | 2.6T | 2023-09-06 | baichuan-1 |
| 4 | InternLM | 7B,20B | 2.3T | 开放,商用需授权 | |
| 5 | BLOOM | 3B,7.1B,176B | 366B | 详细介绍 | |
| 6 | GALACTICA | 6.7B,30B,120B | 106B | 开放的科学文本和数据 | |
| 7 | LLaMA-1 | 7B,13B,30B,65B | 1.4T | 2023-02-24 | 详细介绍 |
| 8 | MOSS-moon | 16B | 700B | 6.67x1022 FLOPs | |
| 9 | ChatGLM3 | 6B | 1.4T | 2023-10-25 | |
| 10 | StableLM | 3B,7B | 800B | ||
| 11 | RedPajama-INCITE | 3B,7B | 1T | ||
| 12 | GPT-NeoX | 20B | 3.15M | 800GB的The Pile数据集 | |
| 13 | OpenLLaMA | 3B,7B,13B | 1T | ||
| 14 | MPT | 7B,30B | 1T | ||
| 15 | Pythia | 2.8B,6.9B,12B | 300B | ||
| 16 | XGen | 7B | 1.5T | ||
| 17 | OPT | 6.7B,13B,30B,66B,175B | 180B | ||
| 18 | Qwen-1 | 7B,14B,72B | 2.4T,3.0T,3.0T | ||
| 19 | XVERSE | 13B,65B | 1.4T,2.6T | ||
| 20 | Aquila2 | 7B,34B | 2T | ||
| 21 | Prithvi | IBM+NASA,地理空间,100M(图片) | |||
| 22 | Skywork | 13B | 3.2T | 2023-10-22 | 昆仑万维·天工 |
| 23 | Deepseek Coder | 1.3B,6.7B,33B | 2T | 87% code and 13% 中英文文本 | |
| 24 | Aquila | 7B | 2023-06-08 | 悟道·天鹰 | |
| 25 | Yi | 6B,34B | 3T | 2023-11-04 | 零一万物 |
| 26 | Mistral | 7B | 欧洲 | ||
| 27 | Yuan-2 | 2B,51B,102B | 288B | 2023-12-21 | 源 |
| 28 | Mistral MoE | 46.7B | 2023-12-11 | 7BX8 MoE,12.9B/46.7B | |
| 29 | BlueLM | 7B | 2.6T | 2023-10-16 | https://github.com/vivo-ai-lab/BlueLM |
| 30 | YAYI 2 | 30B | 2.65T | 2023-12-15 | https://github.com/wenge-research/YAYI2 |
| 31 | CodeShell | 7B | 0.5T | 2023-09-22 | https://github.com/WisdomShell/codeshell |
| 32 | DeepSeek-V2 | 236B | 8.1T | 2024-05-06 | MoE 21B/236B,160Experts,2Activate |
| 33 | LLaMA-3 | 8B,70B | 15T | 2024-04-18 | |
| 34 | QWen-1.5 | 0.5B,1.8B,4B,7B,14B,32B,72B | 2.4T,2.4T,2.4T,4T,4T,3T,3T | 2024-02-06 | |
| 35 | QWen-1.5-110B | 110B | 2.2T | 2024-04-24 | |
| 36 | DBRX | 132B | 12T | 2024-03-27 | MOE 36B/132B, 4/16experts |
| 37 | Gemma-1 | 7B,2B | 6T | 2024-02-20 | 终端设备 |
| 38 | Yi-1.5 | 6B,9B,34B | 3.5T | 2024-05-13 | 零一万物,在Yi之上用了500B 语料增量训练得到 |
| 39 | Yi-VL | 6B,34B | 2024-01-18 | Clip ViT-H/14+Yi-6/34B-Chat,100M图文对 | |
| 40 | Hunyuan-DiT | 1.5B | 2024-05-13 | 腾讯混元文生图 | |
| 41 | Command-R+ | 104B | 4T | 2024-04-03 | Focus RAG |
| 42 | Mistral-8X22B | 141B | 2024-4-17 | 8X22B MOE, 39B/141B | |
| 43 | Arctic | 480B | 3.5T | 2024-04-22 | Dense(10B)-MoE(128X3.66B), 17B/480B,3阶段训练,1T+1.5T+1T tokens |
| 44 | Grok-1 | 314B | 2024-03-17 | MoE 8 Expert | |
| 45 | InternLM2 | 7B,20B | 2.3T | 2023-09-18 | |
| 46 | stableLM-2 | 12B | 2T | 2024-03-21 | |
| 47 | Nemotron-4 | 340B | 9T | 2024-06-14 | |
| 48 | Qwen-2 | 0.5B,1.5B,7B,57B,72B | 7T | 2024-05-23 | 57B是个MOE,64E选8的模型 |
| 49 | Skywork-MoE | 146B | 2024-06-03 | 16EX13B,A:22B | |
| 50 | Gemma-2 | 9B,27B | 8T,13T | 2024-06-27 | |
| 51 | Deepseek-Coder-V2 | 16B,236B | 10.2T | 2024-06-17 | MoE |
| 52 | GLM-4 | 9B | 10T | 2024-06-05 | |
| 53 | LLaMA-3.1 | 8B,70B,405B | 15T | 2024-07-23 | |
| 54 | XVERSE-MoE | 255.4B | 2024-09-10 | ||
| 55 | Pixtral | 12B | 2024-09-10 | 多模态 |
- WizardLM,WizardMath,WizardCoder
- Alpaca
- Vicuna
- Guanaco
- CodeLLaMA
- 7B,13B,34B,基于LLaMA2,增加了650B左右的代码词元进行增量训练和微调
欢迎扫码关注微信公众:走向未来,公众号专注于分享AGI、大模型、知识图谱、深度学习、强化学习等技术、系统架构、应用场景和案例等内容。
珠峰书《知识图谱:认知智能理论与实战》一书全面介绍了知识图谱的构建技术、存储技术和应用技术、Transformer、图神经网络等内容,欢迎购买。具体来说,包括:
- 知识图谱模式设计、知识抽取、图数据库、知识计算、知识推理、知识问答、知识推荐等全方面的内容
- 详细介绍了Transformer模型细节和实现方法,是大模型的基础技术
- 国内首本提到向量数据库的书籍
- 简要介绍了多模态知识融合的内容,书中以“月亮”为例,提出应当把图片的月亮、各种不同语言的文本月亮和和月亮的读音等,都应当融合到同一个知识点中。这正是多模态大模型所做的。
- 其他一些关于神经科学、脑科学和哲学中对智能的思考


