[AI/NLP] 大语言模型排行榜 | 2024.06

随笔3个月前发布 烟台姜丽平
45 0 0

目录

0 引言1 通用-总排行榜闭源 + 开源开源U 重要开源大语言模型简介Qwen2K 大模型评测榜单MMLUHELMHumanEvalSuperCLUEOpenCompass/司南X 参考文献Y 推荐文献

回到顶部(Back to Top)

0 引言

通过排行榜,能快速了解各模型/产品的技术竞争力、综合竞争力。

[AI/NLP] 大语言模型排行榜 | 2024.06

回到顶部(Back to Top)

1 通用-总排行榜

SuperCLUE总排行榜 | 2024.06

闭源 + 开源

排名 模型 机构 总分 理科得分 文科得分 Hard得分 使用方式 国内/国外 备注
1 GPT-4o OpenAI 81 81 76 85 API 国外
2 Claude-3.5-Sonnet-200k Anthropic 77 75 72 84 API 国外
2 Qwen2-72B-Instruct 阿里巴巴 77 76 76 79 模型 国内 开源
3 DeepSeek-V2 深度求索 76 74 76 78 API 国内
3 GLM-4-0520 清华&智谱AI 76 74 74 79 API 国内
3 SenseChat5.0 商汤 76 73 75 78 API 国内
4 AndesGPT OPPO 75 76 76 72 API 国内
4 GPT-4-Turbo-0409 OpenAI 75 77 75 74 API 国外
5 GPT-4(官网) OpenAI 73 75 74 70 网页 国外
6 Baichuan4 百川智能 72 71 74 70 API 国内
6 Doubao-pro-32k-0615 字节跳动 72 73 74 69 API 国内
6 Moonshot(kimi) 月之暗面 72 67 74 75 网页 国内
6 山海大模型4.0 云知声 72 76 75 65 API 国内
6 360gpt2-pro 360 72 72 75 69 API 国内
7 MiniMax-abab6.5 稀宇科技 71 70 74 68 API 国内
7 通义千问2.5 阿里巴巴 71 72 76 63 API 国内
8 文心一言4.0 百度 69 74 73 60 API 国内
8 Llama-3-70B-Instruct Meta 69 68 67 72 POE 国外
9 Gemini-1.5-Pro Google 68 72 71 62 API 国外
9 阶跃星辰step-1-32k 阶跃星辰 68 69 73 62 API 国内
10 讯飞星火V4.0 科大讯飞 67 71 70 60 API 国内
11 GPT-3.5-Turbo-0125 OpenAI 64 64 69 59 API 国外
12 Yi-1.5-34B-Chat-16K 零一万物 63 66 71 52 模型 国内 开源
13 qwen2-7b-instruct 阿里巴巴 62 63 72 51 模型 国内 开源
14 XVERSE-65B-2-32K 元象科技 60 58 72 49 API 国内 开源
15 qwen1.5-32b-chat 阿里巴巴 57 61 74 35 模型 国内 开源
16 Llama-3-8B-Instruct Meta 54 54 61 47 模型 国外 开源
17 Baichuan2-13B-Chat-v2 百川智能 53 47 66 45 模型 国内 开源
17 Yi-1.5-6B-Chat 零一万物 53 55 64 39 模型 国内 开源
18 Phi-3-mini-128k-instruct 微软 40 49 49 22 模型 国外 开源
19 gemma-7b-it Google 38 28 57 29 模型 国外 开源
19 qwen2-1.5b-instruct 阿里巴巴 38 34 61 18 模型 国内 开源
20 Llama-2-13b-chat Meta 35 34 48 21 模型 国外 开源

开源

排名 模型 机构 总分 理科得分 文科得分 Hard得分 使用方式 国内/国外
1 Qwen2-72B-Instruct 阿里巴巴 77 76 76 79 模型 国内
2 Llama-3-70B-Instruct Meta 69 68 67 72 POE 国外
3 Yi-1.5-34B-Chat-16K 零一万物 63 66 71 52 模型 国内
4 qwen2-7b-instruct 阿里巴巴 62 63 72 51 模型 国内
5 XVERSE-65B-2-32K 元象科技 60 58 72 49 API 国内
6 qwen1.5-32b-chat 阿里巴巴 57 61 74 35 模型 国内
7 Llama-3-8B-Instruct Meta 54 54 61 47 模型 国外
8 Baichuan2-13B-Chat-v2 百川智能 53 47 66 45 模型 国内
8 Yi-1.5-6B-Chat 零一万物 53 55 64 39 模型 国内
9 Phi-3-mini-128k-instruct 微软 40 49 49 22 模型 国外
10 gemma-7b-it Google 38 28 57 29 模型 国外
10 qwen2-1.5b-instruct 阿里巴巴 38 34 61 18 模型 国内
11 Llama-2-13b-chat Meta 35 34 48 21 模型 国外

回到顶部(Back to Top)

U 重要开源大语言模型简介

Qwen2

Qwen2 URL

https://qwenlm.github.io/blog/qwen2/

简介

Qwen2系列模型除了技术性能上的提升,还展现了更多的应用潜力。
其多语言处理、长文本处理、代码生成、数学和逻辑推理等能力,已经在MMLU、GPQA、HumanEval等国际测评中得到了验证。

[AI/NLP] 大语言模型排行榜 | 2024.06

代码及数学能力也得到了显著提升

依赖项

Python >= 3.8
PyTorch
CUDA
Python第三方库

swanlab : 监控整个训练过程,并评估最终的模型效果
modelscope/魔搭 : 阿里机器学习模型平台、模型下载平台(Qwen2-1.5B-Instruct等)
transformers
datasets
peft
accelerate
pandas

一键安装

pip install swanlab modelscope transformers datasets peft pandas accelerate

ModelScope/魔搭社区模型下载URL

Qwen2-72B

https://modelscope.cn/models/qwen/Qwen2-72B

Qwen2-72B-Instruct

https://modelscope.cn/models/qwen/Qwen2-72B-Instruct

相关报道

阿里Qwen2正式开源,性能全方位包围Llama-3 – Baidu/机器之心Pro 2024.06.17

全球最强开源模型Qwen2发布,阿里云为开闭源之争画下休止符 – Zhihu/硅星人 2024.06.07

教程资源

Qwen2大模型微调入门实战(完整代码) – CSDN

回到顶部(Back to Top)

K 大模型评测榜单

MMLU

URL

https://paperswithcode.com/
https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu

简介

MMLU,全称Massive Multitask Language Understanding(大规模多任务语言理解)是人工智能领域最有影响力的大模型测评基准之一。
MMLU)是业界最有影响力的大模型测评基准之一,涵盖了基础数学、计算机科学、法律、历史等57项任务,用以测试大模型的世界知识和问题解决能力。
但在现实测评中,不同参评模型的测评结果有时缺乏一致性、可比性,原因包括使用非标准提示词技术、没有统一采用开源评价框架等等。

HELM

URL

https://crfm.stanford.edu/helm/lite/latest/

[AI/NLP] 大语言模型排行榜 | 2024.06

简介

斯坦福大学基础模型研究中心(CRFM,Center for Research on Foundation Models)提出的基础模型评估框架HELM(A holistic framework for evaluating foundation models),旨在创造一种透明、可复现的评估方法。该方法基于HELM框架,对不同模型在MMLU上的评估结果进行标准化和透明化处理,从而克服现有MMLU评估中存在的问题。比如,针对所有参评模型,都采用相同的提示词;针对每项测试主题,都给模型提供同样的5个示例进行情境学习,等等。

[AI/NLP] 大语言模型排行榜 | 2024.06

HumanEval

URL

https://github.com/openai/human-eval

简介

这是论文“评估代码训练的大型语言模型”中描述的 HumanEval 问题解决数据集的评估工具。

SuperCLUE

URL

https://www.superclueai.com

OpenCompass/司南

URL

https://rank.opencompass.org.cn
https://rank.opencompass.org.cn/leaderboard-llm

回到顶部(Back to Top)

X 参考文献

SuperCLUE总排行榜 | 2024.06

https://www.superclueai.com

回到顶部(Back to Top)

Y 推荐文献

2024人工智能指数报告(二):技术性能 – 36氪

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...