AI Leaderboard – 关于 AI 及大语言模型 LLM 的各大排行榜汇总

6 min


最近有不少 相关排行榜,这也是关注获取所有 AI 资讯的渠道,也能看到目前 AI 发展程度。所以进行了整理汇总。

🏆 LMSYS Chatbot Arena Leaderboard

https://lmsys-chatbot-arena-leaderboard.hf.space/?__theme=light

LMSYS Org(Large Model Systems Organization),最为知名的目前大型语言模型的埃洛评级(Elo Rating)监测,过多次。目前该排名值得关注的是 Claude 3 Opus 仍然排名第一,并且其更便宜模型 Claude 3 Haiku 也超过了部分 GPT4 模型。

The top AI companies in 2024

https://www.cbinsights.com/learn/ai-100-2024

综合评估选出了目前 TOP100 从事 AI 模型研究和应用的公司。Hugging Face(抱脸)凭借其强大的开发者社区支持,提供大量的预训练模型和数据集和相关资源综合排名第一,抱脸还有很多有意思的排名,如模型竞技场排名/最佳 AI 内容贡献者等都值得关注;第二名 Databricks 是家专注大数据处理的 AI 公司,通用开源的大型语言模型 DBRX 即由它们创建。后面跟着的是之前提到的法国黑马 AI 初创公司 MISTRAL 以及

Hallucination Leaderboard

GitHub – vectara/hallucination-leaderboard: Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents

Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents – vectara/hallucination-leaderboard

这是目前 AI 幻觉率(Hallucination)排名。截止今年 3 月底,目前幻觉率最低 TOP 出现个 Intel Neural Chat 7B,其次 GPT4 幻觉处理仍然很好。

SuperCLUE 总排行榜(2024 年 2 月)

SuperCLUE

No Description

这个排行榜是「SuperCLUE:中文语言通用大模型综合性测评基准」排名,更关注中文语言的排行榜,包括古诗/文学/歇后语和方言等测试排名。除去 GPT4,排名靠前的即国内文心一言/智谱 AI/通义千问等。

OpenRouter LLM Rankings

OpenRouter

Language models ranked and analyzed by usage across apps

大型语言模型使用接口排行榜和数据,有版本以及付费。

AI Model Translation Arena

AI Model Translation Arena

Web site created using create-react-

AI 模型翻译质量和 Token 使用耗费排行榜。


还有些排行榜已经停止更新,这个榜单将持续补充。

相关链接


Like it? Share with your friends!

0
DUN

Choose A Format
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Video
Youtube and Vimeo Embeds