AI Leaderboard - 关于 AI 及大语言模型 LLM 的各大排行榜汇总

最近发现有不少 AI 相关排行榜，这也是关注获取所有 AI 资讯的渠道，也能看到目前 AI 发展程度。所以进行了整理汇总。

🏆 LMSYS Chatbot Arena Leaderboard

https://lmsys-chatbot-arena-leaderboard.hf.space/?__theme=light

LMSYS Org（Large Model Systems Organization），最为知名的目前大型语言模型的埃洛评级（Elo Rating）监测，分享过多次。目前该排名值得关注的是 Claude 3 Opus 仍然排名第一，并且其更便宜模型 Claude 3 Haiku 也超过了部分 GPT4 模型。

AI Leaderboard – 关于 AI 及大语言模型 LLM 的各大排行榜汇总

The top AI companies in 2024

https://www.cbinsights.com/learn/ai-100-2024

该网站综合评估选出了目前 TOP100 从事 AI 模型研究和应用的公司。Hugging Face（抱脸）凭借其强大的开源开发者社区支持，提供大量的预训练模型和数据集和相关资源综合排名第一，抱脸还有很多有意思的排名，如模型竞技场排名/最佳 AI 内容贡献者等都值得关注；第二名 Databricks 是家专注大数据处理的 AI 公司，通用开源的大型语言模型 DBRX 即由它们创建。后面跟着的是之前提到的法国黑马 AI 初创公司 MISTRAL 以及 OPENAI。

Hallucination Leaderboard

GitHub – vectara/hallucination-leaderboard: Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents

Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents – vectara/hallucination-leaderboard

这是目前 AI 幻觉率（Hallucination）排名。截止今年 3 月底，目前幻觉率最低 TOP 出现个 Intel Neural Chat 7B，其次 GPT4 幻觉处理仍然很好。

SuperCLUE 总排行榜（2024 年 2 月）

SuperCLUE

No Description

这个排行榜是「SuperCLUE：中文语言通用大模型综合性测评基准」排名，更关注中文语言的排行榜，包括古诗/文学/歇后语和方言等测试排名。除去 GPT4，排名靠前的即国内文心一言/智谱 AI/通义千问等。

OpenRouter LLM Rankings

LLM Rankings | OpenRouter

Language models ranked and analyzed by usage across apps

大型语言模型使用接口排行榜和数据，有免费版本以及付费。

LLM Price Check —— 比较 AI 大模型的价格

LLM Price Check 是一个比较 LLM（Large Language Models）API 价格的工具，用户可以快速比较来自 OpenAI、Anthropic、Google 等主要供应商的最新价格。用户可以使用这个工具来优化他们的 AI 预算，从而节省成本。

Compare LLM API Pricing Instantly – Get the Best Deals at LLM Price Check

Explore cost-effective LLM API solutions with LLM Price Check. Instantly compare updated prices from major providers like OpenAI, AWS, and Google. Maximize your savings on LLM APIs starting today!