基于 LMArena 全球用户盲测投票 · 多维度权威评测
考察模型在对话、推理、写作等文本任务上的综合表现,是最受关注的通用能力榜单。总投票数超过数百万次。
专门测试模型在网页开发、代码生成、交互应用构建等实际编程任务上的能力,投票数近 10 万次,贴近开发者真实需求。
考察多模态模型对图像的理解、描述、推理能力,总投票超过 58 万次,是视觉大模型的重要风向标。
测试模型根据文字提示生成图像的质量、真实感、风格控制等,总投票高达数百万次,是最热闹的创意领域榜单。