
IT之家11月18日报道 埃隆·马斯克旗下人工智能公司Xai昨日(11月17日)发布公告,宣布推出最新大语言模型Grok 4.1,已全面推送至所有Grok.com用户、平台和移动应用(iOS和Android)。本次更新旨在全面提升 Grok 在现实场景中的可用性。官方介绍,GROK 4.1不仅继承了上一代机型的敏锐智能和高可靠性,还在创造力、情感理解和协作方面实现了重大改进,可以更准确地察觉用户的微妙意图,提供更具吸引力和连贯性的对话体验。 Grok 4.1的性能达到行业领先水平。在大型模型模型竞技场(LMARENA)的文本能力排名中,其具有深度思考能力的版本(代号:quasarflux)以ELO sco位居榜首得分为1483,领先第二名31分。附相关截图如下: 更引人注目的是,不需要深度思考的“即时响应”版本也以 1465 的 ELO 分数排名第二,其表现甚至超过了所有其他模型的“完全理解”模式。这个成绩相比上一代Grok 4(排名第33)是一个很大的飞跃,也印证了底层能力上的绝对优势。除了在一般性能基准测试中表现出色之外,Grok 4.1在“软实力”方面也有了显着提升。新模型在衡量模型情商的EQ-Bench3基准测试和评估创意能力的V3创意写作测试中均表现出色。在评估情感理解、洞察力和人际交往能力的 EQ-Bench3 基准测试中,Grok 4.1 在推理和不足为奇的模式方面名列前两位。在创意写作领域,根据创意写作V3基准测试的结果,Grok 4.1的两种模式分别排名第二和第三,落后于之前的模型GPT-5.1。这意味着GROK 4.1不仅能够处理复杂的逻辑推理,还能更好地理解和响应人类情感信号,进行创意内容创作,让人机交互更加“人性化”。另一个主要改进是模型“幻觉”发生率显着降低。对于配备搜索工具的快速响应模型,由于工具的理解深度和预算有限,很容易出现现实错误。后期在 Grok 4.1 的训练阶段,X.AI 特别针对信息查询提示进行优化,并重点关注减少虚假事实。基于对现实世界查询样本的分析,新模型的幻觉率显着降低,为用户提供了更可靠、更准确的信息。
特别统计说明:以上内容(如有图片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。