- 元宇宙-OFweek新能源汽车网
- Pg电子:AI榜单“变天”了!马斯克发布Grok41盲测登顶第一
- Pg电子:人工智能销售与营销革命:迈向2028年的指南
- 营销策划方案范文8篇
- Pg电子网站:“一人公司”兴起小团队能否撬动大市场
- 共青团张掖市委召开2026年工作务虚会
- 「让大象跳舞」的人走了!苏姿丰曾当他助理库克曾给他打工
- Pg电子平台:湖南长沙雨花区:以赛为媒推动青年人才创新创业
- 平面设计创意方法有什么
- 视觉同盟的个人主页
邮箱:562301236@qq.com
手机:15800036256
电话:0757-81250125
地址:佛山市南海区大沥镇黄岐泌冲村南方制版厂对面自编1号
Pg电子:AI榜单“变天”了!马斯克发布Grok41盲测登顶第一
就在OpenAI发布GPT-5.1,大谈“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,火速加入了这场“AI体验”之战。
就在刚刚,xAI宣布推出Grok4.1,这是对现有Grok 4模型的重大升级,并已在X平台以及iOS和Android应用向所有用户全面开放。。官方宣称,新版本在创意表达、情感互动和协同交流方面表现尤为突出,并且出现幻觉的概率仅为此前模型的三分之一。
更引人注目的是,在一个公开的“盲测”竞技场(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜第一,甚至其“非推理”的快速模式,都击败了所有对手的“完整推理”模式。
这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛,又增添了浓重的火药味。
xAI本次发布了两个Grok 4.1模型:Grok 4.1(非推理模式)和Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制更少。
官方表示,新版本能更细致地理解隐含意图,与之对话引人入胜,也更能保持人设的一致性。
为了优化模型的风格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代模型的回答。
在11月1日至14日的“静默上线”期间,xAI在真实流量上进行了盲测式的成对比较评估,结果显示,在64.78%的情况下,用户更偏好Grok 4.1。
LMArena是一个开源工具,用户可以通过并排、盲测的方式,比较不同大语言模型的表现。在这个竞争最激烈的“斗兽场”里,Grok 4.1取得了惊人的成绩:
·Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型31分。
·Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),可立即生成回答,并以1465 Elo的成绩排名第二。
·更夸张的是,Grok 4.1的“非推理”模式表现,超过了所有其他模型在“完整推理模式”下的公开排行榜成绩。
·情绪智能(Emotional Intelligence)为评估模型在个性与人际互动方面的进展,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能方面的表现。
·创意写作能力(Creative Writing)xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。
快速响应模型在配备搜索工具后,虽然能迅速给出答案,但更容易出现事实性错误。
在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中的事实性“幻觉”。
根据xAI的说法,Grok 4.1出现幻觉的概率是此前模型的三分之一,这使其成为xAI迄今为止的最佳版本之一。
为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道关于人物传记问题的公开基准测试。
更重要的是,谷歌(Google)正在准备发布Gemini 3.0,这可能会成为迄今为止最强大的模型。
Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)
网友在福建农村偶遇15层自建房,惊叹“一家人给自己盖了个小区”,住户:近10年前家族合建,四世同堂住了百余人
靠“早C晚A”火出圈!HBN赴港递表,44%抖音平台复购率印证国民好感港E声
东北女生晒春运“出国回家”攻略:连飞俄罗斯两地再坐船回黑龙江,比直飞还便宜
马踏春归·雅韵二七丨2026新春文旅精品线年南宁市接待国内外游客近2亿人次,旅游总收入超2千亿元
- 上一篇:平面设计创意方法有什么
- 下一篇:元宇宙-OFweek新能源汽车网
-
2026-01-30元宇宙-OFweek新能源汽车网
-
2026-01-30Pg电子:AI榜单“变天”了!马斯克发布Grok41盲测登顶第一
-
2026-01-29平面设计创意方法有什么
-
2026-01-29视觉同盟的个人主页
-
2026-01-29蔚来招招招实习生啦!200天!节日福利周末双休!大厂实习机会
-
2026-01-29济南这所学校设计的保护生态海报超美!全部出自学生之手
