IPO前夕重磅发布，智谱GLM4.7旗舰大模型上线

访客 2025-12-23 16:08:05 29224 抢沙发

默认

在即将进行IPO之际，智谱公司发布了其旗舰大模型GLM4.7，这一版本的大模型在性能、功能和智能化方面进行了重大改进和升级，此次上线的新模型标志着智谱公司在人工智能领域的持续创新和领先地位，有望为行业和用户带来更高效、更智能的体验，即将进入资本市场的智谱公司，未来将继续加大研发投入，推动大模型的进一步发展和应用。

在推进IPO的关键节点，智谱AI正式上线并开源其最新旗舰模型GLM-4.7，新版本针对Coding场景着重强化了编码能力、长程任务规划与工具协同，标志着该公司技术产品线的又一次重要迭代。

12月23日，智谱正式上线并开源其最新旗舰模型GLM-4.7，在多项主流公开基准测试中，GLM-4.7展现了具有竞争力的性能，部分指标超越了目前市场的领先模型。数据显示，在全球百万用户参与盲测的专业编码评估系统Code Arena中，GLM-4.7位列开源第一、国产第一，并超越了GPT-5.2。同时，该模型在SWE-bench-Verified和LiveCodeBench V6等测试中均取得了开源SOTA（当前最佳）分数，对齐Claude Sonnet 4.5。

在架构上，GLM-4.7引入了“保留式思考”与“轮级思考”机制，显著提升了复杂任务的稳定性与可控性。在前端生成质量方面，模型对UI设计规范的理解得以增强，能够生成审美更佳的网页与PPT。目前，该模型已通过BigModel.cn提供API服务，并在z.ai全栈开发模式中上线Skills模块，支持多模态任务的统一规划。

此次更新标志着国产大模型在“思考”与“行动”协同能力上的进一步突破。随着Coding能力的增强，开发者能够更自然地以“任务交付”为核心组织开发流程，这一进展也被视为智谱在资本市场动作前夕展示技术肌肉的重要举措。

编码与推理能力刷新基准

根据公布的测试数据，GLM-4.7在编程和推理能力上实现了显著提升。在HLE（“人类最后的考试”）基准测试中，该模型获得42.8%的成绩，较上一代GLM-4.6提升41%，并超越了GPT-5.1。

在代码生成领域，GLM-4.7展现了在多语言编码方面的优势。具体评测数据包括：

SWE-bench-Verified：获得73.8%的开源SOTA分数。
LiveCodeBench V6：达到84.9%的开源SOTA分数，超过Claude Sonnet 4.5。
Terminal Bench 2.0：达到41%，提升幅度达16.5%。

IPO前夕重磅发布，智谱GLM4.7旗舰大模型上线

此外，在工具调用能力方面，GLM-4.7在τ²-Bench交互式工具调用评测中得分87.4分，刷新开源记录。

引入可控“思考”模型

为解决复杂任务中的稳定性问题，GLM-4.7强化了思考能力的可控进化，具体体现在三个维度：

交错式思考：模型在每次回答或工具调用前进行预先思考，以提升对复杂指令的遵循能力及代码生成质量。
保留式思考：支持在多轮对话中自动保留思考块，提升缓存命中率，从而降低长程任务的推理成本。
轮级思考：允许在该会话内按“轮”控制推理开销，简单任务关闭思考以降低时延，复杂任务开启思考以确保准确性。

这种机制使得GLM-4.7能够在Claude Code、TRAE、Kilo Code、Cline和Roo Code等主流编程框架中实现“先思考、再行动”的逻辑，在实际编程任务的稳定性和可交付性上优于前代版本。

前端审美与全栈交付

针对前端开发场景，GLM-4.7提升了对视觉代码的理解力。在实际应用中，模型能够更好地遵循UI设计规范，在布局结构、配色和谐度及组件样式上提供具备美感的默认方案，减少人工微调时间。

据官方演示，该模型在办公创作中的版式审美显著升级，PPT 16:9的适配率从52%跃升至91%，生成结果基本达到“即开即用”标准。

在实际案例演示中，GLM-4.7已能独立完成如“植物大战僵尸”、“水果忍者”等高交互小游戏的开发，显示出较强的任务拆解与技术栈整合能力。

市场反馈：性价比与实战表现

GLM-4.7上线后迅速引起了全球开发者社区的关注，用户反馈主要集中在其实际解决问题的能力与极高的性价比上。

在社交媒体上，网友Diego分享了使用GLM-4.7编写Python代码来可视化单行道红绿灯的案例，评价称结果“整体运行良好”，仅指出车辆颜色随红绿灯变化的细微瑕疵。

网友Alex Fazio则表示在WebDev Arena上的表现令其震惊，直言“GLM-4.7超越了GPT-5.2”。

价格策略也成为市场讨论的焦点。网友Bessi指出，订阅一年GLM-4.7的费用仅相当于Codex或Claude Code最高级计划一个月的价格，并认为这种极具竞争力的定价模式将对西方AI公司构成挑战，直言“无论你是否喜欢，这就是未来”。

针对模型进化速度，网友Chubby评论称，HLE基准测试原本被设计为极其复杂、难以在短期内拟合的最终测试，但业界在短短12个月内通过各类工具将成绩从8%（o1）提升至45.8%，GLM-4.7此次取得的突破表明技术迭代速度正“超出预期”。

标签：模型任务

文章版权及转载声明

作者:访客本文地址：https://www.nbdnews.com/post/8040.html发布于 2025-12-23 16:08:05
文章转载或复制请以超链接形式并注明出处NBD财经网

分享

发表评论取消回复

评论列表（暂无评论，29224人围观）参与讨论

还没有评论，来说两句吧...