从扣子到扣子空间：AI工具的能力边界与进化验证

Doudou Wu

May 05, 2025

作为字节跳动推出的 AI Agnet 平台，扣子（Coze）已经能实现炒股、订票、写代码等能力。这听起来很酷，但用过的朋友还是会吐槽：查财报数据有幻觉，规划行程不靠谱，生成的代码还得自己调试。

而他们最新推出的扣子空间（Coze Space）号称「智商飙升」，是真升级还是玩噱头？今天我们就用三个实战现场，实测新旧两代AI的差距——

金融分析案例：从「机械应答」到「交叉验证」

当传统工具（扣子）仍停留在关键词匹配时，扣子空间展现了新一代AI的数据治理意识：

旧版扣子（地狱模式）

我：“2024年宁德时代净利润多少？”
AI：“540.07亿！”（自信.jpg）
实际财报：“50,744,682千元（约507.4亿）”
我：连夜下载反诈APP

新版扣子空间（开挂模式）

黑科技1：财报PDF“扫描仪”
直接扒出财报PDF里标黄的表格数据，精确到小数点后两位
黑科技2：数据“大家来找茬”
每给一个数，自动对比交易所公告+行业数据库
"金融数据的准确性不是概率问题，而是责任问题"——华泰证券AI实验室负责人访谈

首先测试扣子的a股智能体“华泰股市助手”在数据准确性、逻辑合理性方面的表现，是否出现“幻觉”：

我们尝试提问华泰股市助手，关于宁德时代2024年的营业收入和净利润，以及市盈率，它给出的营业收入是正确的，但净利润是540.07亿元，而根据宁德时代2024财报，净利润应为507.4亿元，出现了明显的幻觉，市盈率更是直接回答无相关数据。

接着我们提问格力电器2023年分红方案以及股权登记日，华泰股市助手给出的股权登记日是2023年8月8日，但根据格力电器：2023年年度分红派息实施公告，本次权益分派股权登记日为2024 年 8 月 27 日，也是出现了明显的幻觉。

而扣子空间的回答非常专业和准确：

我们使用扣子空间发布的专家agent“华泰A股观察助手”，向它提问宁德时代2024年的营业收入和净利润，以及市盈率。可以看到净利润这里的数据是准确的，没有出现幻觉。

接着我们提问格力电器2023年分红方案以及股权登记日相关，华泰A股观察助手给出的股权登记日跟财报中的日期准确对应。

行程规划案例：从「线性响应」到「动态协商」

在扣子的测评中，我们尝试使用商店中的智能体来规划一个简单的行程：6月10日上午从北京飞上海，同日中午12点在上海参加展会，次日14点从杭州飞往成都，从机票到酒店都进行规划：

携程智能体：

我：“帮我查机票+酒店！”
它：“找不到！自己点链接吧”

旅行插件智能体：

行程倒是列了，但上海到杭州怎么去？
问就是“建议乘坐交通工具”，机票也无法查询信息，更不能订票。

自建智能体“行程规划精灵”：

终于知道要坐高铁了！但…查不到实时票务
最后交给我一份《如何手动订票指南》

扣子空间上场，画风突变

首先是自由度比较高的探索模式：

有清晰的航班列表，不过也同样没考虑到上海到杭州的行程，以及酒店住宿。

那如果使用规划模式会有哪些变化呢？在规划模式中，耗时15分钟左右，我们得到的回答逻辑很完整也很清晰，任务的完成度很高：

发现没合适航班，立刻问我：“下午3点的行不行？”
自动打包高铁票+放宽的航班+酒店list

既考虑到了上海到杭州的行程，又完成了机票和酒店的查询。

规划模式下，智能体在发现杭州到成都没有14点左右的航班的时候，还暂停任务问是否可以放宽时间范围。

最终得到的是一份详尽的文档，

还有每段行程的机票酒店信息整理成的文件：

这个案例中，扣子空间通过三层突破重构体验：

能力维度 扣子表现扣子空间解决方案 时空推理 忽略城市间交通耗时内置高铁时刻表知识图谱 失败处理 直接返回"无结果" 发起用户协商（案例：航班时间弹性调整） 输出形式 文本片段结构化文档+可操作文件包

典型交互进化：当杭州→成都直达航班缺失时，系统自动触发「备选方案生成协议」：

推荐联程方案（杭州→重庆→成都，总耗时+2h但节省¥300）
生成延误风险分析报告（基于历史准点率数据）

网页和应用开发案例：看不见的「代际鸿沟」

两款产品的表现差异本质是技术架构的质变。

我们尝试使用扣子的智能体来编写一个可以点击即玩的前端小游戏“俄罗斯方块”：

首先尝试一下9.5K使用次数的“前端大师”智能体，代码写的还是不错的，只是做不到点击即玩，还是需要我们自己来运行文件

然后构建一个专属的网页游戏智能体“网页游戏缔造者”，可以看到也是比较相似的，代码结构比较完整，只是需要我们自己来运行。

而当我们使用扣子空间的探索模式来编写时，得到的效果比较令人满意，而不是给我们几个文件来自己运行。

总结

实测扣子空间的三大反人类设计修复包：

1️⃣ 拒绝瞎编：

以前：宁德时代净利润AI随口多编32亿
现在：直接抓财报PDF，数字精确到小数点后两位

引入财报结构化解析模块与实时数据校验机制，抑制“幻觉”。

2️⃣ 会讨价还价：

以前：行程卡死就摆烂
现在：“航班没有？高铁行吗？时间改明天？”

通过探索模式与规划模式的双层架构，支持智能体在复杂场景中自主拆解子任务、调用多工具并动态纠偏。

3️⃣ 拒绝半成品：

以前：给段代码让你自己折腾
现在：点击直接开玩俄罗斯方块！小白友好度MAX

集成嵌入式代码执行环境，降低用户技术门槛。

这波升级，你打几分？ 反正我司实习生看完连夜申请预算——毕竟谁不想拥有一个会自我打脸的AI呢？

"最好的AI不是最聪明的，而是最懂进退的" —— 本次测评核心发现

DT News

Discussion about this post

Ready for more?