作为字节跳动推出的 AI Agnet 平台,扣子(Coze)已经能实现炒股、订票、写代码等能力。这听起来很酷,但用过的朋友还是会吐槽:查财报数据有幻觉,规划行程不靠谱,生成的代码还得自己调试。
而他们最新推出的扣子空间(Coze Space)号称「智商飙升」,是真升级还是玩噱头?今天我们就用三个实战现场,实测新旧两代AI的差距——
金融分析案例:从「机械应答」到「交叉验证」
当传统工具(扣子)仍停留在关键词匹配时,扣子空间展现了新一代AI的数据治理意识:
旧版扣子(地狱模式)
我:“2024年宁德时代净利润多少?”
AI:“540.07亿!”(自信.jpg)
实际财报:“50,744,682千元(约507.4亿)”
我:连夜下载反诈APP
新版扣子空间(开挂模式)
黑科技1:财报PDF“扫描仪”
直接扒出财报PDF里标黄的表格数据,精确到小数点后两位
黑科技2:数据“大家来找茬”
每给一个数,自动对比交易所公告+行业数据库
"金融数据的准确性不是概率问题,而是责任问题"——华泰证券AI实验室负责人访谈
首先测试扣子的a股智能体“华泰股市助手”在数据准确性、逻辑合理性方面的表现,是否出现“幻觉”:
我们尝试提问华泰股市助手,关于宁德时代2024年的营业收入和净利润,以及市盈率,它给出的营业收入是正确的,但净利润是540.07亿元,而根据宁德时代2024财报,净利润应为507.4亿元,出现了明显的幻觉,市盈率更是直接回答无相关数据。
接着我们提问格力电器2023年分红方案以及股权登记日,华泰股市助手给出的股权登记日是2023年8月8日,但根据格力电器:2023年年度分红派息实施公告,本次权益分派股权登记日为2024 年 8 月 27 日,也是出现了明显的幻觉。
而扣子空间的回答非常专业和准确:
我们使用扣子空间发布的专家agent“华泰A股观察助手”,向它提问宁德时代2024年的营业收入和净利润,以及市盈率。可以看到净利润这里的数据是准确的,没有出现幻觉。
接着我们提问格力电器2023年分红方案以及股权登记日相关,华泰A股观察助手给出的股权登记日跟财报中的日期准确对应。
行程规划案例:从「线性响应」到「动态协商」
在扣子的测评中,我们尝试使用商店中的智能体来规划一个简单的行程:6月10日上午从北京飞上海,同日中午12点在上海参加展会,次日14点从杭州飞往成都,从机票到酒店都进行规划:
携程智能体:
我:“帮我查机票+酒店!”
它:“找不到!自己点链接吧”
旅行插件智能体:
行程倒是列了,但上海到杭州怎么去?
问就是“建议乘坐交通工具”,机票也无法查询信息,更不能订票。
自建智能体“行程规划精灵”:
终于知道要坐高铁了!但…查不到实时票务
最后交给我一份《如何手动订票指南》
扣子空间上场,画风突变
首先是自由度比较高的探索模式:
有清晰的航班列表,不过也同样没考虑到上海到杭州的行程,以及酒店住宿。
那如果使用规划模式会有哪些变化呢?在规划模式中,耗时15分钟左右,我们得到的回答逻辑很完整也很清晰,任务的完成度很高:
发现没合适航班,立刻问我:“下午3点的行不行?”
自动打包高铁票+放宽的航班+酒店list
既考虑到了上海到杭州的行程,又完成了机票和酒店的查询。
规划模式下,智能体在发现杭州到成都没有14点左右的航班的时候,还暂停任务问是否可以放宽时间范围。
最终得到的是一份详尽的文档,
还有每段行程的机票酒店信息整理成的文件:
这个案例中,扣子空间通过三层突破重构体验:
能力维度 扣子表现 扣子空间解决方案 时空推理 忽略城市间交通耗时 内置高铁时刻表知识图谱 失败处理 直接返回"无结果" 发起用户协商(案例:航班时间弹性调整) 输出形式 文本片段 结构化文档+可操作文件包
典型交互进化: 当杭州→成都直达航班缺失时,系统自动触发「备选方案生成协议」:
推荐联程方案(杭州→重庆→成都,总耗时+2h但节省¥300)
生成延误风险分析报告(基于历史准点率数据)
网页和应用开发案例:看不见的「代际鸿沟」
两款产品的表现差异本质是技术架构的质变。
我们尝试使用扣子的智能体来编写一个可以点击即玩的前端小游戏“俄罗斯方块”:
首先尝试一下9.5K使用次数的“前端大师”智能体,代码写的还是不错的,只是做不到点击即玩,还是需要我们自己来运行文件
然后构建一个专属的网页游戏智能体“网页游戏缔造者”,可以看到也是比较相似的,代码结构比较完整,只是需要我们自己来运行。
而当我们使用扣子空间的探索模式来编写时,得到的效果比较令人满意,而不是给我们几个文件来自己运行。
总结
实测扣子空间的三大反人类设计修复包:
1️⃣ 拒绝瞎编:
以前:宁德时代净利润AI随口多编32亿
现在:直接抓财报PDF,数字精确到小数点后两位
引入财报结构化解析模块与实时数据校验机制,抑制“幻觉”。
2️⃣ 会讨价还价:
以前:行程卡死就摆烂
现在:“航班没有?高铁行吗?时间改明天?”
通过探索模式与规划模式的双层架构,支持智能体在复杂场景中自主拆解子任务、调用多工具并动态纠偏。
3️⃣ 拒绝半成品:
以前:给段代码让你自己折腾
现在:点击直接开玩俄罗斯方块!小白友好度MAX
集成嵌入式代码执行环境,降低用户技术门槛。
这波升级,你打几分? 反正我司实习生看完连夜申请预算——毕竟谁不想拥有一个会自我打脸的AI呢?
"最好的AI不是最聪明的,而是最懂进退的" —— 本次测评核心发现