Dexter:为金融研究而生的自主 Agent

Dexter:为金融研究而生的自主 Agent

金融研究是一个天然适合 AI Agent 的领域——数据公开、步骤可结构化、输出是分析而非行动。但多数通用 Agent 在这个场景里会暴露两个问题:碰到的数据格式太多太杂,每步都要重新理解上下文;缺少金融领域的验证逻辑,把错误的数字放进正确的报告里。Dexter 是 virattt 开源的自主金融研究 Agent,24.5k stars,定位可以概括为”为金融研究定制的 Claude Code”。

它怎么工作

Dexter 把一个复杂金融问题拆成结构化的研究步骤,逐步执行——调收入表、拉资产负债表、读现金流,做完一步自己检查结果再决定下一步。不是简单的 ReAct 循环:它有任务规划层(把”分析苹果公司过去五年的盈利能力”分解成具体子任务),有工具执行层(调用 Financial Datasets API、Exa 搜索),有自我验证层(检查数据完整性和逻辑一致性)。每次调用的完整记录写进 scratchpad 文件,方便回调查错。底层的 LLM 可以换——OpenAI、Anthropic、Google、xAI 都支持,本地也能跑 Ollama。

不是 demo,能真用

安装就是 git clone + bun install + 配 API key(Financial Datasets、Exa、OpenAI),然后 bun start 进入交互模式。它还带一个完整的评测套件——LangSmith 追踪、LLM-as-judge 打分、可以按随机采样跑。WhatsApp gateway 让你在手机上和它聊天,发条消息给自己就能让 Dexter 去查数据。440 次提交、23 个 tag、每月还在加新工具——这不是一个周末项目,是一个在生产节奏里维护的开源系统。

Dexter 证明了 Agent 在垂直领域可以走多远——当通用 Agent 还在规划怎么写邮件时,它已经在分析苹果过去五年的自由现金流趋势了。

相关文章

Claude Code 2.1.136:当 AI Agent 的安全阈门从‘相信’变成‘验证’

Claude Code 2.1.136:当 AI Agent 的安全阈门从‘相信’变成‘验证’

你让 Claude Code 在 auto mode 下跑一个长任务,回来发现它把你的 AWS credentials 写进了日志文件。或者更糟:它在你没看到的一个弹窗里点了 "允许",然后把一个安全 ...

Agent 失败时:不会无限循环的恢复模式

Agent 的失败不抛异常。它们产出看起来合理但错误的输出,或者用稍微不同的方式悄悄重试同一个坏方法。把 Agent 包在 try/catch 里是错误的心智模型——Agent 没崩,它只是继续往一个 ...

没有标准答案的 Agent 怎么评测

评测一个 Prompt 已经很难。评测一个在给出答案前要跑十次工具调用的 Agent,是另一个量级的难。能产生正确答案的轨迹很少完全相同。能产生错误答案的轨迹常常一直看起来合理,直到第七步。标准的精确 ...

Agent 护栏:在不阉割 Agent 的前提下

给 Agent 加护栏属于那种简单版本太严苛、谨慎版本太宽松的任务。挡得太狠 Agent 拒绝完全合理的任务;挡得太松,新闻头条自己就写出来了。第一版要么是什么都不肯做的聊天机器人,要么是不该做那件事 ...

Agent Harness:为什么你的模型不是问题所在

LangChain 在 TerminalBench 2.0 上从 30 名开外飙到了第 5 名。他们没有换模型。同一个 LLM。同样的参数。唯一改变的是包裹在模型外面的那层软件——Harness。 ...

Planner-Executor 拆分:什么时候该拆,什么时候该合

第一天,让单个模型同时做规划和执行,看起来很优雅。三个月后,trace 日志会讲一个不同的故事:Prompt 里负责规划的那部分在工具调用上下文中开始漂移,负责执行的那部分开始幻觉出从未被规划过的步骤 ...

Postiz Agent CLI:把 28 个社交平台的发布权交给你的 AI

你写了一个能读 RSS、能总结论文、能生成配图的 AI Agent,结果发现最后一英里卡住了:它没法把内容发出去。 不是技术问题,是生态断层。大多数社交媒体平台只给人类设计 UI,API 文档散落在 ...

用经典编程规则喂饱你的 AI 编码 Agent

用经典编程规则喂饱你的 AI 编码 Agent

AI Coding Agent 写代码的速度远超人类,但它们不天然知道什么代码算是好代码。没有明确约束,Agent 产出的代码在 demo 里看起来功能完整,三个月后在维护追索里看起来一团乱——函数过 ...

工具选择:什么时候该模型挑,什么时候该你挑

会用工具的 Agent 在 demo 里看起来很有力,因为模型在选下一步做什么。它在生产里看起来很脆弱,因为模型在选下一步做什么。可用工具的空间随特性线性增长,随边界情况二次增长——超过大约十二个工具 ...

Claude Code 102 教给学术研究者的五件事

Claude Code 102 教给学术研究者的五件事

2026 年 5 月 11 日,Mushtaq Bilal, PhD 发布了《Claude Code 102 for Academic Researchers》,这是他教程系列的第二篇。第一篇 Cla ...

文件驱动的 Agent,不需要构建步骤

周五晚上还在排 pitch deck 格式的投行分析师,并没有在创造 alpha。他们在给数字画框——那些数字早就从 CapIQ 拉出来了,早就在模型里交叉验证过了,早就被 VP 批过了。横在数据和格 ...

OpenClaw 终于长出手和眼:Peekaboo v3

OpenClaw 终于长出手和眼:Peekaboo v3

OpenClaw 之前能接消息、能调 Agent、能把结果送到各个聊天渠道,但缺一双手和眼睛。Agent 在聊天框里给建议容易,要它实际操作桌面上的按钮、菜单、弹窗、输入框,之前没有可靠的本地执行层。 ...

Claude Code 之父:编程已死,loop 永生

Claude Code 之父:编程已死,loop 永生

一个人,一天提交 150 个 PR,全部用手机完成,一行代码都没亲手写。这个人是 Boris Cherny,Claude Code 的创造者。他在 Sequoia AI Ascent 2026 上聊了 ...