构建 Synapse:面向领域特定 AI 系统的多模型架构
我们如何构建了一个生产系统,用于协调专业模型、前沿大型语言模型和营销工作流中的人类专家
“一刀切”式 AI 的问题
当我们开始构建 Averi 时,我们遇到了每个 AI 应用团队都会遇到的同样问题:通用基础模型在广泛推理方面表现出色,但在领域特定的一致性和判断力方面却力不从心。
具体到营销领域,我们需要能够做到以下几点的系统:
- 在数百个资产中保持品牌声调一致
- 了解何时一项任务需要 30 秒的生成时间,何时需要 30 分钟的战略思考时间
- 判断何时真正需要人类专业知识(并无缝地将其路由过去)
在对 GPT-4 进行数月过度提示并构建日益复杂的 RAG 系统后,我们意识到我们需要一种根本不同的方法:一个多模型编排系统,将不同的 AI 能力(以及人类)视为一个更大认知架构中的专业组件。
那个系统就是 Synapse。
架构概览:作为认知模块的“皮质”
Synapse 的设计并非基于一个庞大的模型,而是围绕五个专门的“皮质”——每个皮质处理一种独特的认知功能:
User Input → Brief Cortex → Strategic Cortex → Creative Cortex → Performance Cortex
↓
Human Cortex (when needed)
简报皮质:将模糊的自然语言解析为结构化的营销意图 策略皮质:使用领域知识将目标映射到营销活动框架 创意皮质:生成跨格式和渠道的品牌一致内容 绩效皮质:注入历史数据和优化洞察 人类皮质:将高风险或细致入微的工作路由给经过验证的专家
每个皮质都可以独立运行或按顺序运行,由 Synapse 的路由器根据任务复杂度和要求确定最佳路径。
AGM-2:我们的营销专用基础模型
该系统的核心是 AGM-2,一个专门针对营销数据训练的 130 亿参数模型。
训练语料库:约 200 万份文档,包括:
- 品牌定位框架和消息架构
- 跨渠道(Meta、Google、LinkedIn)经过转化测试的广告文案
- 带有绩效数据的电子邮件序列
- 带有 A/B 测试结果的着陆页文案
- 内容日历和营销活动规划文档
关键技术决策:
- 中等规模设计:130 亿参数,在保持质量的同时实现更快的推理速度
- 领域特定分词:营销术语的自定义词汇表
- 性能加权训练:对具有验证转化数据的内容给予更高的权重
- 多格式训练:原生理解电子邮件、广告、社交帖子和长篇内容
与平等对待所有文本的通用模型不同,AGM-2 理解营销内容的功能作用——它知道宣传阶段的博客内容与漏斗底部的销售文案之间的区别。
自适应推理:动态认知深度
我们最大的突破之一是解决了“认知努力”问题。大多数 AI 系统无论您是要求修改标题还是制定完整的 GTM 策略,都会应用相同的处理能力。
Synapse 的自适应推理从两个维度评估每个输入:
1. 复杂度评估引擎
- 基于 LLM 的分类器:训练用于识别任务复杂性模式
- 启发式评分:关键词分析、输入长度、歧义标记
- 历史相似性:与以前成功的任务模式进行比较
2. 推理深度分层
根据复杂度评估,任务被路由到以下三个处理层之一:
快速模式(< 2 秒)
- 基于模板的响应
- 简单的重写和格式化
- 有明确答案的事实查询
标准模式(5-15 秒)
- 结构化内容生成
- 使用模板进行营销活动规划
- 性能优化建议
深度模式(30+ 秒)
- 多步骤战略推理
- 跨渠道营销活动编排
- 必要时激活人类专家
这种方法减少了简单任务的计算浪费,同时确保复杂工作获得适当的认知资源。
人类皮层:程序化专家集成
Synapse 最具争议的方面可能是人类皮层——我们认为生产 AI 系统需要无缝的人机集成,而不仅仅是人工监督。
专家匹配算法:
def route_to_human(task_complexity, domain_expertise_required, urgency, budget):
if task_complexity > DEEP_THRESHOLD:
expert_pool = filter_experts(domain=domain_expertise_required)
return match_expert(expert_pool, availability=urgency, cost=budget)
return None
何时激活人类路由:
- 新产品发布的品牌信息
- 危机沟通规划
- 复杂的多渠道归因分析
- 需要文化细微差别的创意概念
系统会跟踪协作模式以改进未来的路由——学习哪种专家类型最适合特定任务类别和用户偏好。
生产性能与学习成果
6 个月后的指标:
- 响应质量:与 GPT-4 基线相比,品牌一致性评分提高 23%
- 速度:复杂多资产营销活动的平均时间为 72 小时(传统方式为 2-3 周)
- 成本效率:通过智能路由,人工专家工时减少 67%
- 用户满意度:多皮层输出的平均评分为 4.8/5
关键技术学习:
领域特定训练数据的质量比数量更重要
- 200 万份高质量营销文档的性能优于 1000 万+通用网络内容
- 经过性能标注的训练数据显著提高了输出相关性
多模型路由减少了单点故障
- 当 AGM-2 在创意任务上遇到困难时,GPT-4 能很好地处理它们
- 当前沿模型对营销指标产生幻觉时,AGM-2 的领域知识会进行纠正
自适应推理可防止过度工程
- 73% 的任务在快速模式下成功完成
- 深度模式的使用与复杂任务的用户满意度高度相关
人机集成需要从第一天就开始进行架构规划
- 附加的人工审查不起作用——集成必须是系统固有的
- 专家反馈循环会随着时间的推移显著提高模型性能
技术挑战与解决方案
内存架构
挑战:上下文窗口限制了长期品牌一致性 解决方案:分层内存系统(短期/长期/归档),功能类似于操作系统内存管理
模型协调
挑战:防止流水线中不同模型之间的冲突 解决方案:带有明确上下文传递的结构化交接协议(皮层之间)
质量保证
挑战:在多个模型和人类之间保持输出质量 解决方案:自动化质量评分 + 针对高风险内容触发专家审查
延迟优化
挑战:多模型路由增加了响应时间 解决方案:尽可能并行处理 + 常见模式的智能缓存
开放问题与未来方向
致研究社区:
- 领域特定编排的最佳架构:我们基于皮层的方法是否具有通用性?
- 大规模人机协作:在有 100 多位专家参与的情况下,如何保持质量?
- 多模型评估:标准基准无法衡量编排质量——我们应该衡量什么?
技术路线图:
- 皮层特化:为每个皮层训练领域特定的路由模型
- 联邦学习:使 AGM-2 能够在不损害隐私的情况下从专家反馈中学习
- 实时自适应:根据用户成功模式动态调整模型权重
资源
虽然 Synapse 本身是专有产品,但我们正在开源一些组件:
- 自适应推理分类器:训练脚本和模型权重
- 多模型路由框架:基本编排模式
- 营销评估基准:领域特定测试套件
了解更多:[https://www.averi.ai/blog/introducing-synapse-from-averi]
试用 Synapse:[https://www.averi.ai/demo-sign-up]
结论
Synapse 代表了我们的一个论点,即未来 AI 应用并非关乎构建更大的基础模型,而是关乎构建更智能的编排系统,这些系统将专用模型、前沿功能和人类专业知识相结合。
对于领域特定应用,我们相信在可预见的未来,将人类视为一流认知组件的混合架构将优于纯粹的 AI 系统。
问题不在于 AI 是否会取代人类专业知识,而在于我们如何构建能够同时放大两者优势的系统。
您对多模型编排有何看法?您是否正在研究类似的领域特定架构?我们很乐意与其他正在拓展生产 AI 系统边界的团队建立联系。
- 扎克·施梅尔,Averi 营销主管