L2: 提示词进化
L2 以中等频率运行,精炼 Agent 的系统提示词。它分析对话质量指标并提出提示词修改建议,通过 A/B 测试框架在永久采用前进行验证。
概述
L2 进化处理:
- 系统提示词精炼 -- 提高指令清晰度和任务覆盖面
- 人格调优 -- 调整语调、详细程度和沟通风格
- 工具使用说明 -- 优化向 LLM 描述工具的方式
- A/B 测试 -- 在推广前统计验证提示词变更
A/B 测试框架
当提出提示词修改时,L2 在可配置的评估期内并行运行原始和修改后的提示词:
- 分流 -- 在原始和候选提示词之间交替
- 收集指标 -- 追踪任务完成率、用户满意度、工具使用效率
- 统计检验 -- 应用显著性检验确定优胜者
- 推广或回滚 -- 采用优胜者或保留原始版本
配置
toml
[self_evolution.l2]
enabled = false
schedule = "weekly"
min_samples = 50
confidence_level = 0.95
max_concurrent_experiments = 2