2023-2026.05 真实论文时间线复盘 如果你只看 pass@1,会觉得 RLVR 当然赢了;如果你把 pass@k、coverage、retention、steerability 一起放上来,结论就开始变复杂。 过去两年,后训练研究真正发生变化的,不是”谁更强”,而是”到底是谁在改模型的策略
https://mp.weixin.qq.com/s/88rTMq9zb5xRkbEEn78I-A?version=5.0.8.99856&platform=mac
介绍 1.1、Cortexa Cortexa 是一个面向企业生产环境的 RAG 知识平台,围绕三大核心能力构建: RAG 快速问答:适合日常知识查询,毫秒级返回带引用的答案 ReAct Agent 智能推理:自主编排知识检索、MCP 工具与网络搜索,完成复杂
在大模型领域里越来越火的技术——MoE(Mixture of Experts)。deepseekV
你问AI助手"我上周说的那个机器人项目进展怎么样了?",它回答"抱歉,我不太清楚您指的是哪个项目"。不是它不想帮你,是它真的忘了。ICLR 2026上,三篇论文同时出手,试图从根本上解决这个让所有Agent开发者头疼的问题。 一、为什么你的Agent总是"失忆"?三大病灶诊断
摘要:本文围绕智能体技能创建的最佳实践展开,核心是技能需基于领域专业知识和项目实际细节,而非大模型通用知识;通过实战对话沉淀、现有资产合成、多轮实战优化等路径创建,注重精简留白、合理设计范围与指令,同时通过触发测试、质量评估和脚本规范,形成从创建、优化到验证的完整闭环,确保技能实用、精准、可复用。
导语 如何自信地发布AI Agent?没有好的评估(Evals),团队很容易陷入"头痛医头、脚痛医脚"的被动循环——问题总是在生产环境中才暴露,修复一个bug又引发了新的问题。 评估的基本结构 任务(Task): 一个单独的测试,包含明确的输入和成功标准 尝试(Trial): 对一个任务的单次尝试。
综合对比 特性 Neo4j
随着 AI 编程工具从简单的代码补全进化为自主代理,我们正见证着“软件公司最小单位”的重写。单纯的“提示词工程”已不足以应对复杂的企业级开发,我们需要的是工程化的 AI 工作流。 本文将深入对比当前最热门的五款 AI 工程化框架:Superpowers、GStack、BMAD-METHOD、Spec