工具预置工具(模型测评)模型和工作流评测能力Copy MarkdownOpen模型测评 评测能力用于比较模型或工作流行为。当前生态中,评测界面位于 Studio,相关 API 位于 monkeys-server。 典型用途 比较 prompt、模型或工作流版本。 检查生成输出和执行日志。 在发布工作流变更前跟踪质量。 支持已启用的领域评测页面。 评测数据应作为应用生命周期的一部分,而不是部署后的补充步骤。预置工具(模型训练)模型训练服务和后台执行使用自定义工具将已有 API 导入为 Monkeys 工具