Monkeys
工具

预置工具(模型测评)

模型和工作流评测能力

模型测评

评测能力用于比较模型或工作流行为。当前生态中,评测界面位于 Studio,相关 API 位于 monkeys-server

典型用途

  • 比较 prompt、模型或工作流版本。
  • 检查生成输出和执行日志。
  • 在发布工作流变更前跟踪质量。
  • 支持已启用的领域评测页面。

评测数据应作为应用生命周期的一部分,而不是部署后的补充步骤。

本页目录