GitHub 原文

任务中心

任务中心用于查看后台任务的排队、运行、失败、完成和恢复状态。长时间 AI 任务不一定会在当前页面完成,任务中心可以帮助你确认真实进度。

任务中心界面截图

什么时候打开

  • 生成、拆书、知识库索引或自动导演任务运行时间较长。
  • 页面提示任务失败、等待恢复或没有响应。
  • 想查看任务是否仍在后台执行。
  • 需要取消、重试或回到关联入口。

遇到“好像没反应”时,先看任务中心。很多长任务会继续运行,不一定是失败。

任务状态怎么看

常见状态可以这样理解:

  • 排队:任务已创建,等待执行资源。
  • 运行中:后台正在调用模型、处理资料或写入结果。
  • 完成:任务结果已保存,可以回到相关模块查看。
  • 失败:执行过程中出现错误,需要阅读失败原因。
  • 等待恢复:任务链需要你确认下一步或从恢复入口继续。
  • 取消:任务被用户或系统停止。

如果状态没有及时刷新,可以先刷新页面,再查看关联模块。

失败诊断

失败后先看三类信息:

  1. 任务类型:开书、章节、拆书、知识库还是图片生成。
  2. 错误来源:模型、网络、数据、结构化输出还是运行时异常。
  3. 可用结果:是否生成了正文、分析结果或部分资产。

处理建议:

  • 模型或网络临时错误:重试。
  • 结构化输出失败:换更稳定模型或调整模型路由。
  • 缺少基础数据:回到小说页补信息。
  • 已有可用正文但审核不完美:记录质量债务,继续后续章节。
  • 明确要求重新规划:回到导演跟进处理。

重试策略

重试前先确认任务没有仍在运行。对同一个阶段重复触发多次,可能造成状态难以判断。

推荐策略:

  • 临时供应商错误:可直接重试。
  • 连续格式错误:换模型后重试。
  • 章节质量问题:先看是否能局部修复。
  • 知识库索引失败:确认 Qdrant 和文件状态后重试。
  • 自动导演停住:先看导演跟进,不要只在任务中心反复重试。

和创作主链的关系

任务中心不决定一本书下一步写什么,它负责呈现事实状态。下一步创作动作通常在小说页、创作中枢或导演跟进完成。

你可以按这个顺序排查:

  1. 任务中心确认任务状态。
  2. 导演跟进理解链路位置。
  3. 小说页或创作中枢继续执行。

使用建议

养成两个习惯:

  • 发起长任务后,遇到等待先看任务中心。
  • 失败后先读错误信息,再决定重试、恢复或重新规划。

任务中心能减少重复点击和盲目重跑,是排查长链路问题的第一入口。

DirectorRunCommand 队列模型

自动导演的后台动作会写入 DirectorRunCommand 队列,再由 DirectorWorker 执行。

状态含义用户看到什么
queued命令已入队,等待 worker 租约任务排队或等待执行。
leasedworker 已领取命令,还没正式运行短暂状态,通常很快进入运行。
runningworker 正在执行命令并续租任务运行中。
succeeded命令完成任务结果可查看。
failed命令失败任务中心显示错误。
staleworker 租约过期,需恢复等待自动恢复或手动恢复。
cancelled命令取消用户或系统取消。

常见命令类型包括 generate_candidatesconfirm_candidatecontinueresume_from_checkpointretrytakeoverapprove_gaterepair_chapter_titles

DirectorWorker 如何执行

DirectorWorker 会:

  1. 从队列领取最早可运行命令。
  2. 给命令写入租约和 worker owner。
  3. 获取 ResourceGate。
  4. 标记 running。
  5. 执行对应命令。
  6. 成功、失败、取消或释放资源。
  7. 定期续租,避免长任务被误判为 stale。

这意味着你可以离开当前页面,后台仍会继续运行;但也意味着重复点击同一个入口可能排出多个命令。

ResourceGate 并发上限

ResourceGate 按“小说 + 资源类型”限流。默认资源类型包括:

resource class默认槽位典型任务
planner2候选、规划、卷战略、拆章
writer2正文生成
repair2章节修复、质量修复
state_resolution2状态提交、角色资源同步

另外,节奏板、章节清单、章节细化、章节同步属于高内存自动导演阶段。同一本书同范围通常只允许一个高内存任务,避免批量拆章互相覆盖。

[!WARN] 不要重复启动同范围任务

如果提示已有自动导演任务正在处理同一范围,先打开任务中心查看进度。重复启动可能让你难以判断哪个任务写入了最终结果。

stale 任务恢复

stale 表示 worker 租约过期。常见原因:

  • 应用或服务重启。
  • 后台进程退出。
  • 长任务运行时间超过租约且续租失败。
  • 本机休眠或网络中断。

系统会区分自动恢复和手动恢复:

情况行为
全书自动执行、continueresume_from_checkpoint 且尝试次数未超限自动回到 queued,继续执行。
尝试次数超限或命令不适合自动恢复标记 stale,任务进入等待恢复。
用户点击恢复从最近 checkpoint 或命令 payload 继续。

重试、恢复、重启区别

操作适合情况会不会改变产物
重试同一命令临时失败通常只重跑失败命令。
恢复stale、等待确认、checkpoint从已保存进度继续。
重新生成当前阶段结果不满意可能覆盖目标阶段产物。
重规划上游目标改变或质量要求明确会影响后续阶段。

任务中心里的“重试”解决的是后台命令失败;导演跟进里的“继续/恢复”解决的是主链停在哪个 checkpoint。

与导演跟进协作

推荐排查顺序:

  1. 任务中心确认命令是否还在运行。
  2. 如果是 waiting approval,进入导演跟进处理 checkpoint。
  3. 如果是 failed,先读错误信息,再决定重试还是回上游阶段。
  4. 如果是 stale,优先使用恢复入口。
  5. 如果章节已有正文但状态同步失败,优先重试同步,不要直接重写正文。

任务中心给出事实;导演跟进给出下一步。