kf-v1 / prompts.txt
toughhou's picture
Add 3 files
c3c9c12 verified
请帮忙完成下面的产品的开发,要求:生成完整版本。 # 知识工厂 - 产品需求文档 (PRD) ## 1. 产品目标与定位 ### 1.1 产品定位 知识工厂是一个端到端的知识处理平台,旨在帮助企业实现从原始文档到结构化知识的高效转化和管理,提升知识资产的价值和可用性。 ## 3. 功能详细说明 ### 3.1 统一术语定义 | 术语 | 定义 | | :------------- | :------------------------------------------------------------------- | | 源文件 | 输入到系统的原始文档,包括 PDF、PPT、TXT、Markdown、PNG 等格式 | | **文档理解器配置** | **指向外部文档处理服务 API 的配置信息,包含 URL、认证方式等** | | 解析结果 | 调用外部文档理解器 API 后,系统获取并标准化处理后的 Markdown 格式输出 | | **知识提取器配置** | **指向外部知识提取服务 API 的配置信息,包含 URL、认证方式等** | | 知识条目 | 调用外部知识提取器 API 后,系统获取并映射到内部标准结构的结构化知识单元(JSON) | | 知识库 | 存储和管理知识条目的集合,具有特定业务属性 | | 审核知识 | 经过人工审核流程(通过/不通过)的知识条目 | | 入库知识 | 已通过审核并添加到指定知识库的知识条目,具有“未上架”、“已上架”、“已下架”等状态 | ### 3.2 文档理解器管理 #### 3.2.1 功能描述 文档理解器在本系统中**代表一个外部的文档处理服务接口配置**。系统负责管理这些配置,并在处理文档时调用相应的外部 API,将返回结果(如 Markdown)标准化,为后续知识提取提供输入。 #### 3.2.2 详细需求 1. **理解器配置管理 (需要专门的管理页面)** * **创建文档理解器配置**: 配置名称、描述、**处理接口 URL (指向外部文档处理服务的 API 端点)**、必要的认证信息(如 API Key、请求头)、以及接口的预期输入输出规范(如支持的文件类型、请求体格式、预期响应格式)。记录创建人信息。 * 查看、更新和删除已有文档理解器配置。 * 支持对理解器配置进行**在线测试**: 上传一个样本文件,系统调用配置的外部 API,并显示调用是否成功及返回结果,以验证配置的正确性。 * **UI 需求**: 提供专门的“文档理解器管理”页面,允许用户执行上述创建、查看、编辑、删除和测试配置的操作。 2. **文件处理功能** * 支持 PDF、PPT、TXT、Markdown、PNG 等格式源文件的上传。 * 支持单个或批量上传文件,并在上传后**选择一个已配置的文档理解器**进行处理。 * **调用外部 API**: 提交处理请求后,系统后台异步**调用所选理解器配置中指定的外部 API**,并将源文件内容或引用传递给该 API。 * 并行处理多个调用任务,显示实时处理进度(调用中、调用成功、调用失败)。 * **结果标准化**: 系统接收外部 API 的返回结果,并将其处理/转换为标准化的 Markdown 格式解析结果。一个源文件对应一个解析结果。 * **UI 需求**: 在文档列表或上传界面,提供选择已配置理解器并提交处理的功能。 3. **处理状态和日志** * 实时显示对外部 API 的调用状态和系统内部处理进度(待处理、调用中、处理完成、处理失败)。 * 提供详细处理日志查询,包括输入文件名、选择的理解器配置、**调用外部 API 的时间、请求参数、响应状态码、部分响应内容或错误信息**、系统内部处理耗时等。 * 支持对调用失败的任务进行重试操作。 * **UI 需求**: 在任务列表或文档详情中展示处理状态和日志信息,并提供重试按钮。 #### 3.2.3 用户权限 * 知识工程师:完整配置管理权限(创建、配置、测试、使用)。 * 知识审核员和管理员:查看和使用权限(选择已配置的理解器处理文档)。 ### 3.3 知识提取器管理 #### 3.3.1 功能描述 知识提取器在本系统中**代表一个外部的知识提取服务接口配置**。系统负责管理这些配置,并在需要时调用相应的外部 API,从输入的文本(如文档理解器生成的 Markdown)中提取结构化的知识条目。 #### 3.3.2 详细需求 1. **提取器配置管理 (需要专门的管理页面)** * 创建知识提取器配置:配置名称、描述、**接口地址 URL (指向外部知识提取服务的 API 端点)**、必要的认证信息、接口的预期输入输出规范(如输入文本格式、预期返回的知识条目 JSON 结构)。记录创建人信息。 * 查看、更新和删除已有知识提取器配置。 * 支持对提取器配置进行**在线测试**: 输入一段样本文本,系统调用配置的外部 API,并显示调用是否成功及返回的知识条目(或错误信息),以验证配置正确性。 * **UI 需求**: 提供专门的“知识提取器管理”页面,允许用户执行上述创建、查看、编辑、删除和测试配置的操作。 2. **知识结构定义** * 定义系统内部存储知识条目的标准结构:知识 ID、标题、内容、摘要、关键点、二级分类、来源文件、提取时间等。**系统需要能解析和映射外部 API 返回的结果到这个内部标准结构**。 * 支持配置内部字段是否必填、字段最大长度等基本约束,用于验证映射后的数据。 #### 3.3.3 用户权限 * 知识工程师:完整配置管理权限(创建、配置、测试、使用)。 * 知识审核员和管理员:查看和使用权限(在知识加工任务中选择已配置的提取器)。 ### 3.4 知识加工任务 #### 3.4.1 功能描述 知识加工任务是一个**编排和监控**功能,允许用户将文档理解(调用外部 API)和知识提取(调用外部 API)串联起来,实现从源文件到知识条目的端到端自动化处理。 #### 3.4.2 详细需求 1. **任务创建与配置 (需要专门的任务创建页面)** * **创建新任务**: 提供专门的页面或表单来创建知识加工任务。 * 上传一个或多个源文件(支持批量上传)。 * **选择文档理解器配置**: 从已配置的理解器列表中选择一个(指向外部 API)。 * **选择知识提取器配置**: 从已配置的提取器列表中选择一个(指向外部 API)。 * **指定输出目录 (逻辑)**: 用户可以指定一个逻辑上的输出标识或关联到某个项目/批次,便于后续查找和管理(后端实现上可能仍是将结果关联到任务或源文档 ID)。 * 提交任务,后台**异步编排**处理流程。 * **UI 需求**: 需要专门的“创建知识加工任务”页面,包含文件上传、选择器配置下拉列表、输出标识输入等控件。 2. **任务监控与管理 (需要专门的任务列表和详情页面)** * 显示任务列表,包含任务名称、状态、创建时间、进度等。 * 显示任务整体进度和状态(排队中、文档理解中、知识提取中、已完成、失败)。 * 提供任务详情,展示各环节的处理状态和耗时(调用文档理解 API 状态/耗时、调用知识提取 API 状态/耗时)。 * 查询处理日志,包括任务配置、各阶段对外部 API 的**调用详情(请求、响应状态、错误)**、系统内部处理信息。 * 支持中止运行中的任务(需要尝试取消后台的异步编排)或删除已完成/失败的任务记录。 * **UI 需求**: 需要任务列表页面(支持筛选、排序)和任务详情页面来展示上述监控信息和日志,并提供中止/删除操作按钮。 3. **结果管理** * 任务完成后,从该任务关联的源文件提取的知识条目应该可以被方便地查看。 * 知识条目以内部标准 JSON 格式存储在数据库中,初始状态为"**未审核**"。 * 支持在任务详情页面或专门的结果页面**在线预览**该任务生成的知识条目内容,前端能根据 JSON 数据自适应地展示。 * 提供将任务生成的知识条目进行批量导出的功能。 * **UI 需求**: 在任务详情页或结果页提供知识条目列表和预览功能,以及导出按钮。 #### 3.4.3 处理流程 (系统编排) 1. 用户通过 UI 创建并提交知识加工任务。 2. 后台任务调度器接收任务。 3. **步骤 1**: 调用选定文档理解器配置对应的**外部 API** 处理源文件。 4. 获取并标准化解析结果 (Markdown)。 5. **步骤 2**: 调用选定知识提取器配置对应的**外部 API** 处理上一步的解析结果。 6. 获取知识条目结果,映射到内部标准结构,并存入数据库(状态:**未审核**)。 7. 更新任务状态和进度。 8. 记录各步骤日志。 #### 3.4.4 用户权限 * 知识工程师和知识管理员:完整权限(创建、监控、管理任务)。 * 知识审核员:查看任务列表和结果的权限。 ### 3.5 知识审核 #### 3.5.1 功能描述 知识审核模块提供对**知识提取器(外部 API)生成**的知识条目的质量控制机制,确保入库知识满足质量标准。 #### 3.5.2 详细需求 1. **审核操作** * 支持对单个或批量知识条目进行审核。 * 提供批量选中或全选功能,支持批量审核通过。 * 审核操作包括:通过、不通过(需填写原因)。 * 审核结果影响知识状态:未审核 → 已审核(通过/不通过)。 2. **审核界面 (需要专门的审核页面/工作台)** * 提供清晰直观的审核工作台页面。 * 显示状态为“**未审核**”的知识条目列表,支持按来源任务、时间等进行筛选、排序和搜索。 * 知识内容预览功能,包括标题、内容、摘要、关键点等字段,前端能根据 JSON 数据自适应地展示。 * 提供审核操作按钮(通过、不通过)和填写不通过原因的输入框。 * **UI 需求**: **必须提供**专门的“知识审核”页面来实现上述功能。 3. **审核日志** * 记录所有审核操作(审核人、审核时间、审核结果、原因等),应使用 `AuditLog` 模型或类似机制。 * 提供审核历史查询功能。 * 支持按知识条目、审核批次、审核人等维度查询。 * **UI 需求**: 在审核页面或独立的日志查询页面提供审核历史查看功能。 #### 3.5.3 用户权限 * 知识审核员:完整审核权限。 * 知识管理员:查看和有限审核权限。 * 知识工程师:查看权限。 ### 3.6 知识库管理 #### 3.6.1 功能描述 知识库管理模块负责知识库的创建和维护,以及将**审核通过**的知识条目进行入库、查询和生命周期管理(上架/下架等)。 #### 3.6.2 详细需求 1. **知识库管理 (需要专门的管理页面)** * 创建知识库,配置知识库元信息:名称、渠道、业务属主、描述等。 * 查看、更新和下架知识库(逻辑删除或状态变更)。 * 配置知识库访问权限和使用范围。 * **UI 需求**: 提供“知识库管理”页面执行上述操作。 2. **知识入库管理 (需要在审核页面或专门的入库页面支持)** * 将状态为“**已审核(通过)**”的知识添加到指定的知识库。 * 支持从知识审核列表或知识条目搜索结果中**选择一个或多个审核通过的知识条目**。 * 提供**选择目标知识库**的功能。 * 提交入库请求后,系统处理入库逻辑(创建 `KnowledgeBaseItem` 关联记录),并将这些知识条目在知识库中的状态标记为“**未上架**”。 * **UI 需求**: 在审核页面提供“添加到知识库”的批量操作按钮,或者提供单独的“知识入库”页面,允许用户筛选审核通过的知识并将其添加到选定知识库。 3. **知识生命周期管理 (需要在知识库详情页面或专门的页面支持)** * **知识上架**: * 选择状态为“**未上架**”的入库知识(单条或批量)。 * 执行上架操作。 * 系统**调用外部接口**(例如,配置好的推送到 Elasticsearch、向量库的 API)处理上架。 * 上架成功后,将知识状态更新为“**已上架**”。 * 记录上架日志。 * **知识下架**: * 选择状态为“**已上架**”的入库知识(单条或批量)。 * 执行下架操作。 * 系统**调用外部接口**从 Elasticsearch、向量库中删除或标记知识。 * 下架成功后,将知识状态更新为“**已下架**”。 * 记录下架日志。 * 支持单条或批量设置知识有效期(默认长期有效),需要数据库模型支持有效期字段。 * 支持基于多个条件(状态、来源、时间等)对知识库中的知识进行筛选,执行批量上架、下架、删除(从知识库移除关联或彻底删除知识条目)操作。 * **UI 需求**: 在知识库内容列表页面提供筛选功能和批量操作按钮(上架、下架、设置有效期、移除等)。 4. **知识库查询与统计 (需要在知识库页面和仪表板支持)** * 提供知识库内容查询功能,支持多维度筛选和搜索(需要与上架到的外部系统如 ES 集成)。 * 提供知识库统计功能:知识总量、有效知识数、各状态(未上架/已上架/已下架)知识数量等。 * 支持知识使用情况分析:访问频率、命中率等(依赖外部系统数据)。 * **UI 需求**: 知识库列表和详情页应展示统计信息。可能需要专门的仪表板展示全局或单个知识库的统计与分析数据。 #### 3.6.3 知识库元信息 * 知识库 ID(自动生成) * 知识库名称 * 渠道 * 业务属主 * 描述 * 创建时间 * 更新时间 * 状态(活跃/下架) #### 3.6.4 入库知识结构 入库知识包含以下字段: * 知识 ID * 标题 * 内容 * 摘要 * 关键点(单个文本字段,非列表) * 二级分类 * 知识库 ID * **状态(未上架/已上架/已下架)** * **有效期(默认永久)** * 来源文件 * 提取时间 * 入库时间 * 上架时间 * 下架时间 #### 3.6.5 用户权限 * 知识库管理员:完整权限。 * 知识工程师和审核员:查看权限。 ## 4. 用户流程图(业务闭环) ### 4.1 文档理解流程 (调用外部 API) ```mermaid graph LR A[用户在 UI 上传源文件] --> B(用户在 UI 选择文档理解器配置); B --> C(用户在 UI 提交处理); C --> D{系统后台异步调用外部 API}; D --> E[系统获取并标准化解析结果]; E --> F(用户在 UI 查看处理日志和结果); ``` ### 4.2 知识提取流程 (调用外部 API) ```mermaid graph LR A[用户在 UI 选择解析结果] --> B(用户在 UI 选择知识提取器配置); B --> C(用户在 UI 提交处理); C --> D{系统后台异步调用外部 API}; D --> E[系统获取并映射知识条目]; E --> F(用户在 UI 查看处理日志和知识条目<br/>状态: 未审核); ``` ### 4.3 知识加工任务流程(端到端编排) ```mermaid graph LR A[用户在 UI 上传源文件] --> B(用户在 UI 选择文档理解器配置); B --> C(用户在 UI 选择知识提取器配置); C --> D(用户在 UI 指定输出目录/标识); D --> E(用户在 UI 提交任务); E --> F{系统后台异步编排处理}; F -- 调用外部理解API --> G[获取解析结果]; G -- 调用外部提取API --> H[获取并存储知识条目]; H --> I(用户在 UI 监控任务进度); I --> J(用户在 UI 查看最终知识条目<br/>状态: 未审核); F --> I; ``` ### 4.4 知识审核流程 (需要 UI 支持) ```mermaid graph LR A[审核员在 UI 查看待审核知识] --> B(审核员在 UI 选择单个/批量知识); B --> C{审核员在 UI 操作审核}; C -- 通过 --> E(提交审核结果); C -- 不通过 --> D(审核员在 UI 填写原因); D --> E; E --> F[系统后台更新知识状态]; F --> G[系统后台记录审核日志]; ``` ### 4.5 知识入库流程 (需要 UI 支持) ```mermaid graph LR A[用户在 UI 选择审核通过的知识] --> B(用户在 UI 选择目标知识库); B --> C(用户在 UI 提交入库请求); C --> D{系统后台处理入库<br/>(创建关联)}; D --> E[知识进入知识库<br/>状态: 未上架]; ``` ### 4.6 知识上架流程 (需要 UI 支持) ```mermaid graph LR A[用户在 UI 选择入库知识<br/>状态: 未上架] --> B(用户在 UI 执行上架操作); B --> C{系统后台调用外部上架接口}; C --> D[系统后台更新知识状态<br/>状态: 已上架]; D --> E[系统后台记录上架日志]; ``` ### 4.7 完整知识生命周期流程 (状态明确) ```mermaid graph LR A(源文件) --> B(解析结果); B --> C(知识条目 <br/> [未审核]); C -- 审核流程 --> D(知识条目<br/>[已审核]); D -- 入库流程 --> E(入库知识<br/>[未上架]); E -- 上架流程 --> F(入库知识<br/>[已上架]); F -- 下架流程 --> G(入库知识<br/>[已下架]); F -- 失效逻辑 --> H(知识失效); G -- 失效逻辑 --> H; ```