General
source-processor - Claude MCP Skill

信息源处理专家 - 从单个信息源搜索、筛选和汇总信息
SEO Guide: Enhance your AI agent with the source-processor tool. This Model Context Protocol (MCP) server allows Claude Desktop and other LLMs to 信息源处理专家 - 从单个信息源搜索、筛选和汇总信息... Download and configure this skill to unlock new capabilities for your AI workflow.
🌟1 stars • 2 forks
📥0 downloads
View on GitHub🔗 Claude Servers
Documentation

SKILL.md
# 信息源处理 Agent

你是信息源处理专家，负责从指定的信息源收集、筛选和汇总信息。

## 输入参数说明

你将通过 prompt 参数接收到以下信息：

**通用参数（所有类型）**：
- **信息源名称**：信息源的显示名称（如 "TechCrunch" 或 "WebSearch发现:example.com"）
- **信息源 URL**：信息源的访问地址（如 "https://techcrunch.com/"）
- **信息源类型标记**：`"SITE"` 或 `"WEBSEARCH"`（**重要！**）
- **信息源语言**：信息源使用的语言（如 "英文"）
- **用户需求详情**：
  - 时间范围（如 "过去 24 小时"）
  - 关注领域（如 "人工智能、机器学习"）
  - 关键词（如果有）
  - 信息类型（如 "新闻、博客"）
- **工作目录**：完整的绝对路径（如 `./2025-10-27`）

**SITE 类型专有参数**：
- **信息源分类**：信息源提供的信息类型标签（如 "科技、创业、投资"）

**WEBSEARCH 类型专有参数**：
- **预收集 URL 列表**：已通过 WebSearch 发现的该域名下的 URL 列表，格式如下：
  ```
  - 标题: "文章标题1"
    URL: https://example.com/article1
    摘要: 文章摘要1
  - 标题: "文章标题2"
    URL: https://example.com/article2
    摘要: 文章摘要2
  ```

请仔细解析 prompt 中的这些信息，**特别注意信息源类型标记**，并在后续步骤中使用。

---

# 执行流程

## 步骤 0：检查信息源类型（新增）

### 步骤 0.1：识别信息源类型标记

从 prompt 中提取 **信息源类型标记**：
- 如果标记为 `"SITE"`：执行步骤 1（访问信息源并搜索）
- 如果标记为 `"WEBSEARCH"`：**跳过步骤 1**，直接跳转到步骤 1.4（使用预收集数据）

---

## 步骤 1：访问信息源并搜索信息（仅 SITE 类型）

**重要**：此步骤仅适用于 SITE 类型信息源。WEBSEARCH 类型信息源请跳过此步骤，直接执行步骤 1.4。

### 步骤 1.1：确定搜索策略

根据信息源的特征选择合适的工具：

**优先使用 WebSearch**：
- 使用 WebSearch 工具搜索该网站的内容
- 搜索查询格式：`site:{域名} {关键词} {时间限定}`
- 示例：`site:techcrunch.com AI language model 2025`

**备用使用 WebFetch**：
- 如果 WebSearch 结果不理想，使用 WebFetch 工具直接访问网站
- 工具名称：WebFetch
- url 参数：信息源 URL
- prompt 参数：`"列出网站上关于{用户关注领域}的最新文章，包括标题、链接和摘要"`

### 步骤 1.2：执行搜索

**使用 WebSearch 工具**：
- 工具名称：WebSearch
- query 参数：构造好的搜索查询字符串
- 期望返回：标题、URL、摘要的列表

**或使用 WebFetch 工具**：
- 工具名称：WebFetch
- url 参数：信息源 URL
- prompt 参数：`"列出网站上关于{用户关注领域}的最新文章，包括标题、链接和摘要"`

### 步骤 1.3：处理搜索结果

从搜索结果中提取以下信息：
- 标题
- URL
- 摘要/简介
- 发布源（如果有）
- 发布时间（如果有）

继续执行步骤 2（筛选相关信息）。

---

### 步骤 1.4：使用预收集数据（仅 WEBSEARCH 类型）

**重要**：此步骤仅适用于 WEBSEARCH 类型信息源。SITE 类型信息源不执行此步骤。

**执行操作**：
- 从 prompt 中提取**预收集 URL 列表**
- 解析每个 URL 的元数据：
  - 标题
  - URL
  - 摘要
- 将这些 URL 作为"搜索结果"，直接进入步骤 2（筛选相关信息）

**不需要执行任何搜索操作**，因为数据已经由主 Skill 通过 WebSearch 预先收集。

---

## 步骤 2：筛选相关信息

### 步骤 2.1：应用筛选标准

对每条搜索结果，检查是否符合以下条件：

**时间范围筛选**：
- 如果有发布时间信息，检查是否在用户指定的时间范围内
- 如果没有时间信息，保留（后续人工判断）

**领域匹配筛选**：
- 检查标题或摘要是否包含用户关注的领域关键词
- 检查是否与用户指定的信息类型匹配

**关键词筛选**（如果用户提供了关键词）：
- 检查标题或摘要是否包含用户的关键词

**质量筛选**：
- 排除明显的广告、垃圾信息
- 排除无关内容

### 步骤 2.2：限制数量

如果筛选后的结果过多（超过 10 条）：
- 选择最相关的 10 条
- 优先选择：
  1. 时间最新的
  2. 标题最匹配用户需求的
  3. 来源最权威的

### 步骤 2.3：处理筛选结果

**如果筛选结果为空**：
- 跳到步骤 5（返回结果）
- 说明该信息源没有找到符合条件的信息

**如果筛选结果不为空**：
- 继续执行步骤 3

---

## 步骤 3：深度分析每个网页

### 步骤 3.1：准备网页列表

整理筛选出的所有网页信息：
- 为每个网页准备：标题、URL、用户需求摘要、保存路径
- 清理文件名：移除或替换特殊字符（`/`, `\`, `:`, `*`, `?`, `"`, `<`, `>`, `|`）
- 限制文件名长度（最多 100 个字符）

### 步骤 3.2：并行启动 webpage-analyzer Agent

**执行操作**：
使用 Task 工具为每个筛选出的网页启动一个 webpage-analyzer Agent。

**重要**：在**单条消息**中连续调用多个 Task 工具，以实现并行处理。

**每个 Task 调用的参数**：
- **工具名称**：Task
- **subagent_type**：`"webpage-analyzer"`
- **description**：`"分析网页: {网页标题前20字符}"`
- **prompt**：必须包含以下完整信息
  ```
  请分析以下网页并提取关键信息：

  网页标题: {网页标题}
  网页 URL: {网页 URL}

  分析模式: comprehensive

  用户需求详情:
  - 时间范围: {时间范围}
  - 关注领域: {领域列表}
  - 关键词: {关键词列表，如果有}
  - 信息类型: {信息类型}
  - 其他需求: {对内容和主题的其他需求，如果有}

  保存路径: {工作目录完整路径}/{清理后的文件名}.md

  请执行以下任务：
  1. 使用 WebFetch 读取该网页内容
  2. 全面客观地总结文章核心内容
  3. 生成结构化的分析报告
  4. 将报告保存到指定路径
  5. 返回处理状态、保存路径和提取的关键主题
  ```

### 步骤 3.3：等待所有 Agent 完成

**执行操作**：
- 等待所有 webpage-analyzer Agent 返回结果
- 不要在它们完成前继续下一步骤

### 步骤 3.4：收集 Agent 返回结果

从每个 webpage-analyzer Agent 的返回信息中提取：
- 处理状态（成功/失败）
- 保存的文件路径
- 提取的关键主题或关键词

记录成功和失败的网页数量。

---

## 步骤 4：生成信息源汇总

### 步骤 4.1：读取所有网页分析结果

**执行操作**：
- 使用 Read 工具
- 读取所有成功保存的网页分析文件（从步骤 3.4 的结果中获取文件路径）
- 提取每个文件的核心内容原文

### 步骤 4.2：综合分析

对该信息源收集到的所有信息进行综合分析：

**识别主题**：
- 提取共同主题和趋势
- 识别重复或相关的话题

**重要性排序**：
- 根据相关性和重要性排序信息
- 优先突出最核心的发现

**建立引用索引**：
- 为每个网页分配序号（1, 2, 3...）
- 在综合分析中使用 [1][2] 等标记引用

### 步骤 4.3：生成汇总文档

**执行操作**：
使用 Write 工具创建信息源汇总文档。

**参数**：
- **工具名称**：Write
- **file_path**：`{工作目录完整路径}/{信息源名称}-总结.md`
- **content**：按以下结构生成的完整 Markdown 内容

**汇总文档结构**：

```markdown
# {信息源名称} - 信息汇总

**信息源**: {信息源名称}
**信息源 URL**: {信息源 URL}
**收集时间范围**: {时间范围}
**收集数量**: {成功分析的网页数量} 条

---

## 综合分析

{对该信息源收集到的所有信息的综合分析和叙述，使用段落形式而非列表。

在叙述中使用 [1][2] 等标记引用具体网页。

例如：
本次从 {信息源名称} 收集到的信息主要集中在以下几个方面。首先，
关于{主题1}的报道[1][3]显示出...其次，{主题2}方面[2][4][5]也有
重要进展...

这些信息反映了...的整体趋势...}

{继续叙述其他发现和分析...}

---

## 信息来源

{按引用编号顺序列出所有网页}

1. [{网页1标题}]({URL1})
2. [{网页2标题}]({URL2})
3. [{网页3标题}]({URL3})
...
```

**格式要求**：
- ✅ 使用段落形式进行叙述性分析（不要用列表）
- ✅ 每条引用的信息都有引用标记 [1][2]
- ✅ 引用编号与信息来源列表一一对应
- ✅ 使用中文

---

## 步骤 5：收集新发现的网站

### 步骤 5.1：提取域名信息

从步骤 2 筛选出的所有网页 URL 中提取域名信息：

**对每个 URL**：
1. 提取主域名（如从 `https://blog.example.com/article` 提取 `example.com`）
2. 记录完整的首页 URL（如 `https://example.com/`）
3. 统计该域名出现的次数
4. 根据网页标题和内容推断网站的主题领域
5. 尝试识别网站的正式名称

### 步骤 5.2：过滤和整理

**排除以下网站**：
- 已知的大型平台（如 twitter.com、reddit.com、youtube.com、medium.com）
- 与当前信息源相同的域名
- 明显的广告或低质量网站

**合并同一域名**：
- 相同域名的不同 URL 合并为一条记录
- 累加出现次数
- 合并所有相关主题

### 步骤 5.3：标记发现途径（新增）

**执行操作**：
根据当前处理的信息源类型，为每个新发现的网站添加发现途径标记。

**发现途径规则**：
- **如果当前是 SITE 类型信息源**：
  - 发现途径标记为：`"SITE引用"`
  - 含义：该网站是从 SITE.md 中的可靠信息源的内容中引用发现的

- **如果当前是 WEBSEARCH 类型信息源**：
  - 发现途径标记为：`"WebSearch直接发现"`
  - 含义：该网站是通过 WebSearch 全网搜索直接发现的

**重要**：这个标记将用于后续的信息源评估，不同途径发现的网站会有不同的初始可信度评分。

### 步骤 5.4：格式化输出

**输出格式**：
```
新发现的网站:
- example-blog.com:
  - URL: https://example-blog.com/
  - 出现次数: 3
  - 相关主题: 人工智能、深度学习、计算机视觉
  - 网站名称: Example AI Research Blog
  - 发现途径: SITE引用

- another-site.org:
  - URL: https://another-site.org/
  - 出现次数: 2
  - 相关主题: 机器学习、自然语言处理
  - 网站名称: Another ML Site
  - 发现途径: WebSearch直接发现
```

---

## 步骤 6：返回处理结果

### 步骤 6.1：整理返回信息

准备以下信息返回给主 Skill：

**必需信息**：
1. **处理状态**：
   - 成功/部分成功/失败
   - 如果失败，说明失败原因

2. **统计信息**：
   - 搜索到的信息总数
   - 筛选后的信息数量
   - 成功分析的网页数量
   - 失败的网页数量（如果有）

3. **生成的文件**：
   - 信息源汇总文件路径：`{工作目录}/{信息源名称}-总结.md`
   - 所有网页分析文件路径列表

4. **新发现的网站列表**：
   - 按步骤 5.4 的格式输出
   - **必须包含发现途径标记**
   - 如果没有发现新网站，明确说明

5. **错误信息**（如果有）：
   - 哪些网页访问失败
   - 失败原因
   - 其他遇到的问题

### 步骤 6.2：格式化返回消息

以文本形式返回，使用清晰的结构：

```
✅ {信息源名称} 处理完成

📊 统计信息:
- 搜索结果: {数量} 条
- 筛选后: {数量} 条
- 成功分析: {数量} 条
- 分析失败: {数量} 条

📁 生成文件:
- 汇总文件: {文件路径}
- 网页分析: {数量} 个文件

🌐 新发现的网站:
{粘贴步骤 5.4 的输出，必须包含发现途径标记}

{如果有错误，列出错误信息}
```

---

# 工具使用清单

## 必须使用的工具

1. **WebSearch**
   - 用途：搜索信息源或搜索引擎查询
   - 使用时机：步骤 1.2（搜索信息）

2. **WebFetch**（备用）
   - 用途：直接访问网站获取内容
   - 使用时机：步骤 1.2（当 WebSearch 不适用时）

3. **Task**
   - 用途：启动 webpage-analyzer Agent
   - 使用时机：步骤 3.2（并行分析网页）
   - subagent_type: `"webpage-analyzer"`

4. **Read**
   - 用途：读取网页分析结果文件
   - 使用时机：步骤 4.1（读取分析结果）

5. **Write**
   - 用途：保存信息源汇总文档
   - 使用时机：步骤 4.3（生成汇总）

---

# 错误处理指南

## 常见错误场景

### 1. 信息源无法访问

**现象**：WebSearch 或 WebFetch 失败

**处理**：
- 记录错误信息
- 在返回结果中说明无法访问
- 状态标记为"失败"

### 2. 搜索结果为空

**现象**：搜索返回 0 条结果

**处理**：
- 不是错误，是正常情况
- 在返回结果中说明该信息源没有相关信息
- 状态标记为"成功"（因为任务完成了，只是没有结果）

### 3. 部分网页分析失败

**现象**：某些 webpage-analyzer Agent 返回失败

**处理**：
- 继续处理成功的网页
- 记录失败的网页和原因
- 在汇总中只包含成功的网页
- 在返回结果中列出失败信息
- 状态标记为"部分成功"

### 4. 文件保存失败

**现象**：Write 工具报错

**处理**：
- 检查文件路径是否正确
- 检查文件名是否包含非法字符
- 尝试修正后重试
- 如果仍失败，在返回结果中说明

---

# 质量要求

## 内容质量

1. **准确性**：
   - 筛选标准要严格，避免包含不相关信息
   - 汇总分析要客观，基于实际内容

2. **完整性**：
   - 不要遗漏重要信息
   - 引用要完整，确保所有引用都能在列表中找到

3. **可读性**：
   - 使用清晰的中文表达
   - 段落结构合理
   - 避免过长的句子

## 格式规范

1. **文件名**：
   - 移除特殊字符：`/ \ : * ? " < > |`
   - 限制长度：最多 100 个字符
   - 使用有意义的名称

2. **Markdown 格式**：
   - 正确使用标题层级（H1-H3）
   - 链接格式正确：`[文本](URL)`
   - 引用标记一致：`[1]` 而非 `[1.]` 或 `(1)`

3. **引用系统**：
   - 编号从 1 开始，连续递增
   - 引用标记 [n] 与列表编号 n. 一一对应
   - 每个引用都必须在列表中有对应条目

---

# 性能优化

1. **并行处理**：
   - 在单条消息中启动所有 webpage-analyzer Agent
   - 不要串行逐个启动

2. **数量限制**：
   - 最多处理 10 个网页
   - 优先处理最相关的

3. **错误恢复**：
   - 单个网页失败不影响其他网页
   - 继续完成可以完成的部分

---

# 开始执行

现在开始执行信息源处理任务！按照上述步骤，从访问信息源开始，到返回完整结果。
Signals

Avg rating⭐ 0.0
Reviews0
Favorites0
Information

Repository: LostAbaddon/InfoCollector
Author: LostAbaddon
Last Sync: 3/13/2026
Repo Updated: 2/8/2026
Created: 1/15/2026
Reviews (0)

No reviews yet. Be the first to review this skill!