### [ScrapeGraphAI](https://dkwy.com/)

**Published:** 2026-05-06T10:27:57

**Author:** 蛋壳

**Excerpt:** ScrapeGraphAI 是一款开源Python库，通过集成先进的大型语言模型（LLM）与有向图逻辑，革新网页爬取方式。用户可创建灵活、强韧的爬取流程，自动适应动态网站结构，从网站及HTML、XML、JSON、Markdown等多种文档格式中提取结构化数据。平台支持用户用自然语言描述数据需求，实现无需大量编程即可自动化爬取。

## 产品概述

ScrapeGraphAI 是一款开源Python库，通过集成先进的大型语言模型（LLM）与有向图逻辑，革新网页爬取方式。用户可创建灵活、强韧的爬取流程，自动适应动态网站结构，从网站及HTML、XML、JSON、Markdown等多种文档格式中提取结构化数据。平台支持用户用自然语言描述数据需求，实现无需大量编程即可自动化爬取。

## 主要功能

|     |     |
| --- | --- |
| **AI驱动的自适应爬取** | 利用LLM理解用户指令，根据网站结构变化智能调整爬取策略，减少维护工作量。 |
| **基于图的模块化流程** | 采用有向图逻辑，由节点和边组成，构建灵活的爬取流程，能够处理复杂的数据提取任务。 |
| **多格式支持** | 支持从多种数据格式（包括HTML、XML、JSON和Markdown）进行爬取，实现多样化数据来源。 |
| **广泛的LLM兼容性** | 兼容主流LLM提供商，如OpenAI GPT、Google Gemini、Groq、Azure、Hugging Face，以及通过Ollama本地模型。 |
| **多种专用流程** | 内置如SmartScraper（单页爬取）、SearchScraper（多页搜索结果提取）、Markdownify（页面转Markdown）等流程。 |
| **用户友好的自然语言界面** | 用户可用自然语言直接描述提取目标，大幅降低网页爬取的技术门槛。 |

## 使用场景

-   **电商价格监控：**自动从竞争对手网站提取商品详情、价格及库存信息，追踪市场动态。
-   **内容聚合与分析：**收集新闻网站或社交媒体平台的标题、文章和元数据，用于研究或市场洞察。
-   **竞争情报分析：**收集竞争对手产品、评价及营销策略等结构化数据，为企业决策提供支持。
-   **AI训练数据集构建：**通过爬取多样化网页资源，构建大规模结构化数据集，用于机器学习模型训练。
-   **房地产市场分析：**提取房源信息、描述与价格，用于市场调研和投资评估。
-   **自动化报告生成：**利用爬取数据自动生成业务报告、摘要或洞察，最大程度减少人工操作。


---