一个简单高效的网页内容提取工具,专门设计用于AI分析场景。本工具可以清理网页中的广告、导航栏等无关内容,只保留主要文章内容,使AI能够更好地理解和分析文本。
因为本项目无法提取微信公众号文章和知乎文章,所以新开了一个magic-html-api项目一个智能的网页内容提取API服务,基于magic-html和jina-ai/reader。支持多种内容类型(文章/论坛/微信/知乎),多种输出格式(文本/Markdown/HTML)。只保留主要文章内容,使AI能够更好地理解和分析文本。
- 🚀 基于Next.js构建的现代Web应用
- 📝 使用Mozilla的Readability算法提取主要内容
- 🧹 自动清理多余的HTML标签和格式
- 🎯 专注于提取对AI分析有价值的内容
- 💨 快速且轻量级的API
访问 https://web-content-extractor.vercel.app 体验在线版本。
-
Frontend:
- Next.js 14
- React
- Tailwind CSS
- TypeScript
- Lucide Icons
-
Backend:
- Next.js API Routes
- Readability.js
- Puppeteer
- 克隆项目
git clone https://github.com/eggacheb/web-content-extractor.git
cd web-content-extractor
- 安装依赖
npm install
- 启动开发服务器
npm run dev
GET /api/extract?url=https://example.com
{
"title": "文章标题",
"content": "文章正文内容...",
"excerpt": "文章摘要",
"byline": "作者信息(如果有)"
}
欢迎提交 Issue 和 Pull Request!
MIT License - 查看 LICENSE 文件了解更多信息。