胖鼠采集(Fat Rat Collect)

توضیحات

胖鼠采集(Fat Rat Collect) 是一款基于 WordPress 的内容采集与数据处理插件,适用于资讯站、内容聚合站及需要结构化采集网页内容的业务场景。插件支持通过规则配置完成网页内容提取、链接补全、图片处理、内容过滤、自动发布等操作,并提供调试工具与示例规则,便于快速上手和持续维护。

核心功能

  • 微信公众号文章采集:支持公众号文章内容提取与清洗处理。
  • 简书文章采集:支持正文、图片等内容采集。
  • 列表采集与历史采集:支持从列表页批量获取文章链接并持续采集历史内容。
  • 详情页采集:支持针对目标详情页提取标题、正文、图片等信息。
  • 分页采集:支持多分页内容遍历,适用于历史数据抓取场景。
  • 自动采集:支持定时或持续执行采集任务。
  • 自动发布:支持将采集结果自动写入 WordPress 文章系统。
  • 调试模式:支持在线调试采集规则,便于定位选择器与数据处理问题。
  • 示例规则:提供可直接体验和参考的规则样例。
  • 内容增强:支持 动态内容自动标签、标签内链等扩展能力。
  • 内容去重:支持重复文章识别与过滤。
  • 特色图片处理:支持正文首图设置为特色图片。
  • 图片本地化:支持将图片下载到本地媒体库,并兼容对象存储类插件。
  • 数据处理:支持基于 HTML 和 jQuery 的内容过滤、替换与伪原创处理。
  • 任意可见网页采集:支持自定义站点列表页与详情页采集规则。
  • 相对链接补全:支持自动补全相对路径为完整链接。
  • 图片链接类型处理:支持自定义图片链接格式。
  • 详情分页数据采集:支持详情页内部翻页内容整合。
  • 关键词随机插入:支持指定关键词或 A 标签关键词随机插入正文内容。
  • 安装即用:完全基于 WordPress 实现,支持开源查阅与二次开发。
  • 兼容说明:如 PHP 版本低于 7.1,请使用历史兼容分支 based_php_5.6,该分支已停止更新,不建议在新环境中使用。
  • 合规提示:请在合法、合规、获得授权的前提下使用本插件。

胖鼠采集系统架构

  • 系统由五个核心模块组成。
  • ① 采集中心:用于创建与管理采集任务。
  • ② 配置中心:用于维护采集规则、字段映射和处理逻辑。
  • ③ 数据桶:用于查看、筛选、发布和管理采集结果。
  • ④ 调试中心:用于在线调试规则与查看采集结果。
  • ⑤ 工具箱:提供插件配套的辅助工具能力。

使用说明

  • 采集任务通常会消耗较多系统资源,图片下载与媒体处理场景尤为明显。
  • 建议首次使用时优先体验示例规则,确认环境配置正常后再创建自定义规则。
  • 本插件适用于学习、研究与合法业务场景,使用者需自行承担实际使用中的合规责任。

عکس‌های صفحه

  • 采集中心:用于创建和管理采集任务。
  • 配置中心:用于维护采集规则与字段配置。
  • 数据桶:用于查看和发布已采集的数据。
  • 配置编辑页:用于新增或修改采集规则。
  • 调试中心:用于调试采集规则并查看结果。
  • 工具箱:提供插件配套辅助工具。

نصب

安装方式:
1. 在 WordPress 插件市场中搜索 胖鼠采集 并安装启用。
2. 或将插件目录上传至 /wp-content/plugins/ 后,在后台启用插件。
3. 若 PHP 版本低于 7.1,请使用历史兼容分支 based_php_5.6;该分支已停止更新,不建议在新环境中使用。

سوالات متداول

常见问题

采集成功但没有数据,如何排查?

请打开浏览器开发者工具,查看 Console 或网络请求中的调试信息,并结合调试中心检查规则配置是否正确。

插件是否收费?

插件基础能力可免费使用,部分高级或特色功能可能采用单独授权方式提供,具体以官方说明为准。

是否支持微信公众号历史文章采集?

当前版本暂不支持完整历史文章自动抓取,具体能力请以实际版本说明为准。

是否支持 Ajax 页面采集?

支持情况取决于目标页面结构与采集方式,必要时可结合动态渲染能力进行处理。

是否支持图片下载?

支持,可将采集图片下载到本地,并根据配置接入媒体库或对象存储插件。

相对链接是否可以自动补全?

支持,插件可根据配置自动补全相对路径为完整链接。

关于新建配置

建议优先使用调试中心进行规则验证,并结合视频或文字教程逐步完成配置。

胖鼠推荐服务环境

  • PHP:建议 7.1 及以上版本。
  • Web 服务器:推荐 Nginx。
  • MySQL:推荐 5.7 及以上版本。
  • WordPress:建议使用当前受支持的稳定版本。
  • 插件版本:建议及时更新至最新版本,以获得更好的兼容性和安全性。

نقد و بررسی‌ها

26 نوامبر 2025
作者要吃饭能理解,但是为什么这个发布配置设置也要会员?设置完后,点击保存设置,页面刷新后,刚才的配置又恢复默认
3 اکتبر 2023
安装了。 安装之后有些些错误,需要更改,是服务器的问题。 确实 很好的插件!谢谢中文有这样的好插件。
25 جولای 2023
刚开始用word press,网上搜了下评价不错,用了十几天感觉很棒,操作简单,功能很全,非常适合国内的word press用户,值得推荐
خواندن تمامی 46 نقد و بررسی‌

توسعه دهندگان و همکاران

“胖鼠采集(Fat Rat Collect)” نرم افزار متن باز است. افراد زیر در این افزونه مشارکت کرده‌اند.

مشارکت کنندگان

ترجمه “胖鼠采集(Fat Rat Collect)” به زبان شما.

علاقه‌ مند به توسعه هستید؟

Browse the code, check out the SVN repository, or subscribe to the development log by RSS.

گزارش تغییرات

= 3.0.0
* 新版本,新时代

= 2.7.4
* 配合官方安全更新

= 2.7.3
* 修复公众号采集的一个BUG

= 2.7.2
* 修复公众号采集的重新激活BUG

= 2.7.1
* 修复一个影响新鼠友的保存配置的BUG

= 2.7.0
* 微信公众号历史文章采集
* 登陆网站 cookie 采集

= 2.6.7/8
* 优化一些安全相关问题

= 2.6.6
* 优化提示文案
* 修复自动发布快捷发布故障
* 快捷发布增加批量发布功能(新功能)

= 2.6.5
* 安全更新,性能优化
* 全站采集保存正则BUG修复

= 2.6.3
* 安全更新
* 代码优化

= 2.6.2
* 安全优化

= 2.6.1
* 修复采集列表或者分页的时候,被目标站防采集命中,会出现的采集数据的url不一致、但是数据的标题以及内容和源网站不一样,数据会重复的bug

= 2.6.0
* 升级组件,兼容PHP8
* 修复数据桶分页数量bug
* 修复自动采集html展示问题
* 修复配置数量为5个无法编辑问题
* 优化文案
* 优化项目结构
* 使用composer自动加载

= 2.5.2
* 修复关键词随机插入保存错误

= 2.5.1
* 部分语法兼容php8
* 数据桶样式优化
* 配置中心文章正文添加头尾html反斜线bug

= 2.5.0
* 升级 bootstrap

= 2.4.4
* 官方指导、代码修正, 写法规范.
* 简单而又大量的优化.
* 修复oss图片上传相对地址选项,但站点根目录不是 wp-content 会出现的bug.

= 2.4.3
* 修复关键词替换的BUG

= 2.4.2
* 修复新鼠友安装后无法保存配置Bug.

= 2.4.1
* 数据表字段长度调整
* 代码精简

= 2.4.0
* 新增关键词插入功能, 可设置一批关键词随机插入文章正文段落中.
* 修复一个分页的历史遗留bug, 可输出单页页码进行采集
* 分页采集改为一次可采集3页
* 优化了代码

= 2.3.0
* Optimization Absolute Url.
* 增加内容分页采集功能.

= 2.2.6
* Fix Auto Absolute Url Bug.

= 2.2.5
* 修复bug,提升稳定性

= 2.2.3-4
* 修复自动发布 动态内容,自动标签bug
* 优化代码,提升速度

= 2.2.1-2
* 微信采集链接优化
* 优化了软件速度

= 2.2.0
* 主题发布扩展
* 图片下载上传对接oss/云存储优化
* 去除html注释
* 文章发布优化
* 数据统计优化
* 取消特色图片激活
* 采集优化、最大超时时间10秒
* 删除规则,删除对应数据
* 等其他优化..

= 2.1.0
* 采集底层内存占用重构, 鼠友的福音
* 批量发布使用设置的发布状态

= 2.0.7
* 优化速度 .

= 2.0.6
* fix bug .
* 插件提升管理员权限使用.

= 2.0.5
* 采集图片路径优化/优化window主机附件无法查看
* 代码小版本迭代
* 数据入库优化代码,优化速度
* 批量删除细节优化

= 2.0.4
* 数据链接优化

= 2.0.3
* 优化插件速度,精简很多地方.

= 2.0.2
* 低版本数据库兼容

= 2.0.1
* 大数据量鼠优化升级步骤

2.0.0

2020-04-26
* 《胖鼠采集架构重组升级》
* 定时采集、定时发布强化
* 数据中心升级为数据桶模式、可设置数据桶对应发布分类
* 自动标签强化,标签匹配英文不区分大小写, 后续继续优化
* 动态内容强化样式。新版只在尾部添加动态内容, 后续继续优化
* 新增标签添加网站内链、5.1日前赞赏过自动标签用户免费激活
* 采集 & 调试
* 增加采集知乎问答功能
* 微信、简书、列表、详情、分页采集增加 debugging 功能
* 点击采集、异常后、按钮延时优化,避免不必要的问题
* 采集实体字符转义一些问题
* 文章重复问题优化、目前为url验重、后续增加文章标题验证重复
* 图片本地化功能加强升级
* 分页采集加强升级
* debug 全新升级 debugging
* 采集Url格式化升级
* 优化列表采集点击锚点体验
* 接口结果统一优化
* 采集数据可删除、批量管理
* 数据桶全局统计数据,所有数据一手掌握

1.11.1

2019-11-30
* delete Violations wordpress keywords

1.11.1

2019-09-19
* 简书规则升级

1.11.0

2019-09-04
* 优化了很多代码
* 增加图片不本地化选项。(采集速度超快)
* 可指定采集图片的属性。(对于某些js异步加载图片的站点很有效)

1.10.4

2019-06-12
* 优化一些地方

1.10.3

2019-05-19
* 优化 Dynamic Content 功能, 优化了取文字样式
* 优化 Auto Tags 功能, 暂时去掉了标签追加链接功能, 有bug回头解决了再加
* 数据中心弱网发布时间优化

1.10.2

2019-05-05
* 优化 Dynamic Content 功能
* 优化 Auto Tags 功能
* Auto Tags 功能 增加开关和一些优化

1.10.1

2019-05-04
* 代码优化

1.10.0

2019-05-04
* 新功能 Dynamic Content

1.9.0

2019-05-03
* 新功能 Auto Tags 文章自动打Tag or 优化一些文案

1.8.7

2019-04-30
* 修复一个紧急bug

1.8.6

2019-04-29
* 文章滤重改为强滤重
* 数据表增加一项字段
* 一次发布最大数量增加到30

1.8.4

2019-04-23
* 优化 据个别鼠要求, 采集标题 增长为120个汉字
* 优化 采集保存配置一点逻辑优化
* 文案优化

1.8.3

2019-04-15
* 优化 采集标题可能超过40个汉字长度 控制在40个字符之内
* 优化 下载图片可能会超时优化了连接时间
* 优化 一次发布很多篇, 极端情况可能图片超时问题
* 优化 发布文章个别情况可能出现报错, 捕获错误
* 优化 文章别名, 使用文章标题作为文章别名
* 新增 公告功能: 用于胖鼠紧急通知众鼠使用, 无风险。
* 新增 微信增加 作者变量{author} 公众号名字变量{name} 简书增加作者变量{author}

1.8.2

2019-04-14
* 修复了 一个不影响大局的sql错误

1.8.1

2019-04-14
* 修复 微信 简书 采集失败bug

1.8.0

2019-04-14
* 胖鼠采集全新架构
* window主机用户采集微信图片 鼠友服务器CA证书验证不通过问题
* window主机 路径 DIRECTORY_SEPARATOR 可能出现的bug
* 采集内核2.0。更快的采集速度。 (3.0规划已有。采集速度会超级超级快)
* 采集图片自动查找后缀算法优化
* 自动特色图片功能完成
* 图片加入媒体库功能
* 图片加入附件
* 发布时图片发布失败。补二次下载

1.7.5

2019-04-09
* 修复了几位鼠友用window服务器出现的图片路径乱码bug

1.7.4

2019-03-31
* 修复了简书图片bug
* 数据中心增加数据统计功能

1.7.3

2019-03-08
* 冒泡

1.7.2

2019-02-25
* 修复群里一个鼠友采集图片失败的bug.
* 升级群里鼠友采集的图片默认居中需求.

1.7.1

2019-02-15
* 胖鼠采集PHP v5.6 版本尝鲜版发布.
* 优化一些文案.

1.7.0

2019-01-25
* 定时发布 (给鼠友增加开关)
* 定时采集 (给鼠友增加开关)
* 图片可设置使用 相对/绝对 路径. 站群/单站点/CDN可能要的需求
* 微信采集自定义内容(鼠友要求可增加来源)
* 免责声明

1.6.3

2019-01-24
* 鼠友发现采集的微信视频无法播放BUG!

1.6.2

2019-01-22
* 微信 And 列表采集 图片 自动剔除多余属性 增加 Alt字段 值为title 更好的SEO!

1.6.1

2019-01-21
* 一个安全过滤误伤了鼠友. 已修复
* 版本号修正

1.6.0

2019-01-20
* Php版本验证提示
* 配置中心批量删除
* 数据中心可能出现的一个notice错误
* 数据发布,增加发布作者,文章状态.
* 数据中心作者字段优化
* 赞赏码

1.5.1

2019-01-15
* 帮助的a 标签跳转新开标签页
* 增加自动发布tag页面
* 新增加的文档的链接
* 分页采集增加默认select
* 修复自动爬去功能异常
* Css Js样式 兼容了其他插件
* 修复一个列表爬虫。由于目标站不统一。链接可能拼接错误bug

1.5.0

2019-01-13 11:16
* 优化配置中心一个 notice 错误
* 增加了数据批量删除
* 增加数据批量发布
* 文章增加发布分类
* 使用权限增加作者 编辑 管理员

1.4.3

2019-01-03 10:39
* ok 优化了详情爬虫, 增加了默认选项
* ok 增加了几个采集配置 寻仙新闻 御龙在天新闻 心理咨询师新闻 直播吧详情 虎扑详情
* ok 优化了前端错误提示
* 有个个别网站 gbk 个别乱码问题/未解决。utf-8很稳定
* 今天关闭了站群自动发布,自动发布什么时候再次开启?

1.4.2

2019-01-02
* 暂时去掉站群发布页面
* 去掉了一些默认配置规则,后续增加
* 采集url地址 代码优化

1.4.1

2019-01-01 11:05
* 增加了小提示功能.等你发现在哪里.
* 增加了简书采集
* 捕获简书新的图片src, 调整了代码

1.4.0

2018-12-30 03:09
* 跳几个小版本, 因为这次是一个架构稳定版本(稳)
* 新增自定义详情爬取
* 自动识别 img (src or data-src)
* 配置页面优化 注释优化 服务端优化
* 发布中心优化服务端 页面优化
* 爬虫中心 服务端优化 前端优化
* 前端ajax交互优化
* 数据库优化了表,增加了索引
* 优化掉了Log表
* …

1.0.0

2018-12-20
* 胖鼠第一个版本上线了 不写了 具体的功能了 信息量有点大。大家自己安装感受一下具体功能吧。