gecco 1.0.7 发布了。gecco是一种轻量化网络爬虫,同时也是一款拥有很好扩展性的框架。
主要特征:
1、简单易用,使用jquery的css selector风格抽取元素
2、支持页面中的异步ajax请求
3、支持页面中的javascript变量抽取
4、利用Redis实现分布式抓取
5、支持下载时UserAgent随机选取
6、支持下载代理服务器随机选取
7、支持结合Spring开发业务逻辑
8、支持htmlunit扩展
增加jmx监控,监控指标包括:
1、爬虫基本信息
2、下载监控
3、内容抽取监控
详细信息点这里