SeimiCrawler v1.2.0 发布了。
变更日志
v1.2.0
OkhttpDownloader
支持处理contentType
头中没有指定编码的中文页面支持通过
@Crawler
注解中的httpTimeOut
属性自定义http请求的超时时间,默认15000ms
v1.1.0
可通过实现SeimiCrawler的List<Request> startRequests();来实现更复杂的起始触发请求
SemiQueue实现按需加载
修复抓取文件类型数据返回时尝试匹配meta refresh时产生的问题
简介
SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目,非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。并结合SeimiAgent彻底完美解决复杂动态页面渲染抓取问题。