Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.具有以下功能
根据配置的模板进行数据采集
在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间
动态字段抽取与静态字段植入
已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据
对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词
含有相关文章推荐,文章中人物、地点之间的关联关系分析
5分钟即可部署完毕,半分钟即可完成一个爬虫,开始数据采集. 不需要进行任何编码就可以完成一个功能强大的爬虫.
项目源码与文档地址
https://github.com/gsh199449/spider
快速采集演示:
新功能:
升级内核至Webmagic 0.6版本;
增加文章详情页面,可以查看相关网页、该网页的命名实体词,抓取时间、动态字段等等元信息;
增加HTTP代理配置;
完善了文档,增加了二次开发接口说明、更多的常见问题解答;
点击每一篇文章后面的 Go 按钮就会跳转至文章详情页。右侧展示的是相关的文章,下面的表格中展示了当前网页的一些元信息。
详情页中的人名、地名、机构名称都是可以点击的,之后将跳转至相关信息分析页面,可以看出人物、地点之间的关联关系。
修复BUG:
修正停止爬虫时的空指针异常
增加配置文件读取时的编码配置
修复了Windows的适配问题
修复了大数据量导出时的内存溢出问题
预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm