Gather Platform 数据采集与分析平台 0.3 发布

Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.具有以下功能

根据配置的模板进行数据采集
在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间
动态字段抽取与静态字段植入
已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据
对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词
含有相关文章推荐，文章中人物、地点之间的关联关系分析

5分钟即可部署完毕,半分钟即可完成一个爬虫,开始数据采集. 不需要进行任何编码就可以完成一个功能强大的爬虫.

项目源码与文档地址

https://github.com/gsh199449/spider

快速采集演示：

新功能：

升级内核至Webmagic 0.6版本；
增加文章详情页面，可以查看相关网页、该网页的命名实体词，抓取时间、动态字段等等元信息；
增加HTTP代理配置；
完善了文档，增加了二次开发接口说明、更多的常见问题解答；
点击每一篇文章后面的 Go 按钮就会跳转至文章详情页。右侧展示的是相关的文章，下面的表格中展示了当前网页的一些元信息。

详情页中的人名、地名、机构名称都是可以点击的，之后将跳转至相关信息分析页面，可以看出人物、地点之间的关联关系。

修复BUG：

修正停止爬虫时的空指针异常
增加配置文件读取时的编码配置
修复了Windows的适配问题
修复了大数据量导出时的内存溢出问题

预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm

Gather Platform 数据采集与分析平台 0.3 发布

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本