T-Gather 深度数据采集

基于自主研发的微服务采集引擎,采集对象覆盖互联网与物联网数据,专注解决复杂数据采集难题,集成大数据挖掘、分析与可视化,支持公有云与私有云模式

产品特点

专注解决复杂数据采集

采集100%可见数据

自主研发的爬虫脚本语言,低成本采集100%可见数据

关键词全网挖掘

根据需求配置关键词信息,精准挖掘全网信息

支持各种形式的网站

支持关键词搜索、验证码、登录、Cookie、Post请求、JS动态页面、Ajax异步加载页面等

支持多种协议

支持Http、Https、 Oauth认证、各种APP ;可以定制开发各类协议。

支持物联网数据采集

基于图灵物盒4G网关,支持MQTT、TCP、DDS协议

自主研发微服务采集引擎

自主知识产权构建的基于RabbitMQ分布式的微服务联盟和基于责任链的服务流引擎

公共云采集能力

采集速度5000万/天,并行支撑百亿以上数据链接,堪与搜索引擎媲美

私有云采集能力

私有服务器单机采集能力达10亿,采集所有500万/天

动态调整采集策略

完善的日志和多种采集策略,保证数据不重采漏采。包括不重采页面、不重采数据页面、全部重采等。

智能采集突破封锁限制

智能模拟浏览器和用户行为,突破反爬虫限制;全球代理服务集群,提升采集效率和采集质量

自动定时/间隔采集

可以设置自动定时采集、自动间隔某时间采集,以及采集任务条数,到达条数自动停止采集

自动过滤脏数据

设置文件大小阈值,自动过滤超大文件、flash等无关内容。 根据字符串特征自动定位取值区域

完整采集网页数据

通过抽取网页的链接和数据,可以完整获取整个网站的各层级页面,保证不漏采任何一个页面

自动过滤无关数据

通过软件自带的过滤方式、正则表达式和脚本,可以智能过滤不需要的链接和数据,精确获得数据

自动排重和数据清洗

数据入库前经过两次自动排重,可以通过灵活的配置,进行数据的进一步处理和清洗

多种数据处理方式

通过软件自带的方式、正则表达式或脚本,可以在采集的同时精准处理数据。数据入库时已经处理完毕

功能特性

采集100%可见数据,专注解决复杂数据采集!

公开数据

浏览器中,可以公开访问的信息、登录后可以访问的信息、拥有账号APP、内网中的信息

非公开数据

网站后台数据、需要登录才能访问的信息、桌面客户端信息、手机APP信息、学术数据库信息

物联网数据

各类物理传感器数据、设备数据、科学数据等

产品优势

Copyright © 2016 武汉中科图灵科技有限公司 All rights reserved. - 鄂ICP备16007206号-1