八爪鱼采集器产品调研分析报告

一、调研目的和背景

1. 调研背景

八爪鱼是深圳视界信息技术有限公司开发的一款数据采集器,目前在网页数据采集软件领域内占据领先的地位,与之相竞争得软件还有火车头、集搜客、神箭手云爬虫等。对于搜索平台,数据采集是数据集成关键的一环,涉及到之后的数据建库、数据分析、数据可视化;其次简洁高效的可交互性对于用户也能提升较大的使用体验。

作为数据采集器的排头兵,八爪鱼的用户群体广泛,其产品有独特的亮点,能够比较好地满足不同类型业务下对数据搜索的需求,基于此,开展八爪鱼采集器产品调研。

2. 调研目的

通过对八爪鱼采集器windows10下8.2.2版本进行深度体验,首先对八爪鱼进行定位分析;然后,对八爪鱼进行产品分析,挖掘不同用户的需求和场景,并通过完成主流用户的操作任务,还原产品的逻辑和结构;最后,通过市场上用户反馈和竞品对比分析,提出产品优化的方向。

二、对八爪鱼的定位分析

八爪鱼的基本定位是互联网数据采集软件,通过提供不同的采集方式,让用户能够在短期内根据自己的业务需求,快速获取自己所需求的数据,并支持不同的导出方式进行数据分析和可视化。

在产品上线初期,市场上多数网页数据采集技术主要是接收指定页面,然后用正则表达式分析里面的网页结构,获取指定的数据。

采集不同网站的数据,所用的正则表达式也不同。

但是八爪鱼就以其傻瓜式采集的特点吸引众多用户,它简略了这一过程,即使不会正则表达式或者说是不会代码,也可以进行信息的采集,大大的降低了操作难度。

目前,八爪鱼在采集上的核心功能是模板采集、智能采集、云采集、自定义采集四个方面。从最开始的简单、快速化采集,到现在智能化、自动化采集,能够在线5000台云服务器,24*7小时不间断的高效稳定采集,提供30/100云节点高并发采集能力,能完成大规模数据的采集。

八爪鱼,具有清晰的产品定位,在大数据自动化时代,掌握了用户对数据的大量需求,配合以简单易学的可视化操作界面,在爬虫类软件领域占据领先地位,目前,正处于稳步优化和发展的阶段。

三、对八爪鱼的产品分析

为了更加深入地了解产品,本调研从市场分析、竞对分析、用户画像、产品核心架构、产品业务流程图、产品优缺点及改进方向六个方面进行产品分析。

1. 市场分析

近年来,中国政府对大数据产业的支持力度不断加大。2015年,国务院发布《促进大数据发展行动纲要》,明确提出推动大数据产业发展,加快建设数据强国。在此背景下,中国爬虫软件市场逐渐崭露头角。

市场规模方面,根据相关数据,2019年中国爬虫软件市场规模为10.8亿元,预计到2025年将达到50亿元,年复合增长率达24.6%。可以看出,爬虫软件市场具有巨大的增长潜力。

竞争格局方面,目前中国爬虫软件市场主要由几家头部企业主导,包括数仓、八爪鱼、光年等。这些企业通过技术创新和精准定位,在市场上占据了重要地位。

以下的图表展示了全球爬虫软件在近十年的市场增长率变化:

2. 主流的爬虫软件竞品分析

上一节分析到关于爬虫软件的市场占有率在不断增长,在中国市场中,以下的5个产品在用户体量、软件知名度、市场占有率等指标上表现不俗,以下为这5个产品的竞品分析:

3. 用户需求和场景

八爪鱼的基本定位是数据抓取平台,主要用户有产品、运营、销售、数据分析、政府机关、电商从业者、学术研究等多种身份职业,对应的业务场景也非常广泛,这一类人对数据的利用程度和需求指数是不同的,并且受到教育程度和专业化程度不一样。

通过对八爪鱼采集器一段时间的使用,得到大致的用户需求如下:

1) 数据采集的精准性

对于用户来说无论采集源是什么,通过配置要采集的数据,将网页中无用的信息忽略,只提取出用户关心的关键数据点,是最为关键的。

2) 数据分析的有效性

完成数据采集后,就应该有准确的分析和使用数据能力,透过对采集数据的深入分析,建立分析模型,通过对数据进行分析,计算,统计,趋势分析等等,从而帮助用户做出正确的决策,洞察真实数据的变化。

3) 数据整合的自动化

最后整合数据,实现数据源源不断的进入系统。让整个数据采集,分析,决策的过程实现自动化。针对以上的数据需求,参考类似竞品调研,将八爪鱼的用户分为数据小白、数据行家、企业用户,并总结了他们各自的使用场景和需求。

产品经理,产品经理网站

4. 产品核心架构

为了更加全面地了解八爪鱼产品,本调研梳理了产品的核心架构,具体内容如下图所示:

产品经理,产品经理网站

八爪鱼的大致架构比较清晰,主要是包括模板采集、智能采集、自定义采集、云采集四个板块,以人的浏览行为为路径,让用户在使用产品的时候比较容易上手。

首先模板采集内置了上百种主流网站数据源,如京东、天猫、大众点评等热门采集网站,即对于一些搜集需求量大的一些数据源网站的汇总,包括常见的数据字段,和操作,对于一些初级操作者在一些数据字段不特殊的情况下使用,例如学生对于研究某一热点现象或者影视作品的数据搜寻,或是电商从业者对不同商品的各类指数的研究,以及疫情下对于所有疫情情报的收集。

其次自定义采集是目前用户采集数据的主要方式,其需要用户具备一定网页结构的知识,或者通过八爪鱼官方的教程来学习采集的流程,其最大的特点是模拟了人的浏览行为进行采集数据,例如不管任何操作前都要输入目标网址,再对目标内容进行一一选中,同时进行额外的循环操作。

智能采集是在模板采集中缺少模板,同时不想在自定义采集下耗费精力的另外一种方式。输入数据源网站后,支持一键识别网页,该网页内的各字段即可被选中采集,之后可以进行增加翻页和滚动操作,但仅限于单一网页结构下内容的提取,若需要进一步的对某个链接内部进行点击操作,其程度类似于自定义,只不过不需要对采集字段一一选择,而是由八爪鱼自动识别后抓取。

云采集作为八爪鱼的收费项目,必然有其亮点之处。通过云采集实现多任务并发和单任务加速的采集效果以便用户快速的收集整理互联网公开数据。

其主要功能点如下:

  1. 采集速度。
  2. 实现无人值守。可关闭电脑、软件进行数据采集,真正实现无人值守。
  3. 定时采集。云采集星球是7*24小时,可设置任务的定时工作。
  4. 数据自动入库。
  5. 通过数据导出API接口,实现秒级导出,无缝对接内部系统。

5. 产品业务流程图

从根本上来说八爪鱼的特质,首先其原理就是模拟人的浏览行为,第一步永远是找到目标网址并进行输入,和与手机上的操作类似,需要对目标数据进行点击,翻页,采集。

其次就是,八爪鱼能够根据不同的网站制定不同的采集规则,之后就能为用户提供自动化采集的模板。因此,可以看出八爪鱼的业务范围和用户群体都是相对大众的,但是从制定规则处又能兼容更高层次采集业务的需要。

因此,本调研梳理了八爪鱼自定义采集的业务流程图。

产品经理,产品经理网站

产品经理,产品经理网站

由于八爪鱼官方没有关于微信公众号文章的抓取模板,故采用自定义的方式进行抓取,由于模拟人的浏览习惯,在打开页面后首先创建翻页循环,通过选择Ajax技术和页面刷新等待时间,更好匹配网页加载的时间,接着创建列表循环并提取数据,提取自己所需要的相应字段后,启动本地采集或是云采集,之后选择导出数据。

在梳理“自定义采集”业务流程的过程中,发现具有几个特点:

  • 对于不同网站有不同的抓取规则,在制定好采集规则后,根据流程全自动采集数据,下一次类似网站依旧能使用相同规则。
  • 操作流程可视化。在进行采集的过程中,可以同步查看自己采集的流程图。
  • 智能化,支持自动识别网页,采集网页中可提取的各个字段。并在识别页面操作之后,提示是否需要增加翻页采集或者列表循环采集,如果采集字段并非所需,还可以切换识别结果。
  • 上手难度比较低,有很多功能属于隐藏款,需要在增加熟练度之后才能开发。比如配置xpath,要会查看网页源代码,理解网页结构之后才会使用。但也比一般的爬虫工具易于理解。

6. 用户反馈和优化方向

通过对数据收集整理,剔除好评数据和无意义数据,形成以上用户反馈表格,本调研得出以下结论:

产品经理,产品经理网站

优化方向:

  • 用户反馈数据偏少,可能未客观全面反映出产品存在的问题。
  • 产品的bug主要出现在采集数据的操作过程中,是产品的核心操作,直接影响用户体验,建议联系反馈者,并测试bug是否存在,如果bug还原,及时处理,如果bug未还原,进入观察期。
  • 采集数据操作的简易型是用户选择八爪鱼的重要因素,对于模板采集需要增加更多的模板,可以从两个方面入手,一是开设模板上传功能,让用户在采集完成后觉得不错,稳定性高的模板采用积分鼓励的方式上传,二是创建官方的博客专区,放置更多的模板和介绍,并让用户留言的方式增加互动性,也可以解决一部分的技术问题。
  • 对于自定义采集,对于一些常用的网站可以在自定义识别后,自动保留上一次在该网站进行采集的流程,可以减少因为条件增加的基础上导致规则崩溃的问题。
  • 关于任务数上限的问题,在同时启动多少个任务下效率最高,且不会卡死,是一个待解决的问题。

三、总结

总的来说,八爪鱼的优点是:简单易用、规则好找、可视化界面、容易学习和模仿。

直观看到网页变化,不管是测试还是采集的时候都容易规避一些操作失误;自定义规则相对较快,官方文档详细。而缺点则是:模板量不够丰富,自定义规则容易因错误操作导致卡死,企业版出现采集速度缓慢等原因。

未来迭代方向及思路:

1)用户引导方面

可以在用户第一次使用之前就进行强制的操作教学,分成若干的课程给用户进行学习,没完成一项就给予积分鼓励。积分可用来下载VIP模板或者提高采集速度。

2)智能化方面

若用户在选择进入采集页面之后自动识别到该网页在本模板库中,可以先向用户推荐使用该模板采集,若库中没有此类模板,则开启自动化识别,之后为用户提供是否需要翻页采集,是否需要图片采集等一系列功能。

3)模板采集方面

对于模板采集需要增加更多的模板,可以从两个方面入手,一是开设模板上传功能,让用户在采集完成后觉得不错,稳定性高的模板采用积分鼓励的方式上传,二是创建官方的博客专区,放置更多的模板和介绍,并让用户留言的方式增加互动性,也可以解决一部分的技术问题。

4)基于同侪互助的问答社区

由于目前人工客服只对企业版开放,大多数普通用户不到解答,就导致了用户流失和恶意评价等问题,建立评论社区可以减少人工客服的负担,同样可以为产品带来更多效益。

本文作者 @瓜皮结衣 。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部