从 APP 数据上报到可视化报表展示

我们每天都在使用各式各样的 APP,我们的操作行为也不断地被 APP 的开发商收集,这些 APP 的开发商通过可视化报表平台,查看 APP 的用户行为数据。本文将试图揭秘,从用户触发操作,到这些数据形成可视化报表的整个过程。

声明下,本文是分享给产品经理们的。长久以来,关于产品经理要不要懂些技术,一直是 1 个有争论话题。个人理解,产品经理不需要懂太多技术,但要懂些技术上的基本过程。
所以,本文也将寄希望省略掉非常多的技术细节,说清楚从 APP 数据上报到展示的整个过程。

一、从 SDK 到可视化报表的整个过程

从 APP 端的统计 SDK 进行数据上报,到最后的可视化报表展示(T+1 数据展示),可以概括为下面 6 个步骤:

  • 统计 SDK 进行原始数据上报,上报到对应的接入服务器;
  • 接入服务器把数据写入到队列中;
  • 数据分析服务器对队列中的数据进行过滤分析,分析后写入到本地磁盘;
  • 大数据计算服务器定时拉取本地磁盘的数据,进行大数据计算;
  • 大数据计算的结果写入到报表数据库;
  • 读取报表数据库数据,进行可视化报表展示。

以下,假定微信 Android 端,接入了 TalkingData(以下简称 TD) 的 Android SDK,对 SDK 上报的部分步骤,进行解释。
按照假定,微信获得了 1 个 TD 的分配的 APPID。该 APPID,就是微信在 TD 这个统计平台的身份证,用于唯一标识微信自己的身份。
用户使用微信时使用的手机硬件信息,以及在微信上的操作行为,就会通过 SDK 进行上报了。

1. APP 数据上报机制

APP 数据上报的机制是什么样的?
基本情况是:

  • 重新打开微信时,立即上报一次当前的启动数据以及上一次的缓存数据;
  • 在使用微信的过程中,每隔 2 分钟(时间间隔可调整)上报一次数据;
  • 将微信退到后台运行时,立即上报一次数据;
  • 正在使用微信时,将微信杀死后,数据将缓存在本地,待下一次启动微信时进行上报。

以上 4 个上报机制,每个统计平台采用的不尽相同,有些平台提供可选项,由 APP 方自行决定上报的机制。
一个节省用户流量的极端上报机制是:本次启动所产生的数据,一直缓存在客户端,待下次启动时进行一次性上报(将上报的时间间隔设为 24 小时,即等同于本次启动中的数据,全部缓存在本地)。
通过 Android 的控制台,看到最后一行日志时,表示数据上报成功了。
> 09-24 11:40:31.810 I/TDSDKLog(11497): New data found, Submitting…
09-24 11:40:31.820 I/TDSDKLog(11497): New data len : 2804
09-24 11:40:32.240 I/TDSDKLog(11497): Data submitting Succeed!

2. SDK 与服务器之间的对话

SDK 和接入服务器的对话可以包括:
SDK:我已经按照参数格式,提交了数据了,你看下。
那么可能发生以下情形:
(1)正常情况
服务器的回复:哦,我看下,提交成功了。下次什么时候提交,你 SDK 自己来定哈。
(2)拒绝访
服务器回复:我跟你这个 SDK 没啥子关系,你无权访问。
(3)其他异常情况
服务器回复:这次提交成功了,不过服务器或者网络好像有点问题,下次提交的时间为 30 分钟后。

3. 对数据进行初步分析

步骤 2,接入服务器把数据写入到队列中,是 1 个写数的过程。
我们着重详细介绍步骤 3,对数据进行初步分析。
在步骤 3 中,服务器将对 SDK 上报的数据进行写日志操作。比如,可以按照 SDK 上报的数据格式输出 json 格式串,将 json 格式串写入到日志文件中。
定义好每个日志文件的生成规则,比如,每个 20 分钟生成 1 个日志文件,每隔 1 个小时生成 1 个文件夹(包含 3 个文件)。
接下来,就是对数据的初步分析,即对日志文件进行初步解析,将 1 个大文件,按照规则,切割成不同维度的小文件(表)。比如:切换成 10 个小文件,第 1 个小文件存储手机硬件信息,第 2 个文件存储手机的网络信息,第 3 个文件存储埋点事件,等等。

4. 进行大数据计算

经过了步骤 3 之后,原始数据的简单数据分析(分类)已经完成了,计算海量的数据,还需要专门的大数据计算平台,比如:Hadoop 之类的。
比如:计算当前应用昨天的新增用户和活跃用户数,就可以使用 Hadoop 中的 mapreduce 进行去重。
设想下,1 个日活 100 万的 APP,每个用户每天平均产生 100 条数据,那么就有 1 亿条数据,那么对于大数据平台来说,就有 1 亿个设备号,Hadoop 要做的,就是对这 1 亿个设备号进行去重,得到当天的活跃用户数。

5. 可视化报表展示

步骤 5,是大数据平台将计算好的数据入库的过程。
我们详细介绍步骤 6,可视化报表展示,对数据进行展示。
在可视化报表中,我们可以看到多种多样的数据指标,昨日新增、昨日活跃、昨日启动次数、事件的发生次数、事件的发生人数。
以上数据展示,都是大数据计算后的结果。大数据计算的逻辑,来自于可视化报表的展示需求。
举例:昨日活跃用户数,既可以用昨日启动过应用的设备数来计算,也可以用昨日启动过应用的手机号数量来计算。前者就是大数据平台对设备进行去重,后者则是对手机号进行去重了。

三、小结

在本文的撰写过程中,省略了很多技术细节。
一方面,是因为本人的知识水平有限,无法准确描述;另一方面,本文的出发点,是让读者大致了解下从 APP 上报到可视化报表的过程,这个过程本是 1 个非常技术化的过程,涉及到非常多的技术要点,我们也需要有选择省略。
希望,本文对你有所帮助。
 
作者 @十三先 。