如何七周成为数据分析师08:如何建立数据分析的思维框架?

曾经有人问过我,什么是数据分析思维?如果分析思维是一种结构化的体现,那么数据分析思维在它的基础上再加一个准则:

不是我觉得,而是数据证明。

这是一道分水岭,“我觉得”是一种直觉化经验化的思维,工作不可能处处依赖自己的直觉,公司发展更不可能依赖于此。数据证明则是数据分析的最直接体现,它依托于数据导向型的思维,而不是技巧,前者是指导,后者只是应用。

作为个人,应该如何建立数据分析思维呢?

建立你的指标体系

在我们谈论指标之前,先将时间倒推几十年,现代管理学之父彼得·德鲁克说过一句很经典的话:

如果你不能衡量它,那么你就不能有效增长它。

所谓衡量,就是需要统一标准来定义和评价业务。这个标准就是指标。假设隔壁老王开了一家水果铺子,你问他每天生意怎么样,他可以回答卖的不错,很好,最近不景气。这些都是很虚的词,因为他认为卖的不错也许是卖了50个,而你认为的卖的不错,是卖了100。

这就是“我觉得”造成的认知陷阱。将案例放到公司时,会遇到更多的问题:若有一位运营和你说,产品表现不错,因为每天都有很多人评价和称赞,还给你看了几个截图。而另外一位运营说,产品有些问题,推的活动商品卖的不好,你应该相信谁呢?

其实谁都很难相信,这些众口异词的判断都是因为缺乏数据分析思维造成的。

老王想要描述生意,他应该使用销量,这就是他的指标,互联网想要描述产品,也应该使用活跃率、使用率、转化率等指标。

如果你不能用指标描述业务,那么你就不能有效增长它。

了解和使用指标是数据分析思维的第一步,接下来你需要建立指标体系,孤立的指标发挥不出数据的价值。和分析思维一样,指标也能结构化,也应该用结构化。

我们看一下互联网的产品,一个用户从开始使用到离开,都会经历这些环节步骤。电商APP还是内容平台,都是雷同的。想一想,你会需要用到哪些指标?

Clipboard Image.png

而下面这张图,解释了什么是指标化,这就是有无数据分析思维的差异,也是典型的数据化运营,有空可以再深入讲这块。

Clipboard Image.png

指标体系没有放之四海而皆准的模板,不同业务形态有不同的指标体系。移动APP和网站不一样,SaaS和电子商务不一样,低频消费和高频消费不一样。好比一款婚庆相关的APP,不需要考虑复购率指标;互联网金融,必须要风控指标;电子商务,卖家和买家的指标各不一样。

这些需要不同行业经验和业务知识去学习掌握,那有没有通用的技巧和注意事项呢?

好指标与坏指标

不是所有的指标都是好的。这是初出茅庐者常犯的错误。我们继续回到老王的水果铺子,来思考一下,销量这个指标究竟是不是好的?

最近物价上涨,老王顺应调高了水果价格,又不敢涨的提高,虽然水果销量没有大变化,但老王发现一个月下来没赚多少,私房钱都不够存。

老王这个月的各类水果销量有2000,但最后还是亏本了,仔细研究后发现,虽然销量高,但是水果库存也高,每个月都有几百单位的水果滞销最后过期亏本。

这两个例子都能说明只看销量是一件多不靠谱的事情。销量是一个衡量指标,但不是好指标。老王这种个体经营户,应该以水果铺子的利润为核心要素。

好指标应该是核心驱动指标。虽然指标很重要,但是有些指标需要更重要。就像销量和利润,用户数和活跃用户数,后者都比前者重要。

核心指标不只是写在周报的数字,而是整个运营团队、产品团队乃至研发团队都统一努力的目标。

核心驱动指标和公司发展关联,是公司在一个阶段内的重点方向。记住是一个阶段,不同时期的核心驱动指标不一样。不同业务的核心驱动指标也不一样。

互联网公司常见的核心指标是用户数和活跃率,用户数代表市场的体量和占有,活跃率代表产品的健康度,但这是发展阶段的核心指标。在产品1.0期间,我们应把注意力放到打磨产品上,在大推广前提高产品质量,这时留存率是一个核心指标。而在有一定用户基数的产品后期,商业化比活跃重要,我们会关注钱相关的指标,比如广告点击率、利润率等。

核心驱动指标一般是公司整体的目标,若从个人的岗位职责看,也可以找到自己的核心指标。比如内容运营可以关注阅读数和阅读时长。

核心驱动指标一定能给公司和个人带来最大优势和利益,记得二八法则么?20%的指标一定能带来80%的效果,这20%的指标就是核心。

另外一方面,好的指标还有一个特性,它应该是比率或者比例

拿活跃用户数说明就懂了,我们活跃用户有10万,这能说明什么呢?这说明不了什么。如果产品本身有千万级别的注册用户,那么10万用户说明非常不健康,产品在衰退期。如果产品只拥有四五十万用户,那么说明产品的粘性很高。

正因为单纯的活跃用户数没有多大意义,所以运营和产品会更关注活跃率。这个指标就是一个比率,将活跃用户数除以总用户数所得。所以在设立指标时,我们都尽量想它能不能是比率。

坏指标有哪些呢?

其一是虚荣指标,它没有任何的实际意义。

产品在应用商店有几十万的曝光量,有意义吗?没有,我需要的是实际下载。下载了意义大吗?也不大,我希望用户注册成功。曝光量和下载量都是虚荣指标,只是虚荣程度不一样。

新媒体都追求微信公众号阅读数,如果靠阅读数做广告,那么阅读数有意义,如果靠图文卖商品,那么更应该关注转化率和商品销量,毕竟一个夸张的标题就能带来很高的阅读量,此时的阅读量是虚荣指标。可惜很多老板还是孜孜不倦的追求10W+,哪怕刷量。

虚荣指标是没有意义的指标,往往它会很好看,能够粉饰运营和产品的工作绩效,但我们要避免使用。

第二个坏指标是后验性指标,它往往只能反应已经发生的事情。

比如我有一个流失用户的定义:三个月没有打开APP就算做流失。那么运营每天统计的流失用户数,都是很久没有打开过的,以时效性看,已经发生很久了,也很难通过措施挽回。我知道曾经因为某个不好的运营手段伤害了用户,可是还有用吗?

活动运营的ROI(投资回报率)也是后验性指标,一个活动付出成本后才能知道其收益。可是成本已经支出,活动的好与坏也注定了。活动周期长,还能有调整余地。活动短期的话,这指标只能用作复盘,但不能驱动业务。

第三个坏指标是复杂性指标,它将数据分析陷于一堆指标造成的陷阱中。

指标能细分和拆解,比如活跃率可以细分成日活跃率、周活跃率、月活跃率、老用户活跃率等。数据分析应该根据具体的情况选择指标,如果是天气类工具,可以选择日活跃率,如果是社交APP,可以选择周活跃率,更低频的产品则是月活跃率。

每个产品都有适合它的几个指标,不要一股脑的装一堆指标上去,当你准备了二三十个指标用于分析,会发现无从下手。

指标结构

既然指标太多太复杂不好,那么应该如何正确的选择指标呢?

和分析思维的金字塔结构一样,指标也有固有结构,呈现树状。指标结构的构建核心是以业务流程为思路,以结构为导向。

假设你是内容运营,需要对现有的业务做一个分析,提高内容相关数据,你会怎么做呢?

我们把金字塔思维转换一下,就成了数据分析方法了。

从内容运营的流程开始,它是:内容收集—内容编辑发布—用户浏览—用户点击—用户阅读—用户评论或转发—继续下一篇浏览。

这是一个标准的流程,每个流程都有指标可以建立。内容收集可以建立热点指数,看哪一篇内容比较火。用户浏览用户点击则是标准的PV和UV统计,用户阅读是阅读时长。

Clipboard Image.png

从流程的角度搭建指标框架,可以全面的囊括用户相关数据,无有遗漏。

这套框架列举的指标,依旧要遵循指标原则:需要有核心驱动指标。移除虚荣指标,适当的进行删减,不要为添加指标而添加指标。

维度分析法

当你有了指标,可以着手进行分析,数据分析大体可以分三类,第一类是利用维度分析数据,第二类是使用统计学知识如数据分布假设检验,最后一类是使用机器学习。我们先了解一下维度分析法。

维度是描述对象的参数,在具体分析中,我们可以把它认为是分析事物的角度。销量是一种角度、活跃率是一种角度,时间也是一种角度,所以它们都能算维度。

当我们有了维度后,就能够通过不同的维度组合,形成数据模型。数据模型不是一个高深的概念,它就是一个数据立方体。

Clipboard Image.png

上图就是三个维度组成的数据模型/数据立方体。分别是产品类型、时间、地区。我们既能获得电子产品在上海地区的2010二季度的销量,也能知道书籍在江苏地区的2010一季度销量。

数据模型将复杂的数据以结构化的形式有序的组织起来。我们之前谈到的指标,都可以作为维度使用。下面是范例:

将用户类型、活跃度、时间三个维度组合,观察不同用户群体在产品上的使用情况,是否A群体使用的时长更明显?

将商品类型、订单金额、地区三个维度组合,观察不同地区的不同商品是否存在销量差异?

数据模型可以从不同的角度和层面来观察数据,这样提高了分析的灵活性,满足不同的分析需求、这个过程叫做OLAP(联机分析处理)。当然它涉及到更复杂的数据建模和数据仓库等,我们不用详细知道。

数据模型还有几种常见的技巧、叫做钻取、上卷、切片。

选取就是将维度继续细分。比如浙江省细分成杭州市、温州市、宁波市等,2010年一季度变成1月、2月、3月。上卷则是钻取的相反概念,将维度聚合,比如浙江、上海、江苏聚合成浙江沪维度。切片是选中特定的维度,比如只选上海维度、或者只选2010年一季度维度。因为数据立方体是多维的,但我们观察和比较数据只能在二维、即表格中进行。

Clipboard Image.png

上图的树状结构代表钻取(source和time的细分),然后通过对Route的air切片获得具体数据。

聪明的你可能已经想到,我们常用的数据透视表就是一种维度分析,将需要分析的维度放到行列组合进行求和、计数、平均值等计算。放一张曾经用到的案例图片:用城市维度和工作年限维度,计算平均工资。

Clipboard Image.png

除了Excel、BI、R、Python都能用维度分析法。BI是相对最简便的。

谈到维度法,想要强调的是分析的核心思维之一:对比,不同维度的对比,这大概是对新人快速提高的最佳捷径之一。比如过去和现在的时间趋势对比,比如不同地区维度的对比,比如产品类型的区别对比,比如不同用户的群体对比。单一的数据没有分析意义,只有多个数据组合才能发挥出数据的最大价值。

我想要分析公司的利润,利润 = 销售额 – 成本。那么找出销售额涉及的指标/维度,比如产品类型、地区、用户群体等,通过不断的组合和拆解,找出有问题或者表现良好的原因。成本也是同理。

这就是正确的数据分析思维。总结一下吧:我们通过业务建立和筛选出指标,将指标作为维度,利用维度进行分析。

很多人会问,指标和维度有什么区别?

维度是说明和观察事物的角度,指标是衡量数据的标准。维度是一个更大的范围,不只是数据,比如时间维度和城市维度,我们就无法用指标表示,而指标(留存率、跳出率、浏览时间等)却可以成为维度。通俗理解:维度>指标。

到这里,大家已经有一个数据分析的思维框架了。之所以是框架,因为还缺少具体的技巧,比如如何验证某一个维度是影响数据的关键,比如如何用机器学习提高业务,这些涉及到数据和统计学知识,以后再讲解。

这里我想强调,数据分析并不是一个结果,只是过程。还记得“如果你不能衡量它,那么你就不能有效增长它”这句话吗?数据分析的最终目的就是增长业务。如果数据分析需要绩效指标,一定不会是分析的对错,而是最终数据提升的结果。

数据分析是需要反馈的,当我分析出某项要素左右业务结果,那么就去验证它。告诉运营和产品人员,看看改进后的数据怎么样,一切以结果为准。如果结果并没有改善,那么就应该反思分析过程了。

这也是数据分析的要素,结果作导向。分析若只是当一份报告呈现上去,后续没有任何跟进、改进的措施,那么数据分析等与零。

业务指导数据,数据驱动业务。这才是不二法门。

解答上篇文章的思考题,可能大家等急了。

你是淘宝的数据分析师,现在需要你预估双十一的销量,你不能获得双十一当天和之前的所有数据。只能获得11月12日开始的数据,你应该如何预估?

因为是开放题,所以没有固定答案。

大家的回答分为两类:

一类是通过后续双十一的销量,判断16年,缺点是需要等一年,优点是简单到不像话。

二类是通过11月12日之后的销量数据,往前预估,期间会考虑一些权重。缺点是双十一属于波峰,预估难道大,优点是可操作性好。

因为题目主要看的是分析思维,目的是找出可能的思路,所以有没有其他的方法呢?

我们尝试把思维放开,因为销量能反应商品,有没有其他维度?我们可能会想到:退换货率、和商品评价率。因为双十一的商品只能在12日后退换货和收货后评价,我们就能根据这两个指标平日的平均比率,以及双十一商品的后续退换和评价总数,预估卖出总量。退换货率肯定会虚高一些(毕竟双十一退货不少),那么商品评价率更准确。

还有其他方法么?当然有,比如会有不少人用蚂蚁花呗支付双十一,那么后续还款的比率能不能预估?

如果再将思路放开呢?虽然我不知道淘宝当天的数据,但是可以寻求外部数据,比如京东,京东的双十一销量是多少,是平时的多少倍,那么就用这个倍数去预估淘宝的。

整体的分析结构就分为:

外部数据:

  • 京东等其他平台双十一销量

内部数据:

  • 商品数据:商品评价率、退换货率、商品销量
  • 支付数据:蚂蚁花呗支付比率等

发表评论

电子邮件地址不会被公开。 必填项已用*标注