TGI是英文Target Group Index的缩写,直译为“目标群体指数”,即我们观察的这部分群体,是否更多(或更少)分布在该维度上。本文作者对TGI指数进行了分析,一起来看一下吧。
某出行平台曾经发布过一份数据分析报告,指出“凯迪拉克车主最爱去洗浴中心”,一时引来多方热议。
我们今天讨论的TGI概念,就与这个小故事有关。凯迪拉克车主是不是“更爱去洗浴中心”呢?这个问题,等我们了解了TGI之后再讨论。
一、TGI是什么?
TGI是英文Target Group Index的缩写,直译为“目标群体指数”。计算方法非常简单:
TGI = [目标群体中具有某一特征 的群体所占比例/总体中具有相同特征的群体所占比例]*100
在前司上班那会,我们在给客户(广告主)提供的消费者洞察分析报告中,频繁的使用这个概念,以至于我们总监曾经专门组织过一次讨论:该怎么更科学、更简单地向客户介绍TGI是什么,以及怎么理解它。
在向客户解读我的消费者报告时,我将TGI称为目标群体的倾向性指数。即,我们观察的这部分群体,是否更多(或更少)分布在该维度上。
举个简单的例子。我在读大学时,我们专业的男女比为1:3,即女生所占比例为75%。显然,这是一个让其他理工科专业男生十分羡慕的男女比,因为我们同级3000多人中,女生占比约为50%。
在这种情况下,我们专业女生性别TGI = 75%/50%*100 = 150。而TGI大于100,则说明我们专业中女生占比更高。
但是大家再考虑一种状况:如果我们专业归属在女校之中(假设我们专业比较特殊,允许招收男生),那么大家还会觉得我们专业的女生更多吗?
显然不会。因为锚定的群体中,女生占比接近100%(因为还有我们几个男生在,分子略小于分母),而我们专业中的女生比例只有75%,少于大盘。
让我们回到一开始的小故事中。如果60%凯迪拉克车主都爱去洗浴中心,而整个豪车群体只有30%的车主爱去,那么凯迪拉克车主在“爱去洗浴中心”的TGI指数为60%/30%*100=200,远高于100,那么可以说凯迪拉克车主“更”爱去。
需要注意的是:如果只看60%这一单一的数字,我们无法是无法“更爱去”这个结论的,顶多说他们“爱去”。如果中国车主60%去洗浴中心,那么凯迪拉克车主并未表现出明显的偏好性,只是符合一般规律而已。
所以,我们不能孤立地看待一个数据,它只是一个冷冰冰的数字而已。我们必须将它带入到具体的情景当中,我们才能判断这个数字是高还是低、是大还是小。
其中我们可以带入的场景之一就是它所属的群体里,即它的一个超集之中。
二、大数定律与品牌的同质人群假设
我们上初中时就知道:当掷硬币的次数越多,正面出现的概率越来越趋近于0.5。
将大数定律延伸到我们的人群画像中也类似、我们观察的某个群体数量越多,其在某个特征的分布,应该越来越趋近于整体大盘的分布水平。
考虑到大众汽车销量很高,并且在中国汽车市场上有较大的保有量,我们可以假设大众车主的男女比例、省份分布,跟中国4.39亿汽车车主的男女比例、省份分布应该是类似的。即,子集在某个维度上的分布,应该与大盘相同。
但是,我们经常会发现,子集在某个维度上的分布,比大盘要高或者低。那到底是什么因素导致的呢?
实际上,我们市场营销理论的基石是“同质人假说”——某个品牌的目标消费者(Target Audience),是一群有着相似年龄、性别、地域、消费能力、价值观的群体。比如,很多品牌官网上可能会明确介绍:我们品牌和产品,主要面向25-30岁的白领女性,她们居住在一线和新一线,追求新鲜的事物,等等。
同质人假设有其合理性:一方面品牌可以更明确找到符合其特征的目标消费者,可以有针对性地开发特定产品,并利用特定媒体渠道进行广告触达,即品牌更希望找到某一类人;另外一方面,从消费者的视角看,可以通过这些品牌定位和理念,来快速找到适合自己的产品和品牌,即某一类人也会找到适合自己的品牌。
同质性假说造成的结果则是某个相似群体在某个品牌下的高度聚集。比如提到奔驰车主,我们就觉得这是一个有钱人的群体。
所以,如果我们观察的群体,在某个维度上的分布,跟大盘相比出现了较大的异常(过高/过低),我们可以假设是品牌造成的这种差异(毕竟在真实社会中,要准确计算某个因素的解释力非常困难),而这往往可以评估品牌建立的有效性。
比如品牌A希望吸引25-30岁的一线白领女性,通过CRM数据分析发现:该品牌符合这些条件的消费者占比是20%,比例与大盘中符合上述条件的人群占比一样。我们可以认为品牌形象并未成功建立;换句话说,即使品牌什么都不做,来消费者的中白领女性比例跟现在也没什么差别。
我们在分析数据的时候,遇到TGI指数过高或者过低的维度,往往是一个突破口,我们可以在这个维度上继续深挖。
三、咖啡与混淆变量
我是一个咖啡成瘾者,每天午觉起来比都要来一杯咖啡,所以格外关注咖啡对健康的影响。事实上,咖啡对健康的研究经常见之于媒体。
一份研究表明:
研究结果表明,喝咖啡的人平均每天要喝两杯咖啡,包括脱咖啡因咖啡或速溶咖啡或研磨咖啡。他们患慢性肝病的风险比不喝咖啡的人低21%,患慢性肝病或脂肪肝的风险低20%。他们死于慢性肝病的可能性也降低了49%。
有趣的是,也有一些研究表明:“与完全不喝咖啡的人比较,一天喝1~5杯咖啡的人患心肌梗死的概率高1.34倍。”
作为咖啡爱好者,我当然说服自己相信第一个研究的结论。
可是为什么这些研究的结论竟然会如此大相径庭,甚至截然相反呢?
我对此的解释是“混淆变量”。
第一份研究使用的数据是英国的Biobank 英国生物样本库。根据《维基百科》的介绍:该生物样本库始于2006年,对40~69 年龄段的500,000 名志愿者的各项生理指标持续进行观测;抽样人群主要来自生物样本库研究中心周边10-20英里范围内的居民,“以城市人口居多”。
然而,年龄与经济水平也会直接影响“肝病”。因为也存在这样一种可能性:收入越高的人,越有可能每天消费咖啡;同时,他们也能享受到更好的医疗服务,获得科学的饮食和锻炼建议,这些因素可能也会影响慢性疾病的发病。因此,高咖啡消费与低慢性疾病发病率的相关,可能也只是一种简单的相关表象,背后的共同推手是“高收入”。
而认为咖啡有害的研究中,除了咖啡导致心肌梗死这一种因果解释之外,我们也可以假设:需要经常熬夜加班这一变量,是让二者存在相关的共同推手——由于需要经常熬夜加班,才会需要大量咖啡因的摄入来保持清醒;与此同时,熬夜加班也加大了心肌梗死的风险。
这就是背后的“混淆变量”,简单来说:Z导致了X,Z也导致了Y;乍看起来,X、Y存在因果或者相关,因为它们经常相伴相生。
而这跟TGI又有什么关系呢?
如果你看到一个数据:未患脂肪肝的人群中,70%的人都是咖啡爱好者,TGI指数是170;而患有脂肪肝的人,35%是咖啡爱好者,TGI指数是85。
这是否意味着喝咖啡能减少得脂肪肝的可能性呢?
通过上面混淆变量的分析,你会坚定地否定这一想法。
TGI指数也只是一个数字,我们可以通过过高或者过低的TGI去寻求进一步的人群的洞察,但是不意味着这个维度就能对群体的形成具有解释力。