论买奶粉的正确姿势,文本数据挖掘有话要说

2017-08-24 11:27:55

新闻中心>DT财经>正文内容

文/毕马威大数据挖掘

面对市场上玲琅满目的奶粉,消费者时常不知如何选择。作为一个擅长用数据解决消费问题的网红,DT君一向推崇用户评论文本数据的挖掘。来自KPMG大数据挖掘团队的数据侠们,采集了16万条奶粉评论数据,并结合词向量模型告诉你怎么买奶粉。

对于生活在城市中的忙碌上班族来说,省时省力又具有价格优势的电商平台逐渐成为她们购买奶粉的首选。我们选用了某东、某猫和某拉三个电商平台作为数据来源,搜集了共166611条评论,初步洞悉了妈妈们挑选奶粉的主要关注点;然后通过对词向量的分析,了解了用户在购买奶粉时的消费趋势(更关注产品本身还是依靠品牌传播)。

数据收集

首先,笔者在上述三个平台分别搜索“奶粉”,将筛选条件设置为“一段”、“罐装”(其中某东为“桶装”,与“罐装”同义),并按销量降序排列。

同一商品若重量不同视为同一品种(如同款产品的单罐装、多罐装,400g、900g均视为同一品种),同一平台的不同渠道视为同一品种(如“美素力金装婴儿配方奶粉1段”在美素佳儿官方旗舰店和某猫超市均有售,视为同一品种)。

根据上述标准选取每个平台前20个奶粉品种作为目标奶粉。

奶粉品种选定了,接下来可以利用python抓取用户评论了。我们发现,某东和某猫的评论只显示100页,每页10条,也就是说作为用户的我们只能看到1000条评论。由于某东对评论设置了分类,为了最大化评论数量,我们分别按“推荐排序”、“时间排序”两种排序方式抓取了某东20个奶粉品种的“全部评价”、“好评”、“中评”、“差评”四类评论下的所有评论,去重后,形成了最终的某东奶粉评论集。而某猫和某拉未设置评论分类,我们抓取了各平台20个奶粉品种下的所有用户评论。最终,形成了4个评论数据集,分别是某东42200条、某猫48121条、某拉76290条和汇总166611条评论。

接下来,笔者利用python的jieba包对上述评论进行分词,并下载了停顿词库去除了停顿词,然后分别对4个数据集进行词频统计,并用wordcloud生成了词云图。

奶粉质量最重要,平台影响力大于品牌

笔者将词语进行分类,并统计了不同词语占总评论条数的比例,发现三家电商平台奶粉用户集中宝宝反应、物流、奶粉真伪等问题。其中,又以宝宝反应为最核心关注点。

我们又将上述问题分为奶粉和平台两大类,可以发现,用户对于平台的关注度甚至高于奶粉。这说明,对于消费者来说,用户对电商平台的关注程度甚至高过了奶粉产品本身。

这里我们详细讨论一下与奶粉相关的问题。

用户们最关心的是——宝宝反应。其中代表词包括:宝宝、孩子、上火、宝贝、爱喝、消化、大便、拉肚子、便秘、过敏、奶瓣、肚子、拉稀、肠胃、腹泻、消化不良等。

对于奶粉本身而言,用户最为关注的是宝宝吃(喝)了奶粉之后的反应,比如宝宝是否表现出上火、不易消化以及便秘等现象,相关词语占比达到40.02%。也就是说,每10条评论,大约有4条谈论宝宝对于奶粉的反应。

另外,还有一个与奶粉相关的问——溶解度。代表词包括:挂壁、溶解、溶解性、溶解度、颗粒、颗粒状等。该类词占比达到1.93%。从评论来看,父母对于奶粉溶解度有一定要求,希望溶解度好,挂壁现象少。

对于平台相关问题,物流、奶粉真伪、价格等是用户们最关心的点。这些与我们日常购买时的经验大致相同。例如在物流的问题里,相关代表词有:包装、物流、很快、快递、速度、送货、慢、破损、超快、爆罐等。物流相关问题的占比达到24.87%。

在物流环节,用户的关注点主要集中在包装是否完好以及物流速度两方面。用户关心收到奶粉时奶粉罐是否被压扁或者出现凹陷,最严重的情况是用户收到时奶粉已经爆罐(奶粉罐爆开)。收货速度方面,某拉用户相对于某东和某猫更少关注物流速度,可能是由于用户对于海淘平台的物流速度本身已有一定预期。

数据为你找到质量佳、口碑赞的靠谱奶粉

对于消费者来说,大家在购买奶粉时主要分为两类人群:

第一是清楚自己的消费偏好,更看种商品质量的成熟人群;第二是初次消费、受宣传、口碑等影响的不成熟人群。她们代表了两种不同的消费模式。

所以我们接下来就想看一下,这两种模式的不同之处。

我们事先假定:二胎的宝爸宝妈代表了经验充足的父母,也就是说,他们对于奶粉的选择更加体现了产品本身的好坏;而广大亲朋好友的推荐代表着品牌的口碑和传播度。所以,我们将分别统计不同品牌的二胎宝爸宝妈评论占比,以及不同奶粉品牌评论中由于亲朋好友推荐而购买的比率。

具体操作步骤如下:

将爬取好的三个电商平台排名前20奶粉品牌的评论,使用word2vec将词转化为向量;

通过词向量的相似度找到与“二胎”、“朋友”、“推荐”相似的词,分别生成与二胎相关词的词库及与亲朋好友推荐相关词词库;

逐条搜索评论是否包含上述两个词库的词并分别标记;

计算评论中各平台二胎父母的评论占比,以及各奶粉品牌评论中因为被亲朋好友推荐而购买的占比。

由于某猫和某东只能获取最近的全部的评论数据,所以为了保证分析的正确性,我们对后续的word2vec模型使用全部爬取的评论数据训练,而占比分析只使用2017年6月之后的评论数据。

数据预处理部分我们使用jieba包将评论进行分词操作,并且统计词频,对错切的词汇生成手工词库。对于分词后的结果,我们使用word2vec,将分词后全部的评论进行训练,对评论中词语生成了词向量。

之后,我们在词向量模型中,输入代表二胎的词“二宝”,和代表推荐的词”朋友“,进行了两次迭代,找到分别与它们意思最相近的45个近义词。

以”二宝”为例,对于二胎,我们在词向量模型中输入“二宝”一词,通过算法,第一次迭代时,生成了与“二宝”最相近的10个词,包括:

可以发现,输出的词语中与二胎相关的词包括“老二”、“小宝”、“二胎”、“大宝”等,也就是说,包含这些词的句子通常都是有二宝的宝爸宝妈写的评论。不过仅通过一轮的迭代只生成的相似词语,远远不能全面识别出评论中二宝宝爸宝妈的评论,所以我们又用上述10个词分别找到相似的10个词。

经过第二次迭代和去重,共生成了45个近义词,如下图:

经过人工筛选,上图中共有10个词与二胎有关。

同时,我们发现词库中有“弟弟”“妹妹”二词,但是没有出现哥哥、姐姐,所以我们手工把哥哥姐姐这两个词补充上。

词库的全面与迭代轮数有关,迭代轮数越多生成的高质量词越少,词库越全面,但人工工作量却会大幅增加。所以对于小规模的分析,通常1-2轮的迭代即可高效且全面地覆盖大部分目标词语。

最终的二胎相关词库包括如下词语:

二宝、大宝、小宝、老二、小儿子、老大、大儿子、二胎、妹妹、弟弟、姐姐、哥哥。生成了关于二宝的关键词词库后,我们就提取了包含“二宝”词库中词语的评论,占比如下:

嗯,可以看出某东确实魅力够大,不仅评论数遥遥领先另外两个平台,二宝的宝爸宝妈也更偏向于在某东上购买奶粉。

同理,最终与他人推荐相关的词汇包括:姐妹、邻居、表弟、亲戚、家人、人家、表姐、好友、同学、闺蜜、老婆、朋友、堂弟、嫂子、别人、家里人、表妹、同事、表嫂、弟妹、姐夫、经人、邻居、周边、周围、强烈推荐、店员、极力推荐、推荐、力推、家长、大家、帮带、身边、圈里、推见、介绍、同事、推介、力荐、安利。

通过在评论中对上述词语的搜索及占比计算,各品牌的评论数及提到推荐相关的评论占比如下每个点代表一个品牌的奶粉:

图中越偏向右代表评论数越多,说明购买的用户很多;越靠上代表提到因为亲朋好友推荐而购买的评论数越多,证明这款奶粉的口碑更优。

因此,基于上图,我们更推荐白圈圈出的奶粉品牌,购买用户多、口碑也好。至于具体是哪款,为了保持我们的独立性,就不打广告啦。

上述分析中,词向量展示出对相似词语发现的强大能力。

在自然语言处理中,可以经过小规模的人工自定义标注后,通过相似性或分类模型,自动大量的找到相似词语。由于不受语言限制,所以对于中文及特定领域词库的构建等提供了极大的便利。

我们本文做出的分析仅是简单的频数统计,虽然可以看到大体趋势,但是没有引入情感词对评论正负向进行进一步分析,比如:少数“朋友也说不好”这样的负向评论就不能被正确识别;提到“推荐”一词,也可能是“奶粉特别好特别推荐”这样的评论,也不是我们想要的。

所以,对于真正的文本挖掘工作,还需要借助更多的算法才能准确地提取文本中的含义,最终通过数据对业务产生指导。

数据侠门派

本文数据侠来自KPMG大数据挖掘团队。团队中既有资深的数据科学家,也有深入了解业务的分析专家,致力于有效结合分析、技术与业务三方面,利用大数据创造价值。

加入数据侠

“数据侠计划”由第一财经数据新媒体DT财经发起的数据人社群平台,旗下有数据侠专栏、数据大咖及爱好者社群、线上线下“数据侠实验室”系列活动等项目。

+ 入群请加DT君微信:dtcaijing002


推荐: | 「洗脸的正确 | 狗与剪刀的正确用法 | 有话问苍天 | 阿吉有话对各 | 要说秋冬送给

本文标题:论买奶粉的正确姿势,文本数据挖掘有话要说

论买 奶粉 正确 姿势 文本 数据挖掘 有话要说

网站首页 | 百分之一旗舰店 | 拼多多优惠券 | 网站地图 | 手机版 | 2024-04-30 00:20:21

Copyright © 2024 百分之一. All Rights Reserved.

闽ICP备09061460号-4