一、如何用数据挖掘的方法做比较准确的用户画像
1.数据的抽取:
从不同数据源抽取要计算的数据素材。
2.数据标准化:
针对抽取的数据将其修改成你自己设定的标准格式,同时将错误数据和无效数据剔除。
3.数据关联:
不同来源的数据有不同的主题和属性,将所有不同渠道收集的数据关联起来是建立数据的核心步骤,比如我从喜马拉雅FM获取到了目前喜马拉雅的用户地域分布,又从新榜收集到了关于音频用户的收听场景,同时从我自己的《蛋解创业》节目中收集到了用户内容偏好,因此我就可以通过这一步串联出大概我的内容制作方向、频率、上线时间、节目时长等等。
4.模型设计:
针对不同数据内容和业务目标设计不同规则和算法进行模型的建立,然后使用小样本数据来验证模型的可靠性。
5.标签计算:
在模型可靠性验证的基础上,安排生产运营等工作来进一步验证并改善或重新计算模型。
二、用户画像的构建过程
1、确定对象
用户画像首先是基于业务模型的,所以进行标签建设,首先要清楚对哪类对象建设标签。对象是客观世界中研究目标的抽象,有实体的对象,也有虚拟的对象。在企业经营过程中可以抽象出非常多的对象,包括“人”“物”“关系”,这些对象在不同的业务场景下交叉产生联系,是企业的重要的资产,需要全面刻画了解。
2、对象ID打通
在确认对象后,由于存在同一个对象在多个不同业务中的标识ID不同的情况,因此需要将同一个具体对象的不同ID标识打通,以便所有业务数据都能在该对象上打通,完成对该对象的全面数据刻画。
3、标签类目设计、标签设计
企业业务需要使用的标签项比较多时,就会给使用、查找以及管理标签带来麻烦,这种情况下就需要对标签类目进行设计,比如构建多级目录分类管理,保证标签类目的易理解、易使用、易管理。 通过标签类目设计,已经有了某类对象的标签体系框架,只是还没有具体的标签内容。标签设计就是设计合适的标签并将其挂载到标签类目。
4、标签融合表设计、标签融合表实现
对象的标签体系是对象有价值数据的全域标签,跨业务板块、跨主题,比如用户属性、用户行为、用户消费、风险控制、社交属性等都是标签,在设计标签融合表时可以选择二维表或者K-V表的组织方式,因为二维表更能满足性能和易用性的要求,所以推荐使用二维表作为标签融合表的实现方式。在大数据场景下,如果标签众多,可以通过多张融合表来存储标签。
5、作业流程调度、开发性能调优
完成标签融合表设计后,就需要添加ETL作业流程调度,并针对调度过程进行性能调优,同时配置相应的质量监控和报警机制,持续进行任务运维监控。
6、上线应用
完成所有测试后,将验证合格的系统部署到正式环境,并开放给业务人员使用。
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例