数据挖掘的具体标签维度大致可以分为用户的基本属性标签、用户兴趣标签、地理位置标签等几个方面。
1、用户的基本属性标签一般来说是相对固定的,一段时间内是保持不变的、例如性别、年龄、职业等。
2、用户的兴趣标签一般是根据用户的行为来提取,例如用户经常点击某种视频或者某款产品,我们可以对用户打上对应的兴趣标签,但兴趣标签一般是有时效性的,用户的行为时间间隔越长,兴趣标签的有效性越低,所以通常需要对兴趣标签会加上行为权重和衰减因子等加以控制。
3、地理位置标签主要是通过用户上网请求ip、上网时间以及使用时长等对用户所处物理地址进行判断,例如是用户家的地址,公司地址,还是其他地址等。每种标签都可以使用不同的方法进行挖掘和处理。
目前使用数据挖掘得到标签的方法通常包括:
1、对数据进行统计分析,例如对各项标签进行组合或者重新计算。
2、利用自然语言处理(NLP)技术对标签进行加工和处理,例如使用TF-IDF、TextRank等技术进行词频统计,进而加工得到可用标签。
3、还可以使用机器学习的方法对标签进行预测,常用的模型算法包括LR、SVM、GBDT、XGBoost等。具体就是通过已有的部分真实标签,例如性别,对缺失标签的样本进行模型训练和预测,得到预测标签后再进行标签验证。
4、也可以使用无监督的方式对标签进行预测,有效标签的评价指标主要包括标签的准确性与覆盖率,标签的准确率越高,标签质量越好,一般认为标签的准确率在80%以上为可用。另外标签的覆盖率越高,标签的可用性也越高。标签的准确性与覆盖率一般是互相制约的,需要我们根据业务情况具体去调整和平衡。
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例