Web数据挖掘如何入门?
923人已读
发布于:2023-02-07 21:34:44
展开目录
展开目录收起
1、Web内容挖掘实现技术
2、Web使用记录挖掘实现技术
Web数据挖掘依据在挖掘过程中使用的数据类别,Web挖掘任务可以被划分为:1、Web内容挖掘实现技术;2、Web使用记录挖掘实现技术。Web上的内容挖掘多为基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比较类似。利用Web文档中部分标记,如Title、Head等包含的额外信息,可以提高Web文本挖掘的性能。

Web数据挖掘如何入门?

1、Web内容挖掘实现技术

Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程。同时还可以对Web的组织结构和链接关系进行挖掘,从人为的链接结构中获取有用的知识。由于文档之间的互连,Web能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。

(1)文本总结。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。其目的是对文本信息进行浓缩,给出它的紧凑描述。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。

(2)文本分类。分类是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即通常所说的分类器。文本聚类。文本聚类把一组文档按照相似性归成若干类别。方法大致可分为层次凝聚法和平面划分法两种类型。

(3)关联规则。发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则。

2、Web使用记录挖掘实现技术

Web使用记录挖掘是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者的行为模式,获取有价值的信息的过程。目标从Web的超链接结构、网页内容和使用日志中探寻有用的信息。虽然Web挖掘使用了许多数据挖掘技术,但它并不仅仅是传统数据挖掘的一个简单应用。在过去20年中,许多新的挖掘任务和算法被相继发明。

在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两种方式:一是先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术来访问日志数据;二是直接访问日志数据以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。

让数据流动起来,开启业绩增长!

了解500+品牌零售商使用LinkFlow的场景用例