Post Jobs

Web数据挖掘在电子商务中的应用,电子商务中Web数据挖掘技术应用分析

中图法分类号:F724.6文献标识码:A

中图分类号:TP393 文献标识码:A 文章编号:1009-304414-0251-02

摘要:在电子商务中,运用数据挖掘技术对服务器上的日志文件等Web数据进行客户访问信息的Web数据挖掘。了解客户的访问行为,从而调整站点结构、市场策略等,使电子商务活动具有针对性。 
  关键词:电子商务;Web数据挖掘;服务器日志文件 
  中图分类号:F713.36 文献标识码:A

1Web日志挖掘技术及应用分析

1 概述

               Web Data Mining in Ecommerce  
  Abstract: In e-commerce, we can make web data mining to the
information of customers’ visit by using the data mining technology on
the server log file. In dong so, we can understand the behavior of
customers’ visit, thus to adjust the site structure, marketing strategy,
and make the e-commerce activities have more pertinence.
  Key words:ecommerce; Web Data Mining; server log file

Internet是信息社会的重要标志,它的爆炸式的发展已经超出人们预期的想象,为了更好的分析Web的使用和Web的结构,Web日志挖掘作为数据挖掘[1]的一个重要分支,随着Web的发展而出现。1997年R.Cooley首先提出Web使用挖掘这个概念,它通过挖掘Web站点的访问日志,分析Web日志中存在的规律,掌握用户访问站点的模式;从而帮助网站管理者识别潜在的客户、更好地开展电子商务、改善Internet的信息服务质量和提高Web服务器的系统性能。

电子商务是指企业或个人以网络为载体,应用电子手段,利用现代信息技术进行商务数据交换和开展商务业务的活动。随着互联网的迅速发展,电子商务比传统商务具有更明显的优势,由于电子商务具有方便、灵活、快捷的特点,使它已逐渐成为人们生活中不可缺少的活动。目前电子商务平台网站多,行业竞争强,为了获得更多的客户资源,电子商务网站必须加强客户关系管理、改善经营理念、提升售后服务。数据挖掘是从数据集中识别出隐含的、潜在有用的、有效的,新颖的、能够被理解的信息和知识的过程。由数据集合做出归纳推理,从中挖掘并进行商业预判,能够帮助电子商务企业决策层依据预判,对市场策略调整,将企业风险降低,从而做出正确的决策,企业利润将最大化。随着电子商务的应用日益广泛,电子商务活动中会产生大量有用的数据,如何能够数据挖掘出数据的参考价值?研究客户的兴趣和爱好,对客户分门别类,将客户心仪的商品分别推荐给相关客户。因此,如何在电子商务平台上进行数据挖掘成为研究的热点问题。

  一、引言 
 目前,通过web进行商务活动带来的便利和它所产生的交易速度已成为电子商务迅猛发展的关键推动力。另一方面,涉及客户端的电子商务活动也正在进行着巨大的革新。如果能够跟踪客户在Web上的浏览行为并进行模式分析,这样将会缩短销售商与客户之间的距离让销售商更了解自己客户的需求,有针对性地开展电子商务活动。 
  在Internet上的客户都意识到,只要他们连接到一个在线市场的报务器上,就已经在这个服务器上留下了一个“脚印”,这就是服务器的日志文件,我们就可以对客户访问留下的这些日志文件进行Web的数据挖掘,提取关于客户的知识,对客户的访问行为、频度、内容等的分析,可以得到关于群体客户行为和方式的普遍知识,用以改进Web服务方的设计。通过Web数据挖掘,就可以根据客户的访问兴趣、访问频度、访问时间,动态地调整页面结构,改进服务.客户个性化的界面。开展有针对性的电子商务以更好的满足访问者的需求。 
  二、web数据挖掘技术 
  万维网目前是一个巨大的、分布广泛的、全球性的信息服务中心,涉及新闻、广告、消费者信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web还包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,为数据挖掘提供了丰富的资源。然而,基于以下观察,Web对有效的资源和知识发现也提出了巨大挑战性。 
  对有效的数据仓库和数据挖掘而言,Web似乎太庞大了。Web的数据量以兆兆字节计算,而且仍然在迅速地增长。许多机构和社团都在把各自的面向公众的信息置于Web。这使得几乎不可能去构造一个数据仓库来复制、存储或集成Web上的所有数据。 
  Web页面的复杂性远比任何传统的文本文档复杂的多。Web页面缺乏统一的结构,它包含了远比任何一组书籍或其它文本文档多得多的风格和内容。Web可以看作一个巨大的数字图书馆;然而,这个图书馆中巨大数量的文档并不根据任何特定的分类次序加以组织。既没有分类索引,也没有按标题、作者、扉页、目次等组织的索引。在这样一个图书馆中搜索希望的信息可能是极具挑战性的。 
  Web是一个高度动态的信息源。Web不仅以极快的速度增长,而且其信息还在不断地更新.Web上的新闻、股市、天气、体育、购物、公司广告和大量其他Web页面都在定期更新.链接信息和访问记录也在频繁地更新。 
  Web面对的是一个广泛的形形色色的用户群。目前,因特网上连接上亿台工作站,其用户群仍在快速膨胀。各个用户可能有不同的背景、兴趣和使用目的。大部分用户并不了解信息网络的结构,不清楚搜索的高昂代价。他们极容易在“黑暗”的网络中迷失方向,也极容易在“跳跃式”访问中烦乱不已,在等待一段信息中失去耐心。 
  Web上的信息只有很小的一部分是相关的或有用的。据说99%的Web信息对于99%的Web用户是无用的。虽然这看起来不是很明显,但一个人只是关心Web上的很小很小一部分信息的确是事实,Web所包含的其余信息对用户来说是不感兴趣的,而且可能淹没希望得到的搜索结果。如何决定与你的兴趣真正相关的那部分Web页面?如何找到关于特定的主题的高质量的Web页面? 
  这些挑战已经推动了有效地发现和利用因特网上资源的研究工作。 
  有许多基于索引的Web搜索引擎。它们搜索Web,索引Web页面,并建立和存储大量基于关键词的索引,用于定位包含某写关键词的Web页面集。借助于这种搜索引擎,有经验的用户通过提供一组严格约束的关键词和短语,可以快速定位文档。然而,简单的基于关键词的搜索引擎存在一些问题。首先,任何宽泛的主题都可能包含成千上万文档。这可能导致搜索引擎返回大量文档条目,其中很多与话题的相关性并不大,或所包含的内容质量不高。其次,很多与主题相关的文档可能并不包含相应的关键词。这被称为多义问题,已在前面关于文本挖掘一节中讨论。例如,关键词Java可能是指Java程序设计语言,或印尼的岛屿,或煮好的咖啡。再举个例子,基于关键词搜索引擎的搜索甚至可能找不出最常见的搜索引擎,如Yahoo!,
Alta Vista,
或美国在线,如果这些引擎不在其页面上声明其为搜索引擎。这表明简单的基于关键词的Web搜索引擎对于Web资源的发现还存在缺陷。 
  “如果Web搜索引擎对Web资源的发现都还有问题,何以谈得上Web挖掘?”与基于关键词的Web搜索相比,Web挖掘是一项更具有挑战性任务,它搜索Web结构,依次确定Web内容的重要性,发现Web内容的规律性和动态性,挖掘Web的访问模式。然而,Web挖掘可以用来实质性地加强Web搜索引擎的能力,因为Web挖掘可能识别权威Web页面,分类Web文档,解决基于关键词搜索出现的一些含糊不清。一般地,Web挖掘任务可以分为三类:Web内容挖掘(Web
content mining),Web结构挖掘(Web structure mining),和Web使用挖掘(Web
usage
mining)。作为选择,Web结构也可以被认为是Web内容一部分,这样Web挖掘可以简单分为两类,即Web内容挖掘和Web使用挖掘。 
  Web内容挖掘主要包括:挖掘Web页面布局结构;挖掘Web的链接结构;挖掘Web上的多媒体数据;Web文档自动分类和Web日志挖掘。 
  Web使用挖掘:“什么是Web使用挖掘?”除了挖掘Web内容和Web链接结构,Web挖掘的另一个重要任务是Web使用挖掘(Web
usage
mining),它通过挖掘Web日志记录来发现用户访问Web页面的模式。通过分析和探索Web日志记录中的规律,可以识别电子商务的潜在客户,增强对最终用户的因特网信息服务的质量和交付,并改进Web服务器系统性能。由于Web日志数据提供了什么样的用户访问什么样的Web页面的信息,因此Web日志信息可以与Web内容和Web链接结构挖掘集成起来,用于Web页面的定秩,Web文档的分类,和多层Web信息库的构造。一个特别有趣的Web使用挖掘应用是挖掘客户端用户的交互史和搜索内容,为提高对给定用户的秩评定的准确率提取有用信息。例如,如果用户将关键词查询“Java”提交给搜索引擎,然后从返回条目中选择了“Java
Programming
Language”来查看,那么系统能够推断出用户对此Web页面显示的片段感兴趣。然后,系统可以提高与“Java
Programming
Language”相似的页面的秩,而避免提“Java岛”这样的转移页面。因此,搜索质量得以提高,因为这种搜索是溶入背景的和个性化的。 
  三、电子商务中进行web数据挖掘的数据源
  
 (一)服务器数据 
  客户访问服务器就会在服务器上产生相应的服务器数据。这些数据可以分为日志文件和查询数据。其中日志文件又可以分为server
logs、error logs、cookie logs。 
  1.Server logs
  server
logs有两种格式存储,一种是普通日志文件格式,另一种是扩展日志文件格式。普通日志文件格式以“Date,cIient-IP,User-name,BYles,Server,Request,Status,Service
name Time,rotecol-version ,User-agent,
Cookie,Reffrer”的格式存储关于客户连接的物理信息。扩展日志文件格式主要是支持关于日志文件元信息的指令,如版本号,会话监控开始和结束的是日期,被记录的域等。 
  2.Error logs
  存取请求失败的数据,例如:丢失连接,授权失败,超时。 
  3.Cookie logs
  HTTP协议本身是一种非事务型的,这一种特征对于事务型的电子商务来说是不合适的,给电子商务带来了一些问题。这个问题通过使用cookies得到了克服。Cookies是一种软件构件,它能够在客户端存储客户访问服务器的信息。服务器软件上存储关于cookie的这部分,就叫做cookie
logs。Cookie logs的一般格式是:Name,expiry_date, path,
domain,security_level。 
  4.查询数据 
  它是电子商务站点在服务器上产生的一种典型数据。例如,对于在线存储的客户也许会搜索一些产品或某些广告信息,这些查询信息就通过cookie或是登记信息连接到服务器的访问日志上,目前还没有一个标准的查询数据格式。 
  (二)客户登记信息 
  客户登记信息是指客户通过Web页在屏幕上输入的,要提交给服务器的相关信息。它在电子商务活动起着非常重要的作用,特别是在安全方面,或者在对客户可访问信息的限制方面。在Web的数据挖掘中,客户登记信息必须和访问日志集成,以提高数据挖掘的准确度,能更进一步的了解客户。 
  四、电子商务中应用的数据挖掘技术 
  针对前文提到的这些客户访问在线市场时所产生的数据,进行Web上的数据挖掘,主要是进行客户访问信息的挖掘。得到客户的浏览行为和访问模式,从而找到有用的市场信息。在电于商务中一般有以下几种数据挖掘技术的使用: 
  (一)路径分析 
  它可以被用于判定在一个
Web站点中最频繁访问的路径。还有一些其他的有关路径的信息通过路径分析可以得出:70%的用户端在访问/company/product2时,是从/company
开始。经过/company/new/company/products/company/product1;80%
的访问这个站点的客户是company/products开始的;65%
的客户在浏览4个或更少的页面后就离开了。第一条规则在/eompany/product2页面上有有用的信息。但因为客户对站点进行的是迂回绕行的访问,所以这个有用信息并不明显。第二条规则说明了客户对站点的访问一般不是从主页开始的,而是从/company/products开始的,如果在这个页面上包含一些产品的目录类型的信息,将是一个不错的主意。第三条规则说明了客户在网站上驻留的时间。既然客户在这个网站上浏览一般不超过4个页面,就可以把重要的商品信息放在这些页面中。通过路径分析,可以改进页面及网站结构的设计。 
  (二)关联规则的发现 
  在电子商务中关联规则的发现也就是要找到客户对网站上各种文件之间访问的相互联系。倒如,用关联规则发现技术,我们可以找到以下的相关性: 
  40%的客户访问页面company/product1时,也访问了/company/product2;30%
的客户在访问/company/product1时,在/company/product1进行了在线定购。利用这些相关性,可以更好的组织站点,实施有效的市场策略。 
  (三)序列模式的发现 
  序列模式的发现就是在时间戳有序的事务集中,找到那些“一些项跟随另一个项”的内部事务模式。例如: 
  在访问company/products的顾客中,有30%
的人曾在过去的一星期利用关键字w在yahoo上做过查询。 
在/company/product1上进行过在线定购的顾客,有60%
的人在过去l5天内也在/company/product4处下过订单。发现序列模式能够便于进行电子商务的组织预测客户的访问模式,对客户开展有针对性的广告服务。通过系列模式的发现,能够在服务器方选取有针对性的页面,以满足访问者的特定要求。 
  (四)分类规则的发现 
  分类发现就是给出识别一个特殊群体的公共属性的描述,这个描述可以用来分类新的项。例如:政府机关的顾客一般感兴趣的页面是/company/product1。 
  在/company/product2进行过在线定购的顾客中有50%是20~30岁生活在西部的年轻人。得到分类后,就可以进行适合某一类客户的商务活动。 
  五、在电子商务活动中的几点应用 
  (一)找到潜在的客户 
  在对Web的客户访问信息的挖掘中,利用分类技术可以在Internet上找到未来的潜在客户。获得这些潜在的客户通常的市场策略是先对已经存在的访问者进行分类,一般分为三种:
No custome”、“vistor once”和“visitor
regular”。对于一个新的访问者,通过在Web上的分类发觋.识别出这个客户与已经分类的老客户的一些公共的描述,从而对这个新客户进行正确的分类,然后从它的分类判断这个新客户是有利可图的客户群还是无利可图的客户群,决定是否要把这个新客户作为潜在的客户来对待。客户的类型确定后,就可以对客户动态地展示Web页面,页面的内容取决于客户与销售商提供的产品和般务之间的关联。
  (二)客户的驻留 
  对客户来说,传统客户与销售商之间的空间距离在电子商务中已经不存在了,在Internet上,每一个销售商对于客户来说都是一样的,那么如何使客户在自己的销售站点上驻留更长的时间,对销售商来说将是一个挑战。为了使客户在自己的网站上驻留更长的时间,就应该了解客户的浏览行为,知道客户的兴趣及需求所在,动态地调整Web页面,以满足客户的需要。通过对客户访问信息的挖掘,就能知道客户的浏览行为,从而了解客户的兴趣及需求。在Internet上的电子商务中的一个典型的序列,恰好就代表了一个购物者以页面形式在站点上导航的行为,所以可运用数据挖掘中的序列模式发现技术。 
  (三)改进站点的设计 
  站点上页面内容的安排和连接就如超级市场中物品在货架上的摆设一样,把具有一定支持度和信任度的相关联的物品摆放在一起有助于铺售,利用在Web上的关联规则的发现,可以针对客户动态调整站点的结构,使客户访问的有关联的文件间的连接能够比较直接,让客户能够容易的访问到想访问的页面,网站如果具有这样的便利性,能给客户留下较好的印象,增加了下次访问的机率。 
  六、小结 
  本文介绍了在电子商务中可以被用来进行数据挖掘的数据源,以及可用于电子商务中的、基于Web上的几种数据挖掘技术和它们在电子商务中的一些相关运用。但是在电子商务中进行Web的数据挖掘时还有很多问题需要解决。例如,我们需要把服务器上的日志数据转化成适台某种特定数据挖掘技术适用的格式;需要解决不同国家不同地区存储Web数据的语义不一致性;需要解决用户会话期识别的问题;由谁来控制这整个Web上的知识发现过程等。另外,从Web数据挖掘在电子商务中运用的角度来看,从数据挖掘中发掘出来的这些潜在的知识可作为今后市场策略的重要准则,根据发掘出来的知识进行相应的策略调整,可以动态创建满足客户需求的页面。

Web
日志挖掘[2]作为数据挖掘的一个重要分支,已经成为国际上一个新兴的重要研究领域。其中最有代表性的是
WEBKDD 会议,从 1999
年到现在,WEBKDD已经涌现了丰硕的成果。比较有代表性的研究成果有:Simon
Fraser 大学的Weblog Miner系统,它将 Web
日志数据组织为数据立方体,然后在其上进行联机分析处理和数据挖掘[3],用于发现用户的访问模式。Minnesota
大学的 WEBMINER 系统提出一种通用的 Web
日志挖掘的体系结构,该系统能自动从 Web 日志中发现关联规则和序列模式等。

2 数据挖掘技术概述

参考文献: 
[1]Goonatilake S.Genet~Rule Induction for Financial Decision
Making[M].IOS Press.2004. 
[2]Mueller J.A and Frank Lemke.Selforganising data
mining[M].Herstellung.Berlin:Libri Books on Dem and.2000. 
[3]Elder IVJF.A statistical perspective on knowledge discovery in
databases[M].AAA1 Press/The MIT Press.M enlo
Park,California,2007. 
[4]Bebaer.A.C .Mttlveana.M.D Discovering Intemet Marketing
Inteligence, through online Analytical Web Using Mining [j] ACM?
SIGMOD Record.2006.27(4):54-61.
[5]Barron A R.Statistical learning networks: a unifying
view[A].Proceedings of the 20th symposium computer science and
statistics[c].2008. 
[6]王实,高文.李锦涛Web数据挖掘[J]. 计算机科学 2005.27(4).

Web 日志挖掘的研究主要应用于网站优化的以下几个领域。

数据挖掘,也称数据库中的知识发现。数据挖掘一般是指从海量数据中应用算法查找出隐藏的、未知的信息的过程。数据挖掘是一个在大数据资源中利用分析工具发现模型与数据之间关系的一个过程,数据挖掘对决策者寻找数据间潜在的某种关联,发现隐藏的因素起着关键作用。这些模式是有潜在价值的、并能够被理解的。数据挖掘将人工智能、机器学习、数据库、统计、可视化、信息检索、并行计算等多个领域的理论与技术融合在一起的一门多学科交叉学问,这些学科也对数据挖掘提供了很大的技术支撑。

1.1频繁访问模式挖掘,指的是从 Web
日志中找到频繁被访问的网页序列,对被频繁访问的网页路径进行挖掘可以改进
Web 站点的结构设计,也可以为网站经营者提供决策参考。

3 Web 数据挖掘特点

1.2用户聚类,指的是从 Web
日志中找到访问模式相似的网站用户群,发现这些网站用户的共同特点。

Web
数据挖掘就是数据挖掘在Web中的应用。Web数据挖掘的目的是从万维网的网页的内容、超链接的结构及使用日志记录中找到有价值的数据或信息。依据挖掘过程中使用的数据类别,Web数据挖掘任务可分为:Web内容挖掘、Web结构挖掘、Web使用记录挖掘。

1.3用户访问预测的研究,指的是根据用户当前的访问路径预测用户将来的访问页面。

1)Web内容挖掘指从网页中提取文字、图片或其他组成网页内容的信息,挖掘对象通常包含文本、图形、音视频、多媒体以及其他各种类型数据。

1.4优化客户访问体验和提高网站收益:通过对客户的访问模式进行挖掘,可以发现潜在客户,对于一个电子商务网站来说,尽可能从众多的访问者中发现潜在客户群体,就意味着交易可能性的大大增加;同时通过Web日志数据挖掘,增加网站对客户的粘性,延长客户在自己网站上的驻留时间,就更容易掌握客户的浏览行为,改进站点的设计,提高电子商务的效益。

2)Web结构挖掘是对Web页面之间的结构进行挖掘,挖掘描述内容是如何组织的,从Web的超链接结构中寻找Web结构和页面结构中的有价值模式。例如从这些链接中,我们可以找出哪些是重要的网页,依据网页的主题,进行自动的聚类和分类,为了不同的目的从网页中根据模式获取有用的信息,从而提高检索的质量及效率。

要在网站优化中具体应用Web日志挖掘技术,有两个重点问题要解决,一个是建立Web日志挖掘应用系统模型,一个是采用适当的算法对海量数据进行精确分析。本文将对这两方面的问题做一个阐述。

3)Web使用记录挖掘是根据对服务器上用户访问时的访问记录进行挖掘的方法。Web使用挖掘将日志数据映射为关系表并采用相应的数据挖掘技术来访问日志数据,对用户点击事件的搜集和分析发现用户导航行为。它用来提取关于客户如何浏览和使用访问网页的链接信息。如访问了哪些页面?在每个页面中所停留的时间?下一步点击了什么?在什么样的路线下退出浏览的?这些都是Web使用记录挖掘所关心要解决的问题。

2面向电子商务的Web日志挖掘应用系统模型

4电子商务中Web挖掘中技术的应用分析

面向电子商务的
Web日志挖掘系统模型主要有三个部分:数据库、数据挖掘集成工具和图形用户界面(GUI)模块。整个系统的结构如图1所示。

1)电子商务中序列模式分析的应用

在该模型下,用相关的关系型数据源创建数据库,并通过图形用户界面进行管理和维护,在此基础之上支持各种数据挖掘任务、为数据挖掘提供数据平台。数据挖掘集成工具是一个挖掘驱动引擎,它是一个规则集合,能够集成多种数据挖掘算法,到Web数据挖掘算法库中选择最有效的挖掘算法处理数据挖掘和决策推理工作,完整的挖掘数据预处理过程包含:数据净化、用户识别、会话识别、路径补充、事务识别等几个步骤。图形用户界面(GUI)用于用户与系统的交互,用户通过
GUI
建立和执行任务,完成各项数据挖掘任务,一般执行数据挖掘任务得到的结果往往是一些抽象的模型或者数据,一般用户较难理解,GUI可以帮助用户直观明了地理解挖掘结果,管理人员可以通过浏览器方式实现系统管理,对数据挖掘发现的模式进行解释和评价,过滤出有用的知识,利用可视化技术将有意义的模式以图形或逻辑可视化的形式表示。

序列模式数据挖掘就是要挖掘基于时间或其他序列的模式。如在一套按时间顺序排列的会话或事务中一个项目有存在跟在另一个项目后面。通过这个方法,WEB销售商可以预测未来的访问模式,以帮助针对特定用户组进行广告排放设置。发现序列模式容易使客户的行为被电子商务的组织者预测,当用户浏览站点时,尽可能地迎合每个用户的浏览习惯并根据用户感兴趣的内容不断调整网页,尽可能地使每个用户满意。使用序列模式分析挖掘日志,可以发现客户的访问序列模式。在万维网使用记录挖掘应用中,序列模式挖掘可以用于捕捉用户路径之中常用的导航路径。当用户访问电子商务网站时,网站管理员能够搜索出这个访问者的对该网站的访问序列模式,将访问者感兴趣但尚未浏览的页面推荐给他。序列模式分析还能分析出商品购买的前后顺序,从而向客户提出推荐。例如在搜索引擎是发出查询请求、浏览网页信息等,会弹出与这些信息相关的广告。例如购买了打印机的用户,一般不久就会购买如打印纸、硒鼓等打印耗材。优秀的推荐系统将为客户建立一个专属商店,
由每个客户的特征来调整网站的内容。也能由挖掘出的一些序列模式分析网站及产品促销的效果。

在该模型下进一步拓展,可以建立相关的专家方法驱动系统。其主要功能是利用挖掘出来的高价值信息去进行相应的应用。其中,页面访问情况可以用来指导网页的重构,分析出的客户消费行为模式可以作为反馈信息,以客户关系管理的方式对客户进行直接的点到点促销;根据客户的访问模式,还可以给出客户的定制化页面,针对不同的消费需求制定不同的促销模式等。

2)电子商务中关联规则的应用

3应用于电子商务网站优化的频繁路径挖掘算法

关联规则是揭示数据之间隐含的相互关系,关联分析的任务是发现事物间的关联规则或相关程序。关联规则挖掘的目标是在数据项目中找出每一个数据信息的内在关系。关联规则挖掘就是要搜索出用户在服务器上访问的内容、页面、文件之间的联系,从而改进电子商务网站设计。可以更好在组织站点,减少用户过滤网站信息的负担,哪些商品顾客会可能在一次购物时同时购买?关联规则技术能够通过购物篮中的不同商品之间的联系,分析顾客的购物习惯。例如购买牛奶的顾客90%会同时还购买面包,这就是一条关联规则,如果商店或电子商务网站将这两种商品放在一起销售,将会提高它们的销量。关联规则挖掘目标是利用工具分析出顾客购买商品间的联系,也即典型购物篮数据分析应用。关联规则是发现同类事件中不同项目的相关性,例如手机加充电宝,鼠标加鼠标垫等购买习惯就属于关联分析。关联规则挖掘技术可以用相应算法找出关联规则,例如在上述例子中,商家可以依据商品间的关联改进商品的摆放,如果顾客购买了手机则将充电宝放入推荐的商品中,如果一些商品被同时购买的概率较大,说明这些商品存在关联性,商家可以将这些有关联的商品链接放在一起推荐给客户,有利于商品的销售,商家也根据关联有效搭配进货,提升商品管理水平。如买了灯具的顾客,多半还会购买开关插座,因此,一般会将灯具与开关插座等物品放在一个区域供顾客选购。依据分析找出顾客所需要的商品的关联规则,由挖掘分析结果向顾客推荐所需商品,也即向顾客提出可能会感兴趣的商品推荐,将会大大提高商品的销售量。
3)电子商务中路径分析技术的应用

对Web站点的优化可从两个方面来考虑:一是通过对Web日志的挖掘,发现用户访问页面的相关性,从而在密切联系的页面之间增加链接,方便用户使用;二是通过对Web日志的挖掘,发现用户的期望位置,如果在期望位置的访问频率高于实际位置的访问频率,可考虑在期望位置和实际位置之间建立导航链接,从而实现对Web站点的优化。无论是出于哪方面的,都要通过Web日志挖掘,分析用户访问路径来获取用户的浏览模式,这部分工作主要依靠频繁路径的挖掘来完成。可以说,对网站频繁路径的挖掘是网站优化工作的基础。本文重点对网站频繁路径的挖掘算法做一分析。

路径分析技术通过对Web服务器的日志文件中客户访问站点的访问次数的分析,用来发现Web站点中最经常访问的路径来调整站点结构,从而帮助使用用户以最快的速度找到其所需要的产品或是信息。例如在用户访问某网站时,如果有很多用户不感兴趣的页面存在,就会影响用户的网页浏览速度,从而降低用户的浏览兴趣,同时也会使整个站点的维护成本提高。而利用路径分析技术能够全面地掌握网站各个页面之间的关联以及超链接之间的联系,通过分析得出访问频率最高的页面,从而改进网站结构及页面的设计。

挖掘频繁访问路径的主要步骤可以概括如下:

4)电子商务中分类分析的应用

3.1从原始日志文件中获得 MFP

分类技术在根据各种预定义规则进行用户建模的Web分析应用中扮演着很重要的角色。例如,给出一组用户事务,可以计算每个用户在某个期间内购买记录总和。基于这些数据,可以建立一个分类模型,将用户分成有购买倾向和没有购买倾向两类,考虑的特征如用户统计属性以及他们的导航活动。分类技术既可以用于预测哪些购买客户对于哪类促销手段感兴趣,也可以预测和划分顾客类别。在电子商务中通过分类分析,可以得知各类客户的兴趣爱好和商品购买意向,因而发现一些潜在的购买客户,从而为每一类客户提供个性化的网络服务及开展针对性的商务活动。通过分类定位模型辅助决策人员定位他们的最佳客户和潜在客户,提高客户满意度及忠诚度,最大化客户收益率,以降低成本,增加收入。

3.2从 MFP 中获得频繁引用序列

5)电子商务中聚类分析的应用

3.3从所有频繁引用序列中获得最大引用序列

聚类技术可以将具有相同特征的数据项聚成一类。聚类分析是对数据库中相关数据进行对比并找出各数据之间的关系,将不同性质特征的数据进行分类。聚类分析的目标是在相似的基础上收集数据来分类。根据具有相同或相似的顾客购买行为和顾客特征,利用聚类分析技术将市场有效地细分,细分后应可每类市场都制定有针对性的市场营销策略。聚类分别有页面聚类和用户聚类两种。用户聚类是为了建立拥有相同浏览模式的用户分组,可以在电子中商务中进行市场划分或给具有相似兴趣的用户提供个性化的Web内容,更多在用户分组上基于用户统计属性的分析可以发现有价值的商业智能。在电子商务中将市场进行细化的区分就是运用聚类分析技术。聚类分析可根据顾客的购买行为来划分不同顾客特征的不同顾客群,通过聚类具有类似浏览行为的客户,让市场人员对顾客进行类别细分,能够给顾客提供更人性化的贴心服务。比如通过聚类技术分析,发现一些顾客喜欢访问有关汽车配件网页内容,就可以动态改变站点内容,让网络自动地给这些顾客聚类发送有关汽车配件的新产品信息或邮件。

其中MFP指的是最大前向路径。由于用户会话在遍历路径时存在两个移动方向,一个是前进,即请求页面是此前用户会话中从未访问过的页面,另一个是后退,即请求页面是用户会话中已经访问过的页面。最大前向路径是用户在会话的第一页到回退的前一页组成的路径。

分类和聚类往往是相互作用的。在电子商务中通过聚类行为或习性相似的顾客,给顾客提供更满意的服务。技术人员在分析中先用聚类分析将要分析的数据进行聚类细分,然后用分类分析对数据集合进行分类标记,再将该标记重新进行分类,一直如此循环两种分析方法得到相对满意的结果。

我们首先要获得MFP,获得MFP 算法的主要思想是:

5 结语

假设{x1,x2,…,xm}表示一个用户会话,{y1,y2,…,yj-1}表示一个潜在的
MFP,初始为空。Flag标识当前的访问方向是前进还是后退。每次检查用户会话中的xi,试图将其扩充到潜在MFP中。

随着互联网的飞速发展,大数据分析应用越来越广。商业贸易中电子商务所占比例越来越大,使用
web
挖掘技术对商业海量数据进行挖掘处理,分析客户购买喜好、跟踪市场变化,调整销售策略,对决策者做出有效决策及提高企业的市场竞争力有重要意义。

若xi∈{y1,y2,…,yj-1},则xi将作为yj加入潜在MFP中,并且将flag标记为前进;

否则有xi=yk,其中1≤k

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章

网站地图xml地图