论文标题:基于星座对网络论坛用户的数据挖掘研究



所有跟贴·加跟贴·新语丝读书论坛http://www.xys.org/cgi-bin/mainpage.pl

送交者: 松鼠 于 2005-3-07, 23:23:16:

论文标题:基于星座对网络论坛用户的数据挖掘研究
作者:天津大学 朱德志

  摘要

  互联网的兴起发展催生出网络时代的消费者,本文采用数据挖掘的技术,以占星学的基本理论为基础,对网络消费者进行分类,为B2C电子商务服务商提供了简便有效的客户分群方法,为其进行客户关系管理提供了借鉴。

  关键词:数据挖掘 占星学 电子商务 客户分群

  0引言

  随着信息步伐的加快,由信息技术、商务技术和管理技术相结合而诞生的现代生产力——电子商务正处在空前的发展时期,我国起步虽晚,但发展势头强劲,网上商店、商城、虚拟社区、专卖店、拍卖店、网上订票、旅游、教育、医疗以及各种电子商务资讯和交易站点不断涌现出来,各大银行也都先后开通网上支付业务。而由此产生了与传统营销方式不同的网络营销,企业必须认识适应这种变化,才能在营销竞争中立于不败之地[11]。

  网络营销的核心,依旧是满足顾客的需求[10],而消费者心理及行为研究,通常称为消费者U&A(Usage & Attitude)研究,内容涵盖了市场营销的各个基本方面,用来了解消费者的消费心理、购买行为习惯、使用行为习惯及其变化,为制订和调整市场营销策略提供科学的依据,进而将市场划分成不同特征的细分市场,帮助企业选择目标市场并制定相应策略。

  现代占星学中按星座对个人性格进行分类的方法,有着古老的历史,亦有心理学的理论基础和统计学的数据支持,在应用中取得了很好的效果。本文依照占星学中的四相分类法,对网络中虚拟论坛的用户进行分类,用数据挖掘的相关技术发掘不同四相类别与访问次数的关系,并用占星学的理论解释了行为不同的原因,从而帮助B2C电子商务服务商进行恰当的客户分群,在此基础上进行有效的网络营销及客户关系管理。

  1背景知识

  1.1数据挖掘简介

  数据挖掘是90年代中后期兴起的一门跨学科的综合研究领域,包括数据库系统、统计学、机器学习、可视化和信息科学[8]。利用数据库、数据仓库技术存储和管理数据,利用机器学习和统计学方法分析数据,旨在发现大量复杂数据中蕴含的有价值的知识和信息。

  数据挖掘的过程包括[2]:

  1、问题定义。清晰地定义出研究问题,认清数据挖掘的目的是数据挖掘的第一步。

  2、确定背景知识。即被挖掘的领域知识,这些知识对于引导知识发现过程和评估发现的模式都是非常有用的,数据挖掘的背景知识甚至可能比挖掘技术更重要。

  3、数据提取。提取与研究有关的内部和外部数据信息,得到相关数据。

  4、数据预处理。对前一阶段获取的数据进行再加工,检查数据的完整性及一致性。

  5、数据挖掘(DM)。这一阶段也称知识发现,是整个过程的核心阶段,主要是用选择好的工具和技术对数据进行处理,从而发现规则、模式和趋势等,即挖掘知识。

  6、知识的解释评估。将发现的模式以人能理解的方式表达出来,成为知识;根据评价法则对得到的知识进行评价,以确定其新颖性、有效性。

  目前,随着数据挖掘应用的不断开展以及客观现实对数据分析需求的不断增长,人们越来越认识到数据挖掘的重要性和必要性。

  1.2占星学[1]

  1.2.1占星学简介

  占星学又称星象学,可说是目前最古老的命理学。在任何古老的文明国家里,占星学都是其文化的重要组成,我国的星象学文物考证可以追溯到6500 年前[7],西方占星学起源于公元前三千多年前的古巴比伦,理论基础存在于公元前300年到公元300年大约600年间的古希腊哲学中,上个世纪50年代,两个法国心理学者米歇尔·高格林、弗兰克斯·高格林,对占星学做了统计上的验证,他们的统计结果,在统计学上具有相当强的说服力,为现代占星学提供了坚实的科学依据。随着占星学的发展,又产生了人文占星学,在理论上与心理学结合,研究方法应用了数理统计分析方法,并试图以占星学来作为健全人格和适应社会环境快速变迁的思想辅助工具。

  中医的理论根据阴阳五行,在防治SARS的战斗中大显身手,取得了西医药所未有的神奇疗效,显示了中医药在人类医学领域的独特魅力。而古代西方有四大元素之说,占星学也以此将星座分为火、土、风、水四类,是最常被提到也是最重要的星座分类法。西方的占星学透过四大元素,与精神分析学派相互整合,把命盘的解析作精神分析方面的理论化,利用占星的手法来做个性的评估。

  虽然占星学中有关命运时事的分析预测,有强烈的唯心色彩,但按星座对个人性格的分类,有统计数据的支持,亦有很长的历史,类似与我国的中医学,虽然现代科学难以解释,但应用中却可以取得很好的实践效果。

  1.2.2太阳星座

  我们一般谈论的“星座”(SIGN),指的是“太阳星座”(SUNSIGN);亦即以地球上的人为中心,同时间看到太阳运行到轨道(希腊文 ZODIAC:意即~动物绕成的圈圈,又称“黄道”)上哪一个星座的位置,就说那个人是什么星座。依次为白羊、金牛、双子、巨蟹、狮子、处女、天秤、天蝎、射手、摩羯、水瓶、双鱼,总计为十二个星座。在地球运转到每个等份(星座)时所出生的婴儿,长大后行为特质总有若干相似的特征,可以根据个人的阳历生日得到其所属太阳星座,这套命理演进、流传至今至少五千年的历史。但这些星座并非是某一个“星星”的意思,只能视为“名称相同的一种代表标记而已”。

  由出生时太阳、月亮和太阳系九大行星所在星座,决定了个人的12个星座, 各有不同含义,分析人的性格需要全面分析,不能以偏概全,但太阳星座影响最大,反映人的性格及外在表现,因此本文采用太阳星座进行分析。

  1.2.3星座的分类方法

  星座分类法的起源很早,依彼此的特性将同一属性的星座加以归纳,依不同的方式可以分出阴阳、三特质、四元素,四相分类法是按古代西方四大元素进行分类,其中包涵了阴阳二分类法,是最常被提到也是最重要的星座分类方法。

  火相星座包括白羊座、狮子座和射手座,火相星座的人靠着直觉理解世界,较为冲动,有自信但也没什么耐性,有兴奋且不稳定的性格特质。

  土相星座包括金牛座、处女座、摩羯座,土相星座的人透过感官理解世界,擅长等待和忍耐,稳定、现实主义是土相的基本特色,对他们来说,有形的实体要比梦想或幻想有意义。

  风相星座包括双子座、天秤座和水瓶座,较为理性,重视思考,借思考理解世界,对他们而言,无形的思想和概念似乎比有形的实体更为实在,因此通常都带有一些理想色彩。

  水相星座包括巨蟹座、天蝎座和双鱼座,靠着感受理解世界,较为感性,重视感情,想法浪漫但不切实际,情绪、感觉、想象力是水相星座的基本特色。

  2研究方法

  2.1方差分析

  方差分析(analysis of variance,简写为ANOV或ANOVA)是R.A.Fister发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状,造成波动的原因可分成两类,一类是不可控的随机因素,另一类是研究中施加的对结果造成影响的可控因素。方差分析的基本思想是:通过分析数据中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。

  2.2聚类分析

  人们认识事物时往往先把被认识的对象进行分类,以便寻找其中相同与不同的特征,因而分类学是人们认识世界的基础科学。聚类分析是70年代发展起来的一门多元统计分类方法,它可以避免传统分类法的主观性和任意性。其所依据的基本原则是:直接比较样本中各个事物之间的性质,将性质相近的归为一类,而性质差别比较大的分在不同类[6]。由于简单的等宽或等深分箱划分方法未考虑数据点之间的相对距离,虽然方便但可能不紧扣区间数据的语义,用基于距离的划分,即聚类的方法将量化属性离散化,产生新的定类变量,亦是数据挖掘中数据变换的方法[8]。

  2.3列联表分析

  列联表是观测数据按两个或更多属性(定类变量)分类时所列出的频数表[5]。列联表分析属于离散多元分析的范畴,生成二维或多维交叉表,主要是分析各事物、现象的差异性,判明所考察的各属性之间有无关联,即是否独立。

  3应用实例

  3.1资料描述

  以2002级某硕士班的同学录上所有注册用户为研究样本,截至日期 2003.6.6日晚8点,注册用户共80人,去掉其中6个没有填写生日或姓名的数据,得到74个样本,包括性别、生日、访问次数三个变量。性别为定类变量,访问次数为定距变量,生日为日期变量。

  3.2数据分析过程

  首先根据生日,计算得到所属星座,再根据星座得到所属四相元素,样本分布见表1表2,虽然属于狮子座、处女座、天蝎座的样本数较少,但按综合为四相元素后,属于各个元素的人数则较为平均。这样又增加了两个定类变量,用访问次数和所属元素两个变量进行数据分析。

  表1 所属星座

太阳星座    人数   百分比%
白羊座     6     8.1
金牛座     6     8.1
双子座     6     8.1
巨蟹座     6     8.1
狮子座     2     2.7
处女座     4     5.4
天秤座     8     10.8
天蝎座     3     4.1
射手座     10    13.5
摩羯座     7     9.5
水瓶座     10    13.5
双鱼座     6     8.1
合计      74    100.0

  表2 所属四相

四相元素 人数   百分比%
火相星座 18    24.3
土相星座 17    23.0
风相星座 24    32.4
水相星座 15    20.3
合计   74    100.0

  3.2.1方差分析

  根据所研究问题,四相不同的用户是否访问次数有差别,以访问次数为因变量,所属四相为因素变量,进行单因素方差分析。

  表3 方差分析结果

    离差平方和 自由度  均方   F值   F值概值.
组间  60468.103  3   20156.034 3.054  .034
组内  461928.276 70   6598.975
合计  522396.378 73

  由表3可知方差来源于两部分,即组间和组内,其自由度分别为3和70;F值为3.054,P=0.034<0.05,可以否定无差别假设,说明分别属于四组元素(火、土、风、水)的用户访问次数有显著差异。

  3.2.2聚类分析

  为进一步分析差异所在,利用聚类分析,根据访问次数将样本分类。聚类过程中最重要的问题是选择最合适的类数,目标是要求分类数既不能过多也不能过少。先利用分层聚类法(Hierachical Cluster)分析产生的合并进程表(Agglomeration Schedule)和树状图[6],在此基础上确定分类数,结果表现样本分为3类比较适宜。然后利用快速聚类法(K-mean),选择欧氏距离的平方,采用组间平均锁链聚类法,将样本分为3类,第一类为9个样本,访问次数在226-304之间,第二类为19个样本,访问次数在90-202之间,第三类46 个样本,访问次数少于90,分别命名为“经常访问”、“有时访问”、“较少访问”,从而产生“样本类别”这一分类变量,再进行下一步的分析。

  3.2.3列联表分析

  以四相元素为行,样本类别为列,生成列联表,并用皮尔逊卡方值(Pearson Chi-Square)进行行列变量是否独立的卡方检验,结果见表4。

  表4 列联表

     经常访问 有时访问 较少访问 合计
火相星座       7    11    18
土相星座       3    14    17
风相星座   4    7    13    24
水相星座   5    2    8    15
合计     9   19    46    74

  皮尔逊卡方值为14.393,自由度为6,P=0.026<0.05,认为行列变量之间不独立,即所属四相与访问次数有关。可以看到,属于土相星座的17个用户,有14人较少访问论坛,是访问次数最少的一个群体;火相星座的18个用户,有11人较少访问论坛,比土相星座次之;风相星座的24个用户中,有4个用户经常访问论坛,有7个用户有时访问,但亦有13个用户较少访问,属于访问次数较多的一个群体;而水相星座的15个用户中,有5个用户经常访问论坛,也有8个用户较少访问,程两极分化趋势。

  3.3分析结果解释

  下面根据占星学的理论,对分析得到的结果进行解释。

  1、土相星座较为实际,重视感官,现实主义是土相的基本特色,对他们来说,有形的实体要比梦想或幻想有意义,故而对虚幻的网络论坛的兴趣非常小,访问次数最少。

  2、火相星座的人靠着直觉理解世界,没什么耐性,有兴奋且不稳定的性格特质。使其对虚幻的网络论坛的兴趣很难持久。

  3、风相星座的人借思考理解世界。对他们而言,无形的思想和概念似乎比有形的实体更为实在,因此通常都带有一些理想色彩,故虚拟的网络论坛对他们有较强的吸引力。

  4、水相星座的人靠着感受理解世界,较为感性,想法浪漫但不切实际,虚拟的网络论坛正好给予其想象的环境,故而有不少人经常访问。

  由此看出,根据占星学的基本理论对网络用户进行分类,可以较好的划分出经常访问的群体,即属于风相星座与水相星座的用户;与不常访问的群体,即属于火相星座和土相星座的用户。

  4结论

  本文利用数据挖掘的技术,根据古老的占星学的基本理论,在对虚拟网络论坛的用户进行分析后,找到了适当且正确的客户分群方法,并根据占星学,描述了不同群体的基本特征,为B2C电子商务服务商提供了一种简便有效的方法,帮助其制定有效的营销策略,更好的识别和把握市场机会,提高客户满意度,防止客户流失,进行有效的客户关系管理,从而在当前复杂多变的竞争环境中立与不败之地。

  参考文献

  [1]新浪占星教程,http://astro.sina.com.cn/learn/

  [2] Indranil Bose, Radha K. Mahapatra, Business data mining — a machine learning perspective [J], Information Management 2001, 211-225

  [3] A.Feelders, H.Daniels, M.Holsheimer, Methodological and practical aspects of data mining[J], Information Management 2000, 271-281

  [4]Gary P.Schneider,James T.Perry著,成栋,李进,韩冀东译。电子商务[M],机械工业出版社,2000。

  [5] 柯惠新,黄京华,沈浩。调查研究中的统计分析法[M]。北京广播学院出版社,1992。

  [6] 袁淑君,孟庆茂。数据统计分析——SPSS/PC+原理及其应用[M]。北京师范大学出版社,1995。

  [7]王大有。6500年前的蚌塑四象二十八宿浑天盖天系统。濮阳教育学院学报。2002,5。

  [8]Jiawei Han,Micheline Kamber著,范明,孟小峰译。数据挖掘概念与技术[M]。机械工业出版社。2001,8。

  [9]王景河,网上商店购物者心理分析,商场现代化。2002,6

  [10]徐立新,现代企业市场营销与消费者心理研究,工业技术经济,2002,3。

  [11]许雄奇 赖景生,网络营销消费者心理和行为探析,商业经济与管理,2000,6。

本作品版权归新浪网与文章作者共同拥有。如需转载,请与新浪网联系。


-------------
我在找数据挖掘的文章,不小心找到这篇奇文。共赏




所有跟贴:


加跟贴

笔名: 密码(可选项): 注册笔名请按这里

标题:

内容(可选项):

URL(可选项):
URL标题(可选项):
图像(可选项):


所有跟贴·加跟贴·新语丝读书论坛http://www.xys.org/cgi-bin/mainpage.pl