基于FCA的Folksonomy用户偏好挖掘研究

基于FCA的Folksonomy用户偏好挖掘研究 张云中, 杨萌, 徐宝祥 基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research图1 基于FCA的Folksonomy用户偏好挖掘模型

该模型的基本原理是:首先界定Folksonomy用户偏好的时间范围及Folksonomy数据边界,整理出相应的用户集、标签集和资源集,明晰三类数据集元素之间的关系,进而构建出Folksonomy多值形式背景,通过特定的概念换算过程得出描述用户行为的单值背景,在将该单值背景转换成概念格后,在可视化基础上计算用户标记行为频率,然后通过概念换算从多值背景得出用户偏好单值背景,在对该背景概念格化的基础上,从用户-标签-资源相整合的角度挖掘出用户偏好。转换时间范围,重复上述过程,即可得出用户群在新时间范围内的用户偏好,对比不同时间范围内用户偏好的内涵及外延变化,即可分析出用户偏好的转移。

4 基于FCA的Folksonomy用户偏好挖掘过程 4.1 预处理

预处理是基于FCA的Folksonomy用户偏好挖掘的首要任务,也就是“方法模型”中的准备阶段。众所周知,用户(群)的偏好在某一段时间内会相对稳定,但其并不是一成不变的,它会随着时空的转换而更新,因此,预处理的主要任务便集中在:选择恰当的粒度,为所要研究的Folksonomy系统划定时间范围和空间范围,汇总Folksonomy系统中包含的所有数据,整理出相应的用户集U、标签集T和资源集R。

4.2 构建Folksonomy形式背景

Folksonomy形式化是运用FCA挖掘用户偏好的前提。其主要任务是逐一分析用户集U、标签集T和资源集R三个有限集中元素之间的“U-T-R”三元关系。图2是一个“U-T-R”三元关系示例:

  • Figure Option
基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research图2 一个“U-T-R”三元关系示例

依据图2的三元关系,结合定义1,构建目标Folksonomy系统的多值形式背景F:= (U, T, R, Y),其中U={u1,u2,u3},T={t1,t2,t3},R={r1,r2,r3},Y(Y?U×T×R)是U,T,R之间的三元关系。每一条“U-T-R”表示用户u 对资源r标记了一个标签t。

Folksonomy多值背景必须通过概念换算转为单值背景才可使用,且概念换算的方式多种多样,本文旨在研究Folksonomy系统中的用户行为分析和用户偏好挖掘,所以只关注两类单值背景,即:FU:= (U,T×R, YU)和FR:= (R,U×T, YR )。

4.3 用户行为分析

用户行为是用户对Folksonomy系统中的资源进行关注并为该资源添加标签的过程,体现了用户对资源感兴趣的程度,同时相同的用户行为也是判定用户标记行为频率和划分具有共同偏好的用户群的基础。

该阶段的任务是通过识别单值形式背景FU:= (U,T×R, YU)(见图3),并运用FCA-Wizard工具[ 11]将之转化成相应的概念格(见图4),在概念格可视化的基础上进行一系列的用户行为分析,具体包括:

  • Figure Option
基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research图3 用户行为单值背景

  • Figure Option
基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research图4 用户行为概念格

(1)识别用户标记行为。概念格中的每一个节点(用Cm表示)代表的是用户(群)的一簇标记行为,即用户(群)使用标签ti标记了资源rj,节点的外延代表用户(群),节点的每一条内涵表示用户(群)的一次标记行为。例如C1的外延u1,u2构成其用户群,该用户群中用户都用标签t1标记了资源r1

(2)确定共有标记行为。本文将外延中含有两个及以上用户的节点称为高层节点(如C1),代表用户群的标记行为,其外延是具有共同标记行为的用户群;将只有一个用户的节点称为低层节点(如C2),代表单个用户的节点标记行为;将没有用户的节点称为空节点(如C3),表示没有用户使用该节点内涵中所示的标记行为。

(3)计算用户标记行为频率。节点层次越高,用户群对其内涵所示的标记行为的共识度和认可度越高,用户使用同一标签标记同一资源的频率越高,反之亦然。本文将节点内涵所示的每一条用户标记行为频率FREtirj定义为:

FREtirj=基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research(1)

其中,U 基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research表示节点用户数,Utotal表示用户总数,Ext 基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research表示节点外延数,Exttotal表示总外延数。

依照式(1),可计算出所有节点的属性中标记行为频率。以图4中C1内涵中的标记行为FREt1r1为例,FREt1r1=2/3=0.67。其余标记频率分别是:FREt1r3=3/3=1;FREt1r2=0/3=0;FREt3r2= FREt3r1= FREt2r2= FREt3r3= FREt2r1= FREt2r3=1/3=0.33。

(4)用户标记行为频率凸显了用户在Folksonomy中使用特定标签标记特定资源的频率和被大众认可的程度,在某种程度上反映了用户偏好。

4.4 用户偏好挖掘

Folksonomy中,标签的作用在于描述资源的某种属性,而资源是一种客观存在的实体,因而将标签视为属性,将资源视为对象,将用户使用标签标记资源看成两者之间的关系,根据FCA理论,就会生成概念,这个概念就是用户偏好。可见,用户偏好挖掘需要从单值形式背景FR:= (R,U×T, YR )入手。

该阶段的主要任务是构建单值背景FR:= (R,U×T, YR ),并用FCA-Wizard将之转化为相应的概念格,如图5和图6所示:

  • Figure Option
基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research图5 用户偏好形式背景

  • Figure Option
基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research图6 用户偏好概念格

在概念格可视化的基础上进行如下详细分析:

(1)识别用户偏好。除不含外延的空节点外,概念格中的每一个节点(Cn)代表了用户的一种偏好,节点的外延表示用户感兴趣的资源(集),节点的内涵表示不同用户对该资源(集)的标记行为。

(2)计算用户偏好权重(PI)。用户偏好权重的计算,可借鉴文档检索中经典的TF/IDF权重原理,理由如下:

①每个用户偏好中包含的每一个“用户-标签-资源”组代表了一次用户标记行为,而用户标记行为频率恰能反映用户使用标签ti描述资源rj的频率,即代表偏好节点的TF特征。一个偏好节点可能含有若干个标记行为和包含若干项资源(即资源集),针对只有一项资源的偏好节点,用户使用标签tq(q∈i)标引该资源的频率最高,就反映了节点Cn的用户偏好的TF特征;针对有多项资源的偏好节点,所有资源rj标记行为频率最大值之和就反映了节点Cn的用户偏好的TF特征。

②每个偏好节点拥有的子节点数越多,偏好的普遍重要性就越高,因此本文认为偏好节点的子节点数反映了偏好的IDF特征。

用户偏好权重(PI)是其TF特征与IDF特征之积,并将之定义为:

PI基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research=TF 基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research×IDF 基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research(2)

其中,FREtirj 基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research表示节点中的每一条标记行为频率, 基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research表示用标签ti标记节点特定资源rp(p∈j)的标记行为频率的最大值, 基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research表示节点中包括的所有资源rj标记行为频率最大值之和。N表示节点总数,n 基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research表示偏好节点的子节点数。

图6中,以偏好节点C1和C3的用户偏好权重为例,PI(C1)= TF(FREt1r3+ FREt1r1)×IDF(ln(7/2))=(1+0.33)×1.253=1.70,PI(C3)= TF(MAX{1,0.33,0.33})×IDF(ln(7/1))=1×1.95=1.95。同理,其余偏好节点的偏好权重是:PI(C2)=0.84,PI(C4)=1.31,PI(C5)=0.64。

(3)计算偏好相似度(PS)。若概念格中两个概念节点间足够相似,则它们描述了共同或相近的用户偏好,为避免这种现象,就需要计算概念相似度。借鉴Jaccard相似系数,本文采取用两个概念外延集合的交集与并集比率的方式来计算,公式如下:

PS基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research(3)

若PS超过一个既定的阈值,就判定两个节点表达的用户偏好是足够相似的,一般将偏好节点的阈值设置为0.7。

根据概念相似度计算公式,图6中,PS(C1, C2)=1/3=0.33,PS(C1, C3)=1/2=0.5,PS(C1, C4)=1/2=0.5,PS(C1, C5)=0/3=0,PS(C2, C3)=0/3=0,PS(C2, C4) =1/2=0.5,PS(C2, C5) =1/2=0.5,PS(C3, C4) =0/2=0,PS(C3, C5) =0/2=0,PS(C4, C5) =0/2=0。

(4)选取用户偏好。在所有的偏好节点中,选择偏好节点PI最高且与其他节点的PS值不超过阈值,确立为该时段中Folksonomy用户偏好。

图6中PI排序为:PI 基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research>PI 基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research>PI 基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research>PI 基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research>PI 基于FCA的Folksonomy用户偏好挖掘研究[转] - 德哥@Digoal - PostgreSQL research,且所有偏好节点的PS值都在阈值之内,则该时段中的用户偏好为节点C3和节点C1

4.5 用户偏好转移

选取不同的时段,重复上述工作,就可以得出不同时期Folksonomy系统的用户偏好。分析新偏好中所包含的用户、标签和资源,与前一阶段进行对比,就可找出用户偏好转移的具体方面和详细原因。

5 结果及讨论

根据实验结果,节点C3和节点C1为偏好节点,从节点C3中可以看出,用户u1、u2、u3都用标签t1标引了资源r3,形成了用户群的偏好;从节点C1中可以看出,用户u1、u2都用标签t1标引了资源r1、r3,形成了用户群对资源集的偏好。因此,在该Folksonomy系统中,所有用户均偏好和认可使用标签t1标引资源r3;绝大多用户形成的用户群偏好和认可使用标签t1标引资源r1、r3,且认为资源r1、r3是同类资源。

通过前述研究过程的具体验证,可以看出本研究提出的基于FCA的Folksonomy用户偏好挖掘模型完全具备可行性、合理性和易用性,且有如下优点:

(1)从用户行为分析的基础上去挖掘用户偏好,较其他方法更具科学性和合理性;

(2)从“用户-标签-资源”的三元关系出发对用户偏好进行了挖掘,解决了其他方法依据“标签-资源”或“用户-标签”的二元关系用户偏好挖掘的局限性,使得结果更全面、更科学;

(3)不仅能解决其他方法对单一用户的偏好挖掘的问题,更能解决对用户群的偏好挖掘难题。

该模型也存在着一定的局限性,在计算用户偏好权重时,该模型应用文档检索中的TF/IDF原理来表达用户偏好权重,这种应用假设用户偏好的权重体现出TF特征和IDF特征,故而与文档检索权重确立的原理相同,在操作上具有相似性,但实质上两者仍然有一定的差异性。

6 结 语

Folksonomy用户行为分析及用户偏好挖掘的相关研究随着Folksonomy的不断推广而越来越被国内外学者关注和接受,同时也出现了一系列的Folksonomy用户偏好挖掘方法,这些方法有着各自的优势和独特性,但同时也存在只侧重标签而忽视资源的内容,只关注单用户偏好而忽略用户群偏好,只注重静态偏好而忽视时间推移带来的动态变化等弊端。本文提出了一种基于FCA的Folksonomy用户偏好挖掘方法,通过构建Folksonomy多值背景及单值背景,利用概念格分析Folksonomy用户行为及用户偏好,在一定程度上解决了当前方法存在的上述典型问题,具有创新性和启发性。限于时间和精力,本文只研究了单系统多兴趣用户偏好挖掘,针对多系统多兴趣用户偏好挖掘将是本文后续的研究方向。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献 View Option 
[1]Sturtz D N. Communal Categorization: The Folksonomy[EB/OL]. (2004-12-16). [2010-10-13].http://davidsturtz.com/drexel/622/sturtz-folksonomy.pdf. [本文引用:1]
[2]熊回香, 王学东. 面向Web3. 0的分众分类研究[J]. 图书情报工作, 2010, 54(3): 104-107. [本文引用:1]
[3]王翠英. 基于Folksonomy的用户偏好研究进展[J]. 现代图书情报技术, 2009(6): 37-43. [本文引用:1]
[4]Ramanathan K, Giraudi J, Gupta A. Creating Hierarchical User Profiles Using Wikipedia [EB/OL]. (2008-10-06). [ 2010-11-22 ]. http://www.hpl.hp.com/techreports/2008/HPL-2008-127.pdf. [本文引用:1]
[5]Au Yeung C M, Gibbins N, Shadbolt N. A Study of User Profile Generation from Folksonomies[EB/OL]. (2008-04-25). [2010-10-15]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.142.8329&rep=rep1&type=pdf. [本文引用:1]
[6]Godoy D, Amand i A. Hybrid Content and Tag-based Profiles for Recommendation in Collaborative Tagging Systems[EB/OL]. [2010-10-13]. http://dblab.cs.nccu.edu.tw/presentation/980525/980525.pdf. [本文引用:1]
[7]Zhang Y, Feng B. Tag-based User Modeling Using Formal Concept Analysis[C]. In: Proceedings of the 8th IEEE International Conference on Computer and Information Technology. Sydney: IEEE, 2008: 485-490. [本文引用:1]
[8]Ganter B, Wille R. 形式概念分析[M]. 马垣, 张学东, 迟呈英, 等译. 北京: 科学出版社, 2007: 15-46. [本文引用:1]
[9]J?schke R, Hotho A, Schmitz C, et al. Discovering Shared Conceptualizations in Folksonomies[J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2008, 6(1): 38-53. [本文引用:1]
[10]Kim H G, Hwang S H, Kang Y K, et al. An Agent Environment for Contextualizing Folksonomies in a Triadic Context[EB/OL]. [2010-10-13]. http: //www. springerlink. com/content/501pm40?56 71118w3[本文引用:1]
[11]Kang Y K, Hwang S H, Kang Y K, et al. Development of a FCA Tool for Building Conceptual Hierarchy of Clinical Data[J]. Journal of the Korean Society of Medical Informatics, 2005, 11(S2): 71-76. [本文引用:1]


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部