1. 研究关联规则的数据结构。
关联规则用于研究用户同时购买/使用不同产品的关联性,用于与产品的使用关系数据一般以如下的“长表”来存储,以用户**铃音为例:
关联规则的形式一般是“产品一”“产品二”,但是不仅仅局限于ab,也包括a&bc,ab&c,a&bc&d等情况。(a、b、c、d代表不同的产品)
一般使用三个指标来度量一个关联规则,根据这三个指标可以筛选出满足条件的关联规则。这三个指标是:support(支持度)、confidence(可信度)、lift(提升度)。
以ab这个关联规则为例来说明:
support(支持度):表示a、b同时使用的人数占所有用户数(研究关联规则的“长表”中的所有有使用的产品的用户数)的比例。如果用p(a)表示使用a的用户比例,其他产品类推,那么support=p(a&b)
confidence(可信度):表示使用a的用户中同时使用b的比例,即同时使用a和b的人占使用a的人的比例。公式表达:confidence=p(a&b)/p(a)
lift(提升度):表示“使用a的用户中同时使用b的比例”与“使用b的用户比例”的比值。公式表达:
lift=( p(a&b)/p(a))/p(b)=p(a&b)/p(a)*p(b)。提升度反映了关联规则中的a与b的相关性,提升度》1且越高表明正相关性越高,提升度<1且越低表明负相关性越高,提升度=1表明没有相关性。
通过专门的数据挖掘软件(如sas/em、spss/clementine…)可以生成关联规则集。在生成关联规则集之前,所有的软件都要求指定生成满足某些条件的规则集,可根据三个指标来指定,如support>1%;也可指定只生成关联规则中涉及的产品数=2个的,即ab,bc,而不能生成ab&c,a&bc。
关联规则集如下:
3. 关联规则筛选。
往往数据挖掘软件生成的关联规则很多,即使在生成之前指定了某些条件,这些条件我们一般也只是用于粗筛,比较精细的筛选往往都是在生成众多关联规则之后再进行手工的筛选。筛选指标主要还是前面提到的三个度量关联规则的指标,一般的筛选顺序是这样的:
1) 首先筛选高lift的规则:lift的高低代表了a与b的关联性高低。lift的大小会受到p(b)的影响,如果p(b)=50%,lift必定<=2; p(b)=10%, lift必定<=10…
2) 进一步筛选confidence高的规则:confidence越高表明规则越准确。
3) 最后再筛选support相对较高的规则:support的高低代表ab同时购买的用户比例,表明该产品组合是否为主流购买组合。
4) lift*conf*support排序取最高的。
考勤规则说明
鹿岛公司考勤规则条款 待修正 1 公司或店内打卡时间 上班时间为 9 00 或15 00 打卡有效时间为上班前后30分钟内 之前为正常,之后为迟到 下班时暂不用打卡 00 9 30 15 00 15 30 期间打卡的为迟到,9 30 15 30 以后的打卡行为视为无效 旷工半天或全天 30 15 3...
拓扑规则说明
1.拓扑规则简介。在实际应用时,有时需要在要素之间保持某种特定的关系,比如,行政管理的范围不能相互重叠,线状道路之间不能有重叠线段,某些汽车站必须在公共交通线路上等,这些特定的空间关系可用拓扑学来描述 定义。借助geodatabase,可规定一系列拓扑规则,在要素之间建立起空间关系,还可以对这些规则...
20122019规则说明
2012 2014年国际篮球规则变动说明 前言 国际篮球总会自2010年土耳其世界男篮锦标赛之后,在10月1日开始实施2010年国际篮球规则,其最大的变动就是3分线增长50公分,由6.25米增加到6.75米 同时增设禁区中的免责冲撞区 以及前场发球区的设立 等,让比赛增加许多变数与可看性。国际篮球规...