关联规则说明

1. 研究关联规则的数据结构。

关联规则用于研究用户同时购买/使用不同产品的关联性，用于与产品的使用关系数据一般以如下的“长表”来存储，以用户**铃音为例：

关联规则的形式一般是“产品一”“产品二”，但是不仅仅局限于ab,也包括a&bc,ab&c，a&bc&d等情况。（a、b、c、d代表不同的产品）

一般使用三个指标来度量一个关联规则，根据这三个指标可以筛选出满足条件的关联规则。这三个指标是：support（支持度）、confidence（可信度）、lift（提升度）。

以ab这个关联规则为例来说明：

support（支持度）：表示a、b同时使用的人数占所有用户数（研究关联规则的“长表”中的所有有使用的产品的用户数）的比例。如果用p(a)表示使用a的用户比例，其他产品类推，那么support=p(a&b)

confidence（可信度）：表示使用a的用户中同时使用b的比例，即同时使用a和b的人占使用a的人的比例。公式表达：confidence=p(a&b)/p(a)

lift（提升度）：表示“使用a的用户中同时使用b的比例”与“使用b的用户比例”的比值。公式表达：

lift=( p(a&b)/p(a))/p(b)=p(a&b)/p(a)*p(b)。提升度反映了关联规则中的a与b的相关性，提升度》1且越高表明正相关性越高，提升度<1且越低表明负相关性越高，提升度=1表明没有相关性。

通过专门的数据挖掘软件（如sas/em、spss/clementine…）可以生成关联规则集。在生成关联规则集之前，所有的软件都要求指定生成满足某些条件的规则集，可根据三个指标来指定，如support>1%；也可指定只生成关联规则中涉及的产品数=2个的，即ab,bc，而不能生成ab&c，a&bc。

关联规则集如下：

3. 关联规则筛选。

往往数据挖掘软件生成的关联规则很多，即使在生成之前指定了某些条件，这些条件我们一般也只是用于粗筛，比较精细的筛选往往都是在生成众多关联规则之后再进行手工的筛选。筛选指标主要还是前面提到的三个度量关联规则的指标，一般的筛选顺序是这样的：

1）首先筛选高lift的规则：lift的高低代表了a与b的关联性高低。lift的大小会受到p（b）的影响，如果p(b)=50%，lift必定<=2; p(b)=10%, lift必定<=10…

2）进一步筛选confidence高的规则：confidence越高表明规则越准确。

3）最后再筛选support相对较高的规则：support的高低代表ab同时购买的用户比例，表明该产品组合是否为主流购买组合。

4） lift*conf*support排序取最高的。