关联规则并行算法研究与实践

发布 2023-05-03 12:25:28 阅读 9169

关联规则并行算法研究与实践木。

王华秋1.一,王越1,酋长修2

重庆工学院计算机科学与工程学院,重庆400

重庆大学自动化学院,重庆400

卸曲。摘要:在比较了当前几种并行关联规则挖掘算法的基础上,为了解决算法的候选集和执行时间方面存在的问题,结合关联规则的性质定理,提出了一种改进的并行关联规则算法ipa在无共享的工作站机群上进行性能测试,采用改进并行算法的执行效率提高了,达到了算法优化的目的。

关键词:候选集;.剪枝;扫描次数;pa算法;机群。

引言。数据库的巨大规模、异地分布及数据挖掘方法的计算复杂性要求进行并行数据挖掘。利用高性能并行计算机,设计并行关联规则算法来进行高效的并行挖掘已经成为当前数据挖掘的一个迫。

切解决的问题了。

目前的并行挖掘处理系统研究主要是围绕无共享机群结构诅tio它属于分布式存储的mlm并行计算机结构,由工作站和互联网络两部分组成,主要利用消息传递方式实现各主机之间的通信,充分利用各工作站的资源,统一调度、协调处理.以实现高效并行。

计算。问题的提出。

基于无共享机群结构的并行关联规则算法有agr等人提出的cd,等人提出的分布。

并行关联规则算法的改进目标:

式算法fdm和fpm等人提出的和wol鼹出的基于apr的ddm等。

算法的效率。

1)减少对数据库的扫描次数。由于数据库是海量数据库,较少对数据库的扫描次数必将提高(2)每次扫描数据库进行数据库约简,将对后续挖掘无效的项目和属性删除,缩减挖掘空间,提高算法效率。

并行关联规则的相关基本性质定理。

定理l:若项目集x是全局频繁项目集,则必存在一台计算机尸刀),使得任意。

皋合项目:重庆市教委桀础研究项目(02

16,的项目集l,在p’上是强频繁项目集。

定理2:对于任意七>l必有:

州一∥行。

成立。其中厶,为全局频繁卜项目集的集合.

定理3:设狮,l】删l】,爿x1.其中ixi表示项目集x中。

的项目数,则:

y.c胛f。≤

o”胛f.(

证明:对于任意】,,且ll,

—1.因为ycx根据父集和子集之间的关系,ax甜甩f。(就是局部支持合计数x.c甜肼‘的上界函数,所以x.c姗f’≤堋,’

故。rrd埘w。s

in{疗f’i肠d

即。.cd甜刀‘(x

推论l:对于任意项目集x必有:

rd柳f觚cd删(x)找cd删,(x

证明:x.湖f:芝x.c小,≤兰m状c似町.(x

即x的支持数不大于∑ma肼,(x

定理4:j维数据项目集x是频繁项目集的必要条件是它的所有七一1维子集均是频繁项目集,换言之。若七维数据项目集x的任意一个七一1维子集不是频繁项目集,则x不是频繁项目。

集。推论2:若七维数据项目集中至少存在—个歹∈x使得陋川(川<七一i则x不是频繁项目集a其中仁¨(川表示七一1维频繁项目集的集合厶一i(,中包含/的个数.

证明:假设x是七维频繁项目集,则它的七组七一l维子集均在厶一i中。则在由x生成的七。

组七一l维子集中,每一个项目/共出现七一1次故w∈x均有f三¨(川≥七一l,这与条件。

矛盾,故x不是频繁项目集。

并行算法设计及其伪**。

以上述定理和推论为基础.设计ipa思路如下:

1)依据推论l。可以在不计算候选集的频数的情况下,根据其所有节点的子集的最小频数进行全局剪枝,快速有效地剪枝候选大项集。

2)依据定理3可知,候选集的频数4i超过其子集中的最小频数,因而当候选集的统计频数达到其子集中最小的一个频数时,可以停止搜索,从而减少数据库扫描次数。

3)依据推论2,可以优化生成的候选集,剔除一些明显不会是大项集的候选项,减少候选集。

的数吊。从理论上。ip算法会有比较快的执行时间。程序伪**如下:

疔omg根据推论2:快速产生候选集。

ora仃锄。

f∑m岫根据推论l:快速全局剪技。

乜(c)廿。

畏据定理3:候选集合计数已达上限值厅omc

fc.峨。

他丘产∑c.乜。

在机群环境中运行程序并分析。

1)建立实验环境:

7台联想奔月200作为sla台作为m弱ter整个网络用以太网交换机连接.计算机间除了用网络连接外,其他全部独立。

编程语言采用数据库采用选择测试数据库:采用某大型百货公司实际7种经营数据。④主从模式的mpi程序设计。

步骤l:数据划分:ma主进程采用随机抽样的方法向sia从进程广播数据仓库的数据表,按照更新时间差异为每个sla从进程划分为记录事件;

步骤2:主进程初始化候选集k=l产生一项候选集:

步骤3:如果k=1跳到步骤3:否则k=k主进程产生k项候选集:

步骤4:然后将k项候选集依次发送给sla从进程mpi或者mpi勰t,根据记录事件从进程利用ipa算法进行局部剪枝和全局剪枝.然后将k项频繁集回送给m勰ter主进程:

步骤5:m筋ter主进程收集来自sla从进程的各项频繁集mpi或者如果k=7通信域巾所有进程退出mpi否则跳到步骤3。

2)并行算法性能分析。

计算时问l:各节点执行ipa算法产生频繁集和产生候选集的时间:

通信时『hj各个节点发送和接收频繁集的时间:

总时f}f无=乙+乙;

并行加速比s:⑤并行效率e:三。

+丁一/7’为节点个数);

随着节点的增多,该并行算法加速比在增加,总的执行时间降低,但是效率下降,算法具备一定的可伸缩性,还可以在数据通信的方式上做改进。提高计算效率。

3)i算法和其他算法比较。

由测试的结果可知。ip并行算法是有效的,在相同支持度下,跟算法相比.节点平均候选集的数量和总运算时间都降低了。如图l、图2所示。

、量、.]弋专。

-';工、、

|}≮孓。图l生成候选集数量比较图2总执行时间比较。

结束语。par算法通过三方面改进在生成候选集和执行时间方面提高了效率,提高了10%左右,节省了挖掘的时间和空间。当然,在数据增量处理、动态负载平衡、数据动态划分和算法的高效性方面还有待完善,在数据挖掘中一些高效的算法比如向量法、分组法划分法、集合法等新型关联规则挖掘方法可以加以利用。

参考文献:锄蠡。

培oriorm蝎骼。

拍lie锄d

nfo彻ali埘。

2th孔ifi

仃陀nccke帅css

np越山丛。叮龃岛。

.e衔cj∞

锄iic渤cia

onf呦cc

chu八吒。

ist倒min

f笛。柚age曲。

徐章艳,张师超,区玉明,等.挖掘关联规则中的一种优化的apr算法.计算机工程。雒叩sac

now柚dda

锄gxi柚。瓠edf

omp盯。

伍cic卸did

run锄d雒柚cc锄de衔曲ert柚。锄。

让道德与规则并行作文

中国是四大文明古国之一,自古以来道德就是人们为人处事的行为准则。与此相反,西方国家却用规则作为人们与人处世的行为准则。历史的列车运转到了今日,我认为,应让道德与规则并行。中华文明源远流长,从古至今都是以道德着称的文明国度。古时的 君子不乘人之危 君子不夺他人之爱 和今天的 爱岗敬业 诚实守信 等都是...

关联规则说明

1.研究关联规则的数据结构。关联规则用于研究用户同时购买 使用不同产品的关联性,用于与产品的使用关系数据一般以如下的 长表 来存储,以用户 铃音为例 关联规则的形式一般是 产品一 产品二 但是不仅仅局限于ab,也包括a bc,ab c,a bc d等情况。a b c d代表不同的产品 一般使用三个指...

证据关联性规则之反思

作者 吴金英。青年文学家 2011年第13期。摘要 证据的关联性是英美法系中一项基础性的证据规则。多年来,尽管学术界对此 甚多,却未形成较为一致的观点。国外立法和理论界普遍承认证据的关联性,理解也不尽一致,但总的来说,这些理解已形成了较为成熟的 可资借鉴的立法例和观点。本文试就关联性这一题目提出自己...