差异性采样下的流数据聚类算法分析(集锦)-范文网

差异性采样下的流数据聚类算法分析

当前的计算机存储空间是有限的, 但是计算机当中又无法将流数据长期保存, 所以在处理过程中的效率不高, 更得不到其中的相关知识, 这也是当前数据挖掘领域所讨论问题的一类。数据挖掘也是一种知识发现的过程, 其内涵是, 人类在庞大是流数据当中寻得自己感兴趣的那类知识的具体发现过程。不过发展到现在, 人们获取信息的手段可以通过多种渠道来实现, 不过当前数据量的增长也是十分迅速的, 想在这些数据当中寻得有价值的信息, 这对数据挖掘来说也是任重而道远。

一、数据挖掘的分析方法

(一) 关联分析方法

其实数据变量之间两个或者多个都存在有一种相关性, 这就可以用关联这个词来形容。不过在一般条件下, 数据库当中大流量的数据中的关联性是十分难发现的, 并且其中的不确定因素众多, 因为这点所产生的规则一定要带有可信度。

(二) 聚类分析方法

聚类分析主要体现在模式识别、数据挖掘等等技术领域和工程领域当中, 也是其中最为重要的研究热点, 并在此之间聚类分析体现了其程度较高的效果和性能。把一个整体的数据分化分若干个簇是聚类的作用特点, 而且尽可能的放小了各个簇之间的相似性, 解决了各个簇之间尽大化的相似性。

(三) 分类分析方法

数据挖掘领域采用分类分析方法次数也是挺多的, 主要分化成学习过程和测试过程两个部分。比如, 贝叶斯算法、神经网络、决策树、k近邻算法等都是比较常见的分类技术。

依照上面三种方法的分析我们可以得出, 聚类技术是数据挖掘领域不可或缺的存在, 作为其中的一项重要的技术方法的一种, 不过流数据的一次扫描特点和数据流高速变化的动态这些特性都给流数据的聚类带来了很大的挑战。

二、传统数据聚类算法的特征

(一) 传统数据聚类算法的类型

1. 基于层次的聚类方法

从头到尾和从尾到头两种情况是基于层次的聚类算法的特点。Birch算法在中方法当中比较常用。其中CF聚类特征以及CF tree聚类特征树这两个概念也被引入了Birch算法当中。整个流程如下:先将数据库进行全面扫描, 形成一个最初始的聚类特征数;从根节点向下, 算出和插入的数据点两者间的距离, 从其中获取最短的距离, 从而找寻到于这个数据点最近的叶节点;若是吸收后的数值大于阈值T, 就使得叶节点分裂或被删除。Birch算法在庞大的数据集聚类处理中比较适用, 其时间复杂度和空间复杂度相对来说比较低, 有着良好的聚类效果。不过birch算法在计算聚类的范围都是使用它的半径来计算的, 所以面对那种不是球类型的聚类, 就不好达到自己想要的效果了。

2. 基于划分的聚类算法

采用平方和误差最小函数 (sum of the squared error) 作为目标函数。

如图所示, 当中的p代表了各个数据点, m是每个簇x的平均值。

计算机数据之间的相似性以k-means算法依照它们的距离而计算出来, 因此对其中出现的噪声数据是比较敏感的, 孤立点的存在会大大的影响到聚类结果, k-mediods (k中心点算法) 就基于这种现象诞生了。

3. 基于密度的聚类方法

将具有相似特征的密度点给聚合在一起是基于密度的聚类算法的基本特点, 对那些不断变化的密度可以将其聚类拓展到各个地方去, 这样就将基于距离聚类只能产生球状实现效果的缺陷给弥补。不过唯一的缺陷是这类算法复杂度相对来说比较高。

(二) 群智能在聚类方法当中的体现

Azzag等人依照蚂蚁寻找食物源的行为特征随后提出了一种基于蚂蚁觅食原理的聚类算法。在此基础上, 将蚂蚁自聚的行为和达到蚁群的聚类算法都给提出来。此算法张的树状结构是通过蚂蚁自我聚集来形成的, 可以将其称呼为蚂蚁树 (AntTree) 。数据即使蚂蚁的身份, 蚂蚁也代表了数据, 并且还代表了该类蚂蚁树的节点, 此时就要将蚂蚁在一个固定点上给放置好, 这就需要再其初始的状态下对它这样做了, 这种也就是蚂蚁树的树根, 再往后就要趁着固定后的蚂蚁身上任意移动, 来找寻自己最合适安放的位置。将算法当中的某些数据点可以看作具有不同属性的蚂蚁, 把聚类中心比做蚂蚁将要寻找的“食物”。Merwe等人在03年的时候最开始提出了两种算法相结合的混合型聚类算法, 其中由PSO与k-means算法两者相构建。K-means算法承担聚类的中心, 使得粒子群在面对群初始化的过程中可以迅速的将聚类中心赋值给某单个粒子, 再让其它粒子随机的进行初始化, 最后再使用PSO聚类算法完成聚类。如果在聚类挖掘当中应用到了群智能, 所获得到的实验结果会明显优于传统聚类的算法的使用, 而且不会像传统聚类算法一般比如k-means算法那样容易产生局部最优解, 最不方便的也只是算法的收敛时间比较长。

三、流数据聚类算法的特征

(一) 传统数据挖掘聚类算法和流数据聚类算法的差异性

最开始我们可以确定的是, 流数据不断变化的过程中, 在此期间簇的个数也会随着流数据的变化而变化, 簇的个数肯定是无法得到肯定的。然后, 聚类过程会形成各色各样形状的簇, 而且在许多数据集当中, 比如网络入侵检测数据集, 其聚类的分布情况一般都是不均匀且没有规则的, 若是聚类的形状被固定的化, 其带来的效果也十分单一, 所以发掘出不同形状的聚类对流数据聚类的应用是十分重要的。最后, 两者处理噪声数据的能力也存在差异。总有一些意外的因素对流数据应用场景形成干扰, 就比如当电池供电不足的影响出现在传感器网络中的时候, 可以将其归纳为流数据当中产生的随机噪声数据, 流数据聚类算法在这一点上的分辨和处理就优于传统数据挖掘聚类算法。

(二) 流数据模型的基本特点

可以流数据比作数据集合, 随着时间的变化而不断变化。{X1, X2, X3, …, XN}为流数据集合方式, 当中Xi含有两个数据项, 一个是数据读入时间点 (时间戳) , 即是Xi, 另外一个是数据ai。流数据当中噪声数据的存在随时间的变化而变化, 也可以将噪声数据分类为孤立点数据和噪声数据。不过这些数据会与研究当中所出现的正常数据的行为模式存在差异, 所以在流数据挖掘领域如何识别孤立点噪声数据也是亟待重点解决问题之一。

(三) 窗口模型的特征

以时间窗口为基础, 流数据聚类分析方法在其中运行。一般可以将窗口分为三种类型, 分别是滑动窗口模型、界标窗口模型、衰减窗口模型。当中的界标窗口模型包含的方法也是多种多样, 比如抽样方法、直方图方法、哈希方法等等。以下将对这三种模型分别进行探讨。滑动窗口模型则是提出了一个时间窗口的概念, DS= (a1, a2, a3, …, an) 是这种模型下设定的流数据, 当中的Xi是流数据的数据样本点, Xt为进入滑动窗口的时间点, ax是数据项。tn是任意的时间点, W为窗口大小。被处理的数据只有时间窗口当中的{tn-w+1, …, tn}, 窗口之外的数据无疑都是被忽略了, 以图2表示滑动窗口模型。在界标窗口模型当中, 以抽样方法来讲, 听名字就知道, 就是在庞大的整体数据当中抽取一些样本作为整个数据的代表, 并且在样本查询的过程中获取结果。而直方图技术便是把一个数据集给分割成许多个小数据集。这项技术的特点就是将数据集的轮廓梗概给反映出来, 所以, 商业数据库当中广泛的应用了这一技术。不过当前的决策者一般都会去关注近期数据分析情况, 使用滑动窗口模型最好适用最近期的数据信息处理, 这也是当前的实际情况。衰减窗口模型主要依据衰减函数f (t) =2-λt来进行衰减的。当中的t的意识是变化的时间, 参数λ>0。以衰减的方式去消除历史数据行为对当下聚类结果的影响也是这种模式的主要特征, 衰减程度的大小取决于λ的取值, 值数越大对历史数据的影响也越小。

(四) 离线和在线双线类聚类算法

Clustream算法有着有序无限以及单遍扫描的特点, 它能够完全的适应数据流并能够使其快速的到达, 另一方面还可以将数据流的潜在演化特征给挖掘出来。不过距离才是算法使用的相似度标准, 基于此也形成了这种算法只能够接受球类的聚类结果。要是数据流当中出现了噪声数据的情况下, 算法这样的过程中无法稳定下来, 这都是因为现有的微簇无法接受噪声数据, 从而会使得新的微簇被噪声数据给创建出来, 而且微簇的数量将会随着噪声数据的增加而增加。在面临这种现象的情况下, 微簇的数量也会受到算法的限制, 因此算法将会对一些微簇的处理要时刻的对它们进行结合或者删除, 这样算法聚类结果的准确性就不好意料了。后来, 面对Clustream算法这些方面的不足, 相应的学者们各抒己见提出了很多种解决的方案。在04年的时候, Aggarwal等人提出了一类算法框架比较出名, 其名为HPStream (High-dimensional Projected Stream Clustering method) 。HPStream算法框架主要在两个方面做出了改进:首先是改进了算法当中所使用的投影聚类的方法对高维数据流的聚类问题进行了处理;其次就是将Clustream中体现的微簇利用衰减簇的概念来代替, 从而将历史数据进行保存, 到最后借用衰减因子完成衰减历史数据对整体聚类影响的不断衰减的衰减。曹峰等人借用这种基础提出了DenStream算法, 这种算法为一种基于密度的进化数据流聚类算法, 可以对在线和离线两个阶段进行处理。可以使用三个概念来总结这个算法的总体架构, 依次为:离群微簇、核心微簇、潜在核心微簇。也可以这样去描绘整个算法的实现过程, 当引入一个全新的数据点的情况下, 这一数据首先就要被算法判断出是否可以作为潜在的核心微簇中存在, 不行的话, 就要试着并入相邻最近的离群微簇当中。如果离群微簇在合并之后的半径大于阈值的话, 就要对这个离群微簇进行转换了, 一般都是转换为潜在核心微簇, 实现聚类在离线的状态下主要使用DBSCAN算法的变形来完成。

四、结语

综上所诉, 许多学者对流数据聚类算法的关注程度在这几年越来越高。自组织和鲁棒性的也是群智能算法的优点, 面对那种没有全局模型的情况, 能够对庞大的数据处理过程取得较好的效应, 因此可以看出群智能算法相比其它优化算法有着其擅长的优势。而面对传统数据挖掘聚类算法和流数据聚类算法的差异性就要做到取长补短的效果, 从而优化双方的作用, 合理化的去使用流数据聚类算法, 使得聚类的效果达到最优化。

摘要：流数据在这几年已经渐渐成为了主流数据的一种。生活上的流数据也是随处可见的, 比如股票数据、网络入侵监测过程中反馈的数据都是属于流数据的一种。下文介绍了流数据聚类算法和传统数据聚类算法的差异性, 如何去研究和分析差异性采样下的流数据聚类算法分析, 以及阐述流数据聚类算法当中应用群智能所带来的效果。

关键词：流数据,聚类算法,差异性采样,群智能

参考文献

[1] 赵元棣, 王超, 李善梅等.基于重采样的终端区飞行轨迹可信聚类方法[J].西南交通大学学报, 2017, 52 (4) :817-825.

[2] 李鹏飞, 刘春宇, 海军.云计算环境下关联性大数据实时流式可控聚类算法[J].科学技术与工程, 2018 (7) :66-69.

[3] 李勇, 马灿, 刘传英等.数据的多流形结构分析与研究[J].黑龙江大学自然科学学报, 2016 (6) :813-820.