利用数据库技术分析大数据技术原理（大数据分析最常用的数据库）

利用数据库技术分析大数据技术原理

数据筛选中数据挖掘的算法分析主要有以下几种。

分类算法分析

分类数据挖掘是通过找出共同事物的相同属性及不同事物间的差异。利用找出的相同点或者不同点将事物分类。决策树的优点在于，其描述简单，当数据量较大时仍能够快速的将数据进行分类。分类算法通常是基于决策树来实现，设定的分类种类都用叶子节点表示，而中间的节点用来表示事物的属性。在构造决策树时候，决策树并不是完全不变的，而是在不断变化的、完善的。通常会对建立的决策树进行实验，如果决策树对所有给定对象分类结果达不到预期要求，就要通过增加些特殊的例子对其进行完善，这一过程会在后续实验中不断进行，直到决策树能够将给定事物进行准确分类，形成较为完善的决策树。

分类算法在构建模型中使用广泛，常用于信用、客户类别分析模型中。在邮件营销中可以使用此分类算法依据已有客户以往的消费信息进行分析，得出购买力较高的客户特征列表，从而对此类客户进行精准营销以获得更多客户。在构建模型时，使用决策树的方法对于以往信息进行分类，得到以前进行消费客户的共同点，收集其共同特征，得出消费用户的主要特性。最后得出一个可以对客户进行判别的决策树，这样就可以对其余客户进行判定，得到较有价值的潜在客户列表。这种基于对已有信息进行分析、判断分类的方法，将已有信息分为不同类别，使得企业更有针对性的为不同类群提供针对性的服务，从而提高企业的决策效率和准确度。

聚类算法分析

聚类算法的作用是将具有相同特征的事物进行分组，又称为群分析。聚类算法可以用来大致判断将对象分为多少组，并提供每组数据的特征值。在聚类分析中可以将给定实例分成不同类别，相同类别中的实例是相关的，但是不向类别之间是不相关的。聚类算法中的重要之处就是分类步骤，在将给定实例分类时，需要先任选一个样本，作为样本中心，然后选定中心距，将小于中心距的实例归入一个集合，将剩下的距中心样本距离大于中心距的归入另一个集合。再在剩余样本中选出新的中心，重复上面步骤，不断形成新的类别，直至将所有样本都归入集合。

从上面步骤可以看出，聚类算法在归类时速度的快慢，受给定中心距的影响。如果给定中心距较小，类别就会相对增多，降低归类速度。同样在聚类算法中，确定将实例分成的类别数也是十分重要的，如果类别较多不但在分类时会耗费太多时间，也会失去分类的意义。但是具体应该分出多少类，并没有一个最优的方法来判定，只能通过估算来计算。通过聚类算法处理过后的数据，同一类中的数据都非常接近，不同类就有种很大差异性。在聚类算法中判断数据间间隔通常利用距离表示，也就是说可以利用函数将数据间任意距离转换成一个实数，通常实数越大表示间距越远。

关联算法分析

关联算法用于表示两事物间关系或依赖。事物问关联通常分为两种，一种是称为相关性，另一种称为关联性。两者都用来表示事物间的关联性，但是前者通常用来表示互联网内容及文档上的关联性，后者通常用于表示电子商务间各网站商品间的关系，但两者并无本质区别。关联算法既然是用来表示两事物问关系或依赖度，那么就需要用定量会来衡量相关度，这一概念被称为支持度，即当某个商品出现时另一商品伴随出现的概率。

关联算法的数据挖掘通常分为两步，第一步就是在集合中寻找出现频率较高的项目组，这些项目组相当于整体记录而言必须达到一定水平。通常会认为设置要分析实体间支持度，如果两实体问支持度大于设定值，则称二者为高频项目组。第二步是利用第一步找出的高频项目组确定二者间关系，这种关系通常由二者间概率表示。即计算A事件出现时B事件出现的概率，公式为(A与B同时出现的概率)/(A出现的概率)，当比值满足既定概率时候，才能说明两事件相关联。关联分析能够从数据库中找出已有数据间的隐含关系，从而利用数据获得潜在价值。