什么叫做离散化(离散化方法有哪三种)

什么叫做离散化(离散化方法有哪三种)

首页维修大全综合更新时间:2025-04-17 14:44:54

什么叫做离散化

Microsoft SQL Server 2005 Analysis Services (SSAS) 中创建数据挖掘模型时所用的有些算法需要特定的内容类型才能正确运行。例如,有些算法(如 Microsoft Naive Bayes 算法)不能使用连续列作为输入,即不能预测连续值。另外,有些列可能会因包含的值太多而导致算法不易标识数据中据以创建模型的相关模式。

在此类情况下,可以将列中的数据离散化,以便可以使用算法来生成挖掘模型。离散化是将一组连续的数据的值放入存储桶的过程,以便得到可能状态的离散数目。存储桶本身是作为有序且离散的值处理的。数值列和字符串列都可以进行离散化。

离散化数据时,可以使用多种方法。每种方法都能使用以下示例代码中的公式,自动计算要生成的存储桶的数目:

Number of Buckets = sqrt(n)

在上述示例代码中,n 是列中数据非重复值的数目。如果不希望由 Analysis Services 计算存储桶数目,则可使用 DiscretizationBuckets 属性来手动指定存储桶的数目。

大家还看了
也许喜欢
更多栏目

© 2021 3dmxku.com,All Rights Reserved.