分类和预测
分类和数值预测是预测问题的两种主要类型。分类是预测分类(离散、无序的)标号,而预测则是建立连续值函数模型。
一、分类问题的步骤:
1、使用训练集建立描述预先定义的数据类或概念集的分类器。
第一步也称之为“学习步”或者“训练模型阶段”,使用特定的分类算法通过分析从训练集中学习来构造相应的分类器或者分类模型。这一步也可以看做是,通过训练样本学习一个映射或者函数,它可以用来预测给定元组X的类标号y。
训练集是由数据元组和与之相关联的类标号组成,数据元组X由n维属性向量组成,表示该元组在第i个属性上的取值。
由于训练集中每个元组都有其对应的类标号,因此分类模型的训练过程也称为监督学习(Supervised Learning),即分类器的学习是在被告知每个训练元组的属于哪个类的监督下进行。
与之对应的是聚类,也称为无监督学习(Unsupervised Learning),在学习的过程中,每个训练元组的类标号是未知的,并且通过学习所形成的类的个数或集合也可能实现不知道。
2、使用第一步建立的分类模型对新的数据进行分类。
建立起相应的分类模型后就可以应用该模型对新数据进行分类。对于一个特定的模型衡量其性能的主要指标是:准确率(Accuracy)
(1)、分类器的准确率度量
准确率Acc(M),在模式识别文献中也称为分类器的总体识别率(Recognition Rate),是分类器M正确分类的的元组所占的百分比,它反映分类器对各类元组的识别情况。
混淆矩阵(Confusion Matrix)是分析分类器识别不同类元组的一种有效工具。给定m个类,则混淆矩阵是一个m*m的二维表,表示类i用被分类器标记为类别j的元组数量。理想地,对于具有高准确率的分类器,大部分的元组都集中在混淆矩阵的对角线上。
给定两类,可以使用术语正元组(感兴趣的主类元组)和负元组。真正(True Positives)表示分类器正确分类的正元组,真负(True Negatives)是分类器正确标分类的负元组。假正(False Positives)是分类错误的负元组,即实际为负元组预测分类为正元组。假负(False Negatives)是错误标记的正元组,即实际为正元组被分类器分类为负元组。