国科大-模式识别-特征提取与特征选择2
数据向量化与特征提取
模式识别的核心在于将数据转化为向量表示,以便进行有效的描述和处理。无论是图像、文本还是语音数据,都可以通过向量化来统一处理,从而实现高效的分析与分类。
- 特征提取:是模式识别的基础,将数据转换为等长度的向量形式是必不可少的。以人脸图像为例,通过选取特定的关键点,可以对面部特征进行描述,进而实现精确的模式识别。
- 文本分类:将文章中的词汇转化为向量。通过构建词库,能够对不同主题(如体育、政治等)进行分类,实现文本的高效处理。
- 线性维数缩减:有助于将高维数据映射到低维空间,通过最大化保留数据的整体特性和方差,优化模式识别的效果。
特征选择方法
特征选择是模式识别中的关键步骤,主要包括三种方法:过滤式、包裹式和嵌入式特征选择。
- 过滤式特征选择:通过单独评估每个特征的贡献来选择最优特征,通常独立于分类算法。
- 包裹式特征选择:结合特征选择与分类算法,通过迭代优化来选择最优特征子集。
- 嵌入式特征选择:在模型训练过程中,通过优化稀疏性来进行特征选择,以提升模型的泛化能力。
特征选择的重要性
特征选择在模式识别中至关重要。通过去除冗余或噪声特征,可以提高模型的准确性,减少计算复杂度,并有效避免维度灾难。
维数缩减与数据投影
主成分分析 (PCA)
- PCA:通过寻找数据的特征向量,实现有效的维度缩减。最大特征值对应的特征向量定义了数据的主要投影方向,保留了最大的数据变异性。
- 维度选择:通常选择保留95%能量的特征向量作为新的维度,确保数据的主要信息得以保留。
线性判别分析 (LDA)
- LDA:通过监督学习寻找最佳投影方向,使同类样本点尽可能聚集,不同类样本点尽量远离,从而提升分类效果。
- 非线性维数缩减:逐渐受到重视,其保留了原始数据的非线性结构,更适应复杂的实际应用场景。
高维数据投影与矩阵运算
通过将二维数据映射到更高的维度,确保每个数据点都有唯一的表示,进一步强调了不同维度之间的关系以及数据的本质特征。
- 瑞士蛋卷模型:以瑞士蛋卷为比喻,展示了数据的二维和三维特性,帮助理解复杂的数学概念。
- 零均值化:通过矩阵变换,在数据处理过程中达到目标。这一技巧在统计学和机器学习中都非常重要。
距离矩阵与格雷姆矩阵
距离矩阵与投影矩阵
- 距离矩阵:通过特征值分解,找到保持距离最小的投影矩阵,从而实现数据降维的目的。
- 对称性与特征值分解:确保构造的矩阵是对称的,对于后续的特征值分解过程具有重要意义。
保持局部结构的重要性
在数据降维中,保持样本点的局部结构至关重要。通过选择每个样本点的k个邻居,可以更准确地进行线性表征和数据重构。
- 线性与非线性结构:理解两者关系是降维的关键。保持局部邻居的思路有助于更好地重构数据,代数表征在其中起着至关重要的作用。
特征选择与分类任务
特征选择过程
特征选择的目的是找到最优的特征子集,从而提高分类器的性能。
- 特征分数与可分性:通过分数排序,识别最优特征。单调性原则确保了特征分数的变化趋势,有助于提高模型的效率。
- Relief算法:作为有监督的特征选择方法,通过比较同类与不同类样本之间的距离来评估特征的重要性,优化分类效果。
知识向量机与特征选择
- 知识向量机 (SVM):支持向量的分类在SVM中至关重要,通过分析αi值判断哪些向量是支持向量。
- 嵌入式特征选择:结合分类过程与特征选择,通过优化目标函数来保持重要特征,提升模型效率。
特征选择中的数学优化
一范数与二范数
- 一范数:具有吸附性,促使模型保留少量非零特征,实现稀疏解。
- 二范数:不具备吸附性,可能保留过多特征,影响模型性能。
特征矩阵的优化
通过将一个NP难的问题转化为可优化的问题,引入新的度量方法,简化特征选择并提高模型的效率。
- 零范数与一范数:引入零范数最小化的新向量w,有助于筛选相关特征,提升模型准确性。
- 二一范数与线性回归:结合二一范数与线性回归,处理多类分类问题,简化计算过程并提升模型表现。
本博客采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 MM's Journal of Technology!