应用模式识别可用于文字和语音识别、遥感和医学诊断等方面。
① 文字识别
汉字已有数千年的历史,也是世界上使用人数最多的文字,对于中华民族灿烂文化的形成和发展有着不可磨灭的功勋。所以在信息技术及计算机技术日益普及的今天,如何将文字方便、快速地输入到计算机中已成为影响人机接口效率的一个重要瓶颈,也关系到计算机能否真正在我国得到普及的应用。目前,汉字输入主要分为人工键盘输入和机器自动识别输入两种。其中人工键入速度慢而且劳动强度大;自动输入又分为汉字识别输入及语音识别输入。从识别技术的难度来说,手写体识别的难度高于印刷体识别,而在手写体识别中,脱机手写体的难度又远远超过了联机手写体识别。到目前为止,除了脱机手写体数字的识别已有实际应用外,汉字等文字的脱机手写体识别还处在实验室阶段。
② 语音识别
语音识别技术技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安验证方式。而且利用基因算法训练连续隐马尔柯夫模型的语音识别方法现已成为语音识别的主流技术,该方法在语音识别时识别速度较快,也有较高的识别率。
③ 指纹识别
我们手掌及其手指、脚、脚趾内侧表面的皮肤凹凸不平产生的纹路会形成各种各样的图案。而这些皮肤的纹路在图案、断点和交叉点上各不相同,是独一的。依靠这种独一性,就可以将一个人同他的指纹对应起来,通过比较他的指纹和预先保存的指纹进行比较,便可以验证他的真实身份。一般的指纹分成有以下几个大的类别:环型(loop),螺旋型(whorl),弓型(arch),这样就可以将每个人的指纹分别归类,进行检索。指纹识别基本上可分成:预处理、特征选择和模式分类几个大的步骤。
③ 遥感
遥感图像识别已广泛用于农作物估产、资源勘察、气象预报和军事侦察等。
④ 医学诊断
在癌细胞检测、X射线照片分析、血液化验、染色体分析、心电图诊断和脑电图诊断等方面,模式识别已取得了成效。

模式识别
人们在观察事物或现象的时候,常常要寻找它与其他事物或现象的不同之处,并根据一定的目的把各个相似的但又不完全相同的事物或现象组成一类。字符识别就是一个典型的例子。例如数字'4'可以有各种写法,但都属于同一类别。更为重要的是,即使对于某种写法的'4',以前虽未见过,也能把它分到'4'所属的这一类别。人脑的这种思维能力就构成了'模式'的概念。在上述例子中,模式和集合的概念是分未弄的,只要认识这个集合中的有限数量的事物或现象,就可以识别属于这个集合的任意多的事物或现象。为了强调从一些个别的事物或现象推断出事物或现象的总体,我们把这样一些个别的事物或现象叫作各个模式。也有的学者认为应该把整个的类别叫作模去,这样的'模式'是一种抽象化的概念,如'房屋'等都是'模式',而把具体的对象叫作'房屋'这类模式中的一个样本。这种名词上的不同含义是容易从上下文中弄淸楚的。

模式识别算法
1. K-Nearest Neighbor
K-NN可以说是一种最直接的用来分类未知数据的方法。简单来说,K-NN可以看成:有那么一堆你已经知道分类的数据,然后当一个新数据进入的时候,就开始跟训练数据里的每个点求距离,然后挑离这个训练数据最近的K个点看看这几个点属于什么类型,然后用少数服从多数的原则,给新数据归类。
实际上K-NN本身的运算量是相当大的,因为数据的维数往往不止2维,而且训练数据库越大,所求的样本间距离就越多。就拿我们course project的人脸检测来说,输入向量的维数是1024维(32x32的图,当然我觉得这种方法比较silly),训练数据有上千个,所以每次求距离(这里用的是欧式距离,就是我们最常用的平方和开根号求距法) 这样每个点的归类都要花上上百万次的计算。所以现在比较常用的一种方法就是kd-tree。也就是把整个输入空间划分成很多很多小子区域,然后根据临近的原则把它们组织为树形结构。然后搜索最近K个点的时候就不用全盘比较而只要比较临近几个子区域的训练数据就行了。

当然,kd-tree有一个问题就是当输入维数跟训练数据数量很接近时就很难优化了。所以用PCA(稍后会介绍)降维大多数情况下是很有必要的