近些年来,得益于互联网的普及,我们可以非常轻松地获取大量文本、音乐、图片、视频等各种各样的数据。机器学习,就是让计算机具有像人一样的学习能力的技术,是从堆积如山的数据(大数据)中寻找有用知识的数据挖掘技术。通过运用机器学习技术,从视频数据库中寻找自己喜欢的视频资料,或者根据用户购买记录向用户推荐其他相关产品等成为了现实。接下来从宏观的角度对什么是机器学习做相应的介绍,并对机器学习的基本概念进行说明。
1 学习的种类
计算机的学习,根据所处理的数据种类的不同,可以分为监督学习、无监督学习和强化学习等几种类型。
监督学习,通俗的讲是指由求知欲的学生从老师那里获取知识、信息,老师提供对错提示,告知最终答案的过程。在机器学习中,学生对应于计算机,老师对应于周围环境。根据在学习过程中所获得的经验、技能,对没有学习过的问题也可以做出正确的回答,是计算机获得这种泛化能力,是监督学习的最终目标。监督学习,在手写文字识别、声音处理、图像处理、垃圾邮件分类与拦截,网页检索、基因诊断以及股票预测等各个方面,都有着广泛的应用。这一类机器学习的典型任务包括:预测数值型数据的回归,预测分类标签的分类,预测顺序的排序等。
无监督学习,是指在没有老师的指导下,学习自学的过程。在机器学习里,基本上都是计算机在互联网中自动收集信息,并从中获取有用的信息。无监督学习不仅仅局限于解决像监督学习那样的有明确答案的问题,因此,它的学习目标可以不必十分明确。无监督学习在人造卫星故障诊断、视频分析、社交网站解析和声音信号解析等方面大显身手的同时,在数据可视化以及作为监督学习方法的前处理工具方面,也有广泛的应用。这一类机器学习的典型任务有聚类、异常检测等。
强化学习,与监督学习类似,也以使计算机获得对没有学习过的问题作出正确解答的泛化能力为目标,但在学习过程中,不设置老师提示对错,告知最终答案的环节。然而,如果真的在学习过程中不能从环境中获得任何信息的话,强化学习就变成无监督学习了。强化学习,是指在没有老师直到的情况下,自己对预测的结果进行评估的方法。通过这样的自我评估,学生为了获得老师的最高嘉奖而不断地进行学习。强化学习,在机器人的自动控制、计算机游戏中的人工智能、市场战略的最优化等方面均有广泛的应用。在强化学习中国经常会用到回归、分类、聚类、和降维等各种机器学习算法。
2 机器学习任务的例子
下面主要讲解机器学习中典型的任务,例如回归、分类、聚类、异常检测、聚类和降维等。
回归,是指把实函数在样本点附近加以近似的有监督的函数近似问题。考虑以$d$维实向量$\boldsymbol{x}$作为输入,实数值$y_i$作为输出的函数$ y=f(\boldsymbol{x}) $的学习问题。在监督学习里,这里的真实函数关系$f$是未知的,作为训练集的输入输出样本$\{({x_i}, y_i)\}_{i=1}^{n}$是已知的。
分类,是指对于指定的模式进行识别的有监督的模式识别问题。在这里,以$d$维实向量$\boldsymbol{x}$作为输入样本,而所有的输入样本,可以划分为$c$个类别的问题进行说明,作为训练集的输入输出样本$\{({x_i}, y_i)\}_{i=1}^{n}$是已知的。但是,分类问题中的输出样本$y_i$,并不是具体的实数,而是分别代表类别$ 1,2, \ldots ,c $。在这样的任务里,得到输出类别$1,2, \ldots ,c$的函数$ y=f(\boldsymbol{x}) $的过程。
异常检测,是指寻找输入样本$\{({x_i})\}_{i=1}^{n}$中所包含的异常数据的问题。在已知正常数据与异常数据例子的情况下,其与有监督的分类问题是相同的。但是,在一般情况下,对于什么样的数据是异常的,什么样的数据是正常的,在事先是未知的。在这样的无监督的异常检测问题中,一般采用密度估计的方法,把靠近密度中心的数据作为正常数据,把偏离密度中心的数据作为异常数据。
聚类,与分类问题相同,也是模式识别问题,但是属于无监督学习的一种。即只给出输入样本$\{({x_i})\}_{i=1}^{n}$,然后判断各个样本分别属于$1,2, \ldots ,c$中的哪个簇。隶属于相同簇的样本之间具有相似性的性质,不同簇之间具有不同的性质。在聚类问题中,如何准确地计算样本之间的相似度是很重要的课题。
参考文献:
[1] 图解机器学习
[3] Semi-Supervised Learning Tutorial
