我们什么时候需要机器学习,而不是直接编程让计算机执行手头的任务?给定问题的两个方面可能需要使用基于其“经验”进行学习和改进的程序:问题的复杂性和自适应性的需求。
-
过于复杂而无法编程的任务
- 动物/人类执行的任务:人类日常执行的任务种类繁多,然而,我们对自身执行方式的反思却不足以提取出一个定义明确的程序。这类任务的例子包括驾驶、语音识别和图像理解。在所有这些任务中,最先进的机器学习程序,即能够“从经验中学习”的程序,一旦接触到足够多的训练样本,就能取得相当令人满意的结果。
- 超越人类能力的任务:其对海量复杂数据集的分析:天文数据、将医学档案转化为医学知识、天气预报、基因组数据分析、网络搜索引擎以及电子商务。随着数字记录数据的不断涌现,显而易见的是 企业电子邮件列表,这些海量复杂、人类难以理解的数据档案中蕴藏着丰富的信息宝藏。学习如何在海量复杂数据集中识别有意义的模式是一个充满希望的领域,将学习型程序与计算机几乎无限的内存容量和不断提升的 商店和购物中心使用互联网的示例 处理速度相结合,将开辟新的前景。
-
适应性:
- 编程工具的一个限制性特征是其僵化性,一旦程序被编写并安装,就无法更改。然而,许多任务会随着时间或用户的不同而变化。机器学习工具——其行为能够根据输入数据进行调整的程序——为此类问题提供了解决方案;它们本质上能够适应与其交互的环境的变化。机器学习在此类问题上的典型成功应用包括:解码手写文本的程序,其中固定的程序可以适应不同用户笔迹之间的差异;垃圾邮件检测程序,可以自动适应垃圾邮件性质的变化;以及语音识别程序。
机器学习的类型
机器学习的介绍向我们介绍了三
-
监督学习
- 大多数实际的机器学习都在监督学习中,系统尝试从给定的先前示例中学习。(另一方面 邮寄线索,在无监督学习中,系统尝试直接从给定的示例中寻找模式。)从数学上讲,监督学习是指同时具有输入变量(x)和输出变量(Y),并且可以使用算法推导出从输入到输出的映射函数。映射函数表示为 Y = f(X)。监督学习问题可以进一步分为两部分:分类和回归。
- 分类:分类问题是指输出变量是一个类别或一个组,例如“黑色”或“白色
- 大多数实际的机器学习都在监督学习中,系统尝试从给定的先前示例中学习。(另一方面 邮寄线索,在无监督学习中,系统尝试直接从给定的示例中寻找模式。)从数学上讲,监督学习是指同时具有输入变量(x)和输出变量(Y),并且可以使用算法推导出从输入到输出的映射函数。映射函数表示为 Y = f(X)。监督学习问题可以进一步分为两部分:分类和回归。