机器学习Machine Learning(ML)


什么是机器学习

  1. 定义
    对于某个任务T和表现的衡量P,当计算机程序在该任务T的表现上,经过P的衡量,随着经验E而增长,称计算机能够通过经验E来学习该任务。(Tom Mitchell)
  2. 举例而言,在跳棋游戏中,任务T为玩跳棋游戏,衡量P是游戏输赢,经验E是一局又一局的游戏。

监督学习(supervised learning)

  1. 预先给出算法“正确的结果”,即训练集中对于任意一个变量x,都已经有y与之对应,称这样的学习为监督学习。与之相对应的是:非监督学习(unsupervised learning)
  2. 举例而言,假设你拥有房价数据,同时有交易房屋的占地面积x和房屋的交易价格y,现在你希望预测一个750平方英尺的房屋的交易价格。此问题就是一个监督学习。(也可称为回归问题regression,因为我们能预测的结果是连续的值)
  3. 举例而言,假设你拥有肿瘤的数据,同时拥有肿瘤的尺寸,病人的年龄等变量x和某病人的肿瘤是良性或恶性y,现在希望预测一个病人的肿瘤是良性或者恶性的。此问题也是监督学习。(也可称为分类问题classification)

非监督学习(unsupervised learning)

  1. 在监督学习中,无论回归问题还是分类问题,数据中总有一个结果,如房价问题中房价,肿瘤问题中良性与否。而在非监督学习中,我们只有特征,非监督学习解决的就是:我们的这些数据是否可以分为不同的组。
  2. 举例而言,假设对于发表在US economy上的论文,我们希望根据词频,句子长度将这些论文其分为不同的组。(也可称为聚类问题clustering)
  3. 举例而言,“鸡尾酒问题”,在凌乱的数据中发现结构,如在嘈杂的鸡尾酒聚会中区分某人的声音和音乐声。

小结

在Quora上有篇回答可以帮助你理解监督学习和非监督学习:机器学习算法中监督学习和非监督学习的区别