机器学习算法究竟是什么？

原文出处： ZDNet http://server.zdnet.com.cn/server/2015/0731/3058289.shtml

机器学习是大数据能够给组织带来智能运营的关键组成部分。尽管机器学习算法趣味无穷，但技术本身很快就会变得复杂起来。所有人不可能都成为数据科学家，但IT专业人士需要了解我们的机器是如何学习的。

揭开神秘的算法

我们越来越多地看到机器学习在实用和可实现的目标上的价值，例如针对数据寻找可用的模式然后进行预测。通常，这些预测模型用于操作流程以优化决策过程，但同时它们也可以提供关键的洞察力和信息来报告战略决策。

机器学习的基本前提是算法训练，提供特定的输入数据时预测某一概率区间内的输出值。请记住机器学习的技巧是归纳而非推断——与概率相关，并非最终结论。

构建这些算法的过程被称之为预测建模。一旦掌握了这一模型，有时就可以直接对原始数据进行分析，并在新数据中应用该模型以预测某些重要的信息。模型的输出可以是分类、可能的结果、隐藏的关系、属性或者估计值。

机器学习技术通常预测的是绝对值，比如标签、颜色、身份或者质量。比如，某个主题是否属于我们试图保留的用户？用户会付费购买吗？用户会积极响应邀约吗？

如果我们关心的是估算值或者连续值，预测也可以用数字表示。输出类型决定了最佳的学习方法，并会影响我们用于判断模型质量的尺度。

谁对机器学习方法进行监督？

机器学习方法可以是有人监督也或者是无人干预的。区别不在于算法是否可以为所欲为，而是是否要从具备真实结果的训练数据中学习——预先确定并添加到数据集中以提供监管——或者尝试发现给定数据集中的任何自然形态。大多数企业使用预测模型，对训练数据使用监督方式，而且通常旨在预测给定实例——邮件、人员、公司或者交易是否属于某个有趣的分类——垃圾邮件、潜在买家、信用良好或者获得后续报价。

如果在开始之前你不是很清楚在寻找什么，那么无人干预的机器学习方法能够提供全新的洞察力。无人干预的学习还能够生成集群与层次结构图，显示数据的内在联系，还能够发现哪些数据字段看起来是独立的，哪些是规则描述、总结或者概括。反过来，这些洞察能够为构建更好的预测方法提供帮助。

构建机器学习模型是一项反复练习的过程，需要清理数据和动手实验。目前市场上正在涌现一些自动和有向导的模型工具，它们承诺降低对数据科学家的依赖性，同时在常见领域获得最高的投资回报率。然而这里面真正的差别很可能需要你自己去发现。

#IWork4Dell

请您将合适的回复标记为“接受的回答”，并为喜欢的帖子“点赞”。这对我们非常重要！

查看全部

找不到事件！

综合讨论区

机器学习算法究竟是什么？

#IWork4Dell

请您将合适的回复标记为“接受的回答”，并为喜欢的帖子“点赞”。这对我们非常重要！