机器学习为什么强大？

机器学习的本质就是计算机从数据中学习知识，这一过程与人学习的过程十分相似，也正因此机器学习可以有效地帮助人们解决问题。

机器学习

人的知识是怎么来呢？埃斯库罗斯说：“ 记忆是一切智慧之母”(《被缚的普罗米修斯》)。的确，没有记忆就没有智慧，我们所拥有的知识，大部分都是靠记忆得来的。所以学习的过程注定艰苦，不管你有多少记忆方法和记忆捷径，都无法突破人脑本身的限制，总是要一点一滴去记忆。我的母校中国科学技术大学的少年班是培养少年天才最知名的地方，据我了解少年班录取过最小的学员有11岁，这差不多是最低年龄的极限了。无论多么天才，七八年的知识积累是无法跳过去的，没有绝对的捷径。

埃斯库罗斯名言的英文版是：Memory is the mother of all wisdom。计算机中的内存就叫 Memory，内存用来存储数据，在计算机的世界里这句名言应该这么说：“ 数据是一切智慧之母”。计算机比人有一个巨大的优势，它的“记忆”（也就是收集数据的过程）需要的时间很短，远远比人需要的时间短。从这个角度看，假如计算机复刻了人的学习过程，那么机器学习比人更强大就是一件顺理成章的事情了。实际上，在很多问题上已经是这样了。

在机器学习领域，数据常常比算法要重要的多，数据决定了机器学习能力的上限。数据/记忆是知识的根本，但显然他们还不等于知识。首先我们需要对数据“解码”，否则他们只是一堆“01”串而已；其次要从中识别出对我们有用的信息。

人是如何从记忆的数据中获取到知识的呢？用”识字“这个非常简单的例子来说明一下。所有的汉字大约有10万个，常用的汉字约有3500个，在我们还没有学会认字之前，即使你能记住这些字长什么样，它们在你眼里也都只是“字”。根据信息熵的定义(https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E7%86%B5)，如果给你一个字，在你眼里没有区别，那么它只有一种可能取值：“字”，并且概率是1.0，我们可以计算这一信息量。

信息量

所以，光记住没有用，如果不能辨识每个字的意思，你掌握的信息量还是0。只考虑常用汉字，假设3500个汉字你已经全部掌握，再假设这些字出现的概率都是相同的，于是你掌握的信息量如下：

3500个汉字等概率出现的信息量

人之初，善恶无。天地混沌一片，我们一无所知。“天和地还没有分开，宇宙混沌一片。有个叫盘古的巨人，在这混沌之中，一直睡了一万八千年。有一天，盘古突然醒了。他见周围一片漆黑，就抡起大斧头，朝眼前的黑暗猛劈过去。只听一声巨响，混沌一片的东西渐渐分开了。轻而清的东西，缓缓上升，变成了天；重而浊的东西，慢慢下降，变成了地。” 盘古开天辟地，是人类的开始；我们识文断字，明辨是非，是智慧的开始。

机器学习中最重要的一类问题就是分类，分类让计算机具有了智慧。分类的概念很好理解，是非、善恶、美丑这都是分类，分类的数学模型也好理解，如下图。