??导读:这是一篇保证你“看得下去”的文章。让你真正搞懂机器学习学什么?怎样学? 00有关机器学习的三个问题和机器学习“知识栈”的三个层 你对机器学习的直观感受是什么?
机器学习已经向我们生活的方方面面渗透,也许很快就有那么一天,机器学习就要和水电煤一样,成为我们生活中再离不了的第四种资源。
当然,知识栈只是描绘了机器学习知识体系的大致结构,知识栈的每一层,还可以继续划分更多更细的子领域。机器学习的知识体系枝叶繁茂,而人的时间和精力则相对十分有限,正因如此,只有明确了第一个问题,才能回答第二个问题,才能最终决定第三个问题,也就是大家一开始最为关心的问题,机器学习应该怎么上手。
正如你第一次走进一座很大很大的游乐园,哪怕你已经听说了大家对这座游乐园评价都很高,你也不会马上就清楚自己首先应该去哪里游玩,甚至游乐园里都有些什么设施,要朝哪个方向走过去,你都很可能并不清楚。这应该是绝大多数第一次来玩的游客都面临的问题。
那么,接下来本文会按照机器学习知识栈的三层结构,对机器学习的知识体系梳理出要点和联系。市面上名叫机器学习的各类书籍鱼龙混杂,本文会同时给出推荐的阅读书目供大家参考。 01数学基础层 机器学习的知识栈是自底向上构建的。那么,我们先从知识栈的最底层,也就是数学基础层说起。 一提到数学,大家都苦不堪言。数学很重要,可以说没有数学,就没有计算机科学。可是,数学实在太难学了,这么多年都没学明白,而且刚一毕业,数学就全还给了老师。现在告诉我们学机器学习,先得学习数学,难道还得重修九年义务教育? 这确实是许多人对机器学习望而却步的主要原因之一。不过,要告诉大家一个好消息:机器学习里要学的数学,远比你想象的要少,要简单。
先说线性代数。机器学习需要用到许多运算,而线性代数正是机器学习里的四则运算,可谓是构成了机器学习的骨架。不过,线性代数作为一条主要的数学分支,内容也很不少,好在机器学习只是使用其中的向量和矩阵运算,在这个部分,推荐《矩阵分析》: 这是一本经典的好书,写得很好,不过不用读完,建议仔细读懂什么是向量空间、什么是矩阵、矩阵的基本运算法则,以及正定矩阵和奇异值分解的相关章节,那么机器学习的“四则运算”我们就掌握清楚了。 接下来是概率统计。如果我们说线性代数是机器学习的“骨”,那概率统计应该就算是机器学习的“魂”了。这是因为有一派主流观点认为,机器学习就是个换了个皮的统计学,说机器学习的本质就是“拟合曲线”。 这里不做争论,不过机器学习大量使用概率统计的概念,确实是不争的事实。在这个部分,推荐《概率论基础教程》: 这本书的作者是Ross,Ross是统计学界的名家,出的教材都是经典。建议重点阅读《概率论基础教程》中关于概率、条件概率、贝叶斯概率公式、期望等概念相关介绍,以及了解各种概率分布,如什么是正态分布等。 机器学习数学方面的书现在越出越多,读书的跟不上出书的,所以推荐读经典,而上述的两本书都是数学领域的经典教材,读过一定有收获。 02算法原理层 底层就这两样,接着该说算法原理层。 这是机器学习的核心层。机器学习大热,讲机器学习算法的书也多不胜数,不过,现在市面上的这类书,内容大致可以分为两类,一类是往下靠,也就是往数学基础层靠,更像是一本数学教材;另一类是往上靠,也就是往分域应用层上靠,写成了一本教编程的书。 虽然说机器学习毕竟是一门实践科学,除了学各种数学公式,最终还要写成代码运行才能真正解决问题,不过如果只懂调用算法API而不去了解内在原理,用得再多也只是手熟的调包侠。 能够兼顾数学和应用这上下两层,同时从初学者的角度出发,使用比较通俗直白的语言来撰写的书是更好的选择。这里推荐《机器学习算法的数学解析与Python实现》: 经过一天拼尽全力的工作,晚上回家还要克服刷视频的冲动,放下手机转为去读一本又有数学又有算法的艰涩的专业书,对很多人来说都非常难。 数学教材之所以难读,是因为数学太多抽象的概念,而让人更难坚持的是数学概念之间嵌套引用,要清楚明白一个数学概念,往往需要额外再学一大串数学概念,而其中往往又包含有嵌套引用,不知道哪里才是头,所以很容易给人一团乱麻、无从下手的感觉。 在《机器学习算法的数学解析与Python实现》这本书中,作者尝试改变这一现状,只对反复使用、必须了解的数学概念用最直白最“讲人话”的语言进行介绍,同时摒弃背后一大串错综复杂的概念,改为结合直观形象的例子进行说明。 本书在比较容易阅读的同时,也能比较完整地呈现一幅机器学习的全景图,成为连接机器学习知识栈最上层和最下层的“粘合剂”,帮助第一次接触机器学习的初学者,做到心里有数。 03分域应用层 最后,我们介绍知识栈的最上层,也就是分域应用层。前面我们已经说过,机器学习是一门实践科学,最终需要编写代码才能运行。在这个方面,目前主流的做法是使用Python高级编程语言,调用Scikit-Learn库来实现。 Scikit-Learn是当前最为知名的Python机器学习算法库,提供了几乎所有的主流算法。在这方面,推荐《机器学习实战:基于Scikit-Learn和TensorFlow》: 这本书基本是业内公认介绍Scikit-Learn最为清楚的书,同时还介绍了另一款知名的深度学习框架TensorFlow。 和软件开发项目有生命周期一样,机器学习的项目也有生命周期,大致可以分为收集数据、清洗数据、分析数据、选择模型、训练模型和输出预测。也许很多初学者认为最费时间的是选择模型和训练模型。
这本书非常好,作者就是Pandas的作者本人,权威性无可挑剔。而且内容非常详实,由浅入深每一步都写得十分清楚,覆盖又全,特别适合新手阅读。
04深度学习 说完机器学习,说另一大热门深度学习。目前深度学习有两套最热门的框架,一套是前面《机器学习实战》这本书介绍的Tensorflow,另一套叫Pytorch。
Pytorch的书不少,不过由于Pytorch发展很快,早期0.X版本的很多语法已经不再适用,而这本书使用1.X版本的Pytorch,不会出现这一问题,而且结合了时下热门的深度学习应用场景,具有很好的实践参考作用。深度学习是借着图像处理声名鹊起的,这方面推荐《深度学习与图像识别:原理与实践》: 这本书对深度学习在图像识别方面的应用作了比较全面的介绍,不但介绍了热门模型,还逐一介绍了目前学术界在图像处理方面的热门研究方向,如GAN、图像识别和分割等。比较有意思的是,本书还介绍了KNN算法,算是对图像处理算法作了一个比较全面的回顾了。 05无人驾驶 最后,介绍一个经常上新闻、科幻感最强、同时也是了解的人最少、最有神秘感的机器学习分域应用:无人驾驶。这几年关于无人驾驶的讨论不少,但更热衷讨论的话题是无人驾驶衍生的社会问题和伦理问题,譬如电车难题,而对技术本身的讨论反而少的让人意外。 这也许是因为机器学习是交叉学科,而无人驾驶更是交叉学科的交叉学科,涉及机器人学、车辆工程等等复杂学科,领域性太强,一般人难窥究竟。这方面推荐《无人驾驶:原理和实践》: 无人驾驶涉及的学科方向比较杂,而这本书把ROS、点云匹配、图像识别、传感器等构成无人驾驶的几个重要方面都涵盖在内,相当于给无人驾驶做了一次全景式展示。 作者:莫凡 转自:华章计算机?? 本文来源:TalkingData —- 编译者/作者:TalkingData 玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。 |
学什么?怎么学?机器学习保姆级入门攻略
2020-03-17 TalkingData 来源:火星财经
LOADING...
相关阅读:
- 大数据表明:从需求层面来看近年来比特币的需求量正在大幅度上升2020-10-29
- 行业分析:探索“区块链+大数据标准化建设”引领数字中国新趋势?2020-10-29
- 人工智能和机器学习旨在克服挑战!2020-10-23
- 大数据艺术NFT与Brittany Kaiser的合作2020-10-17
- 从币乎小程序里看到大数据。|| 不想当大V的小白不是好币东2020-10-10