Home

机器学习(五):通俗易懂决策树与随机森林及代码实践

与SVM一样,决策树是通用的机器学习算法。随机森林,顾名思义,将决策树分类器集成到一起就形成了更强大的机器学习算法。它们都是很基础但很强大的机器学习工具,虽然我们现在有更先进的算法工具来训练模型,但决策树与随机森林因其简单灵活依然广受喜爱,建议大家学习。 一、决策树 1.1 什么是决策树 我们可以把决策树想象成IF/ELSE判别式深度嵌套的二叉树形结构。以我们在《机器学习(三):理解逻辑回归及二分类、多分类代码实践》所举的鸢尾花数据集为例。 我们曾用seaborn绘制花瓣长度和宽度特征对应鸢尾花种类的散点图,如下: 当花瓣长度小于2.45则为山鸢尾(setosa),剩下的我们判断花瓣宽度小于1.75则为变色鸢尾(versicolor)剩下的为维吉尼亚鸢尾(virginica...

Read more

机器学习(四):通俗理解支持向量机SVM及代码实践

上一篇文章我们介绍了使用逻辑回归来处理分类问题,本文我们讲一个更强大的分类模型。本文依旧侧重代码实践,你会发现我们解决问题的手段越来越丰富,问题处理起来越来越简单。 支持向量机(Support Vector Machine, SVM)是最受欢迎的机器学习模型之一。它特别适合处理中小型复杂数据集的分类任务。 一、什么是支持向量机 SMV在众多实例中寻找一个最优的决策边界,这个边界上的实例叫做支持向量,它们“支持”(支撑)分离开超平面,所以它叫支持向量机。 那么我们如何保证我们得到的决策边界是最优的呢? 如上图,三条黑色直线都可以完美分割数据集。由此可知,我们仅用单一直线可以得到无数个解。那么,其中怎样的直线是最优的呢? 如上图,我们计算直线到分割实例的距离,使得我们的...

Read more

机器学习(三):理解逻辑回归及二分类、多分类代码实践

本文是机器学习系列的第三篇,算上前置机器学习系列是第八篇。本文的概念相对简单,主要侧重于代码实践。 上一篇文章说到,我们可以用线性回归做预测,但显然现实生活中不止有预测的问题还有分类的问题。我们可以从预测值的类型上简单区分:连续变量的预测为回归,离散变量的预测为分类。 一、逻辑回归:二分类 1.1 理解逻辑回归 我们把连续的预测值进行人工定义,边界的一边定义为1,另一边定义为0。这样我们就把回归问题转换成了分类问题。 如上图,我们把连续的变量分布压制在0-1的范围内,并以0.5作为我们分类决策的边界,大于0.5的概率则判别为1,小于0.5的概率则判别为0。 我们无法使用无穷大和负无穷大进行算术运算,我们通过逻辑回归函数(Sigmoid函数/S型函数/Logistic函数...

Read more

机器学习(二):理解线性回归与梯度下降并做简单预测

预测从瞎猜开始 按上一篇文章所说,机器学习是应用数学方法在数据中发现规律的过程。既然数学是对现实世界的解释,那么我们回归现实世界,做一些对照的想象。 想象我们面前有一块塑料泡沫做的白板,白板上分布排列着数枚蓝色的图钉,隐约地它们似乎存在着某种规律,我们试着找出规律。 白板上的图钉(数据)如上图所示,我们有没有一种方法(数学算法)来寻找规律(模型解释)呢? 既然不知道怎么做,那我们瞎猜吧! 我拿起两根木棒在白板前比划,试着用木棒表示数据的规律。我随便放了放,如下图所示: 它们似乎都在一定程度上能表示蓝色图钉的规律,那么问题来了,绿色(虚线)和红色(实线)哪一个表示更好呢? 损失函数(成本函数) 好与坏是很主观的表达,主观的感受是不可靠的,我们必须找到一种客观的度量...

Read more

机器学习(一):5分钟理解机器学习并上手实践

引言 现在市面上的机器学习教程大多先学习数学基础,然后学机器学习的数学算法,再建立机器学习的数学模型,再学习深度学习,再学习工程化,再考虑落地。这其中每个环节都在快速发展,唯独落地特别困难。我们花费大量时间成本去学习以上内容,成本无疑是特别昂贵的。所以我们不如先“盲人摸象”、“不求甚解”地探索下机器学习,浅尝辄止。如果想到自己的应用场景,再学以致用,深入探索。这无疑是使沉没成本最低的决策。 本教程适合兴趣广泛的人士增加自己知识的广度,从应用的角度谨“使用”机器学习这款工具,是典型的黑盒思维。这非常契合笔者的思维方式,当然也是我个人的格局局限。 本教程会浅显易懂,让你走的很快。但如果你想走的更远还请学习数学。当然我们也只是暂时放下数学,先构建自己的知识体系。 先抬头看路,找准适合自己...

Read more

2021,新世界!

如果我们不能击败它,就必须与之共存。 随便聊聊。文末有红包🧧现金💰书籍📖赠送。 新冠病毒正在彻底改变世界,人类与之斗争,没有人敢断言结果。我们做职业规划、人生规划时,要重新考虑风险。 中国崛起 IMF预计,中国是2020年全球唯一一个经济正增长的主要经济体。 中国在悠悠的历史长河中,一直不是以民主为核心的。我们受孔孟思想的影响深远,我们尊师重道,信仰真理,追随权威。当面对灾难时,这尤其有效,我们让最有能力的人做决定,听从他的一切指挥,脱离困境。这是人民出让权力,政府执行软强制主义的典型方式。它显然比所谓的“可操控的民主”更高级,更何况随着社会的进步,中国在一点点将人民的权力归还给人民。这种信任让中国人比任何国家都团结,我们认准的方向,都是无人能挡的,无论对错。 这让中国的...

Read more

前置机器学习(五):30分钟掌握常用Matplotlib用法

Matplotlib 是建立在NumPy基础之上的Python绘图库,是在机器学习中用于数据可视化的工具。 我们在前面的文章讲过NumPy的用法,这里我们就不展开讨论NumPy的相关知识了。 Matplotlib具有很强的工具属性,也就是说它只是为我所用的,我们不必花太多的精力去精进它。我们只需要知道它可以做那些事,可以绘制哪些图形,有一个印象就足够了。我们在实际使用中用什么拿什么,我们用到了自然就熟练了,用不到的功能也就说明它对你没什么用。 这就是按需学习(Learn on Demand) 。这点我在《如何成为十倍速程序员》里提到过类似的理念。 一、Matplotlib常见用法 1. 绘制简单图像 我们以机器学习中最常见的激活函数sigmoid举例,我们来绘制它。 imp...

Read more

防卒指南:996+健身≈猝死

刚刚看了条新闻,像聊家常似的说两句。希望程序员的心脏能永远“跳动”,指尖的“字节”能永远流淌。 聊聊猝死。 我试着在中文语境下找一些资料来佐证我标题的观点,“运动能锻炼身体的原理”。可惜只能搜到各种健身指南、健身技巧。显然,健身市场很红火, 这些关键字都被买断了。我只能做一些不那么严谨的论证。 在我看来,锻炼是对身体的适当惩罚以达到身体机能补偿的过程。 人类在自然界中生存,物竞天择,我们的身体已经做出了选择。当你总是在奔跑,就奖励你腿部发达的肌肉。当你总是在举重,就奖励你手臂发达的肌肉。但这里有一个借和还的过程。你消耗一定的身体机能再通过自身的调节收获更强大的机能的过程。有借有还,连本带利。 这很公平。但如果你借不出了呢?我是说,你的身体无法承受一次惩罚来获得更大的收益。你的...

Read more