机器学习(三):理解逻辑回归及二分类、多分类代码实践
本文是机器学习系列的第三篇,算上前置机器学习系列是第八篇。本文的概念相对简单,主要侧重于代码实践。
上一篇文章说到,我们可以用线性回归做预测,但显然现实生活中不止有预测的问题还有分类的问题。我们可以从预测值的类型上简单区分:连续变量的预测为回归,离散变量的预测为分类。
一、逻辑回归:二分类
1.1 理解逻辑回归
我们把连续的预测值进行人工定义,边界的一边定义为1,另一边定义为0。这样我们就把回归问题转换成了分类问题。
如上图,我们把连续的变量分布压制在0-1的范围内,并以0.5作为我们分类决策的边界,大于0.5的概率则判别为1,小于0.5的概率则判别为0。
我们无法使用无穷大和负无穷大进行算术运算,我们通过逻辑回归函数(Sigmoid函数/S型函数/Logistic函数...
机器学习(二):理解线性回归与梯度下降并做简单预测
预测从瞎猜开始
按上一篇文章所说,机器学习是应用数学方法在数据中发现规律的过程。既然数学是对现实世界的解释,那么我们回归现实世界,做一些对照的想象。
想象我们面前有一块塑料泡沫做的白板,白板上分布排列着数枚蓝色的图钉,隐约地它们似乎存在着某种规律,我们试着找出规律。
白板上的图钉(数据)如上图所示,我们有没有一种方法(数学算法)来寻找规律(模型解释)呢? 既然不知道怎么做,那我们瞎猜吧!
我拿起两根木棒在白板前比划,试着用木棒表示数据的规律。我随便放了放,如下图所示:
它们似乎都在一定程度上能表示蓝色图钉的规律,那么问题来了,绿色(虚线)和红色(实线)哪一个表示更好呢?
损失函数(成本函数)
好与坏是很主观的表达,主观的感受是不可靠的,我们必须找到一种客观的度量...
机器学习(一):5分钟理解机器学习并上手实践
引言
现在市面上的机器学习教程大多先学习数学基础,然后学机器学习的数学算法,再建立机器学习的数学模型,再学习深度学习,再学习工程化,再考虑落地。这其中每个环节都在快速发展,唯独落地特别困难。我们花费大量时间成本去学习以上内容,成本无疑是特别昂贵的。所以我们不如先“盲人摸象”、“不求甚解”地探索下机器学习,浅尝辄止。如果想到自己的应用场景,再学以致用,深入探索。这无疑是使沉没成本最低的决策。
本教程适合兴趣广泛的人士增加自己知识的广度,从应用的角度谨“使用”机器学习这款工具,是典型的黑盒思维。这非常契合笔者的思维方式,当然也是我个人的格局局限。
本教程会浅显易懂,让你走的很快。但如果你想走的更远还请学习数学。当然我们也只是暂时放下数学,先构建自己的知识体系。
先抬头看路,找准适合自己...
2021,新世界!
如果我们不能击败它,就必须与之共存。
随便聊聊。文末有红包🧧现金💰书籍📖赠送。
新冠病毒正在彻底改变世界,人类与之斗争,没有人敢断言结果。我们做职业规划、人生规划时,要重新考虑风险。
中国崛起
IMF预计,中国是2020年全球唯一一个经济正增长的主要经济体。
中国在悠悠的历史长河中,一直不是以民主为核心的。我们受孔孟思想的影响深远,我们尊师重道,信仰真理,追随权威。当面对灾难时,这尤其有效,我们让最有能力的人做决定,听从他的一切指挥,脱离困境。这是人民出让权力,政府执行软强制主义的典型方式。它显然比所谓的“可操控的民主”更高级,更何况随着社会的进步,中国在一点点将人民的权力归还给人民。这种信任让中国人比任何国家都团结,我们认准的方向,都是无人能挡的,无论对错。
这让中国的...
前置机器学习(五):30分钟掌握常用Matplotlib用法
Matplotlib 是建立在NumPy基础之上的Python绘图库,是在机器学习中用于数据可视化的工具。
我们在前面的文章讲过NumPy的用法,这里我们就不展开讨论NumPy的相关知识了。
Matplotlib具有很强的工具属性,也就是说它只是为我所用的,我们不必花太多的精力去精进它。我们只需要知道它可以做那些事,可以绘制哪些图形,有一个印象就足够了。我们在实际使用中用什么拿什么,我们用到了自然就熟练了,用不到的功能也就说明它对你没什么用。
这就是按需学习(Learn on Demand) 。这点我在《如何成为十倍速程序员》里提到过类似的理念。
一、Matplotlib常见用法
1. 绘制简单图像
我们以机器学习中最常见的激活函数sigmoid举例,我们来绘制它。
imp...
防卒指南:996+健身≈猝死
刚刚看了条新闻,像聊家常似的说两句。希望程序员的心脏能永远“跳动”,指尖的“字节”能永远流淌。
聊聊猝死。
我试着在中文语境下找一些资料来佐证我标题的观点,“运动能锻炼身体的原理”。可惜只能搜到各种健身指南、健身技巧。显然,健身市场很红火, 这些关键字都被买断了。我只能做一些不那么严谨的论证。
在我看来,锻炼是对身体的适当惩罚以达到身体机能补偿的过程。
人类在自然界中生存,物竞天择,我们的身体已经做出了选择。当你总是在奔跑,就奖励你腿部发达的肌肉。当你总是在举重,就奖励你手臂发达的肌肉。但这里有一个借和还的过程。你消耗一定的身体机能再通过自身的调节收获更强大的机能的过程。有借有还,连本带利。
这很公平。但如果你借不出了呢?我是说,你的身体无法承受一次惩罚来获得更大的收益。你的...
机器学习速查表(cheatsheet)资源汇总分享
本文收集整理了机器学习相关速查表(Machine Learning Cheatsheet),包含机器学习、Python、Numpy、Pandas、Matplotlib、线性代数、微积分、统计学、概率论等相关速查表。我已经建立了开源项目MachineLearningCheatsheets,我将持续更新机器学习相关的各种cheatsheet,欢迎star。
机器学习
神经网络架构
神经网络结构速查表,包括感知机、前馈神经网络、径向基函数网络、循环神经网络等。
Azure 机器学习算法
Microsoft Azure机器学习拥有来自分类,推荐系统,群集,异常检测,回归和文本分析系列的大型算法库。每个都旨在解决不同类型的机器学习问题。
每种机器学习算法都有自己的风格或归纳偏差。...
前置机器学习(四):一文掌握Pandas用法
Pandas提供快速,灵活和富于表现力的数据结构,是强大的数据分析Python库。
本文收录于机器学习前置教程系列。
一、Series和DataFrame
Pandas建立在NumPy之上,更多NumPy相关的知识点可以参考我之前写的文章前置机器学习(三):30分钟掌握常用NumPy用法。
Pandas特别适合处理表格数据,如SQL表格、EXCEL表格。有序或无序的时间序列。具有行和列标签的任意矩阵数据。
打开Jupyter Notebook,导入numpy和pandas开始我们的教程:
import numpy as np
import pandas as pd
1. pandas.Series
Series是带有索引的一维ndarray数组。索引值可不唯一,但必须是...
61 post articles, 8 pages.