机器学习笔记(一)——几种基本机器学习算法

前言

  我大概在一个月前加入了新成立的联创 AI Lab 组,作为前端转行选手之前机器学习的经验也仅限于打种子杯时用 xgboost 库调了调参的水平,当时对于理论知识也是一窍不通,不过也不影响写代码。当然现在闲下来认真学习(转行)就不一样了,所以也打算写一系列博客来作为学习笔记。
  第一篇主要是介绍机器学习中的几种传统算法以及代码实现。本篇博客假设读者对机器学习中的一些基本概念与数学公式已经有了一定了解,如:回归的概念等。

几种算法及代码实现

  1. 线性回归
      这种算法从名字就可以看出其核心思想,即利用线性函数来拟合数据集。
      首先来讲讲一元线性回归,即使用一条直线来拟合,下图展示了一元线性回归在多种不同数据集下的拟合效果:

    该图被称作 Anscombe’s quartet ,这四张图的神奇之处在于由四组特性不同的数据所得到的拟合曲线完全相同。向人们展示了在分析数据之前,描绘数据所对应的图像有多么的重要。

      可以看出一元线性回归对于一些数据集实际处理的效果并不好。图二很明显应该使用一个曲线关系来拟合,而图三和图四则展示了极端的偏离值对拟合结果也会造成很大影响。对于图三和四的解决方法牵扯到了对离群点的讨论,这里先暂不分析。而对图二的情况就可以提到另外一种线性回归算法——多元线性回归。

    等待补充……

  2. Logistic 回归
      Logistic 回归也可以从名字看出其核心思想,即使用 Logistic 函数 来拟合。这里提到了 Logistic 函数的概念,所以我们在这里来介绍一下。
      一个 logistic 函数 或者说 logistic 曲线 是一种常见的 “S” 形曲线 ,最常见的便是 sigmoid 函数,其函数公式和图像如下:

    {\displaystyle S(x)={\frac {1}{1+e^{-x}}}={\frac {e^{x}}{e^{x}+1}}.}

    等待补充……

  3. kNN 算法

    等待补充……

  4. 决策树算法

    等待补充……