线性模型（五）之逻辑斯蒂回归

2023-09-27 01:06:59

逻辑斯蒂回归（logistic regression，LR）名字中包含“回归”二字，乍一听，还以为是一种回归算法，实则不然，逻辑斯蒂回归是不折不扣的分类算法。

感知机算法是最直接的将线性回归用于分类的算法，其直接在线性回归的模型上加上了符号函数，变成了二分类模型。类似，逻辑斯蒂回归算法的思想也是将线性回归模型加以改造，进而用于分类。

个人理解，逻辑斯蒂回归改造线性回归模型的思路是将线性回归产生的实值输出转换为取值在 $0 - 1$ 的概率值，并以此概率表示输入样本 $\mathbf{x}$ 的类别为正的概率。在逻辑斯蒂回归中，用sigmoid函数将线性回归的实值输出转换到 $0 - 1$ 的概率表示，即
$f(\mathbf{x}) = \frac{1}{1 + e ^{-(\mathbf{w}^T\mathbf{x} + b)}}$
其中，sigmoid函数的形式为 $\frac{1}{1+e^{-z}}$ ， $f(\mathbf{x})$ 表示样本 $\mathbf{x}$ 为正例的概率大小，令 $p(\mathbf{x}) = f(\mathbf{x})$ 。

对于逻辑斯蒂回归还有另外一种解释，即逻辑斯蒂回归是利用线性回归拟合对数几率。几率表示样本 $\mathbf{x}$ 为正例的概率和为负例的概率的比值，即 $\frac{p(\mathbf{x})}{1 - p(\mathbf{x})}$ ，再取对数即可得到对数几率，然后用线性回归拟合该对数几率，即
$\ln \frac{p(\mathbf{x})}{1-p(\mathbf{x})} = \mathbf{w}^T\mathbf{x} + b$
变换后，同样可以得到
$p(\mathbf{x}) = \frac{1}{1 + e ^{-(\mathbf{w}^T\mathbf{x} + b)}}$

可见，这两种解释都是可以推导出逻辑斯蒂回归模型的定义的。

有了模型的定义后，按照前面几节的思路，现在就需要想办法如何求解模型的参数 $\mathbf{w}$ 和 $b$ ，欲求解参数，首先需要将其转换为最优化问题，然后对优化问题求解。逻辑斯蒂回归算法采用的最大化对数似然作为最优化策略，可以认为损失函数是对数似然函数，只不过是要取最大值。

对数似然最大化，其实就是使得对于所有样本的预测都尽可能对，且概率值尽可能大，对于正例而言，是使得 $p(\mathbf{x})$ 尽可能大，而对于负例而言，则是使得 $p(\mathbf{x})$ 尽可能大。加上对数，是为了使得推导时方便，将乘法变成了加法，对于最终的结果无影响。对数似然的公式如下：
$\begin{aligned} L(\mathbf{w},b) &= \ln \prod_{i=i}^{N} p(y_i|\mathbf{x}_i) \\ &= \sum_{i=1}^{N} \ln p(y_i|\mathbf{x}_i) \\ &= \sum_{i \in P} \ln p(y_i = 1|\mathbf{x}_i) + \sum_{i \in N} \ln p(y_i = 0|\mathbf{x}_i)\\ &= \sum_{i=1}^{N} \ln ([p(y_i = 1|\mathbf{x}_i)]^{y_i} [ 1- p(y_i = 1|\mathbf{x}_i)]^{1 - y_i}) \end{aligned}$

其中， $p(y_i = 1|\mathbf{x}_i)$ 即我们的分类函数， $p(y_i = 1|\mathbf{x}_i) = \frac{1}{1 + e^{-(\mathbf{w}^T\mathbf{x} +ｂ)}}$ ，同样，为了简便，把参数 $b$ 吸收进参数 $\mathbf{w}$ 中， $\mathbf{w} = \{b, w_1,...,w_d\}$ 。将其带入前面的对数似然公式中，可以得到：

$\begin{aligned} L(\mathbf{w},b) &= \sum_{i=1}^{N} \ln ([p(y_i = 1|\mathbf{x}_i)]^{y_i} [ 1- p(y_i = 1|\mathbf{x}_i)]^{1 - y_i}) \\ &= \sum_{i=1}^{N} \ln ([\frac{1}{1+e^{-\mathbf{w}^T\mathbf{x}}}]^{y_i} [ 1- \frac{1}{1+e^{-\mathbf{w}^T\mathbf{x}}}]^{1 - y_i}) \\ &= \sum_{i=1}^{N} \ln ([\frac{1}{1+e^{-\mathbf{w}^T\mathbf{x}}}]^{y_i} [\frac{e^{-\mathbf{w}^T\mathbf{x}}}{1+e^{-\mathbf{w}^T\mathbf{x}}}]^{1 - y_i}) \\ &= \sum_{i=1}^{N} -y_i \ln (1+e^{-\mathbf{w}^T\mathbf{x}}) + (1-y_i)[-\mathbf{w}^T\mathbf{x} - \ln (1 + e^{-\mathbf{w}^T\mathbf{x}})]\\ &= \sum_{i=1}^{N} y_i\mathbf{w}^T\mathbf{x} - \mathbf{w}^T\mathbf{x} - \ln (1 + e^{-\mathbf{w}^T\mathbf{x}})\\ &= \sum_{i=1}^{N} y_i\mathbf{w}^T\mathbf{x} - [\ln e^{\mathbf{w}^T\mathbf{x}} + \ln (1 + e^{-\mathbf{w}^T\mathbf{x}})]\\ &= \sum_{i=1}^{N} y_i\mathbf{w}^T\mathbf{x} - [\ln (1 + e^{\mathbf{w}^T\mathbf{x}})]\\ \end{aligned} \\$

该式子对于 $\mathbf{w}$ 而言，连续可导，可以利用梯度下降法求解。

最后将逻辑斯蒂回归算法整理如下：

输入： $\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2), ..., (\mathbf{x}_N,y_N)\}$
输出： $f(\mathbf{x}) = \frac{1}{1+e^{-\mathbf{w}^{T}\mathbf{x}}}$
目标： ${\arg \min}_{\mathbf{w}} L(\mathbf{w}) = {\arg \min}_{\mathbf{w}} \sum_{i=1}^{N} y_i\mathbf{w}^T\mathbf{x} - [\ln (1 + e^{\mathbf{w}^T\mathbf{x}})]$

好了，至此，逻辑斯蒂回归就到此为止了。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > PyTorch深度学习——逻辑斯蒂回归（分类问题）（B站刘二大人P6学习笔记）
下一篇 > re.findall() 的用法

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

线性模型（五）之逻辑斯蒂回归

相关文章