crossentropy java_Pytorch中的CrossEntropyLoss()函数案例解读和结合one-hot编码计算Loss

2023-10-19 01:45:33

使用Pytorch框架进行深度学习任务，特别是分类任务时，经常会用到如下：

import torch.nn as nn

criterion = nn.CrossEntropyLoss().cuda()

loss = criterion(output, target)

即使用torch.nn.CrossEntropyLoss()作为损失函数。

那nn.CrossEntropyLoss()内部到底是啥？？

nn.CrossEntropyLoss()是torch.nn中包装好的一个类，对应torch.nn.functional中的cross_entropy。

此外，nn.CrossEntropyLoss()是nn.logSoftmax()和nn.NLLLoss()的整合(将两者结合到一个类中)。

nn.logSoftmax()

定义如下：

从公式看，其实就是先softmax在log。

nn.NLLLoss()

定义如下：

此loss期望的target是类别的索引 (0 to N-1, where N = number of classes)。

例子1：

import torch.nn as nn

m = nn.LogSoftmax()

loss = nn.NLLLoss()

# input is of size nBatch x nClasses = 3 x 5

input = autograd.Variable(torch.randn(3, 5), requires_grad=True)

# each element in target has to have 0 <= value < nclasses

target = autograd.Variable(torch.LongTensor([1, 0, 4]))

output = loss(m(input), target)

可以看到，nn.NLLLoss的输入target是类别值，并不是one-hot编码格式，这个要注意！！

nn.CrossEntropyLoss()

定义如下：

仔细看看公式，发现其实它就是nn.LogSoftmax() + nn.NLLLoss()

调用时输入参数如下：

input : 模型输出，包含每个类的得分，2-D tensor,shape为 batch * n类

target: 大小为 n 的 1—D tensor，包含类别的索引(0到 n-1)。

注意CrossEntropyLoss()的target输入也是类别值，不是one-hot编码格式

例子2：

import torch.nn as nn

loss = nn.CrossEntropyLoss()

# input is of size nBatch x nClasses = 3 x 5

input = autograd.Variable(torch.randn(3, 5), requires_grad=True)

# each element in target has to have 0 <= value < nclasses

target = autograd.Variable(torch.LongTensor([1, 0, 4]))

output = loss(input, target)

例子1和例子2结果等价

如果是one-hot编码该怎么计算loss？

for images, target in train_loader:

images, target = images.cuda(), target .cuda()

N = target .size(0)

# N 是batch-size大小

# C is the number of classes.

labels = torch.full(size=(N, C), fill_value=0).cuda()

labels.scatter_(dim=1, index=torch.unsqueeze(target, dim=1), value=1)

score = model(images)

log_prob = torch.nn.functional.log_softmax(score, dim=1)

loss = -torch.sum(log_prob * labels) / N

optimizer.zero_grad()

loss.backward()

optimizer.step()

其中N是类别数目，labels是one-hot编码格式的二维向量(2-D tensor)。

需要先将例子1,2的target转为one-hot形式labels。

该loss计算可以替代例子1和例子2的loss计算方式

上述计算案例如下：

import torch.nn as nn

import torch

from torch import autograd

import torch.nn.functional as F

# logsoft-max + NLLLoss

m = nn.LogSoftmax()

loss = nn.NLLLoss()

input = autograd.Variable(torch.randn(3, 5), requires_grad=True)

target = autograd.Variable(torch.LongTensor([1, 0, 4]))

output = loss(m(input), target)

print('logsoftmax + nllloss output is {}'.format(output))

# crossentripyloss

loss = nn.CrossEntropyLoss()

# input = autograd.Variable(torch.randn(3, 5), requires_grad=True)

target = autograd.Variable(torch.LongTensor([1, 0, 4]))

output = loss(input, target)

print('crossentropy output is {}'.format(output))

# one hot label loss

C = 5

target = autograd.Variable(torch.LongTensor([1, 0, 4]))

print('target is {}'.format(target))

N = target .size(0)

# N 是batch-size大小

# C is the number of classes.

labels = torch.full(size=(N, C), fill_value=0)

print('labels shape is {}'.format(labels.shape))

labels.scatter_(dim=1, index=torch.unsqueeze(target, dim=1), value=1)

print('labels is {}'.format(labels))

log_prob = torch.nn.functional.log_softmax(input, dim=1)

loss = -torch.sum(log_prob * labels) / N

print('N is {}'.format(N))

print('one-hot loss is {}'.format(loss))

结果如下：

logsoftmax + nllloss output is 3.005390167236328

crossentropy output is 3.005390167236328

target is tensor([1, 0, 4])

labels shape is torch.Size([3, 5])

labels is tensor([[0., 1., 0., 0., 0.],

[1., 0., 0., 0., 0.],

[0., 0., 0., 0., 1.]])

N is 3

one-hot loss is 3.005390167236328

可知相同的输入下全部等价。

补充：

以及关于cross entropy有关的函数及在torch.nn和torch.nn.functional中对应关系如下：

torch.nn和torch.nn.functional的区别在于torch.nn中对应的函数其实就是对F里的函数进行包装的类。

参考

原文链接:https://blog.csdn.net/c2250645962/article/details/106014693

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > torch.nn.CrossEntropy用法
下一篇 > AI算法Python实现：Transfer entropy

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

crossentropy java_Pytorch中的CrossEntropyLoss()函数案例解读和结合one-hot编码计算Loss

相关文章