ddp pytoch多卡分布式训练

2023-08-31 02:56:31

https://www.bilibili.com/video/BV1mv4y1s7DE/?spm_id_from=333.788.recommend_more_video.2&vd_source=569ef4f891360f2119ace98abae09f3f

单机多卡并行

多GPU训练实现【动手学深度学习v2】

5 分布式训练【动手学深度学习v2】

python -m torch.distributed.launch --nproc_per_node=2 main.py

这是PyTorch分布式训练的启动命令。它使用了PyTorch内置的分布式训练工具来启动多个训练进程，并将它们连接在一起以进行并行训练。其中的参数解释如下：

python -m torch.distributed.launch: 使用PyTorch内置的分布式训练工具启动训练进程。
--nproc_per_node=2: 每个节点使用的GPU数量。在这个例子中，每个节点使用2个GPU。
main.py: 需要运行的Python脚本。

当你在多台计算机上运行分布式训练时，你需要在每个节点上运行这个命令，以便启动多个训练进程并将它们连接在一起进行并行训练。在启动命令时，你需要使用不同的参数来指定每个节点的IP地址和端口号等信息，以便它们能够相互通信并共享训练数据。

什么是ddp

DDP（Distributed Data Parallel）是PyTorch提供的一种分布式训练策略，旨在加速模型训练和提高模型训练的效率和可扩展性。DDP使用数据并行的方式将模型和数据分散到多个GPU或机器上进行计算，并使用梯度累积和同步的方法对模型参数进行更新。

在DDP中，每个进程拥有自己的模型副本和数据子集，并在每个迭代中计算模型的损失和梯度。然后，使用reduce操作将每个进程的梯度进行累积和同步，并使用平均梯度对模型参数进行更新。通过这种方式，DDP能够显著提高模型训练的速度和效率，并使得模型训练可以扩展到多个GPU或机器上。

DDP还提供了多种优化策略，如同步BN（Batch Normalization）和随机种子固定等功能，以解决在分布式环境下出现的常见问题，如BN不同步和随机性不一致等问题。

除了提供数据并行的方式来加速模型训练和提高可扩展性外，DDP还提供了以下功能和优化策略：

同步BN

在使用BN（Batch Normalization）时，通常会计算每个GPU上的均值和标准差，然后使用全部GPU上的均值和标准差进行归一化。然而，这种方法可能会导致BN的均值和标准差不同步，从而影响模型的性能。为了解决该问题，DDP提供了同步BN的功能，可以使得每个GPU上的BN参数保持同步。通过在DDP中使用torch.nn.SyncBatchNorm类替换标准的BatchNorm类，即可实现同步BN的功能。

随机种子固定

在分布式训练中，由于每个进程拥有自己的随机数生成器，因此可能会导致随机性不一致，从而影响模型的性能和收敛速度。为了解决该问题，DDP提供了随机种子固定的功能，可以使得每个进程使用相同的随机数生成器和随机种子。通过在DDP中使用torch.manual_seed函数固定随机种子，即可实现随机种子固定的功能。

自适应优化器

DDP还提供了自适应优化器的功能，可以根据每个GPU上的梯度大小和方差自动调整学习率和动量。通过在DDP中使用torch.optim.AdaptiveLR和torch.optim.AdaptiveMomemtum优化器，即可实现自适应优化器的功能。

总之，DDP是一种用于分布式训练的优秀策略，可以显著提高模型训练的速度和效率，同时还提供了多种功能和优化策略，以解决在分布式环境下出现的常见问题。

DDP 原理

DDP（Distributed Data Parallel）是PyTorch中的一种分布式训练策略，它可以在多个GPU或多个机器之间分配和同步数据，从而加速训练过程。

DDP的基本原理如下：

将模型和数据划分为多个部分，并将它们分配到不同的GPU或机器上。
每个GPU或机器使用本地数据进行前向传播和反向传播，并计算梯度。
使用All-Reduce操作将梯度汇总到一个全局梯度中，并使用该全局梯度更新模型参数。
重复执行步骤2-3，直到训练结束。

DDP的优点是可以在多个GPU或机器之间并行计算并汇总梯度，从而加速训练过程。此外，DDP还可以自动处理数据划分和梯度同步等细节，使得分布式训练更加方便和易用。

在PyTorch中，可以使用torch.nn.parallel.DistributedDataParallel类来实现DDP。使用DDP时，需要在每个进程中初始化分布式环境，指定进程的唯一标识符和通信方式等参数，并将模型和数据分配到每个进程中。然后，使用DistributedDataParallel类对模型进行包装，并使用torch.distributed.launch命令启动多个进程进行训练。在训练过程中，DDP会自动处理梯度的同步和更新等细节，并将训练结果保存在指定的目录中。

同一台机器多张显卡可以使用ddp

是的，DDP可以在一台机器上的多张GPU上运行。在这种情况下，每张GPU都将分配到不同的进程中，并使用本地数据进行前向传播和反向传播，然后使用All-Reduce操作将梯度进行汇总和同步。这样可以利用多张GPU的计算资源，并加速模型的训练过程。

在PyTorch中使用DDP时，需要指定每个进程使用的GPU编号，可以使用CUDA_VISIBLE_DEVICES环境变量来控制。例如，如果有4张GPU可用，可以使用以下命令在4个进程中启动DDP：

CUDA_VISIBLE_DEVICES=0,1,2,3  python -m torch.distributed.launch --nproc_per_node=4 your_training_script.py

这样就可以在一台机器上的4张GPU上使用DDP进行分布式训练。在训练过程中，每个进程都会使用指定的GPU进行计算，并自动处理梯度的同步和更新等细节。

从使用角度学习DDP

手写AI

# 1. 导包：一些需要导入的库
# 模型相关
from torch.nn.parallel import DistributedDataParallel as DDP
# 数据相关
from torch.utils.data.distributed import DistributedSampler
# ddp自身的机制相关
import torch.distributed as dist# 2.后端多卡通讯及GPU序号（RANK）
if DDP_ON:init_process_group(backend="nccl")LOCAL_RANK = device_id = int(os.environ["LOCAL_RANK"])WORLD_SIZE = torch.cuda.device_count()device = torch.device('cuda', device_id) # note that device_id is an integer but device is a datetype.print(f"Start running basic DDP on rank {LOCAL_RANK}.")logging.info(f'Using device {device_id}')# 3. DDP model
net = DDP(net, device_ids = [device_id], output_device=device_id)# 4.喂数据给多卡
loader_args = dict(batch_size=batch_size, num_workers=WORLD_SIZE*4, pin_memory=True) # batchsize is for a single proc
if DDP_ON:train_sampler = DistributedSampler(train_set)train_loader = DataLoader(train_set, sampler=train_sampler, **loader_args)
else:train_loader = DataLoader(train_set, shuffle=True, **loader_args)# no need for distributed sampler for val
val_loader = DataLoader(val_set, shuffle=False, drop_last=True, **loader_args)# 5.set_epoch 防止每次数据都是一样的（如下图）
# ref: https://blog.csdn.net/weixin_41978699/article/details/121742647
for epoch in range(start, start+epochs):if LOCAL_RANK == 0:print('lr: ', optimizer.param_groups[0]['lr']) net.train()epoch_loss = 0# To avoid duplicated data sent to multi-gputrain_loader.sampler.set_epoch(epoch)

torchrun --nproc_per_node=4 \multigpu_torchrun.py \--batch_size 4 \--lr 1e-3

python -m torch.distributed.launch \--nproc_per_node = 4 \train.py \--batch_size 4

import argparse
import logging
import sys
from pathlib import Pathimport torch
import torch.nn as nn
import torch.nn.functional as F
import wandb
from torch import optim
from torch.utils.data import DataLoader, random_split
from tqdm import tqdmfrom utils.data_loading import BasicDataset, CarvanaDataset
from utils.dice_score import dice_loss
from evaluate import evaluate
from unet import UNet
import os
import torch.distributed as dist# for reproducibility
import random
import numpy as np
import torch.backends.cudnn as cudnn# ABOUT DDP
# for model loading in ddp mode
from torch.nn.parallel import DistributedDataParallel as DDP
# for data loading in ddp mode
from torch.utils.data.distributed import DistributedSamplerimport torch.multiprocessing as mp
from torch.distributed import init_process_group, destroy_process_groupdef init_seeds(seed=0, cuda_deterministic=True):random.seed(seed)np.random.seed(seed)torch.manual_seed(seed)# Speed-reproducibility tradeoff https://pytorch.org/docs/stable/notes/randomness.htmlif cuda_deterministic:  # slower, more reproduciblecudnn.deterministic = Truecudnn.benchmark = Falseelse:  # faster, less reproduciblecudnn.deterministic = Falsecudnn.benchmark = Truedef train_net(net,device,start: int = 0,epochs: int = 5,batch_size: int = 1,learning_rate: float = 1e-5,val_percent: float = 0.1,save_checkpoint: bool = True,img_scale: float = 0.5,amp: bool = False):if DDP_ON: # modify the net's attributes when using ddpnet.n_channels = net.module.n_channelsnet.n_classes  = net.module.n_classes# 1. Create datasettry:dataset = CarvanaDataset(dir_img, dir_mask, img_scale)except (AssertionError, RuntimeError):dataset = BasicDataset(dir_img, dir_mask, img_scale)# 2. Split into train / validation partitionsn_val = int(len(dataset) * val_percent)n_train = len(dataset) - n_valtrain_set, val_set = random_split(dataset, [n_train, n_val], generator=torch.Generator().manual_seed(0))# 3. Create data loadersloader_args = dict(batch_size=batch_size, num_workers=WORLD_SIZE*4, pin_memory=True) # batchsize is for a single process(GPU)if DDP_ON:train_sampler = DistributedSampler(train_set)train_loader = DataLoader(train_set, sampler=train_sampler, **loader_args)else:train_loader = DataLoader(train_set, shuffle=True, **loader_args)# no need for distributed sampler for valval_loader = DataLoader(val_set, shuffle=False, drop_last=True, **loader_args)# (Initialize logging)if LOCAL_RANK == 0:experiment = wandb.init(project='U-Net-DDP', resume='allow', anonymous='must')experiment.config.update(dict(epochs=epochs, batch_size=batch_size, learning_rate=learning_rate,val_percent=val_percent, save_checkpoint=save_checkpoint, img_scale=img_scale,amp=amp))logging.info(f'''Starting training:Epochs:          {epochs}Start from:      {start}Batch size:      {batch_size}Learning rate:   {learning_rate}Training size:   {n_train}Validation size: {n_val}Checkpoints:     {save_checkpoint}Device:          {device.type}Images scaling:  {img_scale}Mixed Precision: {amp}''')# 4. Set up the optimizer, the loss, the learning rate scheduler and the loss scaling for AMPcriterion = nn.CrossEntropyLoss() optimizer = optim.AdamW(net.parameters(), lr=learning_rate, weight_decay=1e-8)scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=epochs, eta_min=1e-7)grad_scaler = torch.cuda.amp.GradScaler(enabled=amp)global_step = 0# 5. Begin trainingfor epoch in range(start, start+epochs):if LOCAL_RANK == 0:print('lr: ', optimizer.param_groups[0]['lr']) net.train()epoch_loss = 0# To avoid duplicated data sent to multi-gputrain_loader.sampler.set_epoch(epoch)disable = False if LOCAL_RANK == 0 else Truewith tqdm(total=n_train, desc=f'Epoch {epoch}/{epochs+start}', unit='img', disable=disable) as pbar:for batch in train_loader:images = batch['image']true_masks = batch['mask']assert images.shape[1] == net.n_channels, \f'Network has been defined with {net.n_channels} input channels, ' \f'but loaded images have {images.shape[1]} channels. Please check that ' \'the images are loaded correctly.'images = images.to(device=device, dtype=torch.float32)true_masks = true_masks.to(device=device, dtype=torch.long)with torch.cuda.amp.autocast(enabled=amp):masks_pred = net(images)loss = criterion(masks_pred, true_masks) \+ dice_loss(F.softmax(masks_pred, dim=1).float(),F.one_hot(true_masks, net.n_classes).permute(0, 3, 1, 2).float(),multiclass=True)optimizer.zero_grad(set_to_none=True)grad_scaler.scale(loss).backward()grad_scaler.step(optimizer)grad_scaler.update()pbar.update(images.shape[0])global_step += 1epoch_loss += loss.item()if LOCAL_RANK == 0:experiment.log({'train loss': loss.item(),'step': global_step,'epoch': epoch})pbar.set_postfix(**{'loss (batch)': loss.item()})# Evaluation rounddivision_step = (n_train // (5 * batch_size))if division_step > 0:if global_step % division_step == 0:histograms = {}for tag, value in net.named_parameters():tag = tag.replace('/', '.')if not torch.isinf(value).any():histograms['Weights/' + tag] = wandb.Histogram(value.data.cpu())if not torch.isinf(value.grad).any():histograms['Gradients/' + tag] = wandb.Histogram(value.grad.data.cpu())val_score = evaluate(net, val_loader, device, disable_log = disable)if LOCAL_RANK == 0:logging.info('Validation Dice score: {}'.format(val_score))experiment.log({'learning rate': optimizer.param_groups[0]['lr'],'validation Dice': val_score,'images': wandb.Image(images[0].cpu()),'masks': {'true': wandb.Image(true_masks[0].float().cpu()),'pred': wandb.Image(masks_pred.argmax(dim=1)[0].float().cpu()),},'step': global_step,'epoch': epoch,**histograms})scheduler.step()if save_checkpoint and LOCAL_RANK == 0 and (epoch % args.save_every == 0):Path(dir_checkpoint).mkdir(parents=True, exist_ok=True)torch.save(net.module.state_dict(), str(dir_checkpoint / 'DDP_checkpoint_epoch{}.pth'.format(epoch)))logging.info(f'Checkpoint {epoch} saved!')##################################### arguments ###########################################
parser = argparse.ArgumentParser(description='Train the UNet on images and target masks')
parser.add_argument('--epochs', '-e', metavar='E', type=int, default=5, help='Number of epochs')
parser.add_argument('--batch-size', '-b', dest='batch_size', metavar='B', type=int, default=1, help='Batch size')
parser.add_argument('--learning-rate', '-l', metavar='LR', type=float, default=1e-5,help='Learning rate', dest='lr')
parser.add_argument('--load', '-f', type=str, default=False, help='Load model from a .pth file')
parser.add_argument('--scale', '-s', type=float, default=0.5, help='Downscaling factor of the images')
parser.add_argument('--validation', '-v', dest='val', type=float, default=10.0,help='Percent of the data that is used as validation (0-100)')
parser.add_argument('--amp', action='store_true', default=False, help='Use mixed precision')
parser.add_argument('--bilinear', action='store_true', default=False, help='Use bilinear upsampling')
parser.add_argument('--classes', '-c', type=int, default=2, help='Number of classes')
parser.add_argument('--exp_name', type=str, default='hgb_exp')
parser.add_argument('--ddp_mode', action='store_true')
parser.add_argument('--save_every', type=int, default=5)
parser.add_argument('--start_from', type=int, default=0)args = parser.parse_args()dir_img = Path('./data/imgs/')
dir_mask = Path('./data/masks/')
dir_checkpoint = Path('./checkpoints/')DDP_ON = True if args.ddp_mode else False#########################################################################################if DDP_ON:init_process_group(backend="nccl")LOCAL_RANK = device_id = int(os.environ["LOCAL_RANK"])WORLD_SIZE = torch.cuda.device_count()device = torch.device('cuda', device_id) # note that device_id is an integer but device is a datetype.print(f"Start running basic DDP on rank {LOCAL_RANK}.")logging.info(f'Using device {device_id}')if __name__ == '__main__':#!highly recommended]# ref: pytorch org ddp tutorial # 1. https://pytorch.org/tutorials/beginner/ddp_series_multigpu.html#multi-gpu-training-with-ddp# 2. https://pytorch.org/tutorials/beginner/ddp_series_multigpu.htmlinit_seeds(0)# Change here to adapt to your data# n_channels=3 for RGB images# n_classes is the number of probabilities you want to get per pixelnet = UNet(n_channels=3, n_classes=args.classes, bilinear=args.bilinear)if LOCAL_RANK == 0:print(f'Network:\n'f'\t{net.n_channels} input channels\n'f'\t{net.n_classes} output channels (classes)\n'f'\t{"Bilinear" if net.bilinear else "Transposed conv"} upscaling')if args.load:# ref: https://blog.csdn.net/hustwayne/article/details/120324639  use method 2 with module# net.load_state_dict(torch.load(args.load, map_location=device))net.load_state_dict({k.replace('module.', ''): v for k, v in                 torch.load(args.load, map_location=device).items()})logging.info(f'Model loaded from {args.load}')torch.cuda.set_device(LOCAL_RANK)net.to(device=device)# wrap our model with ddpnet = DDP(net, device_ids = [device_id], output_device=device_id)try:train_net(net=net,start=args.start_from,epochs=args.epochs,batch_size=args.batch_size,learning_rate=args.lr,device=device,img_scale=args.scale,val_percent=args.val / 100,amp=args.amp)except KeyboardInterrupt:torch.save(net.module.state_dict(), 'INTERRUPTED_DDP.pth')logging.info('Saved interrupt')raisedestroy_process_group()

如何使用ddp？

使用DDP进行分布式训练可以加速深度学习模型的训练过程，减少训练时间。下面是使用PyTorch实现DDP的一般步骤：

初始化分布式环境

在进行DDP训练之前，需要初始化分布式环境。可以使用torch.distributed.init_process_group函数来初始化分布式环境，该函数需要指定分布式后端、主机名、端口号、进程编号等参数。例如，以下代码初始化4个进程的分布式环境：

import torch
import torch.distributed as distdist.init_process_group(backend="nccl", init_method="tcp://localhost:23456", rank=0, world_size=4)

加载数据和模型

在初始化分布式环境后，需要加载训练数据和模型。可以使用PyTorch的数据加载器（如torch.utils.data.DataLoader）加载训练数据，并使用torch.nn.parallel.DistributedDataParallel类对模型进行包装，以便在多个GPU或机器之间分配和同步数据。例如，以下代码加载训练数据和模型，并对模型进行DDP包装：

import torch
import torch.distributed as dist
import torch.nn as nn
import torch.nn.parallel# 加载训练数据
train_dataset = ...# 定义模型
model = ...# 使用DDP包装模型
model = nn.parallel.DistributedDataParallel(model, device_ids=[torch.cuda.current_device()])

定义优化器和损失函数

在加载数据和模型后，需要定义优化器和损失函数。可以使用PyTorch的优化器（如torch.optim.SGD）定义优化器，并使用PyTorch的损失函数（如torch.nn.CrossEntropyLoss）定义损失函数。例如，以下代码定义了一个SGD优化器和一个交叉熵损失函数：

import torch.optim as optim
import torch.nn as nn# 定义优化器
optimizer = optim.SGD(model.parameters(), lr=0.01)# 定义损失函数
criterion = nn.CrossEntropyLoss()

训练模型

在定义优化器和损失函数后，可以开始训练模型。可以使用PyTorch的训练循环（如for循环）遍历训练数据集，并在每个迭代中计算模型的损失和梯度，并使用优化器更新模型参数。例如，以下代码展示了一个简单的训练循环：

for epoch in range(num_epochs):for inputs, targets in train_dataset:# 将输入和目标数据移到GPU上inputs = inputs.to(device)targets = targets.to(device)# 计算模型输出outputs = model(inputs)# 计算损失函数值loss = criterion(outputs, targets)# 计算梯度并更新模型参数optimizer.zero_grad()loss.backward()optimizer.step()

清理分布式环境

在训练完成后，需要清理分布式环境。可以使用torch.distributed.destroy_process_group函数来清理分布式环境，例如：

dist.destroy_process_group()

需要注意的是，在使用DDP进行分布式训练时，需要确保每个进程使用的GPU编号是不同的，以避免数据重复计算和同步问题。可以使用CUDA_VISIBLE_DEVICES环境变量来指定每个进程可以使用的GPU编号。例如，可以使用以下命令来启动4个进程，每个进程使用不同的GPU：

CUDA_VISIBLE_DEVICES=0 python train.py --rank 0 --world-size 4
CUDA_VISIBLE_DEVICES=1 python train.py --rank 1 --world-size 4
CUDA_VISIBLE_DEVICES=2 python train.py --rank 2 --world-size 4
CUDA_VISIBLE_DEVICES=3 python train.py --rank 3 --world-size 4

其中，--rank参数指定当前进程的编号，--world-size参数指定进程总数。

mmseg的ddp

mmseg支持使用DDP进行分布式训练，以下是使用mmseg进行DDP训练的一般步骤：

初始化分布式环境

在进行DDP训练之前，需要初始化分布式环境。可以使用torch.distributed.launch命令启动多个进程，并使用--nproc_per_node参数指定每个节点使用的GPU数量。例如，以下命令启动4个进程，每个进程使用1个GPU：

python -m torch.distributed.launch --nproc_per_node=1 train.py --launcher pytorch

在train.py脚本中，需要使用mmcv.runner.init_dist函数初始化分布式环境。例如：

import mmcv.runnermmcv.runner.init_dist()

加载数据和模型

在初始化分布式环境后，需要加载训练数据和模型。可以使用mmseg的数据加载器（如mmseg.datasets.build_dataset）加载训练数据，并使用mmseg.models.build_segmentor函数构建分割模型。例如，以下代码加载训练数据和模型：

from mmseg.datasets import build_dataset
from mmseg.models import build_segmentor# 加载训练数据
train_dataset = build_dataset(cfg.data.train)# 构建分割模型
model = build_segmentor(cfg.model)

定义优化器和学习率调度器

在加载数据和模型后，需要定义优化器和学习率调度器。可以使用mmseg的优化器（如mmcv.optim.build_optimizer）定义优化器，并使用mmseg的学习率调度器（如mmcv.runner.build_lr_scheduler）定义学习率调度器。例如，以下代码定义了一个SGD优化器和一个余弦退火学习率调度器：

from mmcv.optim import build_optimizer
from mmcv.runner import build_lr_scheduler# 定义优化器
optimizer = build_optimizer(model, cfg.optimizer)# 定义学习率调度器
lr_scheduler = build_lr_scheduler(optimizer, cfg.lr_scheduler, total_iters_per_epoch=len(train_dataset))

构建DDP模型

在定义优化器和学习率调度器后，需要使用mmcv.runner.DistributedDataParallel类将模型进行包装，以便在多个GPU或机器之间分配和同步数据。例如，以下代码构建一个DDP模型：

from mmcv.runner import DistSamplerSeedHook, Runner# 构建DDP模型
model = mmcv.runner.DistributedDataParallel(model.cuda(),device_ids=[torch.cuda.current_device()],broadcast_buffers=False)# 定义分布式采样器的随机数种子
dist_sampler_seed = cfg.get('dist_sampler_seed', None)# 构建Runner对象
runner = Runner(model,batch_processor,optimizer,work_dir=cfg.work_dir,logger=logger,meta=cfg.get('meta', {}),max_iters=num_iterations,dist_sampler_seed=dist_sampler_seed)# 注册分布式采样器的随机数种子
if dist_sampler_seed is not None:runner.register_hook(DistSamplerSeedHook(dist_sampler_seed))

训练模型

在构建DDP模型后，可以使用mmseg的训练器（如mmcv.runner.IterBasedRunner）进行分布式训练。可以使用mmseg的训练循环（如for循环）遍历训练数据集，并在每个迭代中计算模型的损失和梯度，并使用优化器更新模型的参数。例如，以下代码训练分割模型：

from mmcv.runner import IterBasedRunner# 构建训练循环
runner = IterBasedRunner(model,batch_processor,optimizer,work_dir=cfg.work_dir,logger=logger,meta=cfg.get('meta', {}),max_iters=num_iterations,iter_based=True)# 开始训练
runner.run(train_loader, valid_loader=valid_loader, lr_scheduler=lr_scheduler)

参考资料

pytorch官方

https://pytorch.org/tutorials/beginner/ddp_series_multigpu.html#multi-gpu-training-with-ddp
https://pytorch.org/tutorials/beginner/ddp_series_multigpu.html

使用多卡训练可以显著提高深度学习模型的训练速度和效率。在PyTorch中，可以使用DataParallel或DDP等工具来实现多卡训练。下面是使用DataParallel进行多卡训练的示例代码：

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader
from torchvision.datasets import MNIST
from torchvision.transforms import ToTensor# 定义模型
class Net(nn.Module):def __init__(self):super(Net, self).__init__()self.conv1 = nn.Conv2d(1, 32, 3, 1)self.conv2 = nn.Conv2d(32, 64, 3, 1)self.dropout1 = nn.Dropout2d(0.25)self.dropout2 = nn.Dropout2d(0.5)self.fc1 = nn.Linear(9216, 128)self.fc2 = nn.Linear(128, 10)def forward(self, x):x = self.conv1(x)x = nn.functional.relu(x)x = self.conv2(x)x = nn.functional.relu(x)x = nn.functional.max_pool2d(x, 2)x = self.dropout1(x)x = torch.flatten(x, 1)x = self.fc1(x)x = nn.functional.relu(x)x = self.dropout2(x)x = self.fc2(x)output = nn.functional.log_softmax(x, dim=1)return output# 加载数据
train_data = MNIST(root='data', train=True, transform=ToTensor(), download=True)
train_loader = DataLoader(train_data, batch_size=64, shuffle=True)# 定义模型、损失函数和优化器
model = Net()
criterion = nn.NLLLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)# 多卡训练
device_ids = [0, 1, 2, 3] # 定义使用的GPU设备编号
model = nn.DataParallel(model, device_ids=device_ids) # 将模型包装为DataParallel模型
model.to(device_ids[0]) # 将模型和数据移动到第一个GPU设备上num_epochs = 10
for epoch in range(num_epochs):for batch_idx, (data, target) in enumerate(train_loader):data, target = data.to(device_ids[0]), target.to(device_ids[0])optimizer.zero_grad()output = model(data)loss = criterion(output, target)loss.backward()optimizer.step()if batch_idx % 100 == 0:print('Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(epoch, batch_idx * len(data), len(train_loader.dataset),100. * batch_idx / len(train_loader), loss.item()))

在上述代码中，我们首先定义了一个包含两个卷积层、两个全连接层和Dropout层的卷积神经网络模型，并加载了MNIST数据集。然后，我们使用DataParallel工具将模型包装为多卡模型，并指定使用的GPU设备编号。接着，我们将模型和数据移动到第一个GPU设备上，并使用多个GPU设备来进行训练。在训练过程中，我们需要将数据和模型移动到使用的GPU设备上，并在反向传播时累积梯度并更新模型参数。

DataParallel和DDP都是PyTorch中用于实现多卡训练的工具，但它们有一些不同之处。

区别：

数据并行方式不同

DataParallel采用数据并行的方式，即将输入数据划分为多份，在多个GPU设备上分别计算，然后将结果合并。每个GPU设备上都有一个完整的模型，并独立地计算梯度，最后将梯度合并并更新模型参数。

DDP采用模型并行的方式，即将模型分为多份，在多个GPU设备上分别计算，然后通过交换信息实现模型参数的更新。每个GPU设备上只有模型的一部分，并且每个设备上的模型参数都会随着训练的进行而不断更新。

通信方式不同

DataParallel使用All-Reduce算法对梯度进行合并，在每个GPU设备上计算梯度后，通过All-Reduce算法将梯度合并到单个梯度中，然后使用单个梯度来更新模型参数。

DDP使用分布式同步机制来更新模型参数，每个GPU设备上的模型参数都会在训练过程中进行同步。DDP使用了一种称为“全局同步”的方法，其中所有进程都在每个训练步骤中等待最慢进程完成计算，然后使用相同的参数更新所有进程的模型。

联系：

都可以在多个GPU设备上实现模型的并行计算和参数更新。
都需要在训练过程中对数据和模型进行划分和同步。
都可以显著提高模型训练的速度和效率。

选择使用哪种工具取决于不同的应用场景和硬件条件。如果您有多个GPU设备，并且每个设备都有足够的内存来存储模型和数据，那么可以考虑使用DataParallel。如果您的模型非常大，并且需要在多个节点上进行训练，那么可以考虑使用DDP。

无法一概而论哪种多卡训练方式更好，选择哪种方式取决于具体场景和需求。

DataParallel的优点在于实现简单，易于使用，可以在单个节点的多个GPU设备上进行训练，适用于小型或中等规模的模型。但是，DataParallel的缺点在于需要复制整个模型到每个GPU设备上，因此对于大型模型和数据集，可能会导致内存不足，训练速度变慢。

DDP的优点在于可以在多个节点上进行训练，适用于大型模型和数据集。DDP采用模型并行的方式，可以将模型分解为多个部分，从而使得每个部分可以在单个GPU设备上进行训练。此外，DDP使用了分布式同步机制来更新模型参数，可以避免由于网络传输的延迟和带宽限制而导致的训练效率下降。但是，DDP的实现比较复杂，需要对分布式环境和同步机制有一定的了解。

因此，选择哪种多卡训练方式应该根据具体的应用场景和需求来决定。如果您只有单个节点和多个GPU设备，并且模型较小，那么可以选择DataParallel；如果您的模型较大，需要在多个节点上进行训练，并且具备分布式环境的条件，那么可以选择DDP。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce