我的猫狗大战数据集图片缺失处理

2023-08-31 04:05:03

前面找了一份540M的猫狗大战的数据集，想使用这个数据集在小型数据集上从头开始训练一个卷积神经网络，使用了其中的2500个样本，这个猫狗大战的数据集总的是25000张图片，所以在前面2500张图片缺失的时候我就自己从后面的数据集中拷贝图片补齐前面的，但是发现缺失图片比较多，手动去查找太麻烦，所以干脆还是判断一下文件是不是存在的，写代码来解决这个问题。

其实这个代码比较简单，但是考虑到前面自己在CSDN上分享过这个数据集（猫狗大战数据集-深度学习其他资源-CSDN下载），不想坑别人，就把代码贴出来，供参考。如果想用全部的数据集作训练，不能从后面考图片，但是应该可以自己去搜集图片来不全缺失，只要将这一部分的代码修改一下，打印出来其中的缺失的index，然后去对应的补全，免得自己去找，还是有一定的小作用的。

代码如下：

# -*- coding: utf-8 -*-
"""
Created on Sat Oct 27 16:25:41 2018@author: Lxiao217
"""
import os, shutil
original_dataset_dir = 'F:\\python\\DeepLearning\\train'
base_dir = 'F:\\python\\DeepLearning\\cats_and_dogs_small'
if not os.path.exists(base_dir):os.mkdir(base_dir)train_dir = os.path.join(base_dir, 'train')
if not os.path.exists(train_dir):os.mkdir(train_dir)test_dir = os.path.join(base_dir, 'test')
if not os.path.exists(test_dir):os.mkdir(test_dir)validation_dir = os.path.join(base_dir, 'validation')
if not os.path.exists(validation_dir):os.mkdir(validation_dir)train_cats_dir = os.path.join(train_dir, 'cats')
if not os.path.exists(train_cats_dir):os.mkdir(train_cats_dir)train_dogs_dir = os.path.join(train_dir, 'dogs')
if not os.path.exists(train_dogs_dir):os.mkdir(train_dogs_dir)validation_cats_dir = os.path.join(validation_dir, 'cats')
if not os.path.exists(validation_cats_dir):os.mkdir(validation_cats_dir)validation_dogs_dir = os.path.join(validation_dir, 'dogs')
if not os.path.exists(validation_dogs_dir):os.mkdir(validation_dogs_dir)test_cats_dir = os.path.join(test_dir, 'cats')
if not os.path.exists(test_cats_dir):os.mkdir(test_cats_dir)test_dogs_dir = os.path.join(test_dir, 'dogs')
if not os.path.exists(test_dogs_dir):os.mkdir(test_dogs_dir)#将前1000张猫的图片复制到train_cats_dir中
fnames = ['cat.{}.jpg'.format(i) for i in range (1000)]
for fname in fnames:src = os.path.join(original_dataset_dir, fname)if not os.path.exists(src):nameList = fname.split('.')picindex = int(nameList[1])newindex = picindex + 6666newName = nameList[0] + '.' +  str(newindex) + '.' +  nameList[2]src = os.path.join(original_dataset_dir, newName)dst = os.path.join(train_cats_dir, fname)shutil.copyfile(src, dst)
#500张验证猫
fnames = ['cat.{}.jpg'.format(i) for i in range(1000, 1500)]
for fname in fnames:src = os.path.join(original_dataset_dir, fname)if not os.path.exists(src):nameList = fname.split('.')picindex = int(nameList[1])newindex = picindex + 6666   #用的原始index+6666的图片newName = nameList[0] + '.' +  str(newindex) + '.' +  nameList[2]src = os.path.join(original_dataset_dir, newName)dst = os.path.join(validation_cats_dir, fname)shutil.copyfile(src, dst)
#500张测试猫
fnames = ['cat.{}.jpg'.format(i) for i in range(1500, 2000)]
for fname in fnames:src = os.path.join(original_dataset_dir, fname)if not os.path.exists(src):nameList = fname.split('.')picindex = int(nameList[1])newindex = picindex + 6666newName = nameList[0] + '.' +  str(newindex) + '.' +  nameList[2]src = os.path.join(original_dataset_dir, newName)dst = os.path.join(test_cats_dir, fname)shutil.copyfile(src, dst)#1000张训练狗
fnames = ['dog.{}.jpg'.format(i) for i in range(1000)]
for fname in fnames:src = os.path.join(original_dataset_dir, fname)if not os.path.exists(src):nameList = fname.split('.')picindex = int(nameList[1])newindex = picindex + 6666newName = nameList[0] + '.' +  str(newindex) + '.' +  nameList[2]src = os.path.join(original_dataset_dir, newName)dst = os.path.join(train_dogs_dir, fname)shutil.copyfile(src, dst)#500张验证狗
fnames = ['dog.{}.jpg'.format(i) for i in range(1000, 1500)]
for fname in fnames:src = os.path.join(original_dataset_dir, fname)if not os.path.exists(src):nameList = fname.split('.')picindex = int(nameList[1])newindex = picindex + 6666newName = nameList[0] + '.' +  str(newindex) + '.' +  nameList[2]src = os.path.join(original_dataset_dir, newName)dst = os.path.join(validation_dogs_dir, fname)shutil.copyfile(src, dst)#500张测试狗
fnames = ['dog.{}.jpg'.format(i) for i in range(1500, 2000)]
for fname in fnames:src = os.path.join(original_dataset_dir, fname)if not os.path.exists(src):nameList = fname.split('.')picindex = int(nameList[1])newindex = picindex + 6666newName = nameList[0] + '.' +  str(newindex) + '.' +  nameList[2]src = os.path.join(original_dataset_dir, newName)dst = os.path.join(test_dogs_dir, fname)shutil.copyfile(src, dst)

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 编译驱动模块报错/home/zhongyi/workdir/ebf-buster-linux: No such file or directory. Stop.
下一篇 > Selenium启动Chrome插件(Chrome Extensions)

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

我的猫狗大战数据集图片缺失处理

相关文章