Pascal Voc 2007 2012

2023-09-26 03:08:37

1、简介

PASCAL 全称：Pattern Analysis, Statical Modeling and Computational Learning

PASCAL VOC（The PASCAL Visual Object Classes ）是一个经典的计算机视觉数据集，由牛津大学、马里兰大学和微软剑桥研究院的研究人员创建的。该数据集于2005年首次发布，从那时起就被用于训练和评估目标检测算法。

PASCAL VOC 从 2005年开始举办挑战赛，每年的内容都有所不同，主要包括：

图像分类（Classification ）
目标检测（Detection）
目标分割（Segmentation）
人体布局（Human Layout）
动作识别（Action Classification）

我们知道在 ImageNet挑战赛上涌现了一大批优秀的分类模型，而PASCAL挑战赛上则是涌现了一大批优秀的目标检测和分割模型，这项挑战赛已于2012年停止举办了，但是研究者仍然可以在其服务器上提交预测结果以评估模型的性能。

虽然近期的目标检测或分割模型更倾向于使用MS COCO数据集，但是这丝毫不影响 PASCAL VOC数据集的重要性，毕竟PASCAL对于目标检测或分割类型来说属于先驱者的地位。对于现在的研究者来说比较重要的两个年份的数据集是 PASCAL VOC 2007 与 PASCAL VOC 2012，这两个数据集频频在现在的一些检测或分割类的论文当中出现。

2、官网地址

官网地址：http://host.robots.ox.ac.uk/pascal/VOC/
官方文档： http://host.robots.ox.ac.uk/pascal/VOC/pubs/everingham10.pdf

3、数据集下载

1）下载方式一：点击下方链接直接下载

Pascal VOC 2007

训练集和验证集下载地址： training/validation data (450MB tar file)
测试集（图像 + 标注）下载地址： annotated test data (430MB tar file)
测试集（仅标注文件）下载地址： annotation only (12MB tar file, no images)

Pascal VOC 2012

训练集和验证集下载地址： training/validation data (2GB tar file)
测试集标注未公开

2）下载方式二：从官网下载

a、Pascal VOC 2007 数据集
点击链接进入 Pascal VOC 2007 主页： http://host.robots.ox.ac.uk/pascal/VOC/voc2007
在页面中找到如下下载链接，点击进行下载

在这里插入图片描述
b、Pascal VOC 2012 数据集
点击链接进入 Pascal VOC 2012 主页： http://host.robots.ox.ac.uk/pascal/VOC/voc2012/
在页面中找到如下下载链接，点击进行下载

4、数据集的发展与 20个类别

1）数据集的发展

在这里插入图片描述

对于分类和检测来说，下图所示为数据集的发展历程，相同颜色的代表相同的数据集：
在这里插入图片描述

05年、06年、07年、08年数据集，为互斥的，独立的、完全不相同的数据集
09年开始，所有数据集由前几年的部分图像和新图像组成
09年的数据集 = 07年部分图像 + 08年部分图像 + 09年新图像
10、11 年的数据集，均是在前一年的数据集上进行扩充
12 年的数据集和 11年的数据集一样

虽然 Pascal VOC 2012 和 2007 版本的数据集存在一些共享的部分，但是它们的图像和标注文件在细节上还是有所不同的，因此在使用数据集时需要注意版本和文件的正确匹配。

2）20个类别

对于图像分类任务和目标检测任务，数据集有 20个类别（4大类）

在这里插入图片描述

}"aeroplane": 1,"bicycle": 2,"bird": 3,"boat": 4,"bottle": 5,"bus": 6,"car": 7,"cat": 8,"chair": 9,"cow": 10,"diningtable": 11,"dog": 12,"horse": 13,"motorbike": 14,"person": 15,"pottedplant": 16,"sheep": 17,"sofa": 18,"train": 19,"tvmonitor": 20
}

5、数据分布与统计

1）Pascal VOC 2007

$\quad \quad$ 官方地址

[图片]

2）Pascal VOC 2012

$\quad \quad$ 官方地址
在这里插入图片描述

6、数据集的使用

目前广大研究者们普遍使用的是 VOC2007和VOC2012数据集。
论文中针对 VOC2007和VOC2012 的具体用法有以下几种：

只用VOC2007的trainval 训练，使用VOC2007的test测试
只用VOC2012的trainval 训练，使用VOC2012的test测试，这种用法很少使用，因为大家都会结合VOC2007使用
使用 VOC2007 的 train+val 和 VOC2012的 train+val 训练，然后使用 VOC2007的test测试，这个用法是论文中经常看到的 07+12 ，研究者可以自己测试在VOC2007上的结果，因为VOC2007的test是公开的。
使用 VOC2007 的 train+val+test 和 VOC2012的 train+val训练，然后使用 VOC2012的test测试，这个用法是论文中经常看到的 07++12 ，这种方法需提交到VOC官方服务器上评估结果，因为VOC2012 test没有公布。
先在 MS COCO 的 trainval 上预训练，再使用 VOC2007 的 train+val、 VOC2012的 train+val 微调训练，然后使用 VOC2007的test测试，这个用法是论文中经常看到的 07+12+COCO 。
先在 MS COCO 的 trainval 上预训练，再使用 VOC2007 的 train+val+test 、 VOC2012的 train+val 微调训练，然后使用 VOC2012的test测试，这个用法是论文中经常看到的 07++12+COCO，这种方法需提交到VOC官方服务器上评估结果，因为VOC2012 test没有公布。

7、数据集结构

1）Pascal VOC 2007

.
└── VOCdevkit└── VOC2007├── Annotations                 标注文件（图像分类、目标检测、人体布局)│   ├── 000005.xml│   ├── 000007.xml│   ├── 000009.xml│   └── ... (共 5011个标注文件)├── ImageSets                   数据集分割信息 （训练集、验证集、训练集+验证集）│   ├── Layout                  用于人体布局图像信息│   │   ├── train.txt│   │   ├── trainval.txt│   │   └── val.txt│   ├── Main                    用于图像分类和目标检测图像信息│   │   ├── train.txt          │   │   ├── trainval.txt       │   │   ├── val.txt            │   │   └── ... (共63个文件)│   └── Segmentation            用于语义分割和实例分割图像信息│       ├── train.txt│       ├── trainval.txt│       └── val.txt├── JPEGImages                  所有原图像│   ├── 000005.jpg│   ├── 000007.jpg│   ├── 000009.jpg│   └── ... (共5011张图像)├── SegmentationClass           语义分割标注图像│   ├── 000032.png│   ├── 000033.png│   ├── 000039.png│   └── ... (共422张图像)└── SegmentationObject          实例分割标注图像├── 000032.png├── 000033.png├── 000039.png└── ... (共422张图像)

2）Pascal VOC 2012

.
└── VOCdevkit└── VOC2012├── Annotations                  标注文件（图像分类、目标检测、人体布局)│   ├── 2007_000027.xml│   ├── 2007_000032.xml│   ├── 2007_000033.xml│   ├── 2007_000039.xml│   └── ...(共17125张图像)├── ImageSets                     数据集分割信息 （训练集、验证集、训练集+验证集）│   ├── Action                      用于动作识别│   │   ├── train.txt                2296张图像│   │   ├── trainval.txt             4588张图像│   │   ├── val.txt                  2292张图像│   │   └── ...│   ├── Layout                      用于人体布局│   │   ├── train.txt                4425张图像│   │   ├── trainval.txt             850张图像│   │   └── val.txt                  425张图像│   ├── Main                        用于图像分类和目标检测  │   │   ├── train.txt                5717张图像 │   │   ├── train_val.txt            11540张图像│   │   └── trainval.txt             5823张图像 │   └── Segmentation                用于语义分割和实例分割 │       ├── train.txt                 1464张图像│       ├── trainval.txt              2913张图像│       └── val.txt                   1449张图像├── JPEGImages                     所有原图像│   ├── 2007_000027.jpg│   ├── 2007_000032.jpg│   ├── 2007_000033.jpg│   ├── 2007_000039.jpg│   └── ...(共17125张图像)├── SegmentationClass              语义分割标注图像│   ├── 2007_000032.png│   ├── 2007_000033.png │   ├── 2007_000039.png│   ├── 2007_000042.png│   └── ...（共2913张图像）└── SegmentationObject             实例分割标注图像├── 2007_000032.png├── 2007_000033.png├── 2007_000039.png├── 2007_000042.png└── ...（共2913张图像）

3）2007 和 2012 数据结构的区别

1、Pascal VOC 2012 的数据集因为是在前几年的数据集上进行扩增，所以文件名中包含年份，而 Pascal VOC 2007 的文件名中不包含
- Pascal VOC 2007 的标注文件名和图像文件名类似为： 000005.xml、 000005.jpg
- Pascal VOC 2012 的标注文件名和图像文件名类似为： 2007_000027.xml、 2007_000039.png
2、Pascal VOC 2012 的 ImageSets 中包括 Action 文件：用于动作识别任务的数据集划分，而 Pascal VOC 2007 的 ImageSets 文件中不包含，因为动作识别任务（Action Classification）是2010年才有的。
3、.xml 的标注文件内容有所不同，比如： 12版本中有的图像标注是有动作信息

8、标注文件结构

（1）目标检测标注文件 Annotation

<annotation><folder>VOC2007folder><filename>000001.jpgfilename><source><database>The VOC2007 Databasedatabase><annotation>PASCAL VOC2007annotation><image>flickrimage><flickrid>341012865flickrid>source><owner><flickrid>Fried Camelsflickrid><name>Jinky the Fruit Batname>owner><size><width>353width><height>500height><depth>3depth>size><segmented>0segmented><object><name>dogname><pose>Leftpose><truncated>1truncated><difficult>0difficult><bndbox><xmin>48xmin><ymin>240ymin><xmax>195xmax><ymax>371ymax>bndbox>object><object><name>personname><pose>Leftpose><truncated>1truncated><difficult>0difficult><bndbox><xmin>8xmin><ymin>12ymin><xmax>352xmax><ymax>498ymax>bndbox>object>
annotation>

annotation：标注文件的根节点，包含了整个标注信息
folder：图像所在的文件夹名称
filename：图像的文件名
source：图像来源
owner：图像拥有者
size：图像的尺寸信息，包括宽度、高度、深度。
segmented：是否被分割标注过：值为 0，未被过分割；值为 1，被分割标注。
object：图像中的一个物体，其中的信息包括：
- name：物体的类别名称， 20个类别
- bndbox：物体的边界框信息，包括左上角和右下角的坐标
  - xmin：边界框左上角的 x 坐标
  - ymin：边界框左上角的 y 坐标
  - xmax：边界框右下角的 x 坐标
  - ymax：边界框右下角的 y 坐标
- difficult：标记物体是否难以识别的标志，0 表示容易识别，1 表示难以识别
- truncated：标记物体是否被截断：0 表示未被截断，1 表示被截断（比如在图片之外，或者被遮挡超过15%）
pose：标记物体的姿态，例如正面、侧面等

（2）语义分割标注图像 SegmentationClass

在这里插入图片描述

背景部分的标注像素值为 0
边界部分的标注像素值为 255
难以分割的区域，例如有重叠物体或遮挡的区域，标注像素值为255
被分割出的object 内部，标注像素值为其类别索引。比如，被分割的飞机部分的像素值为飞机类别索引值 1

}"aeroplane": 1,"bicycle": 2,"bird": 3,"boat": 4,"bottle": 5,"bus": 6,"car": 7,"cat": 8,"chair": 9,"cow": 10,"diningtable": 11,"dog": 12,"horse": 13,"motorbike": 14,"person": 15,"pottedplant": 16,"sheep": 17,"sofa": 18,"train": 19,"tvmonitor": 20
}

（3）实例分割标注图像 SegmentationObject

背景部分的标注像素值为 0
边界部分的标注像素值为 255
难以分割的区域，例如有重叠物体或遮挡的区域，标注像素值为255
被分割出的 object 内部，使用物体实例的 ID 来标识它。物体实例的 ID ：为该物体在 .xml 标注文件中的 index 。比如，在 .xml 标注文件中，排位第2个的 object，ID = 2，在标注图像中，该 object 的像素值，就为2

在这里插入图片描述

（4）人体布局 Human Layout

< /part> 标签框起来的部分，就是人体布局的标签

<annotation><folder>VOC2012folder><filename>2007_000027.jpgfilename><source><database>The VOC2007 Databasedatabase><annotation>PASCAL VOC2007annotation><image>flickrimage>source><size><width>486width><height>500height><depth>3depth>size><segmented>0segmented><object><name>personname><pose>Unspecifiedpose><truncated>0truncated><difficult>0difficult><bndbox><xmin>174xmin><ymin>101ymin><xmax>349xmax><ymax>351ymax>bndbox><part><name>headname><bndbox><xmin>169xmin><ymin>104ymin><xmax>209xmax><ymax>146ymax>bndbox>part><part><name>handname><bndbox><xmin>278xmin><ymin>210ymin><xmax>297xmax><ymax>233ymax>bndbox>part><part>                    <name>footname>      <bndbox>               <xmin>273xmin>    <ymin>333ymin>    <xmax>297xmax>    <ymax>354ymax>    bndbox>              part>                   <part><name>footname><bndbox><xmin>319xmin><ymin>307ymin><xmax>340xmax><ymax>326ymax>bndbox>part>object>
annotation>

（5）动作识别 Action Classification

< /actions> 标签框起来的部分，就是动作识别的标签

<annotation><filename>2011_003279.jpgfilename><folder>VOC2011folder><object><name>personname><actions>                                     <jumping>0jumping>                       <other>0other>                           <phoning>0phoning>                       <playinginstrument>0playinginstrument>   <reading>0reading>                       <ridingbike>0ridingbike>                 <ridinghorse>0ridinghorse>               <running>0running>                       <takingphoto>0takingphoto>               <usingcomputer>0usingcomputer>           <walking>1walking>                       actions>                                    <bndbox><xmax>188xmax><xmin>109xmin><ymax>500ymax><ymin>307ymin>bndbox><difficult>0difficult><pose>Unspecifiedpose><point><x>153x><y>374y>point>object><segmented>0segmented><size><depth>3depth><height>500height><width>367width>size><source><annotation>PASCAL VOC2011annotation><database>The VOC2011 Databasedatabase><image>flickrimage>source>
annotation>

在这里插入图片描述

9、数据集解析 - 目标检测任务

将数据集转换为 yolo 格式， YOLO 数据格式介绍： YOLO 数据集格式

import xml.etree.ElementTree as ET
import os# voc的20个类别
classes = ['aeroplane', 'bicycle', 'bird', 'boat', 'bottle', 'bus', 'car', 'cat', 'chair', 'cow', 'diningtable','dog', 'horse', 'motorbike', 'person', 'pottedplant', 'sheep', 'sofa', 'train', 'tvmonitor']def convert(size, bbox):x = (bbox[0] + bbox[1]) / 2.0y = (bbox[2] + bbox[3]) / 2.0w = bbox[1] - bbox[0]h = bbox[3] - bbox[2]x = x / size[0]w = w / size[0]y = y / size[1]h = h / size[1]return (x, y, w, h)def convert_annotation(xml_file, save_file):# 保存yolo格式 的label 的 .txt 文件地址save_file = open(save_file, 'w')tree = ET.parse(xml_file)size = tree.find('size')w = int(size.find('width').text)h = int(size.find('height').text)for obj in tree.findall('object'):difficult = obj.find('difficult').textcls = obj.find('name').textif cls not in classes or int(difficult) == 1:continuecls_id = classes.index(cls) + 1   # 类别索引从1开始，类别0是背景bbox = obj.find('bndbox')b = (float(bbox.find('xmin').text),float(bbox.find('xmax').text),float(bbox.find('ymin').text),float(bbox.find('ymax').text))bb = convert((w, h), b)save_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')save_file.close()if __name__ == "__main__":# 数据集根目录地址data_root = "/Users/enzo/Documents/GitHub/dataset/VOCdevkit/VOC2007"# 标注文件地址annotation = os.path.join(data_root, 'Annotations')# yolo格式的文件保存地址save_root = './labels'if not os.path.exists(save_root):os.makedirs(save_root)for train_val in ["train", "val"]:if not os.path.exists(os.path.join(save_root, train_val)):os.makedirs(os.path.join(save_root, train_val))# 数据集划分的 .txt 文件地址txt_file = os.path.join(data_root, 'ImageSets/Main', train_val+'.txt')with open(txt_file, 'r') as f:lines = f.readlines()file_names = [line.strip() for line in lines if len(line.strip())>0]for file_name in file_names:xml_file = os.path.join(annotation, file_name+'.xml')save_file = os.path.join(save_root, train_val, file_name+'.txt')convert_annotation(xml_file, save_file)

在这里插入图片描述

10、Reference

https://arleyzhang.github.io/articles/1dc20586/

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 解决idea日志乱码问题
下一篇 > VMware NSX-T Manager 替换证书

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Pascal Voc 2007 2012

1、简介

2、 官网地址

3、数据集下载

1）下载方式一 ：点击下方 链接直接下载

2）下载方式二 ： 从官网下载

4、数据集的发展 与 20个类别

1）数据集的发展

2）20个类别

5、数据分布与统计

1）Pascal VOC 2007

2）Pascal VOC 2012

6、数据集的使用

7、数据集结构

1）Pascal VOC 2007

2）Pascal VOC 2012

3）2007 和 2012 数据结构的区别

8、标注文件结构

（1）目标检测 标注文件 Annotation

（2）语义分割标注图像 SegmentationClass

（3）实例分割标注图像 SegmentationObject

（4）人体布局 Human Layout

（5）动作识别 Action Classification

9、数据集解析 - 目标检测任务

10、Reference

相关文章

2、官网地址

1）下载方式一：点击下方链接直接下载

2）下载方式二：从官网下载

4、数据集的发展与 20个类别

（1）目标检测标注文件 Annotation