ImageNet数据集
ImageNet 是一个大规模的带注释图像数据库,专为视觉对象识别研究而设计。它包含超过1400万张图像,每张图像都使用WordNet同义词集进行注释,使其成为训练深度学习模型在计算机视觉任务中最广泛的资源之一。
ImageNet预训练模型
模型 | 尺寸 (像素) |
准确率 top1 |
准确率 top5 |
速度 CPU ONNX (毫秒) |
速度 T4 TensorRT10 (毫秒) |
参数 (百万) |
FLOPs (十亿)在640 |
---|---|---|---|---|---|---|---|
YOLO11n-cls | 224 | 70.0 | 89.4 | 5.0 ± 0.3 | 1.1 ± 0.0 | 1.6 | 3.3 |
YOLO11s-cls | 224 | 75.4 | 92.7 | 7.9 ± 0.2 | 1.3 ± 0.0 | 5.5 | 12.1 |
YOLO11m-cls | 224 | 77.3 | 93.9 | 17.2 ± 0.4 | 2.0 ± 0.0 | 10.4 | 39.3 |
YOLO11l-cls | 224 | 78.3 | 94.3 | 23.2 ± 0.3 | 2.8 ± 0.0 | 12.9 | 49.4 |
YOLO11x-cls | 224 | 79.5 | 94.9 | 41.4 ± 0.9 | 3.8 ± 0.0 | 28.4 | 110.4 |
主要特点
- ImageNet包含超过1400万张高分辨率图像,涵盖数千个对象类别。
- 该数据集根据WordNet层次结构组织,每个同义词集代表一个类别。
- ImageNet广泛用于计算机视觉领域的训练和基准测试,特别是在图像分类和目标检测任务中。
- 年度ImageNet大规模视觉识别挑战赛(ILSVRC)在推动计算机视觉研究方面发挥了重要作用。
数据集结构
ImageNet数据集使用WordNet层次结构进行组织。层次结构中的每个节点代表一个类别,每个类别由一个同义词集(一组同义词)描述。ImageNet中的图像使用一个或多个同义词集进行注释,为训练模型识别各种对象及其关系提供了丰富的资源。
ImageNet大规模视觉识别挑战赛(ILSVRC)
年度ImageNet大规模视觉识别挑战赛(ILSVRC)是计算机视觉领域的重要事件。它为研究人员和开发者提供了一个平台,以在大规模数据集上使用标准化的评估指标评估其算法和模型。ILSVRC在开发用于图像分类、目标检测和其他计算机视觉任务的深度学习模型方面取得了显著进展。
应用
ImageNet数据集广泛用于训练和评估各种计算机视觉任务中的深度学习模型,如图像分类、目标检测和对象定位。一些流行的深度学习架构,如AlexNet、VGG和ResNet,都是使用ImageNet数据集开发和基准测试的。
使用方法
要在ImageNet数据集上训练一个深度学习模型,进行100个epoch,图像大小为224x224,可以使用以下代码片段。有关可用参数的完整列表,请参阅模型训练页面。
训练示例
示例图像和注释
ImageNet数据集包含数千个对象类别的高分辨率图像,为训练和评估计算机视觉模型提供了多样化和广泛的数据集。以下是数据集中的一些图像示例:
该示例展示了ImageNet数据集中图像的多样性和复杂性,突出了多样化数据集在训练鲁棒计算机视觉模型中的重要性。
引用和致谢
如果您在研究或开发工作中使用ImageNet数据集,请引用以下论文:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
我们想要感谢ImageNet团队,由Olga Russakovsky、Jia Deng和Li Fei-Fei领导,他们创建并维护了ImageNet数据集,作为机器学习和计算机视觉研究社区的宝贵资源。有关ImageNet数据集及其创建者的更多信息,请访问ImageNet网站。
常见问题
ImageNet数据集是什么,它在计算机视觉中如何使用?
ImageNet数据集是一个大规模的数据库,包含超过1400万张高分辨率图像,这些图像使用WordNet同义词集进行分类。它在视觉对象识别研究中被广泛使用,包括图像分类和目标检测。数据集的注释和庞大的数量为训练深度学习模型提供了丰富的资源。值得注意的是,像AlexNet、VGG和ResNet这样的模型已经使用ImageNet进行了训练和基准测试,展示了它在推动计算机视觉发展中的作用。
如何使用预训练的YOLO模型对ImageNet数据集进行图像分类?
要使用预训练的Ultralytics YOLO模型对ImageNet数据集进行图像分类,请按照以下步骤操作:
训练示例
有关更深入的训练说明,请参阅我们的训练页面。
为什么我应该使用Ultralytics YOLO11预训练模型进行我的ImageNet数据集项目?
Ultralytics YOLO11预训练模型在速度和准确性方面提供了最先进的性能,适用于各种计算机视觉任务。例如,YOLO11n-cls模型在top-1准确率为69.0%,top-5准确率为88.3%,针对实时应用进行了优化。预训练模型减少了从头开始训练所需的计算资源,并加速了开发周期。在ImageNet预训练模型部分了解更多关于YOLO11模型的性能指标。
ImageNet数据集是如何组织的,为什么它很重要?
ImageNet数据集使用WordNet层次结构进行组织,其中层次结构中的每个节点代表一个由同义词集(一组同义词)描述的类别。这种结构允许进行详细的注释,使其非常适合训练模型以识别各种对象。ImageNet的多样性和注释丰富性使其成为开发健壮且可泛化的深度学习模型的宝贵数据集。更多关于这种组织的信息可以在数据集结构部分找到。
ImageNet大规模视觉识别挑战赛(ILSVRC)在计算机视觉中扮演什么角色?
年度ImageNet大规模视觉识别挑战赛(ILSVRC)通过提供一个在大规模标准化数据集上评估算法的竞争平台,对推动计算机视觉的进步起到了关键作用。它提供了标准化的评估指标,促进了图像分类、目标检测和图像分割等领域的创新和发展。该挑战赛不断推动深度学习和计算机视觉技术的极限。