计算机视觉

► 代码示例 / 计算机视觉

计算机视觉

Image classification

从头开始进行图像分类

简单的MNIST卷积网络

通过微调EfficientNet实现图像分类

使用视觉Transformer进行图像分类

基于注意力机制的深度多实例学习进行分类

使用现代MLP模型进行图像分类

一种适合移动设备的基于Transformer的图像分类模型

使用TPU进行肺炎分类

紧凑卷积变换器

使用ConvMixer进行图像分类

使用EANet（外部注意力变压器）进行图像分类

反卷积神经网络

使用Perceiver进行图像分类

使用Reptile实现少样本学习

使用SimCLR进行对比预训练的半监督图像分类

使用Swin Transformer进行图像分类

在小数据集上训练视觉Transformer

一个没有注意力机制的视觉Transformer

使用全局上下文视觉变换器进行图像分类

使用BigTransfer (BiT)进行图像分类

Image segmentation

使用类似U-Net的架构进行图像分割

使用DeepLabV3+进行多类别语义分割

使用BASNet进行高精度边界分割

使用可组合的全卷积网络进行图像分割

Object detection

使用RetinaNet进行目标检测

使用迁移学习进行关键点检测

使用Vision Transformers进行目标检测

3D

通过CT扫描进行3D图像分类

单目深度估计

使用NeRF进行3D体渲染

使用PointNet进行点云分割

OCR

用于读取验证码的OCR模型

Image enhancement

用于图像去噪的卷积自编码器

使用MIRNet进行低光照图像增强

使用高效子像素卷积神经网络进行图像超分辨率

用于单张图像超分辨率的增强型深度残差网络

用于低光照图像增强的Zero-DCE

Data augmentation

图像分类的CutMix数据增强

用于图像分类的MixUp数据增强

用于图像分类的RandAugment以提高鲁棒性

Image & Text

图像说明生成

使用双编码器进行自然语言图像搜索

Vision models interpretability

可视化卷积神经网络的学习内容

用集成梯度解释模型

研究视觉变换器表示

Grad-CAM 类激活可视化

Image similarity search

近似重复图像搜索

语义图像聚类

使用对比损失的孪生网络进行图像相似性估计

使用三胞胎损失函数的连体网络进行图像相似度估计

度量学习用于图像相似度搜索

使用TensorFlow Similarity进行图像相似性搜索的度量学习

使用NNCLR的自监督对比学习

Video

使用CNN-RNN架构进行视频分类

利用卷积LSTM进行下一帧视频预测

使用Transformers进行视频分类

视频视觉变换器

Performance recipes

为了更好的训练性能进行梯度集中化

学习在视觉Transformers中进行标记化

FixRes：解决训练与测试分辨率不一致的问题

带有LayerScale的类注意力图像变压器

用聚合注意力增强卷积神经网络

学习调整大小

Other

Semi-supervision and domain adaptation with AdaMatch

Barlow Twins for Contrastive SSL

Consistency training with supervision

Distilling Vision Transformers

Focal Modulation: A replacement for Self-Attention

Using the Forward-Forward Algorithm for Image Classification

Masked image modeling with Autoencoders

Segment Anything Model with 🤗Transformers

Semantic segmentation with SegFormer and Hugging Face Transformers

Self-supervised contrastive learning with SimSiam

Supervised Contrastive Learning

When Recurrence meets Transformers

Efficient Object Detection with YOLOV8 and KerasCV