Transformers

Chinese-CLIP

概述

Chinese-CLIP模型由An Yang、Junshu Pan、Junyang Lin、Rui Men、Yichang Zhang、Jingren Zhou、Chang Zhou在Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese中提出。 Chinese-CLIP是在大规模中文图文对数据集上实现的CLIP（Radford等，2021）。它能够执行跨模态检索，并作为视觉任务的视觉骨干，如零样本图像分类、开放域目标检测等。原始的Chinese-CLIP代码发布在此链接。

论文的摘要如下：

CLIP的巨大成功（Radford等，2021年）推动了视觉语言预训练中对比学习的研究和应用。在这项工作中，我们构建了一个大规模的中文图像-文本对数据集，其中大部分数据是从公开可用的数据集中检索的，并在新数据集上预训练了中文CLIP模型。我们开发了5个不同规模的中文CLIP模型，参数数量从7700万到9.58亿不等。此外，我们提出了一种两阶段预训练方法，首先冻结图像编码器进行训练，然后优化所有参数进行训练，以实现增强的模型性能。我们的综合实验表明，中文CLIP在零样本学习和微调设置下可以在MUGE、Flickr30K-CN和COCO-CN上达到最先进的性能，并且基于ELEVATER基准（Li等，2022年）的评估，它能够在零样本图像分类中实现有竞争力的性能。我们的代码、预训练模型和演示已经发布。

Chinese-CLIP模型由OFA-Sys贡献。

使用示例

下面的代码片段展示了如何计算图像和文本特征及其相似性：

>>> from PIL import Image
>>> import requests
>>> from transformers import ChineseCLIPProcessor, ChineseCLIPModel

>>> model = ChineseCLIPModel.from_pretrained("OFA-Sys/chinese-clip-vit-base-patch16")
>>> processor = ChineseCLIPProcessor.from_pretrained("OFA-Sys/chinese-clip-vit-base-patch16")

>>> url = "https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/pokemon.jpeg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> # Squirtle, Bulbasaur, Charmander, Pikachu in English
>>> texts = ["杰尼龟", "妙蛙种子", "小火龙", "皮卡丘"]

>>> # compute image feature
>>> inputs = processor(images=image, return_tensors="pt")
>>> image_features = model.get_image_features(**inputs)
>>> image_features = image_features / image_features.norm(p=2, dim=-1, keepdim=True)  # normalize

>>> # compute text features
>>> inputs = processor(text=texts, padding=True, return_tensors="pt")
>>> text_features = model.get_text_features(**inputs)
>>> text_features = text_features / text_features.norm(p=2, dim=-1, keepdim=True)  # normalize

>>> # compute image-text similarity scores
>>> inputs = processor(text=texts, images=image, return_tensors="pt", padding=True)
>>> outputs = model(**inputs)
>>> logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
>>> probs = logits_per_image.softmax(dim=1)  # probs: [[1.2686e-03, 5.4499e-02, 6.7968e-04, 9.4355e-01]]

目前，🤗 Hub 上提供了以下预训练的中文-CLIP模型规模：

Transformers

Chinese-CLIP

概述

使用示例

ChineseCLIPConfig

class transformers.ChineseCLIPConfig

from_text_vision_configs

ChineseCLIPTextConfig

类 transformers.ChineseCLIPTextConfig

ChineseCLIPVisionConfig

类 transformers.ChineseCLIPVisionConfig

ChineseCLIPImageProcessor

类 transformers.ChineseCLIPImageProcessor

预处理

ChineseCLIPFeatureExtractor

类 transformers.ChineseCLIPFeatureExtractor

ChineseCLIPProcessor

类 transformers.ChineseCLIPProcessor

batch_decode

解码

ChineseCLIPModel

class transformers.ChineseCLIPModel

前进

get_text_features

get_image_features

ChineseCLIPTextModel

类 transformers.ChineseCLIPTextModel

前进

ChineseCLIPVisionModel

类 transformers.ChineseCLIPVisionModel

前进