Transformers

SAM

概述

SAM（Segment Anything Model）由Alexander Kirillov、Eric Mintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Tete Xiao、Spencer Whitehead、Alex Berg、Wan-Yen Lo、Piotr Dollar、Ross Girshick在Segment Anything中提出。

该模型可用于预测给定输入图像中任何感兴趣对象的分割掩码。

示例图片

论文的摘要如下：

我们介绍了Segment Anything (SA)项目：一个用于图像分割的新任务、模型和数据集。通过在数据收集循环中使用我们的高效模型，我们构建了迄今为止最大的分割数据集（远远超过其他数据集），在1100万张经过许可且尊重隐私的图像上生成了超过10亿个掩码。该模型被设计和训练为可提示的，因此它可以零样本迁移到新的图像分布和任务中。我们在众多任务上评估了其能力，发现其零样本性能令人印象深刻——通常与之前完全监督的结果相当甚至更优。我们正在发布Segment Anything Model (SAM)和相应的数据集（SA-1B），包含10亿个掩码和1100万张图像，网址为https://segment-anything.com，以促进计算机视觉基础模型的研究。

提示：

模型预测二进制掩码，该掩码表明给定图像中是否存在感兴趣的对象。
如果提供了输入的2D点和/或输入的边界框，模型的预测结果会更好
您可以为同一张图片提示多个点，并预测一个单一的掩码。
目前尚不支持微调模型
根据论文，文本输入也应该被支持。然而，在撰写本文时，根据官方仓库，这似乎尚未得到支持。

该模型由ybelkada和ArthurZ贡献。原始代码可以在这里找到。

以下是一个示例，展示了如何根据图像和2D点运行掩码生成：

import torch
from PIL import Image
import requests
from transformers import SamModel, SamProcessor

device = "cuda" if torch.cuda.is_available() else "cpu"
model = SamModel.from_pretrained("facebook/sam-vit-huge").to(device)
processor = SamProcessor.from_pretrained("facebook/sam-vit-huge")

img_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB")
input_points = [[[450, 600]]]  # 2D location of a window in the image

inputs = processor(raw_image, input_points=input_points, return_tensors="pt").to(device)
with torch.no_grad():
    outputs = model(**inputs)

masks = processor.image_processor.post_process_masks(
    outputs.pred_masks.cpu(), inputs["original_sizes"].cpu(), inputs["reshaped_input_sizes"].cpu()
)
scores = outputs.iou_scores

您还可以在处理器中处理自己的掩码，与输入图像一起传递给模型。

import torch
from PIL import Image
import requests
from transformers import SamModel, SamProcessor

device = "cuda" if torch.cuda.is_available() else "cpu"
model = SamModel.from_pretrained("facebook/sam-vit-huge").to(device)
processor = SamProcessor.from_pretrained("facebook/sam-vit-huge")

img_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB")
mask_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
segmentation_map = Image.open(requests.get(mask_url, stream=True).raw).convert("1")
input_points = [[[450, 600]]]  # 2D location of a window in the image

inputs = processor(raw_image, input_points=input_points, segmentation_maps=segmentation_map, return_tensors="pt").to(device)
with torch.no_grad():
    outputs = model(**inputs)

masks = processor.image_processor.post_process_masks(
    outputs.pred_masks.cpu(), inputs["original_sizes"].cpu(), inputs["reshaped_input_sizes"].cpu()
)
scores = outputs.iou_scores

资源

一份官方的Hugging Face和社区（由🌎表示）资源列表，帮助您开始使用SAM。

Demo notebook 用于使用模型。
Demo notebook 用于使用自动掩码生成管道。
Demo notebook 用于使用MedSAM进行推理，这是SAM在医学领域的微调版本。🌎
Demo notebook 用于在自定义数据上微调模型。🌎

SlimSAM

SlimSAM，SAM的剪枝版本，由Zigeng Chen等人在0.1% Data Makes Segment Anything Slim中提出。SlimSAM在保持相同性能的同时，显著减小了SAM模型的尺寸。

检查点可以在hub上找到，它们可以作为SAM的直接替代品使用。

Grounded SAM

可以将Grounding DINO与SAM结合，用于基于文本的掩码生成，如Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks中介绍的那样。您可以参考这个演示笔记本 🌍 获取详细信息。

Grounded SAM overview. Taken from the original repository.

Transformers

SAM

概述

资源

SlimSAM

Grounded SAM

SamConfig

类 transformers.SamConfig

SamVisionConfig

类 transformers.SamVisionConfig

SamMaskDecoderConfig

类 transformers.SamMaskDecoderConfig

SamPromptEncoderConfig

类 transformers.SamPromptEncoderConfig

SamProcessor

类 transformers.SamProcessor

SamImageProcessor

类 transformers.SamImageProcessor

filter_masks

generate_crop_boxes

pad_image

post_process_for_mask_generation

post_process_masks

预处理

调整大小

SamModel

类 transformers.SamModel

前进

TFSamModel

类 transformers.TFSamModel

调用