Model Details

Model: ReasonCLIP-B32-S1
Base model: openai/clip-vit-base-patch32
Architecture: CLIP ViT-B/32
Image resolution: 224
Training stage: Stage 1
Training data: ReasonLite-42M

Method

Resources

GitHub: RISys-Lab/ReasonCLIP
Paper: arXiv:2606.26794

Usage

from transformers import CLIPModel, CLIPProcessor

model_id = "RISys-Lab/ReasonCLIP-B32-S1"
model = CLIPModel.from_pretrained(model_id)
processor = CLIPProcessor.from_pretrained(model_id)

For the full checkpoint list, see the ReasonCLIP model card.

Downloads last month: 7

Safetensors

Model size

0.2B params

Tensor type

BF16

Collection including RISys-Lab/ReasonCLIP-B32-S1

ReasonCLIP Models

Collection

Visually Grounded Commonsense Reasoning Supervision for CLIP (ECCV 2026) • 25 items • Updated 9 days ago • 1

Paper for RISys-Lab/ReasonCLIP-B32-S1

ReasonCLIP-58M: Visually Grounded Commonsense Reasoning Supervision for CLIP

Paper • 2606.26794 • Published 5 days ago