Results for "visual-reasoning"

Claude Code Claude Desktop GitHub Copilot Cursor Windsurf Cline Zed JetBrains

📄SKILL.md 🤖CLAUDE.md ⚡Claude Commands 📐.cursorrules 📐Cursor Rules 🕹️AGENTS.md 🧬codex.md 🏄.windsurfrules 🔧.clinerules 🧑‍✈️Copilot Instructions

All Development Operations Data Product Marketing Customer Design Sales

330 skills found · Page 1 of 11

salesforce / BLIP

5.7k

PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

universal

image-captioningimage-text-retrievalvision-and-language-pre-training+4

Updated 14h ago

stepfun-ai / Step1X Edit

2.2k

A SOTA open-source image editing model, which aims to provide comparable performance against the closed-source models like GPT-4o and Gemini 2 Flash.

gemini cli

image-editingreasoningvisual-reasoning

Updated 2d ago

PKU-YuanGroup / LLaVA CoT

2.1k

[ICCV 2025] LLaVA-CoT, a visual language model capable of spontaneous, systematic reasoning

universal

Updated 1d ago

cvlab-columbia / Viper

1.7k

Code for the paper "ViperGPT: Visual Inference via Python Execution for Reasoning"

universal

Updated 10d ago

zhaochen0110 / Awesome Think With Images

1.4k

Resources and paper list for "Thinking with Images for LVLMs". This repository accompanies our survey on how LVLMs can leverage visual information for complex reasoning, planning, and generation.

universal

large-vision-language-modelsmultimodal-reasoning-visual-reasoningsurvey-awesome-list+1

Updated 5m ago

YehLi / Xmodaler

968

X-modaler is a versatile and high-performance codebase for cross-modal analytics(e.g., image captioning, video captioning, vision-language pre-training, visual question answering, visual commonsense reasoning, and cross-modal retrieval).

universal

cross-modal-retrievalimage-captioningpretraining+4

Updated 1d ago

facebookresearch / Clevr Iep

805

Inferring and Executing Programs for Visual Reasoning

universal

Updated 4d ago

jokieleung / Awesome Visual Question Answering

672

A curated list of Visual Question Answering(VQA)(Image/Video Question Answering),Visual Question Generation ,Visual Dialog ,Visual Commonsense Reasoning and related area.

universal

attention-networksawesome-listmulti-modal+2

Updated 12h ago

Alibaba-NLP / ViDoRAG

647

[EMNLP 2025] ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

universal

Updated 8h ago

facebookresearch / Clevr Dataset Gen

645

A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

universal

Updated 13d ago

Fancy-MLLM / R1 Onevision

578

R1-onevision, a visual language model capable of deep CoT reasoning.

universal

Updated 5d ago

jqtangust / Robust R1

515

🔥🔥🔥[AAAI 2026 Oral] Official Implementation of Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

universal

large-language-modelsmulti-modalmultimodel-large-language-model+3

Updated 20h ago

rowanz / R2c

469

Recognition to Cognition Networks (code for the model in "From Recognition to Cognition: Visual Commonsense Reasoning", CVPR 2019)

universal

commonsensereasoningvcr+3

Updated 1mo ago

MILVLG / Mcan Vqa

459

Deep Modular Co-Attention Networks for Visual Question Answering

universal

attentionvisual-question-answeringvisual-reasoning

Updated 11d ago

deepcs233 / Visual CoT

440

[Neurips'24 Spotlight] Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning

universal

Updated 5d ago

groundlight / R1 Vlm

421

Build your own visual reasoning model

universal

Updated 5d ago

Mini-o3 / Mini O3

414

Official Code for "Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search"

universal

Updated 4d ago

Atomic-man007 / Awesome Multimodel LLM

365

Awesome_Multimodel is a curated GitHub repository that provides a comprehensive collection of resources for Multimodal Large Language Models (MLLM). It covers datasets, tuning techniques, in-context learning, visual reasoning, foundational models, and more. Stay updated with the latest advancement.

universal

chatgptdatasetgpt+5

Updated 10d ago

lupantech / MathVista

358

MathVista: data, code, and evaluation for Mathematical Reasoning in Visual Contexts

universal

ai4mathlarge-language-modelslarge-multimadality-models+5

Updated 5h ago

davidmascharka / Tbd Nets

345

PyTorch implementation of "Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning"

universal

deep-learningmachine-learningneural-networks+4

Updated 1mo ago