Text Generation - Vision - a wo-datacraft Collection

wo-datacraft 's Collections

Audio Generation

Image Classification

Image Generation

Speech Generation

Speech Recognition

Text Generation - General

Text Generation - Reasoning

Text Generation - Vision

Toolkit - AI Papers

Toolkit - Embeddings

Toolkit - Prompting Papers

Toolkit - Segmentation

Toolkit - Utilities

Video Generation

Text Generation - Vision

updated 9 days ago

google/gemma-4-31B-it

Image-Text-to-Text • 33B • Updated 16 days ago • 6.04M • • 2.37k
google/gemma-4-26B-A4B-it

Image-Text-to-Text • 27B • Updated 16 days ago • 4.5M • • 813
microsoft/Phi-4-reasoning-vision-15B

Image-Text-to-Text • 15B • Updated Mar 18 • 90.2k • 168
mistralai/Ministral-3-14B-Instruct-2512

Updated Jan 15 • 386k • 278
moonshotai/Kimi-VL-A3B-Thinking-2506

Image-Text-to-Text • 16B • Updated Jan 30 • 9.19k • 357
Qwen/Qwen3.5-9B

Image-Text-to-Text • 10B • Updated Mar 2 • 7.16M • • 1.35k
Qwen/Qwen3.5-27B

Image-Text-to-Text • 28B • Updated 3 days ago • 3.35M • • 962
Qwen/Qwen3.6-35B-A3B

Image-Text-to-Text • 36B • Updated 3 days ago • 1.18M • 1.42k
zai-org/GLM-OCR

Image-to-Text • Updated 12 days ago • 8.01M • • 1.66k