Qwen2.5-VL-72B-Instruct

Visual LLM

Qwen2.5-VL is a powerful vision-language model, designed for advanced image understanding. It can generate detailed image captions, analyze documents, OCR, detect objects, and answer questions based on visuals, making it useful for AI assistants, RAG and Agents.

Informazioni sul modello Qwen2.5-VL-72B-Instruct

Pubblicato il huggingface

27/01/2025


Prezzo di input

0.91 /Mtoken(input)

Prezzo di output

0.91 /Mtoken(output)


Funzionalità supportate
MultimodalStreaming
Formati di output
raw_textjson_objectjson_schema
Dimensioni del contesto
32k
Parametri
72B

Prova il modello giocando con esso.