Qwen2.5-VL-72B-Instruct

Visual LLM

Qwen2.5-VL è un potente modello visione-linguaggio progettato per una comprensione avanzata delle immagini. Può generare didascalie dettagliate per le immagini, analizzare documenti, OCR, rilevare oggetti e rispondere a domande basate su immagini ed è quindi utile per assistenti IA, RAG e agenti.

Informazioni sul modello Qwen2.5-VL-72B-Instruct

Pubblicato il huggingface

27/01/2025


Prezzo di input

0.91 /Mtoken(input)

Prezzo di output

0.91 /Mtoken(output)


Funzionalità supportate
MultimodalStreaming
Formati di output
raw_textjson_objectjson_schema
Dimensioni del contesto
32k
Parametri
72B

Prova il modello giocando con esso.