Qwen2.5-VL-72B-Instruct

Visual LLM

Qwen2.5-VL to wydajny model "vision-language", który realizuje zadania wymagające zaawansowanego rozumienia treści wizualnych. Potrafi generować szczegółowe opisy obrazów, analizować dokumenty, wykonywać OCR, wykrywać obiekty i odpowiadać na pytania na podstawie obrazu. Może być używany w asystentach AI, systemach RAG i agentach.

O modelu Qwen2.5-VL-72B-Instruct

Opublikowano huggingface

27/01/2025


Cena wejściowa

0.91 /Mtoken(wejście)

Cena wyjściowa

0.91 /Mtoken(wyjście)


Obsługiwane funkcje
MultimodalStreaming
Formaty wyjściowe
raw_textjson_objectjson_schema
Rozmiary kontekstu
32k
Parametry
72B

Wypróbuj model, bawiąc się nim.