Qwen2.5-VL-72B-Instruct

Visual LLM

Qwen2.5-VL ist ein leistungsstarkes Vision-Sprach-Modell, das für erweitertes Bildverständnis entwickelt wurde. Es kann detaillierte Bildunterschriften generieren, Dokumente analysieren, OCR durchführen, Objekte erkennen und Fragen basierend auf visuellen Inhalten beantworten, was es nützlich für AI-Assistenten, RAG und Agents macht.

Über das Qwen2.5-VL-72B-Instruct Modell

Veröffentlicht am huggingface

27/01/2025


Eingabepreis

0.91 /Mtoken(Eingabe)

Ausgabepreis

0.91 /Mtoken(Ausgabe)


Unterstützte Funktionen
MultimodalStreaming
Ausgabeformate
raw_textjson_objectjson_schema
Kontextgrößen
32k
Parameter
72B

Testen Sie das Modell, indem Sie damit spielen.