Qwen2.5-VL-72B-Instruct

Visual LLM

Qwen2.5-VL es un potente modelo de visión-lenguaje, diseñado para una comprensión avanzada de imágenes. Puede generar descripciones detalladas de imágenes, analizar documentos, realizar OCR, detectar objetos y responder preguntas basadas en visuales, lo que lo hace útil para asistentes de IA, RAG y Agentes.

Acerca del modelo Qwen2.5-VL-72B-Instruct

Publicado el huggingface

27/01/2025


Precio de entrada

0.91 /Mtoken(entrada)

Precio de salida

0.91 /Mtoken(salida)


Características soportadas
MultimodalStreaming
Formatos de salida
raw_textjson_objectjson_schema
Tamaños de contexto
32k
Parámetros
72B

Prueba el modelo jugando con él.