Bge-multilingual-gemma2

Embeddings

BGE-Multilingual-Gemma2 est un modèle d'embedding multilingue basé sur LLM. Il est entraîné sur une gamme diversifiée de langues et de tâches. BGE-Multilingual-Gemma2 démontre principalement les avancées suivantes : Données d'entraînement diversifiées : Les données d'entraînement du modèle couvrent un large éventail de langues, notamment l'anglais, le chinois, le japonais, le coréen, le français, et plus encore. De plus, les données couvrent une variété de types de tâches, telles que la récupération, la classification et le clustering. Performances exceptionnelles : Le modèle présente des résultats à l'état de l'art (SOTA) sur des benchmarks multilingues comme MIRACL, MTEB-pl et MTEB-fr. Il obtient également d'excellentes performances sur d'autres évaluations majeures, notamment MTEB, C-MTEB et AIR-Bench.

À propos du modèle Bge-multilingual-gemma2

Publié sur huggingface

29/06/2024


Token envoyés

0.01 /Mtoken(entrée)


Longueur de séquence max
8192 tokens
Taille de lot max
25 samples
Dimensions de sortie
3584 dimensions
Paramètres
0.567B

Essayez le modèle.