GPT-4 Vision n’a qu’à bien se tenir : LLaVA 1.5 dévoile les alternatives open source les plus puissantes !

LLaVA 1.5 : Une alternative open source à GPT-4 Vision

Le développement rapide des modèles langage multimodaux (LMM) marque une nouvelle ère dans le domaine de l’intelligence artificielle générative. Cela se manifeste notamment avec l’arrivée de LLaVA 1.5, une solution open source qui se positionne comme une alternative à GPT-4 Vision d’OpenAI. Cette dynamique conjugue innovation et accessibilité.

La mécanique des LMM

Les modèles LMM reposent sur une architecture multicouche. Ils combinent un modèle pré-entraîné pour la vision, un grand modèle de langage (LLM) pour comprendre et répondre aux instructions de l’utilisateur, ainsi qu’un connecteur multimodal qui fait le lien entre la vision et le langage.

Leur entraînement se déroule en deux étapes : une première phase d’alignement entre la vision et le langage, suivie d’un ajustement fin pour répondre aux requêtes visuelles. Ce processus, bien qu’efficace, requiert souvent d’importantes ressources computationnelles et une base de données complète et précise.

Les atouts de LLaVA 1.5

LLaVA 1.5 s’appuie sur le modèle CLIP pour le codage visuel et sur Vicuna pour le langage. Contrairement au modèle original, LLaVA, qui utilisait les versions textuelles de ChatGPT et GPT-4 pour l’ajustement visuel, LLaVA 1.5 va plus loin en connectant le modèle de langage et l’encodeur visuel à l’aide d’un perceptron multicouche (MLP). Cette mise à jour a permis d’enrichir la base de données d’entraînement avec des questions-réponses visuelles, totalisant environ 600 000 exemples. Grâce à cette amélioration, LLaVA 1.5 surpasse d’autres LMM open source sur 11 des 12 benchmarks multimodaux.

L’avenir des LMM open source

La démonstration en ligne de LLaVA 1.5, accessible à tous, montre des résultats prometteurs même avec un budget limité. Cependant, il convient de souligner que l’utilisation des données générées par ChatGPT est restreinte à des fins non commerciales.

Malgré cette limitation, LLaVA 1.5 ouvre une fenêtre sur l’avenir des LMM open source. Sa rentabilité, sa capacité à générer des données d’entraînement de manière évolutive et son efficacité dans l’ajustement des instructions visuelles en font un prélude aux innovations à venir.

LLaVA 1.5 n’est que le premier pas d’une longue série d’innovations de la communauté open source. En anticipant l’émergence de modèles plus performants et accessibles, nous pouvons envisager un avenir où la technologie de l’IA générative sera à la portée de tous, dévoilant ainsi le potentiel illimité de l’intelligence artificielle.

Laisser un commentaire

boursecode.fr

Apprenez tout de la blockchain et du trading en ligne grâce à nos articles spécialisés. Nous mettons à votre disposition une source d'enseignement gratuite.

Contact

Bourse Code