Mistral Small 4, GPT‑5.4 mini et nano : deux approches pour les « p…
Next INpact rapporte une information importante : mistral Small 4, GPT‑5.4 mini et nano : deux approches pour les « petits » modèles.
Et si on distille une mixture ? Pour réduire la taille de son modèle GPT-5.4 et lancer des versions mini et nano, OpenAI utilise la distillation. Chez Mistral, l’approche n’est pas la même : le français passe par une « mixture » d’experts. Deux approches pour un même but : des modèles plus rapides et moins coûteux.
Cette semaine, Mistral a annoncé son nouveau modèle Small 4. C’est, selon l’entreprise française, son « premier modèle à unifier les fonctionnalités de nos modèles phares : Magistral pour le raisonnement, Pixtral pour le multimodal et Devstral pour le code, en un seul modèle polyvalent ». Il est proposé en open source sous licence Apache 2.0, et l’entreprise en profite pour rejoindre la NVIDIA Nemotron Coalition.
Pour Jensen Huang, la demande en puces IA va encore doubler d’ici 2027
Mistral Small 4 : 4 « experts » pour chaque token, sur 128 disponibles
Au niveau de l’architecture, Small 4 utilise une Mixture of Experts (MoE). Cette technique existe depuis longtemps et se base sur l’idée de « diviser pour régner ». Dans cette approche, « le modèle est composé de multiples modèles individuels appelés « experts », chacun se spécialisant dans un aspect des données. Le modèle inclut également une fonction de « gating » qui détermine quel expert ou combinaison d’experts consulter pour une entrée donnée », explique Orange.
Le modèle de base Small intègre 128 « experts », mais seulement 4 sont interrogés pour chaque token. Le modèle dispose au total de 119 milliards de paramètres, mais « seulement » 6 milliards sont actifs (8 milliards avec les couches d’intégration et de sortie) pour chaque token lors de l’inférence.
Il reste 81% de l'article à découvrir.Vous devez être abonné•e pour lire la suite de cet article.Déjà abonné•e ? Générez une clé RSS dans votre profil.
Source : Next INpact
Cet article est une synthèse basée sur des informations publiques. Consultez la source originale pour l'article complet.
Laisser un commentaire