#Nextquick MoE : c’est quoi cette mixture d’experts pour les IA gén…
Selon Next INpact, #Nextquick MoE : c’est quoi cette mixture d’experts pour les IA génératives ?.
À ne pas confondre avec une biture d’experts
Cette semaine, Mistral a présenté son modèle Small 4 qui utilise une fonctionnalité baptisée Mixture of Experts (MoE). De quoi s’agit-il exactement ? Dans ce nouveau Nextquick, Next vous explique simplement et rapidement ce qu’il en est.
Premier point important, la Mixture-of-Experts (MoE ou encore mélange d’experts) n’est pas nouvelle, elle a déjà plus de 30 ans (.pdf). Pour une fois, le nom représente bien l’idée générale : un mélange d’experts au sein d’un même modèle, avec chacun sa spécialité.
Mixture-of-Experts : c’est comme dans un hôpital avec des spécialistes
C’est un peu comme dans un hôpital : il y a 100 médecins, chacun avec sa spécialité. Quand un patient arrive, il est examiné par quelques médecins seulement, les plus aptes à l’aider en fonction de sa pathologie. Un modèle d’IA MoE fonctionne de la même manière : il sélectionne les meilleurs experts.
Quand une requête arrive, au lieu d’utiliser ses 100 milliards de paramètres, le modèle va en sélectionner une partie uniquement, les plus pertinents. Notez que des experts peuvent partager des paramètres entre eux. Quoi qu’il en soit, cette architecture implique d’avoir, comme à l’hôpital, un système de triage à l’entrée. Les experts (qui ont chacun leurs paramètres) ne sont pas choisis au hasard, mais via un « routeur » entraîné en même temps que le modèle. Selon les cas, le nombre d’experts peut aller de quelques-uns à des milliers.
Un exemple avec Mixtral 8x7B : huit experts de… 5,6 milliards de paramètres
Un des premiers modèles open source à populariser cette mixture d’experts auprès du grand public était Mixtral 8x7B. Il dispose de huit experts de type Mistral 7B, plus exactement de huit experts avec le bloc FFN (feed-forward ou action directe) du modèle 7B. Il est depuis remplacé par Mixtral 8x22B.
Contrairement à ce que son nom (8x7B) pourrait laisser croire, il n’y a pas 56 (8×7) milliards de paramètres, mais 46,7 milliards. La raison est simple : chaque expert a 5,6 milliards de paramètres. Ils partagent ensuite les couches d’entrée et de sortie (embeddings), les couches d’attention (pour comprendre le contexte) et celles de normalisation ; ce qui explique la différence entre 56 et 46,7.
Il reste 72% de l'article à découvrir.Vous devez être abonné•e pour lire la suite de cet article.Déjà abonné•e ? Générez une clé RSS dans votre profil.
Source : Next INpact
Cet article est une synthèse basée sur des informations publiques. Consultez la source originale pour l'article complet.
Laisser un commentaire