Quantification, réglage fin, RAG : les clés pour « fine-tuner » votre LLM

Il y a de plus en plus de grands modèles de langage disponibles sur le marché et prêts à l’emploi. Mais vous pouvez aussi les adapter à vos besoins et contraintes afin de trouver l’équilibre parfait entre performance, précision et coût.
Topics in this article

Nous avons vu dans un précédent article comment choisir la bonne configuration en fonction du LLM que vous souhaitez utiliser. Mais il y a une autre façon de voir les choses : comment adapter le LLM à vos propres besoins et contraintes ?

Étape 1 : la quantification

C’est en développant et entraînant un modèle pour un cas d’usage spécifique et avec leurs propres jeux de données que nos clients ont obtenu les meilleurs résultats. Mais les modèles de grande taille peuvent réclamer des niveaux de performance extrêmes lors du développement de nouvelles fonctionnalités et applications.

C’est pourquoi les data scientists ont développé des approches qui aident à réduire la charge de traitement et à mieux gérer les niveaux de précision du LLM.

La quantification est l’une de ces approches. Il s’agit d’une technique utilisée pour réduire la taille des LLM en jouant sur la précision mathématique de leurs paramètres.

Comme le montre le tableau ci-dessous, la quantification d’un LLM sur 4 bits, 8 bits ou 16 bits (ou plus), peut réduire ou augmenter assez drastiquement la quantité de mémoire vidéo requise (VRAM) et donc l’investissement en GPU.

Imaginez la quantification comme un procédé équivalent à la compression d’une image JPEG. Plus vous appliquez une compression importante, plus votre image sera légère et facile à utiliser. Mais si la compression est trop grande, votre image risque de devenir illisible, et donc potentiellement de ne plus répondre à l’usage prévu initialement.

C’est donc un juste équilibre à trouver !

Étape 2 : le réglage fin

Compte tenu des impacts potentiels sur la précision des résultats, une autre technique, appelée réglage fin, peut améliorer la précision en réentraînant un sous-ensemble des paramètres du LLM sur vos données spécifiques.

Le réglage fin n’agit donc sur le poids que de certains paramètres, ce qui peut permettre d’améliorer la précision des résultats pour un cas d’usage particulier tout en accélérant le processus d’entraînement.

La combinaison du réglage fin et de la quantification peut donner naissance à de petits modèles de langage, spécifiques à votre application, et parfaits pour être déployés sur une gamme plus large d’appareils avec des configurations moins puissantes.

Étape 3 : la génération augmentée de récupération

Une autre technique pour contrôler la qualité de sortie des LLM est la « Retrieval-Augmented Generation », ou RAG. Cette approche est particulièrement pertinente dans les domaines ou l’information évolue rapidement.

Lorsque la phase d’entraînement est passée, l’IA va apporter des réponses basées sur les données qu’elle connaît. Dans un contexte d’entreprise, elle ne pourra pas par exemple donner d’information sur un nouveau produit dont elle n’a pas connaissance. La réponse va donc perdre en qualité dans le temps.

Mais réentraîner le modèle entier à chaque fois qu’une nouvelle donnée doit être prise en compte réclamerait trop de ressources et de temps.

La génération augmentée de récupération va apporter une réponse en créant une connexion dynamique entre le LLM et des sources de connaissances externes dont la fiabilité est garantie.

Avant de générer sa réponse, l’IA va donc passer par une phase de récupération, pendant laquelle elle va collecter auprès de ces sources de références les données actualisées dont elle a besoin, puis utiliser ensuite le LLM pour générer une réponse pertinente. La RAG permet ainsi d’augmenter la précision sans avoir à réentraîner le modèle.

Autre avantage, elle va communiquer à l’utilisateur les sources sur lesquelles elle a fondé sa réponse, afin qu’il puisse, s’il le souhaite, vérifier la réponse par lui-même. Un procédé qui contribue à renforcer la confiance des utilisateurs.

Étape 4 : combinez les étapes 1, 2 et 3

Ces différentes techniques de travail avec les LLM ne s’excluent pas mutuellement et offrent souvent une plus grande efficacité lorsqu’elles sont combinées et ajustées de manière à répondre aux besoins spécifiques de chaque organisation.

Entre performance, précision et coût, chacun pourra « fine-tuner » son modèle pour obtenir le parfait équilibre. Et dans tous les cas, il trouvera chez Dell Technologies le système et la configuration adaptés !

Julien Vinel

About the Author: Julien Vinel

National Workstation Sales Leader
Topics in this article