Oct 30, 2025 5:33:34 PM

Paramètres d'inférences des LLMs

Introduction

Lorsqu’un modèle de fondation (Foundation Model) génère du texte, il ne se contente pas de restituer des informations apprises : il construit une réponse mot après mot, en choisissant la suite la plus probable selon son entraînement. Les paramètres d’inférence permettent de contrôler cette génération et d’ajuster le comportement du modèle selon les besoins : produire un texte créatif, cohérent, concis ou précis. Comprendre ces paramètres est essentiel pour obtenir des résultats fiables et adaptés aux différents cas d’usage.

1. La température : maîtriser la créativité du modèle

La température détermine le degré d’aléatoire dans les choix du modèle.
Une température basse conduit à des réponses très prévisibles, privilégiant les mots les plus probables. À l’inverse, une température élevée introduit davantage de variété et de créativité.

Par exemple, à température basse (autour de 0.2), une question comme « Décris un coucher de soleil » donnera une réponse simple et factuelle : « Le coucher de soleil est le moment où le soleil disparaît à l’horizon. »
À température moyenne (autour de 0.6), le texte devient plus naturel : « Le coucher de soleil illumine le ciel de teintes orangées et rosées avant de laisser place à la nuit. »
Avec une température élevée (autour de 0.9), la réponse devient imaginative : « Le soleil se fond dans la mer comme une braise rougeoyant avant de s’éteindre dans le silence du soir. »

Ainsi, une température basse favorise la précision et la cohérence, tandis qu’une température élevée stimule la créativité et la spontanéité.

2. Top P : limiter la génération aux mots les plus probables

Le paramètre Top P, ou nucleus sampling, contrôle la diversité de la génération en sélectionnant uniquement les mots dont la probabilité cumulée atteint un certain seuil.
Par exemple, si Top P = 0.3, seuls les mots représentant les 30 % les plus probables sont pris en compte. Cela rend la génération plus cohérente, car seules les options les plus sûres sont envisagées.
Avec Top P = 0.9, le modèle a accès à une plus grande diversité de mots et de tournures, ce qui rend le texte plus varié, parfois au détriment de la rigueur.

Top P permet donc d’ajuster le compromis entre stabilité et richesse du langage.

3. Top K : restreindre le nombre de choix possibles

Top K fixe le nombre maximal de mots candidats que le modèle peut considérer à chaque étape.
Si Top K = 5, le modèle choisira son mot parmi les cinq options les plus probables. Ce paramètre, comme Top P, permet de contrôler la diversité des réponses.

Prenons la phrase « Le chat dort sur le… ».
Avec Top K = 2, le modèle pourrait choisir entre « lit » et « canapé », produisant des réponses simples et naturelles.
Avec Top K = 50, les possibilités s’élargissent : « coussin », « tapis », ou même « rebord de fenêtre ». Cela introduit plus de créativité, mais aussi plus de variabilité dans les résultats.

Top K et Top P peuvent être utilisés conjointement pour obtenir un équilibre entre cohérence et diversité.

4. Response Length : définir la longueur maximale de la réponse

Chaque mot généré par le modèle correspond à une unité appelée « token ». Le paramètre de longueur de réponse (ou Max Tokens) fixe la quantité maximale de tokens produits.
Un nombre restreint de tokens permet d’obtenir une réponse concise et rapide, tandis qu’une valeur plus élevée autorise des développements détaillés.

Par exemple, avec un nombre de tokens limité à 30, la réponse à « Qu’est-ce que le machine learning ? » sera courte et directe. En augmentant cette limite à 150, le modèle peut développer davantage et fournir une explication complète, illustrée et structurée.

Ce paramètre est particulièrement utile pour contrôler le coût, le temps de génération et le format attendu de la réponse.

5. Stop Sequences : définir un point d’arrêt précis

Les stop sequences indiquent au modèle quand s’arrêter dans sa génération.
Elles servent à éviter que le modèle ne dépasse un cadre précis ou ne continue à produire du texte inutile.

Par exemple, lors d’un dialogue simulé entre un utilisateur et un assistant, on peut définir la séquence « Utilisateur : » comme point d’arrêt. Ainsi, le modèle s’interrompt dès qu’il atteint cette séquence et ne commence pas à générer la réplique suivante.
Dans un autre cas, une séquence de fin telle que « ### » ou deux retours à la ligne peut signaler la fin d’une réponse structurée.

L’utilisation des stop sequences garantit des sorties propres, bien formatées et adaptées au contexte d’utilisation.

6. Adapter les paramètres selon le contexte

Chaque paramètre influence la manière dont le modèle s’exprime. Leur ajustement dépend du type d’application envisagée.
Pour un résumé technique, on privilégiera une température faible et un Top P limité afin d’obtenir un texte factuel. Pour une conversation naturelle, des valeurs intermédiaires permettront plus de fluidité. Enfin, pour la génération créative ou artistique, on optera pour une température et un Top P plus élevés afin de favoriser la diversité des idées et du vocabulaire.

7. Utilisation dans Amazon Bedrock

Dans Amazon Bedrock, ces paramètres peuvent être configurés directement dans la console ou via l’API, quel que soit le modèle utilisé (Titan, Claude, Llama, ou Jurassic-2).
L’utilisateur peut ainsi ajuster dynamiquement la température, la longueur de réponse ou les séquences d’arrêt selon le scénario : chatbot, résumé automatique, génération de code ou rédaction de contenu. Cette flexibilité permet d’adapter précisément le comportement du modèle aux objectifs du projet.

Conclusion

Les paramètres d’inférence sont essentiels pour maîtriser le style, la cohérence et la créativité des modèles de fondation.
Ils n’affectent pas les connaissances du modèle, mais déterminent la manière dont il les exprime.
Savoir les ajuster, c’est apprendre à guider la génération du modèle vers des réponses pertinentes, claires et adaptées au contexte.
Cette maîtrise constitue une compétence clé pour toute personne souhaitant exploiter efficacement l’intelligence artificielle générative, notamment dans les environnements comme Amazon Bedrock.

Ce billet de blog fait partie du cours AWS AI Practitioner en français disponible sur Udemy et sur la plateforme LeCloudFacile.com.