Chapitre 4.2.4
L'IA générative
Jusqu'ici, nous avons vu des systèmes d'IA qui analysent : classer un email en spam, prédire un désabonnement,
reconnaître un visage.
L'IA générative franchit une étape supplémentaire, elle crée du contenu nouveau :
du texte qui ressemble à ce qu'écrirait un humain, des images photoréalistes de scènes qui n'ont jamais existé,
du code informatique fonctionnel, de la musique, des vidéos, des voix synthétiques...
C'est cette capacité de génération qui a propulsé l'IA sur le devant de la scène médiatique à partir de 2022,
avec le lancement de ChatGPT, DALL-E, Midjourney...
Les grands modèles de langage (LLM)
Les modèles de langage, ou LLM (Large Language Models), sont au cœur de l'IA générative textuelle.
ChatGPT, Claude, Gemini, Mistral, LLaMA... ce sont tous des LLM.
Leur principe fondamental est simple : prédire le mot suivant dans une phrase.
"Le chat dort sur le ___."
Quand un LLM voit cette phrase, il calcule la probabilité de chaque mot possible pour la suite.
"Canapé" aura une probabilité élevée. "Toit" aussi. "Algorithme" une probabilité très faible.
Le modèle choisit un mot, l'ajoute à la phrase et recommence pour prédire le mot d'après.
Et ainsi de suite, mot par mot, jusqu'à former une réponse complète.
C'est pour ça que les LLM génèrent du texte de façon séquentielle et que tu vois les mots apparaître
un par un quand tu utilises ChatGPT ou Claude. Ce n'est pas un effet visuel, c'est vraiment ainsi
que le modèle fonctionne.
Ce qui rend les LLM si puissants, ce n'est pas la complexité de cette idée, mais l'échelle
à laquelle elle est appliquée.
Tokens : la monnaie du langage
Les LLM ne travaillent pas vraiment avec des "mots" au sens humain du terme.
Ils découpent le texte en tokens, des fragments de texte qui peuvent être un mot entier,
une partie de mot, un signe de ponctuation ou même un espace.
Par exemple, le mot "développement" pourrait être découpé en "dév" + "eloppe" + "ment" (3 tokens).
Le mot "le" est un seul token. Un emoji est souvent un token.
En moyenne, un token correspond à environ trois quarts d'un mot en français.
Un texte de 1 000 mots fait donc environ 1 300 tokens.
Les LLM ont une fenêtre de contexte limitée,
exprimée en tokens. C'est la quantité maximale de texte qu'ils peuvent "voir" en même temps :
ta question, la conversation précédente et la réponse en cours de génération.
Les premiers modèles GPT avaient une fenêtre de 4 000 tokens (environ 3 000 mots).
Les modèles récents peuvent atteindre 100 000, 200 000, voire 1 million de tokens.
C'est pour ça qu'ils peuvent analyser des documents entiers
ou maintenir des conversations très longues sans "oublier" le début.
Maîtriser la notion de token et de contexte est primordial dans l'utilisation quotidienne d'un LLM.
Comme ils sont la base de son fonctionnement interne, les tokens constituent l'unité de facturation des services d'IA
générative.
Plus tu envoies et génères de tokens, plus le coût d'utilisation augmente.
L'entraînement d'un LLM
L'entraînement d'un grand modèle de langage se fait en plusieurs étapes :
-
Le pré-entraînement : le modèle ingère une quantité colossale de texte.
Des milliards de pages web, de livres, d'articles, de codes sources, de forums...
En lisant tout ça, il apprend la structure du langage, les faits du monde, les conventions sociales,
les raisonnements logiques... Il ne mémorise pas les textes, il apprend des schémas statistiques
sur la façon dont les mots s'enchaînent.
C'est l'étape la plus coûteuse : des mois de calcul sur des milliers de GPU. - Le fine-tuning avec instructions : le modèle brut prédit du texte, mais il ne sait pas répondre à des questions ni suivre des consignes. On l'entraîne alors sur des exemples de dialogues : "Voici une question. Voici la bonne façon d'y répondre." Des humains rédigent ces exemples de conversations idéales.
-
L'alignement (RLHF) : pour que le modèle soit utile et sûr, on utilise de l'apprentissage
par renforcement à partir de feedback humain (Reinforcement Learning from Human Feedback).
Des humains comparent plusieurs réponses du modèle et indiquent laquelle est la meilleure.
Le modèle apprend à produire des réponses que les humains préfèrent : plus claires, plus honnêtes,
moins nocives.
C'est l'une des étapes qui fait la différence entre un modèle qui crache du texte brut et un assistant capable d'avoir une conversation cohérente et respectueuse.
Température et créativité
Quand un LLM prédit le mot suivant, il ne choisit pas toujours le mot le plus probable.
Un paramètre appelé "température" contrôle le degré d'aléatoire dans ses choix.
Avec une température basse (proche de 0), le modèle choisit presque toujours le mot le plus probable.
Les réponses sont prévisibles, répétitives, mais fiables.
Avec une température haute (proche de 1 ou plus), le modèle s'autorise des choix plus surprenants.
Les réponses sont plus créatives, plus variées, mais aussi plus risquées, avec davantage de chances
de dire quelque chose de faux ou incohérent.
C'est pour ça que quand tu poses deux fois la même question à ChatGPT ou Claude,
tu peux obtenir des réponses différentes. Ce n'est pas un bug, c'est une conséquence directe
de la température.
La génération d'images
L'IA générative ne se limite pas au texte. La génération d'images a provoqué un séisme dans les métiers créatifs.
Les systèmes les plus connus (DALL-E, Midjourney, Stable Diffusion) utilisent une technique
appelée diffusion.
Le principe est contre-intuitif : on apprend au modèle à enlever du bruit.
- On prend une vraie photo et on y ajoute progressivement du bruit aléatoire, comme de la neige sur un vieux téléviseur, jusqu'à obtenir une image totalement brouillée.
- On entraîne un réseau de neurones à inverser ce processus : à partir d'une image bruitée, retrouver l'image un peu moins bruitée de l'étape précédente.
- Une fois entraîné, on peut partir d'une image de pur bruit aléatoire et demander au modèle de la "débruiter" étape par étape. Ce qui émerge à la fin est une image entièrement nouvelle, cohérente et réaliste.
Pour guider ce qui doit émerger, on donne au modèle un prompt textuel : "un astronaute sur un cheval dans un champ de tournesols, style aquarelle". Le modèle a appris pendant son entraînement les associations entre des descriptions textuelles et des caractéristiques visuelles. Il oriente donc le débruitage pour que l'image corresponde à la description.
Les hallucinations
C'est le talon d'Achille des modèles génératifs, et probablement le concept le plus important
à comprendre pour quiconque utilise ces outils au quotidien.
Un LLM n'est pas une base de données. Il ne "sait" pas les choses au sens où un humain les sait.
Il a appris des schémas statistiques sur la façon dont les mots s'enchaînent.
Quand il génère une réponse, il produit le texte le plus vraisemblable, pas nécessairement le plus vrai.
Résultat : il peut affirmer des choses fausses avec un aplomb total.
Inventer une citation qui n'existe pas. Citer un article scientifique qui n'a jamais été publié.
Donner un chiffre précis sorti de nulle part.
On appelle ça des hallucinations.
Elles ne sont pas un bug qu'on peut simplement corriger,
elles sont une conséquence directe du fonctionnement de ces modèles.
C'est pour ça qu'il ne faut jamais faire confiance aveuglément à un LLM sur des faits précis.
Toujours vérifier les informations critiques.
Les modèles s'améliorent sur ce point, mais le risque zéro n'existe pas.
Le prompting : l'art de parler aux modèles
La qualité de ce que produit un modèle génératif dépend en grande partie de la qualité de ta demande,
appelée "prompt".
Un prompt vague donne un résultat vague. Un prompt précis donne un résultat précis.
Quelques techniques de prompting largement utilisées :
- Donner du contexte : "Tu es un expert en marketing digital spécialisé dans le B2B SaaS. Propose une stratégie d'acquisition pour un budget de 50K€ par mois." Plus le modèle comprend le contexte, mieux il calibre sa réponse.
- Fournir des exemples : montrer au modèle le format attendu. "Voici un exemple de fiche produit que j'aime : [...]. Rédige-en une pour ce nouveau produit : [...]." Le modèle imite le style et la structure de l'exemple.
- Décomposer la tâche : plutôt que de demander "rédige un plan marketing complet", demander d'abord l'analyse de marché, puis les personas, puis les canaux, puis le budget. Les modèles sont meilleurs sur des tâches découpées.
- Demander un raisonnement : "Explique ton raisonnement étape par étape avant de donner ta réponse." Cette technique, appelée "chain of thought", peut améliorer significativement la qualité des réponses sur les problèmes complexes.
Le prompting n'est pas une science exacte. Les personnes qui obtiennent les meilleurs résultats ne sont pas celles qui connaissent des formules secrètes, mais celles qui savent exprimer clairement ce qu'elles veulent et qui itèrent patiemment.
Le RAG : donner de la mémoire aux modèles
Un LLM a deux limites structurelles : sa connaissance s'arrête à sa date d'entraînement
et il ne connaît pas les données privées de ton entreprise.
Le RAG (Retrieval-Augmented Generation) est une technique qui résout ce problème.
Avant de générer une réponse, le système recherche des informations pertinentes
dans une base de données externe (documents internes, FAQ, base de connaissances, CRM...)
et les injecte dans le contexte du modèle.
Concrètement, quand un client pose une question à un chatbot d'entreprise équipé de RAG :
- La question est analysée pour identifier les thèmes clés.
- Le système recherche dans les documents internes les passages les plus pertinents.
- Ces passages sont ajoutés au prompt envoyé au LLM, avec la consigne de s'en servir pour répondre.
- Le LLM génère une réponse en s'appuyant sur ces documents, avec la possibilité d'afficher les extraits qui ont servi à la construire.
Le RAG réduit drastiquement les hallucinations en ancrant la réponse dans des données réelles et vérifiables. C'est aujourd'hui l'approche la plus utilisée pour déployer des assistants IA en entreprise.
Les limites et les risques
L'IA générative est un outil puissant, mais pas miraculeux. Quelques points de vigilance :
- Les hallucinations : comme expliqué plus haut. Il faut toujours vérifier les faits, surtout dans un contexte professionnel. Un communiqué de presse avec un chiffre inventé peut faire beaucoup de dégâts.
- La confidentialité : les données envoyées à un LLM externe transitent par les serveurs du fournisseur. Pour des données sensibles, il faut vérifier les conditions d'utilisation et les engagements de confidentialité, ou utiliser des modèles hébergés en interne.
- La propriété intellectuelle : les textes et images générés par IA soulèvent des questions juridiques. Qui est l'auteur ? Peut-on les utiliser commercialement ? Les données d'entraînement incluaient-elles du contenu protégé ? La législation évolue et diffère selon les pays.
- Les biais : les modèles reproduisent les biais présents dans leurs données d'entraînement, qui proviennent majoritairement d'Internet. Stéréotypes de genre, biais culturels, sous-représentation de certaines populations... ces biais se retrouvent dans les résultats.
- La dépendance : s'appuyer sur un seul fournisseur d'IA pour des processus critiques crée une dépendance. Que se passe-t-il si les prix augmentent brutalement ? Si la qualité du modèle change ? Si le fournisseur modifie ses conditions d'utilisation ?
Conclusion : pas de magie, pas de conscience
Après avoir parcouru les systèmes experts, le machine learning, le deep learning,
les réseaux de neurones, les Transformers, les LLM et l'IA générative,
une chose devient claire : derrière l'illusion d'intelligence,
il n'y a que des mathématiques.
Un modèle d'IA n'a ni conscience, ni intention, ni compréhension.
Il ne "sait" rien. Il n'a pas d'émotions. Il ne pense pas.
Il applique des transformations numériques apprises à partir de données.
Il ajuste des milliards de paramètres pour produire la sortie la plus probable.
Lorsqu'un LLM te répond avec fluidité, il ne comprend pas la question
comme un humain la comprend.
Il calcule la probabilité du prochain token.
Puis du suivant. Et encore du suivant.
L'impression d'intelligence émerge de cette mécanique statistique,
pas d'une conscience cachée.
Les scénarios hollywoodiens reposent sur une confusion fréquente :
confondre performance et sentience.
Les systèmes actuels sont extrêmement puissants,
mais ils restent des outils spécialisés,
incapables d'intention propre ou de volonté autonome.
On parle parfois de "singularité technologique",
ce moment hypothétique où une intelligence artificielle dépasserait l'intelligence humaine
et s'améliorerait elle-même de façon exponentielle.
À ce jour, nous en sommes très loin.
Les chercheurs ne s'accordent même pas sur la définition précise
d'une intelligence artificielle générale.
L'IA moderne est impressionnante,
parfois déroutante,
mais elle reste un système d'optimisation mathématique à grande échelle.
Un moteur de calcul sophistiqué.
Comprendre cela ne diminue pas son importance.
Au contraire, cela permet de l'aborder avec lucidité,
d'en exploiter le potentiel,
et d'en encadrer les usages sans céder ni à l'enthousiasme aveugle,
ni à la peur irrationnelle.
