CoT et raisonnement
- Association fréquente: CoT \(\equiv\) raisonnement
- Une forme d’anthropomorphisme ? (car CoT est en Anglais)
- Mais les LLM “raisonnent” aussi sans CoT
- De couche en couche
- Loop transformers, raisonnement latent…
temps \(\subset\) profondeur
Plutôt que générer une CoT, “empiler” les mêmes (?) couches plusieurs
fois = raisonnement latent
![]()
- Donc si on entraîne un LLM plus profond, on peut raccourcir la CoT
?
- Tout dépend de l’expressivité relative de la profondeur vs. CoT
- Expressivité de la CoT en pratique:
![]()
- Mieux vaut augmenter la CoT qu’entraîner plus longtemps
![]()
Pourquoi la CoT est aussi efficace, alors qu’elle n’apporte aucune
information supplémentaire ?
- La CoT “donne du temps” au LLM pour réfléchir
- Ex: imaginez un livre de Sherlock Holmes de 300 pages, qui se
termine par “Et le coupable est:”
- pour prédire le mot suivant, le LLM doit combiner
toutes les informations
- chaque couche combine un nb limité d’informations (pour simplifier,
disons 2 par 2)
- il faut suffisamment de couches (de temps) pour tout combiner
- Il n’y a donc aucune raison a priori que les tokens
soient interprétables !
- L’atome du raisonnement n’est pas le token, c’est la couche !
- Chaque couche transforme son entrée, comme un programme
- Mais est-ce qu’un “programme” raisonne ?
- Functionaliste: Oui, si le programme peut résoudre des
maths, planifier, faire des déductions…
- Les LLM ont appris à faire tout cela, dans une certaine mesure
Comment apprennent-ils à raisonner ?
- Au-delà de la mémorisation, ils généralisent
- Compresser = généraliser
- 2 phases apparaissent pendant leur apprentissage: mémorisation, puis
compression
- Tishby, 2015
![]()
- Les LLM apprennent à apprendre:
- Ils apprennent des algorithmes, mais surtout, les utilisent pour
réussir le In Context Learning
- Donc, on sait que les LLM:
- ne font pas que mémoriser, mais ils généralisent
- savent retrouver la structure cachée qui explique les données
observées
- apprennent des algorithmes (d’apprentissage)
- savent exécuter ces algorithmes dans leur “mémoire”
- Mais le font-ils lorsqu’on leur demande de raisonner ?
- Méthode: les fonctions
d’influence identifient quelles données d’apprentissage les LLM
mobilisent pour répondre à une question.
- Fonction d’influence: si on supprime un élément du corpus
d’apprentissage, comment évolue la prédiction du LLM ?
![]()
Un doc individuel influence peu le raisonnement, beaucoup (et de
manière plus volatile) les questions factuelles.
- Les corpus de code sont prépondérants pour répondre aux questions de
raisonnement
- Les wiki pour les questions factuelles
![]()
- Autres papiers intéressants sur le sujet:
- Transformers Pretrained on Procedural Data Contain Modular
Structures for Algorithmic Reasoning
- Scalable Influence and Fact Tracing for Large Language Model
Pretraining
Quand est-ce que les LLM apprennent à raisonner ?
![]()
- Pre: Pas de CoT explicites
- Mid: CoT supervisées (souvent distillées)
- Post: CoT générées (apprentissage par
renforcement)
- RL avec CoT augmente les performances sur les benchmarks de
raisonnement e.g. “Effective Reinforcement Learning for Reasoning in
Language Models”
- Q1: Est-ce que le RL injecte de nouvelles capacités de raisonnement
dans le LLM ?
- Q2: Peut-on éviter le coût exhorbitant du RL ?
- La qualité des CoT permet d’éviter le RL:
- S1 (fev 2025):
bonnes performances avec 1000 CoT manuelles
- Distillation: Aujourd’hui, on commence
toujours par entraîner un LLM (sans RL) sur des CoT de
bonne qualité générées par des top-LLM
On peut se passer entièrement de post-training: les capacités de
raisonnement sont déjà dans le modèle base

- Avant le RL, la bonne réponse n’est peut-etre pas la 1ere, mais elle
n’est pas loin
- Ils ont vérifié manuellement que le LLM base produit des CoT aussi
valides que le LLM après RL
- Testé sur maths, code, visual reasoning
- Le LLM base peut potentiellement résoudre plus de problèmes que le
LLM après RL

- Autres lessons du papier:
- RL induit une “diversity collapse”
- Résultats sensibles selon \(\alpha\): \(\alpha=4\) est une bonne moyenne pour les
diverses tâches de maths
- Les CoT sont en anglais, car tous les corpus de raisonnement sont en
anglais, et les CoT générées le sont aussi. \(\rightarrow\) Mille-Pensées
![]()
Merci !
https://ia.loria.fr/talk
christophe.cerisara@loria.fr