Raisonnement, mémorisation et généralisation dans les LLM

Workshop: Grands modèles de langue : résonance ou raisonnement ?

Christophe Cerisara

https://ia.loria.fr/talk

CoT et raisonnement

temps \(\subset\) profondeur

Plutôt que générer une CoT, “empiler” les mêmes (?) couches plusieurs fois = raisonnement latent

  • Donc si on entraîne un LLM plus profond, on peut raccourcir la CoT ?
  • Tout dépend de l’expressivité relative de la profondeur vs. CoT
  • Expressivité de la CoT en pratique:

  • Mieux vaut augmenter la CoT qu’entraîner plus longtemps

Pourquoi la CoT est aussi efficace, alors qu’elle n’apporte aucune information supplémentaire ?

  • La CoT “donne du temps” au LLM pour réfléchir
  • Ex: imaginez un livre de Sherlock Holmes de 300 pages, qui se termine par “Et le coupable est:”
  • pour prédire le mot suivant, le LLM doit combiner toutes les informations
  • chaque couche combine un nb limité d’informations (pour simplifier, disons 2 par 2)
  • il faut suffisamment de couches (de temps) pour tout combiner
  • L’atome du raisonnement n’est pas le token, c’est la couche !
  • Chaque couche transforme son entrée, comme un programme
  • Mais est-ce qu’un “programme” raisonne ?
  • Functionaliste: Oui, si le programme peut résoudre des maths, planifier, faire des déductions…
  • Les LLM ont appris à faire tout cela, dans une certaine mesure

Comment apprennent-ils à raisonner ?

  • Au-delà de la mémorisation, ils généralisent
  • Compresser = généraliser
  • 2 phases apparaissent pendant leur apprentissage: mémorisation, puis compression
  • Tishby, 2015

  • Donc, on sait que les LLM:
    • ne font pas que mémoriser, mais ils généralisent
    • savent retrouver la structure cachée qui explique les données observées
    • apprennent des algorithmes (d’apprentissage)
    • savent exécuter ces algorithmes dans leur “mémoire”
  • Mais le font-ils lorsqu’on leur demande de raisonner ?

“Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models”

“The approach to reasoning LLMs use looks unlike retrieval, and more like a generalisable strategy synthesising procedural knowledge from many documents doing a similar form of reasoning.”

  • Méthode: les fonctions d’influence identifient quelles données d’apprentissage les LLM mobilisent pour répondre à une question.
  • Fonction d’influence: si on supprime un élément du corpus d’apprentissage, comment évolue la prédiction du LLM ?

Un doc individuel influence peu le raisonnement, beaucoup (et de manière plus volatile) les questions factuelles.

  • Les corpus de code sont prépondérants pour répondre aux questions de raisonnement
  • Les wiki pour les questions factuelles

  • Autres papiers intéressants sur le sujet:
    • Transformers Pretrained on Procedural Data Contain Modular Structures for Algorithmic Reasoning
    • Scalable Influence and Fact Tracing for Large Language Model Pretraining

Quand est-ce que les LLM apprennent à raisonner ?

  • Pre: Pas de CoT explicites
  • Mid: CoT supervisées (souvent distillées)
  • Post: CoT générées (apprentissage par renforcement)
  • RL avec CoT augmente les performances sur les benchmarks de raisonnement e.g. “Effective Reinforcement Learning for Reasoning in Language Models”
  • Q1: Est-ce que le RL injecte de nouvelles capacités de raisonnement dans le LLM ?
  • Q2: Peut-on éviter le coût exhorbitant du RL ?
  • La qualité des CoT permet d’éviter le RL:
    • S1 (fev 2025): bonnes performances avec 1000 CoT manuelles
    • Distillation: Aujourd’hui, on commence toujours par entraîner un LLM (sans RL) sur des CoT de bonne qualité générées par des top-LLM

On peut se passer entièrement de post-training: les capacités de raisonnement sont déjà dans le modèle base

  • Avant le RL, la bonne réponse n’est peut-etre pas la 1ere, mais elle n’est pas loin
  • Ils ont vérifié manuellement que le LLM base produit des CoT aussi valides que le LLM après RL
  • Testé sur maths, code, visual reasoning
  • Le LLM base peut potentiellement résoudre plus de problèmes que le LLM après RL

Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening

  • RL n’ajoute pas de nouvelles capacités de raisonnement, mais “sharpen” la distribution \(p(x)^{\alpha}\)
  • Sans RL, on peut générer des CoT par MCMC selon \(p(x)^{\alpha}\) au lieu de \(p(x_t | x_{<t})\)
  • Mais MCMC coûte trop cher (x9), ce papier propose une approximation efficace

  • Autres lessons du papier:
    • RL induit une “diversity collapse”
    • Résultats sensibles selon \(\alpha\): \(\alpha=4\) est une bonne moyenne pour les diverses tâches de maths
  • Les CoT sont en anglais, car tous les corpus de raisonnement sont en anglais, et les CoT générées le sont aussi. \(\rightarrow\) Mille-Pensées

Merci !

https://ia.loria.fr/talk

christophe.cerisara@loria.fr