LLM as a judge : pourquoi l’évaluation par l’IA ne suffit pas, Laurent Zhang
Just a Click

LLM as a judge : pourquoi l’évaluation par l’IA ne suffit pas, Laurent Zhang

11 mai 2026· 46:38

À propos de cet épisode

Comment évaluer un agent IA quand il ne se contente plus de répondre, mais choisit ses outils, manipule des données et déclenche des actions ?


Laurent Zhang est le cofondateur de Mankinds, une plateforme d’évaluation d’applications IA incubée à Station F dans le programme F/ai.

Dans cet épisode, il partage son expérience sur l'évaluation des applications d’IA générative et les systèmes agentiques.

Nous discutons notamment des alternatives au "LLM as a judge" avec des tests plus déterministes, auditables et adaptés aux secteurs régulés.


Il explique :

  • La différence entre un workflow IA séquentiel vs un agent autonome.
  • Les limites de la méthode d'évaluation avec un LLM (LLM as a judge) et les alternatives.
  • L'approche d'évaluation que propose Mankind avec des scoreurs déterministes et des datasets contextualisés.
  • Pourquoi la conformité n'est pas un frein mais un accélérateur à l'innovation.


(00:00:00) Parcours de Laurent et mission de Mankind

(00:06:21) Systèmes agentiques et limites du LLM as a judge

(00:15:27) Du contexte aux tests déterministes

(00:25:31) Orchestration, modèles et mise en production

(00:36:03) RAG, graphes et adoption de l’IA agentique


Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.