LLM as a judge : pourquoi l’évaluation par l’IA ne suffit pas, Laurent Zhang

Comment évaluer un agent IA quand il ne se contente plus de répondre, mais choisit ses outils, manipule des données et déclenche des actions ?

Laurent Zhang est le cofondateur de Mankinds, une plateforme d’évaluation d’applications IA incubée à Station F dans le programme F/ai.

Dans cet épisode, il partage son expérience sur l'évaluation des applications d’IA générative et les systèmes agentiques.

Nous discutons notamment des alternatives au "LLM as a judge" avec des tests plus déterministes, auditables et adaptés aux secteurs régulés.

Il explique :

La différence entre un workflow IA séquentiel vs un agent autonome.
Les limites de la méthode d'évaluation avec un LLM (LLM as a judge) et les alternatives.
L'approche d'évaluation que propose Mankind avec des scoreurs déterministes et des datasets contextualisés.
Pourquoi la conformité n'est pas un frein mais un accélérateur à l'innovation.

(00:00:00) Parcours de Laurent et mission de Mankind

(00:06:21) Systèmes agentiques et limites du LLM as a judge

(00:15:27) Du contexte aux tests déterministes

(00:25:31) Orchestration, modèles et mise en production

(00:36:03) RAG, graphes et adoption de l’IA agentique

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

À propos de cet épisode