LLM as a judge : pourquoi l’évaluation par l’IA ne suffit pas, Laurent Zhang
カートのアイテムが多すぎます
カートに追加できませんでした。
ウィッシュリストに追加できませんでした。
ほしい物リストの削除に失敗しました。
ポッドキャストのフォローに失敗しました
ポッドキャストのフォロー解除に失敗しました
-
ナレーター:
-
著者:
Comment évaluer un agent IA quand il ne se contente plus de répondre, mais choisit ses outils, manipule des données et déclenche des actions ?
Laurent Zhang est le cofondateur de Mankinds, une plateforme d’évaluation d’applications IA incubée à Station F dans le programme F/ai.
Dans cet épisode, il partage son expérience sur l'évaluation des applications d’IA générative et les systèmes agentiques.
Nous discutons notamment des alternatives au "LLM as a judge" avec des tests plus déterministes, auditables et adaptés aux secteurs régulés.
Il explique :
- La différence entre un workflow IA séquentiel vs un agent autonome.
- Les limites de la méthode d'évaluation avec un LLM (LLM as a judge) et les alternatives.
- L'approche d'évaluation que propose Mankind avec des scoreurs déterministes et des datasets contextualisés.
- Pourquoi la conformité n'est pas un frein mais un accélérateur à l'innovation.
(00:00:00) Parcours de Laurent et mission de Mankind
(00:06:21) Systèmes agentiques et limites du LLM as a judge
(00:15:27) Du contexte aux tests déterministes
(00:25:31) Orchestration, modèles et mise en production
(00:36:03) RAG, graphes et adoption de l’IA agentique
Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.