Cette application propose une traduction en français du guide de Clémentine Fourrier sur l'évaluation des LLM.
Notez que dans ce guide, les textes sur fond vert sont des ajouts par le CATIE par rapport au guide original (par exemple des remarques ou indications liées à des choix de traduction) et que tout le reste provient du guide original.
De plus, sauf mention contraire, l'ensemble des liens que vous trouverez dans le guide renvoient vers des ressources en langue anglaise.
Si vous vous êtes déjà demandé comment vous assurer qu'un LLM fonctionne bien dans le cadre de votre tâche spécifique, ce guide est fait pour vous !
Il couvre les différentes façons d'évaluer un modèle, des guides sur la conception de vos propres évaluations, ainsi que des conseils et des astuces basés sur de l'expérience pratique.
Que vous travailliez avec des modèles en production, que vous soyez chercheur ou amateur, j'espère que vous trouverez ce dont vous avez besoin ; et si ce n'est pas le cas, ouvrez une issue (pour suggérer des améliorations ou des ressources manquantes) et je complèterai le guide !
Dans le texte, les liens préfixés par une ⭐ sont des liens de qualité et dont la lecture est recommandée.
Si vous voulez une introduction sur le sujet, vous pouvez lire cet article de blog sur comment et pourquoi nous faisons de l'évaluation !
Ce guide a été fortement inspiré par le ML Engineering Guidebook de Stas Bekman ! Merci pour cette ressource incroyable !
Un grand merci également à toutes les personnes qui ont inspiré ce guide à travers des discussions soit lors d'événements, soit en ligne, notamment et sans s'y limiter :
Cette traduction a pu être effectuée grâce au soutien de nos partenaires, que nous remercions.