Guide sur l'évaluation des LLM ⚖️

Avant-propos

Introduction

Si vous vous êtes déjà demandé comment vous assurer qu'un LLM fonctionne bien dans le cadre de votre tâche spécifique, ce guide est fait pour vous !
Il couvre les différentes façons d'évaluer un modèle, des guides sur la conception de vos propres évaluations, ainsi que des conseils et des astuces basés sur de l'expérience pratique.

Que vous travailliez avec des modèles en production, que vous soyez chercheur ou amateur, j'espère que vous trouverez ce dont vous avez besoin ; et si ce n'est pas le cas, ouvrez une issue (pour suggérer des améliorations ou des ressources manquantes) et je complèterai le guide !

Comment lire ce guide

  • Utilisateur débutant :
    Si vous ne connaissez rien à l'évaluation, vous devriez commencer par les sections « Bases » de chaque chapitre avant d'aller plus loin. Vous trouverez également des explications pour vous aider sur les sujets importants des LLM dans le chapitre « Connaissances générales ». Par exemple, comment fonctionne l'inférence des modèles et ce qu'est la tokenisation.
  • Utilisateur avancé :
    Les sections les plus pratiques sont les « Conseils et astuces » de chaque chapitre, ainsi que chapitre « Dépannage ». Vous trouverez également des choses intéressantes dans les sections « Concevoir ».

Dans le texte, les liens préfixés par une ⭐ sont des liens de qualité et dont la lecture est recommandée.

Si vous voulez une introduction sur le sujet, vous pouvez lire cet article de blog sur comment et pourquoi nous faisons de l'évaluation !

Remerciements

Ce guide a été fortement inspiré par le ML Engineering Guidebook de Stas Bekman ! Merci pour cette ressource incroyable !

Un grand merci également à toutes les personnes qui ont inspiré ce guide à travers des discussions soit lors d'événements, soit en ligne, notamment et sans s'y limiter :

  • 🤝 Luca Soldaini, Kyle Lo et Ian Magnusson (Allen AI), Max Bartolo (Cohere), Kai Wu (Meta), Swyx et Alessio Fanelli (Latent Space Podcast), Hailey Schoelkopf (EleutherAI), Martin Signoux (Open AI), Moritz Hardt (Max Planck Institute), Ludwig Schmidt (Anthropic).
  • 🔥 les utilisateurs de l'Open LLM Leaderboard et de Lighteval, qui ont souvent soulevé des points très intéressants dans les discussions
  • 🤗 les personnes d'Hugging Face, comme Lewis Tunstall, Omar Sanseviero, Arthur Zucker, Hynek Kydlíček, Guilherme Penedo et Thom Wolf,
  • bien sûr, mon équipe ❤️ qui s'occupe de l'évaluation et des classements, Nathan Habib et Alina Lozovskaya.

Citation

CC BY-NC-SA 4.0

@misc{fourrier2024evaluation, author = {Clémentine Fourrier and The Hugging Face Community}, title = {LLM Evaluation Guidebook}, year = {2024}, journal = {GitHub repository}, url = {https://github.com/huggingface/evaluation-guidebook) }

Partenaires