Le problème
Les modèles d’IA conversationnelle respectent-ils la diversité des cultures francophones ?
Les IA conversationnelles reposent sur des grands modèles de langage (LLM) entraînés principalement sur des données en anglais, ce qui crée des biais linguistiques et culturels dans les résultats qu'ils produisent.
Les systèmes d’IA conversationnelle donnent l’impression de parler toutes les langues mais les résultats qu’ils génèrent sont parfois stéréotypés ou discriminants.
Ces biais peuvent aussi se traduire par des réponses partielles voire incorrectes négligeant la diversité des langues et des cultures, notamment francophones et européennes.
Comment réduire les biais culturels et linguistiques de ces modèles ?
L'alignement : une technique de réduction des biais qui repose sur la collecte des préférences d’utilisateurs
L'alignement des modèles d'IA est une méthode de réduction des biais qui consiste à ajuster les modèles pour qu'ils génèrent des résultats conformes à des valeurs ou des objectifs spécifiques.
Ce processus repose sur des jeux de données de préférences où les utilisateurs indiquent quelle réponse est la meilleure selon des critères donnés, telles que la pertinence, l’utilité, la nocivité. Une fois constitués, ces jeux de données sont utilisés pour entrainer les modèles en les ajustant selon les préférences exprimées par les utilisateurs.
Pour améliorer la représentation des cultures francophones dans les modèles, les jeux de données d’alignement doivent inclure une variété de langues, de contextes et d’exemples issus de tâches courantes des utilisateurs.
En intégrant ces données, les modèles d’IA sont exposés à une diversité de contextes qui permet de réduire les biais et d’améliorer la pertinence des réponses générées. Des plateformes telles que chat.lmsys.org permettent de constituer ces jeux de données de préférence mais peu d’utilisateurs s’en servent en français (moins de 1%). Ce type de jeux de données est rare, voire inexistant pour le français et les langues de France.
Comment faciliter la création de jeux de données de préférence francophones pour l’alignement des modèles ?
La solution
Le comparateur d’IA conversationnelles LANGUIA est un nouvel outil qui permet de créer des jeux de données de préférence centrés sur des usages réels exprimés en français. L’application développée répond à un double objectif :
1. Mettre à disposition des jeux de données de préférence pour l’alignement des modèles
Les données de préférence issues de la comparaison des modèles sont collectées, nettoyées et partagées: le jeu de données constitué est rendu accessible librement et peut être utilisé pour améliorer l’expression des modèles d’IA conversationnelle sur des tâches en français.
Les jeux de données produits présentent plusieurs avantages :
- les jeux de données sont en français
- la préférence peut être exprimée de manière plus fine à travers des critères de fond, de forme et de style
- les données de préférence sont enrichies de données de profil des utilisateurs
2. Faciliter l’accès aux IA génératives et encourager l’esprit critique des utilisateurs
L’accès simplifié et gratuit à différents modèles d’IA conversationnelles, grands et petits, propriétaires et open source, permet à tous de les utiliser et de les tester. C’est la première étape de l’appropriation responsable et réfléchie de ces outils par les citoyens.