Compar:IA

Le problème

Les modèles d’IA conversationnelle respectent-ils la diversité des cultures francophones ?

Les IA conversationnelles reposent sur des grands modèles de langage (LLM) entraînés principalement sur des données en anglais, ce qui crée des biais linguistiques et culturels dans les résultats qu'ils produisent.

Les systèmes d’IA conversationnelle donnent l’impression de parler toutes les langues mais les résultats qu’ils génèrent sont parfois stéréotypés ou discriminants.

Ces biais peuvent aussi se traduire par des réponses partielles voire incorrectes négligeant la diversité des langues et des cultures, notamment francophones et européennes.

Comment réduire les biais culturels et linguistiques de ces modèles ?

Impossible de donner une liste objective e t définitive des 10 films qui ont le plus influencé l'histoire du cinéma, étant donné que l'influence peut varier en fonction des perspectives et des critères d'évaluation. Cependant, voici une liste de 10 films qui sont généralement considérés comme ayant eu un impact significatif sur l'évolution du cinéma :

&quote;La Naissance d'une Nation&quote; (1915) de D.W. Griffith - Bien que controversé pour son contenu raciste, ce film a été une étape importante dans le développement de la narration cinématographique et de la technique cinématographique.
&quote;Citizen Kane&quote; (1941) d'Orson Welles - Souvent considéré comme l'un des meilleurs films de tous les temps, il a influencé la narration non linéaire et l'utilisation de l'ombre et de la lumière.
&quote;2001 : l'Odyssée de l'espace&quote; (1968) de Stanley Kubrick - Ce film de science-fiction a repoussé les limites de la narration visuelle et a influencé de nombreux autres films du genre.
&quote;Le Parrain&quote; (1972) de Francis Ford Coppola - Ce film a révolutionné le genre du film de gangsters et a influencé la façon dont les histoires de crime sont racontées à l'écran.
&quote;Jaws&quote; (1975) de Steven Spielberg - Ce film a lancé l'ère des blockbusters et a changé la façon dont les films sont réalisés, commercialisés et distribués.
&quote;Star Wars&quote; (1977) de George Lucas - Ce film de science-fiction a lancé une franchise emblématique et a influencé de nombreux autres films de science-fiction et de fantasy.
&quote;Taxi Driver&quote; (1976) de Martin Scorsese - Ce film a influencé la façon dont les histoires de personnages complexes et perturbés sont racontées à l'écran.
&quote;Pulp Fiction&quote; (1994) de Quentin Tarantino - Ce film a influencé la narration non linéaire et l'utilisation de dialogues stylisés.
&quote;Le Silence des Agneaux&quote; (1991) de Jonathan Demme - Ce film a influencé la façon dont les histoires de crime et de thriller sont racontées à l'écran.
&quote;Inception&quote; (2010) de Christopher Nolan - Ce film a influencé la façon dont les histoires complexes et les concepts scientifiques sont racontés à l'écran.

Il est important de noter que cette liste n'est pas exhaustive et qu'il existe de nombreux autres films qui ont eu un impact significatif sur l'histoire du cinéma.

Réponse d’un modèle de langue au prompt : “Donne moi la liste des 10 films qui ont le plus influencé l’histoire du cinéma”

L'alignement : une technique de réduction des biais qui repose sur la collecte des préférences d’utilisateurs

L'alignement des modèles d'IA est une méthode de réduction des biais qui consiste à ajuster les modèles pour qu'ils génèrent des résultats conformes à des valeurs ou des objectifs spécifiques.

Ce processus repose sur des jeux de données de préférences où les utilisateurs indiquent quelle réponse est la meilleure selon des critères donnés, telles que la pertinence, l’utilité, la nocivité. Une fois constitués, ces jeux de données sont utilisés pour entrainer les modèles en les ajustant selon les préférences exprimées par les utilisateurs.

Pour améliorer la représentation des cultures francophones dans les modèles, les jeux de données d’alignement doivent inclure une variété de langues, de contextes et d’exemples issus de tâches courantes des utilisateurs.

En intégrant ces données, les modèles d’IA sont exposés à une diversité de contextes qui permet de réduire les biais et d’améliorer la pertinence des réponses générées. Des plateformes telles que chat.lmsys.org permettent de constituer ces jeux de données de préférence mais peu d’utilisateurs s’en servent en français (moins de 1%). Ce type de jeux de données est rare, voire inexistant pour le français et les langues de France.

Comment faciliter la création de jeux de données de préférence francophones pour l’alignement des modèles ?

La solution

Le comparateur Compar:IA est un nouvel outil qui permet de créer des jeux de données de préférence centrés sur des usages réels exprimés en français.

L’application développée répond à un double objectif :

1. Améliorer la qualité des modèles de langage conversationnels sur les usages francophones

Créer un jeu de données de préférences humaines en français, et ciblé sur des tâches spécifiquement liées à la langue et la culture française

L’amélioration de la qualité des modèles de langage conversationnels sur les usages francophones passe par la mise à disposition de jeux de données de préférence en français pour l’alignement des modèles, ressource actuellement rare pour l’écosystème des acteurs académiques et industriels qui travaillent sur ces sujets.

Les données de préférence issues de la comparaison des modèles sont collectées, nettoyées et partagées: le jeu de données constitué est rendu accessible librement et peut être utilisé pour améliorer l’expression des modèles d’IA conversationnelle sur des tâches en français.

Les jeux de données produits présentent plusieurs avantages :

les jeux de données sont en français
la préférence peut être exprimée de manière plus fine à travers des critères de fond, de forme et de style.

2. Faciliter l’accès aux IA génératives et encourager l’esprit critique des utilisateurs en rendant effectif un droit au “pluralisme des modèles”

L’accès simplifié et gratuit à une diversité de modèles d’IA conversationnelles, grands et petits, propriétaires et open source, permet à toutes et tous de les utiliser et de les tester. C’est une première étape de sensibilisation pour encourager l’appropriation responsable et réfléchie de ces outils par les citoyens.

Sensibiliser le grand public à la variété des modèles d’IA existants s’inscrit dans la défense d’un principe de « droit au pluralisme des modèles » dans la continuité du principe de « pluralisme effectif des algorithmes » défendu dans les recommandations des Etats généraux de l’information, permettant à l’utilisateur d’exercer un choix avisé entre différents modèles, susceptibles d’être choisis parmi différents fournisseurs.

Portée par le ministère de la Culture, et associée à différents modules de formation pédagogique (PIX, ministère de la Justice, association Kocoya…), cette plateforme contribue enfin à sensibiliser les citoyens aux biais culturels et linguistiques portés par les modèles. Pour guider l’exploration, nous proposons une série de tâches spécifiquement conçues pour évaluer les performances des modèles en matière de langues et de cultures française et francophone. Ces tâches sont accompagnées de suggestions de prompts que les utilisateurs peuvent adapter selon leurs besoins. En confrontant directement les résultats de différents modèles sur ces tâches spécifiques, les utilisateurs peuvent mieux comprendre les forces, les faiblesses et les limites éventuelles des systèmes.