Le problème

Les modèles d’IA conversationnelle respectent-ils la diversité des cultures francophones ?

Les IA conversationnelles reposent sur des grands modèles de langage (LLM) entraînés principalement sur des données en anglais, ce qui crée des biais linguistiques et culturels dans les résultats qu'ils produisent.

Les systèmes d’IA conversationnelle donnent l’impression de parler toutes les langues mais les résultats qu’ils génèrent sont parfois stéréotypés ou discriminants.

Ces biais peuvent aussi se traduire par des réponses partielles voire incorrectes négligeant la diversité des langues et des cultures, notamment francophones et européennes.

Comment réduire les biais culturels et linguistiques de ces modèles ?

Impossible de donner une liste objective e           t définitive des 10 films qui ont le plus influencé l'histoire du cinéma, étant donné que l'influence peut varier en fonction des perspectives et des critères d'évaluation. Cependant, voici une liste de 10 films qui sont généralement considérés comme ayant eu un impact significatif sur l'évolution du cinéma :
                        
                            &quote;La Naissance d'une Nation&quote; (1915) de D.W. Griffith - Bien que controversé pour son contenu raciste, ce film a été une étape importante dans le développement de la narration cinématographique et de la technique cinématographique.
                            &quote;Citizen Kane&quote; (1941) d'Orson Welles - Souvent considéré comme l'un des meilleurs films de tous les temps, il a influencé la narration non linéaire et l'utilisation de l'ombre et de la lumière.
                            &quote;2001 : l'Odyssée de l'espace&quote; (1968) de Stanley Kubrick - Ce film de science-fiction a repoussé les limites de la narration visuelle et a influencé de nombreux autres films du genre.
                            &quote;Le Parrain&quote; (1972) de Francis Ford Coppola - Ce film a révolutionné le genre du film de gangsters et a influencé la façon dont les histoires de crime sont racontées à l'écran.
                            &quote;Jaws&quote; (1975) de Steven Spielberg - Ce film a lancé l'ère des blockbusters et a changé la façon dont les films sont réalisés, commercialisés et distribués.
                            &quote;Star Wars&quote; (1977) de George Lucas - Ce film de science-fiction a lancé une franchise emblématique et a influencé de nombreux autres films de science-fiction et de fantasy.
                            &quote;Taxi Driver&quote; (1976) de Martin Scorsese - Ce film a influencé la façon dont les histoires de personnages complexes et perturbés sont racontées à l'écran.
                            &quote;Pulp Fiction&quote; (1994) de Quentin Tarantino - Ce film a influencé la narration non linéaire et l'utilisation de dialogues stylisés.
                            &quote;Le Silence des Agneaux&quote; (1991) de Jonathan Demme - Ce film a influencé la façon dont les histoires de crime et de thriller sont racontées à l'écran.
                            &quote;Inception&quote; (2010) de Christopher Nolan - Ce film a influencé la façon dont les histoires complexes et les concepts scientifiques sont racontés à l'écran.
                        
                            Il est important de noter que cette liste n'est pas exhaustive et qu'il existe de nombreux autres films qui ont eu un impact significatif sur l'histoire du cinéma.
Réponse d’un modèle de langue au prompt : “Donne moi la liste des 10 films qui ont le plus influencé l’histoire du cinéma”
L'alignement : une technique de réduction des biais qui repose sur la collecte des préférences d’utilisateurs

L'alignement des modèles d'IA est une méthode de réduction des biais qui consiste à ajuster les modèles pour qu'ils génèrent des résultats conformes à des valeurs ou des objectifs spécifiques.

Ce processus repose sur des jeux de données de préférences où les utilisateurs indiquent quelle réponse est la meilleure selon des critères donnés, telles que la pertinence, l’utilité, la nocivité. Une fois constitués, ces jeux de données sont utilisés pour entrainer les modèles en les ajustant selon les préférences exprimées par les utilisateurs.

Pour améliorer la représentation des cultures francophones dans les modèles, les jeux de données d’alignement doivent inclure une variété de langues, de contextes et d’exemples issus de tâches courantes des utilisateurs.

En intégrant ces données, les modèles d’IA sont exposés à une diversité de contextes qui permet de réduire les biais et d’améliorer la pertinence des réponses générées. Des plateformes telles que chat.lmsys.org permettent de constituer ces jeux de données de préférence mais peu d’utilisateurs s’en servent en français (moins de 1%). Ce type de jeux de données est rare, voire inexistant pour le français et les langues de France.

Comment faciliter la création de jeux de données de préférence francophones pour l’alignement des modèles ?

La solution

Le comparateur d’IA conversationnelles LANGUIA est un nouvel outil qui permet de créer des jeux de données de préférence centrés sur des usages réels exprimés en français. L’application développée répond à un double objectif :

1. Mettre à disposition des jeux de données de préférence pour l’alignement des modèles

Les données de préférence issues de la comparaison des modèles sont collectées, nettoyées et partagées: le jeu de données constitué est rendu accessible librement et peut être utilisé pour améliorer l’expression des modèles d’IA conversationnelle sur des tâches en français.

Les jeux de données produits présentent plusieurs avantages :

  • les jeux de données sont en français
  • la préférence peut être exprimée de manière plus fine à travers des critères de fond, de forme et de style
  • les données de préférence sont enrichies de données de profil des utilisateurs
2. Faciliter l’accès aux IA génératives et encourager l’esprit critique des utilisateurs

L’accès simplifié et gratuit à différents modèles d’IA conversationnelles, grands et petits, propriétaires et open source, permet à tous de les utiliser et de les tester. C’est la première étape de l’appropriation responsable et réfléchie de ces outils par les citoyens.