Anna, nouvelle guide virtuelle : l’intelligence artificielle au service du patrimoine
Des briques d’intelligence
Vous posez une question à Anna, et un système de traitement du langage naturel se met en route pour traiter votre demande, utilisant les technologies du Machine Learning, dopé par des réseaux des neurones profonds (Deep Learning). Il permet de comprendre le sens du propos de l’utilisateur, même en cas de faute d’orthographe ou de phrase incomplète, et d’y apporter une réponse.
Un certain nombre de questions ont été pré-programmées pour donner une réponse rapide et fiable : il s’agit surtout des questions d’ordre pratique (« est-ce que je peux venir avec mon chien ? » par exemple).
Autrement, les réponses sont rédigées automatiquement à partir des données fournies au système par les équipes des musées (base de données sur les œuvres, documents sur l’histoire des collections, les collectionneurs etc.) : c’est une intelligence artificielle générative qui est à l’œuvre.
Pour générer une réponse, notre chatbot s’appuie sur une IA Open Source et souveraine hébergée en France de manière sécurisée par notre partenaire DAVI.
Cette IA générative basée sur un Modèle de Langage Large (LLM) est formée initialement avec des milliards de paramètres et données textuelles provenant de sources diverses, afin de couvrir un large éventail de connaissances et de styles de langage. Ce processus d’entraînement permet au modèle de capturer des comportements linguistiques complexes et de développer une compréhension contextuelle approfondie. Cependant, pour les besoins des Musées de Reims, cette IA générative a été limitée au domaine d’expertise des œuvres d’arts, afin de rendre les réponses d’Anna plus précises et pertinentes.
Un système s’appuyant sur une base d’œuvres
Dans le cas d’une recherche d’œuvre plus ou moins précise comme « montre-moi une peinture avec la mer », le système cherche des œuvres dont les données retenues pour l’indexation (titre, commentaires, sujets/thèmes, auteur, notice biographique, etc.) comportent des mots du même champ sémantique que "mer". Parmi ce champ, on retrouve : mer, marin, marée, eau salée, océan, vagues, bain de mer, agitée, naviguer, etc.
Les œuvres dont la proximité sémantique est la plus proche se voient proposées aux visiteurs sous forme d’un carrousel de cartes média, illustrant la réponse générée par l’IA à partir des informations issues de cette recherche sémantique complétées de règles de traitement définies.
Via ces cartes média, l’agent conversationnel soumet au visiteur en ligne des notices d’œuvres simplifiées dont le commentaire est lui aussi généré par l’intelligence artificielle. En effet le commentaire original de la fiche œuvre du musée numérique est reformulé en quelques lignes, laissant la part belle à l’image.
Personne n’est infaillible, pas même Anna…
Malgré les avancées de l’IA et bien qu’ils soient performants, les modèles de langages peuvent manquer de compréhension contextuelle profonde, reproduire des biais présents dans les données d’entrainement et fournir ainsi des réponses inappropriées ou incorrectes. Les négations, a fortiori les doubles négations, le second degré, l’ironie, et les synonymes ne sont pas leur fort ! Pour bien vous faire comprendre d’Anna : privilégier les phrases simples, courtes et sans négation.
Anna n’est donc pas infaillible ! Malgré notre travail pour éviter les erreurs, Anna peut parfois fournir une réponse à partir de connaissances non fournies par les musées, conduisant à des affirmations fausses. C’est rare, mais il est plus prudent de vérifier les affirmations d’Anna avant de les utiliser, et ainsi, d’éviter de propager d’éventuelles erreurs !
NB : ce projet a été financé par une subvention de la DRAC dans le cadre du Programme de Numérisation et de Valorisation du patrimoine.