Chahan Vidal-Gorène: Je vois un avenir prometteur pour la collaboration entre la France et l'Arménie dans le domaine de l'IA et du patrimoine culturel

Opinions
09.07.2025

Dans le cadre de la collaboration et des nouveaux partenariats noués entre la BNF (Bibliothèque Nationale de France) et la BNA (Bibliothèque Nationale d’Arménie), le Courrier d’Erevan a pu s’entretenir avec M. Chahan Vidal-Gorène, président et fondateur de CALFA, une entreprise qui développe des technologies de détection de texte et d'analyse automatique de documents manuscrits pour les langues non-occidentales, dont l’arménien.

 

Par Paul Loussot

Courrier d’Erevan : Pourriez-vous commencer par vous présenter vous ainsi que votre activité en France et en Arménie ?

Chahan Vidal-Gorène : Avec plaisir. Je m'appelle Chahan Vidal-Gorène, et je suis le président fondateur de CALFA. En parallèle de mon rôle chez CALFA, j'enseigne également en tant que directeur du Master Humanité Numérique à l'École nationale des Chartes. L'École nationale des Chartes est une institution prestigieuse, connue pour sa formation en sciences historiques et en conservation du patrimoine. Mon parcours académique et professionnel m'a conduit à m'intéresser de près à l'intersection entre la technologie et les sciences humaines, ce qui a finalement abouti à la création de CALFA.

C'est donc en 2014 que j'ai fondé CALFA avec des collègues partageant la même passion pour l'innovation technologique appliquée au patrimoine culturel. Initialement, notre entreprise s'est concentrée sur l'Arménie, un pays riche en histoire et en documents anciens. Nous avons commencé à nous intéresser sérieusement à l'intelligence artificielle (IA) en 2017, en explorant comment cette technologie pouvait être utilisée pour analyser et préserver des documents patrimoniaux.

Notre entreprise, basée à Paris, se concentre principalement sur l'analyse de documents, l'extraction d'informations, et la création de données à partir de documents écrits, manuscrits et imprimés. Ce qui nous distingue particulièrement, c'est notre spécialisation dans les graphies et langues orientales, qui sont souvent négligées par les modèles de langue classiques. Nous travaillons sur des langues telles que l'arménien, l'arabe, et d’autres langues orientales.

En France, nous collaborons étroitement avec divers laboratoires de recherche, et nous avons également une présence significative au Proche-Orient et dans les pays du Maghreb. Récemment, nous avons signé plusieurs conventions de partenariat avec des institutions patrimoniales en Arménie, telles que le Matenadaran, la Bibliothèque nationale d'Arménie, les Archives nationales, et la Bibliothèque de l'Académie des sciences de la République d'Arménie. Ces partenariats visent à utiliser l'intelligence artificielle pour diverses applications, notamment l'analyse de documents, la transcription automatique de textes, et la détection de dégradations ou d'enluminures dans les manuscrits.

 

Courrier d’Erevan : Travaillez-vous uniquement à Erevan ou également en région ? Comment gérez-vous la logistique et les différences linguistiques dans vos workshops ?

Sean Ludalgoren : Nos derniers workshops ont principalement eu lieu à Erevan, la capitale de l'Arménie, mais nous sommes tout à fait ouverts à l'idée d'élargir notre action à d'autres régions. Cependant, cela dépend de plusieurs facteurs, notamment du niveau des étudiants et de la logistique sur place. Un défi majeur est la langue, car nos workshops sont principalement dispensés en anglais. Cela peut limiter notre capacité à travailler dans des régions où les étudiants ne maîtrisent pas suffisamment cette langue.

Nous collaborons étroitement avec des institutions basées à Erevan, ce qui facilite l'accès aux documents et aux lieux nécessaires pour nos ateliers. Cela nous permet également de bénéficier d'un soutien logistique et pédagogique local, ce qui est essentiel pour le bon déroulement des workshops.

 

Courrier d’Erevan : Pouvez-vous nous en dire plus sur les workshops que vous organisez, notamment avec TUMO ? Comment sélectionnez-vous les étudiants pour ces ateliers ?

Chahan Vidal-Gorène : Les workshops que nous organisons, en particulier avec TUMO, sont une partie essentielle de notre engagement envers l'éducation et la formation des jeunes talents en Arménie. TUMO est un centre d'apprentissage innovant qui offre aux jeunes des formations dans divers domaines technologiques et créatifs. Nos ateliers avec TUMO sont conçus pour initier les étudiants à l'application de l'intelligence artificielle dans le domaine du patrimoine culturel.

La sélection des étudiants pour ces workshops est un processus collaboratif. Les équipes pédagogiques de TUMO jouent un rôle crucial dans cette sélection, car elles connaissent bien les étudiants et leurs compétences. Nous avons besoin de participants ayant un certain niveau technique en programmation, car même si des outils d'intelligence artificielle sont presque prêts à l'emploi, il est essentiel de savoir les adapter et les réentraîner pour des applications spécifiques.

Les étudiants qui participent à nos ateliers s'inscrivent dans un parcours pédagogique plus large, qui inclut des sessions d'auto-apprentissage et divers workshops couvrant différentes thématiques. Notre atelier est l'un des plus complexes, car il implique une immersion pratique dans l'intelligence artificielle. Les étudiants doivent produire un livrable concret pour un partenaire institutionnel, ce qui est très valorisant pour eux. Cela leur permet de voir l'impact direct de leur travail et de comprendre comment leurs compétences peuvent être appliquées à des projets réels.

 

Courrier d’Erevan : Comment l'idée de créer CALFA vous est-elle venue ? Quels ont été les défis que vous avez rencontrés ?

Chahan Vidal-Gorène : L'idée de créer CALFA est née en 2014, alors que j'étais étudiant à l'INALCO (Institut National des Langues et Civilisations Orientales) et que j'apprenais l'arménien classique. À cette époque, j'utilisais un dictionnaire d'arménien classique français appelé CALFA, qui était un outil essentiel pour les étudiants de cette langue. Un jour, j'ai réalisé que j'avais acheté le dernier exemplaire disponible de ce dictionnaire, ce qui m'a fait réfléchir à la manière de le rendre accessible en ligne.

Cette prise de conscience a été le point de départ de CALFA. Nous avons commencé par numériser le dictionnaire, mais nous avons rapidement compris que nous pouvions aller bien au-delà de la simple numérisation. Nous avons développé des fonctionnalités supplémentaires pour enrichir le dictionnaire, telles que l'ajout de synonymes, de traductions latines et grecques, et d'autres informations contextuelles.

Cependant, le processus de numérisation et d'enrichissement des données n'a pas été sans défi. L'un des principaux défis a été de développer des modèles d'IA capables de reconnaître et de traiter des langues et des graphies non latines, qui sont souvent négligées par les outils standard. Nous avons dû adapter et entraîner des modèles spécifiques pour des langues comme l'arménien et l'arabe, ce qui a nécessité une collaboration étroite avec des laboratoires de recherche en France.

 

Courrier d’Erevan : Quels sont les défis techniques que vous rencontrez, notamment avec des langues comme l'arménien ou l'arabe ? Comment gérez-vous ces défis ?

Chahan Vidal-Gorène : Les défis techniques que nous rencontrons sont nombreux et variés, notamment en raison de la complexité des langues et des graphies avec lesquelles nous travaillons. Les modèles de transcription automatique existants sont souvent spécialisés dans les langues latines, ce qui signifie qu'ils ne sont pas adaptés pour des langues comme l'arménien ou l'arabe.

Pour surmonter ces défis, nous avons dû développer des approches spécifiques. Par exemple, en arabe, la reconnaissance de caractères individuels n'est pas suffisante, car la langue utilise des formes de mots complexes. Nous avons donc dû adapter les architectures des modèles pour qu'ils puissent reconnaître ces formes de mots. Cela a nécessité une collaboration étroite avec des laboratoires de recherche en France, ainsi qu'une démarche ouverte de partage des données et des modèles.

Un autre défi majeur a été de gérer les variations et les abréviations dans les manuscrits anciens. Les manuscrits arméniens, par exemple, sont souvent abrégés et peuvent être difficiles à lire même pour des experts. Nous avons développé des approches pour détecter et interpréter ces abréviations, ce qui a nécessité une combinaison de techniques d'IA et de validation humaine.

 

Courrier d’Erevan : Avec quelles institutions en France travaillez-vous principalement ? Comment ces collaborations se sont-elles développées ?

Chahan Vidal-Gorène : En France, nous collaborons avec une variété d'institutions et de laboratoires de recherche. Nous travaillons également avec la Bibliothèque nationale de France (BNF), ainsi que sur des projets financés par l'ANR (Agence Nationale de la Recherche) et l'ERC (European Research Council).

Ces collaborations se sont développées naturellement, car il existe une synergie évidente entre nos objectifs et ceux de ces institutions. Nous apportons notre expertise technique en IA, tandis que nos partenaires apportent leur connaissance approfondie des collections et des besoins spécifiques en matière de préservation et d'analyse de documents.

 

Courrier d’Erevan : Comment votre initiative a-t-elle été reçue en Arménie ? Quels ont été les principaux défis et succès ?

Chahan Vidal-Gorène : En Arménie, notre initiative a été bien accueillie, mais elle a également nécessité un travail de sensibilisation et de compréhension. Les institutions patrimoniales en Arménie ont montré un grand intérêt pour l'utilisation de l'IA dans la numérisation et la diffusion de leurs collections. Cependant, il a fallu du temps pour expliquer les avantages et les limites de l'IA, et pour montrer comment elle pouvait être utilisée de manière efficace et responsable.

L'un des principaux défis a été de faire comprendre que l'IA n'est pas une solution magique qui peut remplacer le travail humain, mais plutôt un outil qui peut aider à automatiser certaines tâches et à améliorer l'efficacité. Une fois cette compréhension établie, nous avons pu collaborer de manière plus productive avec les institutions locales.

 

Courrier d’Erevan : Quels sont vos projets futurs pour CALFA ? Comment voyez-vous l'avenir de l'intelligence artificielle en Arménie ?

Chahan Vidal-Gorène : Nous avons de nombreux projets futurs pour CALFA, notamment en Arménie. L'un de nos principaux objectifs est de continuer à développer des modèles de transcription automatique pour les manuscrits et les archives, ainsi que d'explorer de nouvelles applications de l'IA dans le domaine du patrimoine culturel.

Nous croyons fermement que l'Arménie a un grand potentiel pour devenir un acteur majeur dans le domaine de l'IA, en particulier pour les applications liées à la préservation et à l'analyse de documents patrimoniaux. Cependant, pour réaliser ce potentiel, il est essentiel de continuer à investir dans la formation et l'éducation, et de collaborer avec des institutions locales et internationales.

 

Courrier d’Erevan : Comment CALFA contribue-t-elle à la préservation des manuscrits ? Quelles techniques utilisez-vous pour détecter et prévenir la dégradation des documents ?

Chahan Vidal-Gorène: CALFA contribue à la préservation des manuscrits en utilisant des techniques avancées de suivi et de détection de la dégradation des documents. Ces techniques sont similaires à celles utilisées en médecine pour suivre l'évolution des tumeurs, mais adaptées pour les manuscrits et les documents anciens.

Nous utilisons des modèles d'IA pour surveiller l'état des manuscrits et détecter les signes de dégradation. Cela permet de préserver les documents et de planifier des interventions de restauration lorsque cela est nécessaire. Ces techniques sont basées sur des algorithmes d'apprentissage automatique qui peuvent analyser des images de haute résolution des manuscrits et identifier les zones à risque.

 

Courrier d’Erevan : Quelle a été la plus grande difficulté que vous avez rencontrée avec CALFA ? Comment l'avez-vous surmontée ?

Chahan Vidal-Gorène: L'une des plus grandes difficultés que nous avons rencontrées a été de faire comprendre ce que l'intelligence artificielle peut et ne peut pas faire. Il y a souvent une perception erronée que l'IA peut remplacer entièrement le travail humain, ce qui n'est pas le cas. L'IA est un outil puissant qui peut automatiser certaines tâches et améliorer l'efficacité, mais elle nécessite toujours une supervision et une validation humaines.

Pour surmonter cette difficulté, nous avons mis l'accent sur l'éducation et la sensibilisation. Nous avons travaillé en étroite collaboration avec les institutions patrimoniales pour expliquer les avantages et les limites de l'IA, et pour montrer comment elle peut être utilisée de manière responsable et efficace. Cela a nécessité du temps et des efforts, mais cela a finalement permis d’établir une collaboration plus productive et mutuellement bénéfique.

 

Courrier d’Erevan : Comment voyez-vous l'avenir de la collaboration entre la France et l'Arménie dans le domaine de l'IA et du patrimoine culturel ?

Chahan Vidal-Gorène: Je vois un avenir prometteur pour la collaboration entre la France et l'Arménie dans le domaine de l'IA et du patrimoine culturel. Les deux pays ont beaucoup à offrir et à apprendre l'un de l'autre, et il existe une synergie évidente entre leurs objectifs et leurs compétences.

Nous avons déjà signé des mémorandums de collaboration avec des institutions en Arménie, et nous espérons que ces collaborations continueront à se développer et à s'approfondir. En travaillant ensemble, nous pouvons préserver et valoriser le patrimoine culturel, tout en développant des technologies innovantes qui bénéficieront aux deux pays et au monde entier.