Christopher Kermorvant est CEO de Teklia, spécialiste de la
compréhension automatique de documents numérisés.
teklia.com
Teklia est une société dédiée à la compréhension automatique de documents numérisés (classification, reconnaissance d'écriture et extraction d'information) : manuscrits, livres anciens, illustrations et autres archives numérisés. Nous travaillons avec des services d’archives et des bibliothèques qui ont besoin, au-delà de la numérisation, de permettre à leurs utilisateurs d’effectuer des recherches dans les documents, quel que soit le format ou la langue. Quant aux entreprises, nous intervenons sur le traitement des flux entrants tel que le courrier par exemple. L’utilisation de notre outil présente un réel bénéfice lorsque l’accès au texte est compliqué. Si l’accès est simple, pour une facture par exemple, il n’y a pas besoin de recourir à une IA. L’IA est utile lorsque les documents ne sont pas homogènes, comme la documentation d’entreprise écrite sur des longues périodes de temps par des sources différentes. Dans ce cas, le contenu varie et l’IA peut améliorer la compréhension du contenu textuel.
C’est une fois les documents numérisés que nous commençons à intervenir. Notre point de départ est la photo du document numérisé. L’inconvénient de travailler sur une photo est l’impossibilité d’accès au texte mais uniquement au pixel. Nous commençons donc par transformer l’image en texte électronique via un traitement d’OCR (optical character recognition ou reconnaissance optique de caractères) - régulièrement effectué sur les documents modernes mais peu sur les anciens documents. La complexité augmente en fonction du format du document (parchemin, manuscrit) ou de la langue s’il s’agit d’une langue ancienne. Les modèles qui permettent de transformer l’image en texte électronique sont des modèles basés sur l’IA et sur l’apprentissage automatique. L’entraînement des algorithmes est réalisé via une multitude d’exemples de textes retranscrits où image et texte sont alignés afin que le modèle puisse apprendre à transcrire. L’IA intervient pour analyser l’image et transformer l’image de l’écriture en un texte électronique.
En ce qui concerne notre approche multilangue, on constate aujourd’hui que les technologies sont identiques quelle que soit la langue. Tout type d’écriture peut donc être reconnue à partir du moment où des exemples sont fournis. C’est la phase d’apprentissage qui permet la reconnaissance de toutes les langues : chinois, latin, arabe, etc.
J’évolue depuis une quinzaine d’années dans l’analyse d’écriture. Avant de fonder Teklia, j’ai dirigé l’équipe de recherche de l’éditeur français A2iA
(racheté par un éditeur américain spécialisé dans le traitement de documents modernes). Chez Teklia, nous travaillons à la fois sur des manuscrits royaux français datant du XIVème siècle que des livres d’heures ou des collections en provenance de musées d’Histoire naturelle. C’est cette diversité de documents à analyser qui m’intéresse.
Bien entendu, la technologie a fortement évolué depuis mes débuts dans l’analyse d’écriture. La révolution date de 2009 avec l’essor du deep learning. Avant, les modèles étaient optimisés pour une seule langue et leur conception nécessitait beaucoup de temps avec un traitement spécifique par langue. Avec l’arrivée du deep learning, nous sommes passés sur un modèle basé sur l’apprentissage, c’est-à-dire sur l’entraînement des modèles à partir des données. Nous avons mis 4 voire 5 ans pour mettre en place le modèle et connaître la composition des réseaux de neurones. Aujourd’hui, les modèles sont considérés comme stables et nombreux modèles sont développés par des équipes de recherche à travers le monde dont nous pouvons nous inspirer pour nos moteurs de reconnaissance. Le principal enjeu est la phase d’apprentissage : collecter les données et les nettoyer pour obtenir des données performantes qui permettront d’entraîner le modèle correctement. Si le modèle est basé sur des données erronées, il va continuer à reproduire des erreurs.
Les défis sont de plusieurs ordres. D’une part, le recueil de données d’apprentissage notamment lorsque peu de personnes sont capables de lire des écritures issues de documents anciens par exemple. La diversité du vocabulaire ou de la langue constitue aussi un défi. Si nous sommes confrontés à un langage générique, nous aurons des milliards d’exemples sur lesquels nous baser. En revanche, lorsque nous traitons un domaine très spécifique, nous rencontrons des difficultés à reconnaître les textes parce que nous n’avons pas d’autres exemples en dehors du corpus. Par ailleurs, la mise en forme du document pose aussi des limites. Lorsque des documents comportent des commentaires inscrits sur d’autres commentaires dans une marge, le déchiffrage s’avère plus
compliqué. On essaye d’entraîner les algorithmes à ce sujet qui interviennent à deux niveaux : à la fois sur la structure du document (lignes, marges et comment nous les organisons les unes par rapport aux autres) et la reconnaissance d’écriture dans chacune des structures préalablement identifiées.
Prenons l’exemple d’une bibliothèque. La première étape consiste à numériser les documents : cette opération de transformer des documents physiques en image est externalisée. Bien qu’un grand nombre de documents soient numérisés, il en reste encore un très grand nombre qui ne l’est pas notamment aux archives nationales.
La deuxième étape vise à annoter, retranscrire une partie des documents, et ce pour deux raisons : d’une part, entraîner et adapter un modèle de reconnaissance, puis d’autre part, estimer les performances du modèle de reconnaissance et le pourcentage d’erreur. S’il y a 10 000 pages à retranscrire automatiquement, il faut identifier le taux d’erreur sur ces pages. Nous devons alors transcrire manuellement une cinquantaine de pages et calculer sur ces pages, la différence entre ce que fait la machine et ce que fait un humain : la machine fait 10% de plus d’erreur de l’humain, est-ce un pourcentage satisfaisant ? Ces deux phases ne sont pas très longues. Tout dépend des compétences des personnes en charge de la retranscription pour identifier le taux d’erreur. Si nous travaillons sur une langue ancienne, cela peut prendre du temps. Généralement ce sont des experts paléographes qui interviennent et ils ont généralement peu de temps à accorder à la retranscription pour entraîner les machines.
Le but de la troisième étape est de compiler l’ensemble sur des serveurs puis de faire tourner les algorithmes. Les retranscriptions sont générées automatiquement sur l’ensemble du document. Une fois la transcription effectuée, celle-ci comporte un taux d’erreur. Nous n’allons donc pas utiliser la transcription telle quelle. L’utilisateur va accéder au document initial, sous forme d’image et la transcription va servir à l’utilisateur à effectuer des recherches très précises dans l’ensemble du document. Nous mettons à sa disposition un outil de recherche pour parcourir le document par mots clés, identifier des entités, des noms d’individus par exemple et/ou effectuer de la classification.
Faites vous aussi partie de l'annuaire 2021 de l'IA et référencez-vous ! Complétez votre fiche entreprise et dites-nous en plus sur votre histoire, vos produits et votre savoir-faire.
COMPLÉTER MA FICHERetrouvez toutes nos références liées à l'intelligence artificielle : dossiers et articles inédits, interviews, organismes d'accompagnement et de subventions, instituts de recherche, lectures conseillées...
EN SAVOIR PLUS