ShareDocs - Outils de traitement¶

Dans ShareDocs 5 outils de traitement sont disponibles :

Conversion de fichiers de formats Audio
Reconnaissance de caractère (ORC)
Reconnaissance de texte dans les PDF
Reconnaissance vocale automatique (SpeechToText)
Conversion de fichiers de formats Vidéo

Fonctionnement du dossier hnTools_WatchFolder¶

Sous l’arborescence du compte utilisateur, on trouvera un répertoire hnTools_watchFolder qui contient des outils de conversion. Ce répertoire fonctionne sur le principe de Watch Folder : une fois qu’un fichier est déposé, un processus scanne à fréquence régulière les fichiers et crée une demande de traitement à un outil spécifique. À la fin du traitement, un email est envoyé automatiquement à la personne qui a déposé le fichier pour lui indiquer que le document produit est prêt. On peut donc le récupérer. Les watchfolder ne sont pas un espace de stockage. Les fichiers sont automatiquement supprimés au bout de 21 jours. Aucune sauvegarde ou copie n’est effectué, il n’est donc pas possible de demander une restauration.

Le nom du répertoire et de ses sous-répertoires définit le traitement qui est effectué dessus. La structure est de la forme hnTools_watchFolder / [Tool] / [Engine] / [Preset1] / [Preset2].

L’organisation des répertoires de traitement est la suivante :

- Audio
    |- ffmpeg
       |- vers choix du format audio (MP3, MP4_aac-lc, WAV)
- OCR
    |- AbbyyCloud
       |- choix du format de sortie et de la langue
    |- AbbyyServer
       |- choix du format de sortie et de la langue
    |- Abbyy FineReader station
       |- envoi du fichier vers un opérateur pour correction.
    |- Tesseract
       |- choix du format de sortie et de la langue
- PDF
    | - ghostscript
       |- choix de la compression (PDF to PDF)
    | - xpdf
       |- toText
- SpeechToText
    | - Whisper
        |- large
        |- Medium
        |- Small 
        |- with_speaker
- Video
    | - ffmpeg
       |- vers choix du format vidéo (MP4, WebM)

Par exemple pour lancer un OCR via Abbyy Server vers le format Word pour un document en allemand, il faut placer le ou les fichiers dans hnTools_watchFolder / OCR / abbyyServer / toWord / German le résultat se trouvera dans le même répertoire avec le postfixe _hnOCR.docx

Conversion/transcodage audio et Vidéo¶

NOTE : ce chapitre traite des dossiers audio et vidéo. Le transcodage audio/vidéo utilise FFmpeg comme engine par défaut. Un programme comme [HandBrake] (https://handbrake.fr/) utilise FFmpeg comme outil de conversion et permet d’avoir accès dans une GUI à toutes ses options. Il est a noter qu’en vidéo, on parle de transcodage plutôt que de conversion, car le changement de format est un changement significatif dans la façon de coder un média et implique souvent une perte d’information par rapport au média source, car on change sa façon de le représenter, voire on simplifie sa représentation vers le spectre visuel et auditif courant. La nomenclature du nom des presets est : [conteneur] - [codec] - [options spécifiques].

Les presets pour l’audio sont :

toMP3 : transcodage en MP3 sans option
toWAV : transcodage en WAV (codage PCM / Pulse Code Modulation) sans option
toMP4_aac-lc : conteneur MP4 avec codec audio AAC (Low Complexity)

Pour la vidéo, les presets généraux sont :

toMP4_h264 : conteneur MP4 avec codec vidéo h264, codec audio AAC
toMP4_h265 : conteneur MP4 avec codec vidéo h265, codec audio AAC
toMP4_h264_720p : conteneur MP4 avec codec vidéo h264, codec audio AAC, 720 lignes max de hauteur
toMP4_h264_1080p : conteneur MP4 avec codec vidéo h264, codec audio AAC, 1080 lignes max de hauteur

Pour la vidéo, les presets suivants ont été faits pour la publication d’un flux sur un site web avec une limitation du débit.

toMP4_h264_1200kbps : conteneur MP4 avec codec vidéo h264, codec audio AAC, hauteur max 552 , limitation du débit à 1200 kbps
toMP4_h264_2400kbps : conteneur MP4 avec codec vidéo h264, codec audio AAC, hauteur max 694 , limitation du débit à 2400 kbps
toWebM_vp8_1200kbps : conteneur WebM avec codec vidéo VP8, codec audio Vorbis, hauteur max 552 , limitation du débit à 1200 kbps
toWebM_vp8_2400kbps : conteneur WebM avec codec vidéo VP9, codec audio Vorbis, hauteur max 694 , limitation du débit à 2400 kbps
toWebM_vp9_1200kbps : conteneur WebM avec codec vidéo VP8, codec audio Vorbis, hauteur max 552 , limitation du débit à 1200 kbps
toWebM_vp9_2400kbps : conteneur WebM avec codec vidéo VP9, codec audio Vorbis, hauteur max 694 , limitation du débit à 2400 kbps

Pour les traitements Audio/Video, comme certains formats peuvent produire plusieurs fichiers (comme le HLS / HTTP Live Streaming), la source est à mettre dans le répertoire IN et le résultat sera placé dans le répertoire OUT.

Pour l’ajout d’autres presets, vous pouvez en faire la demande à l’adresse suivante : assistance@huma-num.fr.

Reconnaissance de caractères (OCR)¶

Le résultat sera mis dans le même répertoire avec l’ajout _hnOCR dans le nom du fichier.

Conditions d’utilisations des logiciels d’OCR¶

Ces outils sont à utiliser dans un cadre professionnel.

Les outils d’Abbyy sont soumis au paiement d’une redevance annuelle au nombre de pages. Il est donc limité par défaut à 900 pages par utilisateur et par an. Si un document est envoyé vers un format Word puis ensuite vers un format texte, il sera compté deux fois. Les demandes d’augmentation de quota sont à faire à l’adresse assistance@huma-num.fr. Le contrat avec Abbyy est valable jusqu’à juin 2025. Au-delà de cette date, nous ne pouvons garantir sa reconduction. L’ensemble des outils ne peuvent pas traiter de document crypté ou faisant l’objet d’une protection ou d’une restriction d’accès.

L’OCR Tesseract est un OCR open source, il n’y a pas de quota dans le nombre de fichiers.

Les tâches de traitement sont supervisées par un administrateur de l’IR* Huma-Num qui vérifie l’état des quotas, les erreurs de fichiers, ou les processus incohérents. Cette personne est susceptible de voir les documents, notamment pour l’administration et la gestion du serveur Abbyy FineReader. Concernant l’usage spécifique d’Abbyy Cloud, les documents sont supprimés de leur serveur au bout de 24h, le niveau de sécurité de leur service est décrit sur cette page. Pour une stricte confidentialité des documents, il est rappelé qu’aucun document ne doit être déporté vers un service externe de quelque nature que ce soit, mais doit être fait localement à son poste de travail dans des conteneurs cryptés. Un conteneur crypté certifié par l’ANSSI et de niveau EU restricted est accessible sur cette page.

Tesseract¶

Tesseract ne pouvant lire des fichiers PDF, une conversion PDF vers TIFF est automatiquement faite. À noter que Tesseract ne peut pas produire de fichier word ou excel.

AbbyyCloud¶

Le montant des licences Abbyy FineReader correspond à un nombre de pages océrisées par année. Le quota fixé est de 900 pages par utilisateur, il se ré-initialise tous les ans au renouvellement du contrat en juin. Quand on utilise Abbyy Cloud, le fichier est envoyé sur le serveur d’Abbyy situé en Europe dans le Cloud de Microsoft Azure. Pour les documents confidentiels, il faut utiliser Abbyy Fine Reader serveur (AbbyyServer). AbbyyCloud est fait pour traiter rapidement des petits documents. Les fichiers ne doivent pas excéder 30Mo. Au-delà, il faut utiliser Abbyy Fine Reader serveur. Le moteur d’OCR est régulièrement mis à jour par Abbyy. L’option oldLanguage est activée par défaut.

Déposer le fichier dans le dossier voulu (choisir le format de sortie puis la langue du document à traiter), le résultat se récupère au même endroit.

AbbyyServer¶

Le montant des licences Abbyy FineReader correspond à un nombre de pages océrisées par année. Le quota fixé est de 900 pages par utilisateur, il se ré-initialise tous les ans au renouvellement du contrat en juin. Quand on utilise Abbyy Fine Reader server, le fichier est envoyé sur un serveur interne à Huma-Num qui doit pouvoir traiter des documents jusqu’à 2 Go. Le moteur d’OCR est mis à jour une fois par an.

L’option oldLanguage dit Fraktur (ancien allemand, français, anglais, italien espagnol) faisant l’objet d’une facturation spécifique d’Abbyy, elle n’est pas active par défaut sur les comptes. Il faut en faire la demande à l’adresse mail assistance@huma-num.fr On trouvera en plus du fichier reconnu par l’OCR un fichier ayant le même nom, mais avec la double extension .result.xml qui est le rapport statistique de l’OCR.

AbbyyStation¶

Cet outil n’est pas activé par défaut sur les comptes, il faut en faire la demande à l’adresse mail assistance@huma-num.fr.

Il s’agit du même outil qu’Abbyy FineReader Server sauf qu’à la fin du traitement, le fichier est envoyé vers un opérateur pour relecture et apprentissage. Cela implique de configurer un ordinateur sous Microsoft Windows avec Abbyy FineReader Station pour recevoir le document et faire de l’apprentissage d’OCR dessus.

Huma-Num n’a pas d’opérateur affecté aux tâches d’apprentissage/correction.

Traitement PDF¶

ghostscript : compression.¶

L’outil pdfToPdf_xxx permet de convertir un PDF pour l’alléger suivant trois preset qui sont :

Screen : compression la plus forte avec des images à 72 dpi
Ebook : compression la plus forte avec des images à 150 dpi
Printer : compression faible avec des images à 300 dpi
Prepress : compression faible avec des images à 300 dpi mais conservation de l’espace colorimétrique.

On trouvera les variables affectées à chaque preset sur cette page dans la section Distiller Parameters.

xpdf : conversion txt.¶

Le dossier pdfToTexte permet la conversion des fichiers PDF en .txt. Il est fait pour les PDF qui sont déjà en mode texte, et pour lesquels il n’est pas utile de faire de l’OCR dessus. Déposer le fichier dans le dossier toTexte, le résultat sera mis dans ce même répertoire avec l’extension .txt.

SpeechToText (Whisper)¶

Huma-Num met à disposition, de manière expérimentale, un service de retranscription automatique fondé sur le modèle d’apprentissage Whisper utilisant des principes de l’intelligence artificielle générative. Whisper est développé par l’entreprise américaine OpenAI. Dans le cadre de la mise en place de ce service, Huma-Num adapte actuellement ses équipements de puissance de calcul GPU (Graphics Processing Unit) pour structurer un service et l’adapter aux besoins croissants des utilisateurs. Cette expérimentation doit aussi mettre en œuvre les conditions d’utilisation éclairée d’outils utilisant l’IA générative avec notamment des informations sur les questions éthiques et les biais recensés dans la littérature scientifique.

Utilisation¶

L’accès à ce service se fait depuis le dossier SpeechToText de ShareDocs qui permet d’extraire à partir de fichiers audio des transcriptions textuelles.

Whisper utilise le programme ffmpeg pour lire les fichiers audio-video. La plupart des Codecs sont supportés dans la limite de cette liste (sauf ceux qui requièrent un programme externe).

Le fichier à transcrire est à déposer dans le dossier selon deux choix, d’abord le modèle, puis la langue :

Modèles :

Sont disponibles dans l’implementation d’Huma-Num, les versions des modèles : small (244 millions de paramètres), medium (769 millions de paramètres) et large (1550 millions de paramètres). Cela désigne la taille du réseau de neurones utilisé par OpenAI pour faire de l’inférence. Ce choix influe sur la durée du traitement.

Le modèle with_speaker permet la reconnaissance du locuteur. C’est une combinaison de Whisper pour la transcription avec une reconnaissance du locuteur (Voice Activity Detection (VAD) et utilisant du Speaker Embedding). Cela s’appuie sur le code Speaker Diarization Using OpenAI Whisper développé par Mahmoud Ashraf (Machine learning Research Engineer chez Unify.ai).

Langues disponibles :

Plusieurs langues sont disponibles : le français, l’anglais, l’italien, l’espagnol, l’allemand et le mode « auto ». Précision sur la langue « auto » : il s’agit d’une détection automatique de la langue qui utilise les 30 premières secondes du fichier audio soumis au traitement.

Modalités de mise à disposition¶

Les fichiers sources que vous soumettez pour traitement dans les watchFolder de ShareDocs sont stockés sur un volume de stockage spécifique (hébergé en France, au centre de calcul de l’IN2P3) du CNRS). Ils sont supprimés par processus automatique au bout de 21 jours. Ils ne sont plus récupérables à l’issue de ces 21 jours. Ainsi, les fichiers sources et transcriptions obtenues sont donc à conserver dans vos espaces personnels hors des watchFolder. Huma-Num n’utilise pas les fichiers sources et les transcriptions pour d’autres traitement ou opérations. Afin de se prémunir contre un risque de boucle (un même fichier qui serait traité indéfinement), le séquenceur d’opération qui pilote le dispositif garde pendant 23 jours la liste des noms des fichiers traités. Ainsi, vous ne pouvez pas soumettre de fichier ayant le même nom sur une période glissante de 23 jours (i.e. jusqu’à la purge des fichiers dans la base de donnée du séquenceur). Comme pour les autres services en watchFolder, un mail est adressé à la fin du traitement au demandeur afin de récupérer le ou les fichiers traités.

Puissance informatique mise en œuvre

La transcription de l’audio vers le texte est effectuée sur un serveur de calcul dédié à cette tâche, hebergé au centre de calcul de l’IN2P3 du CNRS à Villeurbanne.

Une capacité de 6 cartes GPU NVIDIA génération Ada Lovelace (L4) est affectée pour une capacité de traitement de 11.000 heures par mois. Suivant la durée du fichier et le nombre de dépôts simultanés, le delai de traitement peut aller d’1 à 24 heures. Pour l’ordonnancement des tâches, le temps de traitement dépend de la durée du fichier et le temps de démarrage dépend du nombre de personnes qui ont soumis des fichiers.

IA Générative¶

Le service SpeechToText relève du périmètre des IA génératives. Cela induit notamment que le service produira toujours une réponse, mais qui peut potentiellement être erronnée et relevant de biais. Ainsi pour un même fichier source, le résultat ne sera pas forcément identique. Voici quelques références sur les biais repérées d’IA génératives :

Hallucination (intelligence artificille) (Wikipedia)
Whisper-v3 Hallucinations on Real World Data (Francisco, J-N. Medium 2023)
Effet Eliza (Wikipedia)
Le générateur GPT-3 d’OpenAI : Impacts technologiques, sociétaux, éthiques et l’effet ELIZA (AI For Tomorrow, collectif 2020)
Automatiser et autonomiser la retranscription d’entretien (Chitour, Y. The Computational Social Science group of the Institut Polytechnique de Paris 2024)
On the Origin of Hallucinations in Conversational Models: Is it the Datasets or the Models? (Dziri et al., NAACL 2022)

Questions et contact¶

Pour tout problème ou question lié à l’utilisation de Sharedocs et des outils mentionnés, veuillez envoyer un mail à l’adresse suivante : assistance@huma-num.fr.