C’est l’une des utilisations très concrètes de l’intelligence artificielle : la transcription automatique en texte à partir d’un fichier audio : une révolution pour les étudiants, les médecins, les journalistes notamment, mais aussi dans les entreprises.
Publié
Temps de lecture : 2 minutes
Au cours de l’année écoulée, le nombre de solutions logicielles ou matérielles de transcription automatique basées sur l’IA a explosé. Depuis septembre 2022 – pour être précis – et la sortie de Whisper, une autre technologie d’intelligence artificielle, mise à disposition par OpenAI. Nous sommes alors à deux mois du lancement public de son autre bébé, chatGPT, qui attirera encore plus l’attention… Mais parallèlement à ce succès planétaire, Whisper va commencer à servir de base à une multitude d’applications de conversion de fichiers audio vers texte.
Prenons l’exemple d’un journaliste qui mène une interview, et qui a besoin de retranscrire l’audio des questions et réponses : un exercice fastidieux qui peut prendre plusieurs heures. Désormais, grâce à l’IA, il suffit d’importer le fichier audio dans une application ou un logiciel pour obtenir, en quelques secondes, la retranscription complète de l’entretien sous forme texte.
La fidélité de ce texte dépend de la qualité audio, de la qualité de l’IA et de son modèle : plus elle est grande, plus elle nécessite de mémoire et de puissance, plus le traitement demande de temps mais aussi plus la transcription est précise. La fidélité du texte dépend finalement de la langue. Les IA américaines sont moins formées en français qu’en anglais. Alors oui, il y a toujours des erreurs à corriger mais le gain de temps est, dans tous les cas, spectaculaire.
Pour profiter de ces transcriptions automatiques avec IA, vous pouvez donc utiliser une application ou un logiciel. Il en existe des dizaines qui s’appuient soit sur Whisper, soit sur d’autres technologies comme Watson d’IBM. Par exemple, sur Android, Google Speechnotes ; Transcrire sur iPhone ; sur PC, reconnaissance vocale intégrée à Windows ; et sur Mac, MacWhisper. Dans cette galaxie, on rencontre plusieurs modèles économiques : du gratuit au payant, en passant par les abonnements avec un quota de minutes de transcription par mois, ou encore la traduction vers d’autres langues.
Dans tous les cas, préférez les applications qui assurent la transcription locale, c’est-à-dire sans utiliser le Cloud, comme Chuchotis, proposée sur Mac par Denis Delbecq, ancien chercheur et journaliste au quotidien suisse. La météoun collègue très attentif à la confidentialité et à la protection des informations sensibles.
Et puis, il y a cet accessoire, le Plaud Note, lancé en Europe la semaine dernière, lors du salon Viva Technology à Paris. Imaginez un dictaphone révolutionnaire en aluminium, au format carte de crédit, et également fin, collé magnétiquement dans son étui, au dos de votre smartphone. Une simple pression sur un bouton et le Plaud Note enregistre, via des microphones et des capteurs de vibrations, soit le son autour de vous, soit votre conversation téléphonique. Le passage en mode enregistrement est confirmé par une vibration haptique et l’activation d’une diode rouge.
L’application mobile permet ensuite d’obtenir la transcription, et même un résumé époustouflant, grâce à chatGPT version 4, avec plusieurs formats possibles (conférence, cours, consultation médicale, discussion, etc.). Je l’ai essayé pour une soutenance de thèse, c’était spectaculaire. Seul bémol : l’utilisation d’un Cloud encore nébuleux. Une future mise à jour pourrait permettre de cibler un Cloud en France, pour une plus grande sécurité des données, et de choisir une autre IA comme celle de l’IA française Mistral.