Publié le 15/01/2024
Les assistants personnels comme Siri ou Alexa permettent d'allumer la télévision ou d'éteindre la lumière simplement en le demandant. Cependant, ils ont des difficultés à comprendre une personne ayant des troubles de la parole. Il en va de même pour les applications qui permettent de scanner du texte mais ne le lisent pas à haute voix, ce qui est indispensable pour une personne malvoyante. L'intelligence artificielle peut être un soutien pour surmonter ces obstacles, comme des programmes formés pour traiter toutes sortes de discours et d'intonations de voix ou des lunettes intelligentes qui peuvent décrire notre environnement.
Certains usages de l'intelligence artificielle ces dernières années se concentrent sur la génération d'images et de vidéos à partir d'instructions textuelles, les fameux 'prompts'. Mais il existe des applications qui permettent de faire le processus inverse : télécharger une photo ou enregistrer une vidéo et qu'une intelligence artificielle décrive les éléments présents dans l'image.
C'est le cas de Be My Eyes, une application qui, depuis août 2023, a intégré cette technologie pour décrire des images aux utilisateurs malvoyants. Jusqu'à présent, il fallait attendre de contacter un bénévole via cette plateforme pour recevoir ce type d'assistance, mais avec l'intelligence artificielle, c'est plus simple.
Le modèle de langage GPT-4, la même technologie utilisée par ChatGPT, permet de demander ce soutien à une intelligence artificielle et de demander de l'aide pour chercher des objets tombés, lire des étiquettes ou nous guider dans un lieu. Be My Eyes est disponible sur Play Store et App Store.
Ask Envision est un autre projet qui utilise la technologie de ChatGPT pour donner de nouveaux outils aux personnes ayant des problèmes de vision. Au lieu d'une application mobile, Ask Envision utilise les lunettes Envision : des lunettes connectées à internet basées sur la technologie Google Glass qui permettent de prendre des images de notre environnement et de nous faire une description des éléments qui nous entourent.
Par exemple, il est possible de scanner le menu d'un restaurant et de lire la carte complète ou de demander à l'assistant quelles options végétariennes existent. Les lunettes Envision sont disponibles à partir de 1 899 euros dans leur version de base.
L'intelligence artificielle a sa place dans le monde du son et de la parole. Comme des applications telles que Google Translate, qui permet de traduire toute conversation en temps réel (un outil utile pour demander des directions dans d'autres langues si nous voyageons), Google Live Transcript (disponible sur Play Store) réalise une transcription en temps réel des conversations environnantes et avertit des sons comme l'aboiement d'un chien ou la sonnette d'une porte.
Ces outils de traduction peuvent également être utilisés dans les langues des signes. C'est le projet de Priyanjali Gupta, une étudiante en ingénierie à l'Institut de Technologie de Vellore, en Inde, qui a développé une intelligence artificielle capable de traduire en temps réel la langue des signes américaine (ASL, pour ses initiales en anglais, utilisée aux États-Unis, au Canada et au Mexique) en anglais écrit.
L'intelligence artificielle peut être utilisée comme support pour développer différentes compétences ou comme une ressource thérapeutique pour les enfants ayant des troubles de la parole, comme Timlogo. C'est une plateforme en ligne (disponible uniquement en roumain) développée par l'entreprise roumaine Ascendia qui propose des jeux destinés à des patients mineurs et est capable d'analyser la prononciation des enfants pour détecter des problèmes spécifiques dans leur discours et offrir des exercices personnalisés grâce à cette technologie.
Les personnes sourdes peuvent avoir des difficultés de parole, ce qui peut compliquer la communication orale avec d'autres personnes. Bien qu'il existe des outils capables de convertir le texte écrit en parole (un processus connu sous le nom de 'text-to-speech'), ces systèmes ne sont pas tout à fait fluides pour maintenir une conversation.
Pour tenter de résoudre ce problème, Google a développé Parrotron : une intelligence artificielle capable de reconnaître la parole d'une personne ayant des difficultés de parole et de faire répéter chaque phrase par une voix synthétique (générée par ordinateur et capable d'imiter notre façon de parler) avec un rythme et une prosodie cohérents, bien que pour l'instant elle soit encore en phase de recherche.
Les troubles de la parole peuvent compliquer l'utilisation d'autres technologies comme les assistants vocaux, tels que Siri, Alexa ou l'Assistant Google, qui peuvent être utiles pour les personnes ayant certains types de handicap car ils nous permettent d'appeler nos contacts, d'écouter un podcast ou d'allumer les lumières d'une pièce avec une simple commande vocale.
Bien que ces systèmes soient entraînés avec des centaines d'enregistrements vocaux pour apprendre à reconnaître les instructions orales, ils ne sont pas préparés à comprendre le discours de quelqu'un ayant des difficultés de parole. Mais peu à peu, des alternatives comme Voiceitt émergent : un modèle d'intelligence artificielle axé sur les utilisateurs ayant des difficultés de parole et qui peut être intégré à des assistants vocaux comme Alexa ou utilisé pour générer des transcriptions lors de réunions en ligne sur des plateformes comme Webex. Voiceitt est disponible en espagnol via un abonnement mensuel de 50 dollars sur sa plateforme web.
Il y a des cas où une personne peut avoir perdu de manière permanente la capacité de parler, comme les patients atteints de sclérose latérale amyotrophique (SLA). Bien que les systèmes de conversion de texte en parole puissent faciliter la communication à ceux qui ne conservent plus la parole, ces outils utilisent des voix synthétiques qui peuvent sembler impersonnelles et artificielles.
Grâce à l'intelligence artificielle et aux voix clonées (celles qui imitent la parole, le timbre et la prosodie d'une personne en particulier), il est possible de créer des systèmes de conversion de texte en parole personnalisés qui aident les patients à conserver leur identité et à améliorer leur qualité de vie. C'était le cas du père d'Álvaro Medina, journaliste chez Prodigioso Volcán, qui, en collaboration avec ahoLab, a pu conserver sa voix après avoir enregistré différents échantillons de sa voix avec un microphone et créé un modèle acoustique de celle-ci, une fonction désormais disponible sur les appareils Apple.
COMMENTAIRES
Aucun commentaire pour le moment.