Publicado em 2024-01-15
Assistentes pessoais como Siri ou Alexa permitem ligar a televisão ou desligar a luz apenas pedindo. No entanto, têm problemas para entender uma pessoa com dificuldade de fala. O mesmo acontece com os aplicativos que permitem digitalizar texto mas não o leem em voz alta, algo indispensável para alguém com deficiência visual. A inteligência artificial pode ser um apoio para superar essas barreiras, como programas treinados para processar todos os tipos de discursos e inflexões de voz ou óculos inteligentes que podem descrever nosso ambiente.
Alguns usos da inteligência artificial nos últimos anos focam na geração de imagens e vídeos a partir de instruções de texto, os conhecidos como 'prompts'. Mas há aplicações que permitem fazer o processo inverso: carregar uma fotografia ou gravar um vídeo e que uma inteligência artificial descreva os elementos que aparecem na imagem.
É o caso do Be My Eyes, um aplicativo que desde agosto de 2023 incorporou essa tecnologia para descrever imagens a usuários com deficiência visual. Até agora era necessário esperar para contactar um voluntário através desta plataforma para receber este tipo de assistência, mas através da inteligência artificial é mais simples.
O modelo de linguagem GPT-4, a mesma tecnologia utilizada pelo ChatGPT, permite solicitar este apoio a uma inteligência artificial e pedir ajuda na hora de procurar objetos caídos, ler rótulos ou nos guiar através de um lugar. Be My Eyes está disponível na Play Store e na App Store.
Ask Envision é outro projeto que utiliza a tecnologia do ChatGPT para dar novas ferramentas a pessoas com problemas de visão. Em vez de um aplicativo móvel, o Ask Envision usa os óculos Envision: óculos com conexão à internet baseados na tecnologia Google Glass que permitem tirar imagens dos nossos arredores e fazer uma descrição dos elementos ao nosso redor.
Por exemplo, é possível digitalizar o menu de um restaurante e que leia o cardápio completo ou perguntar ao assistente quais opções vegetarianas existem. Os óculos Envision estão disponíveis desde 1.899 euros na sua versão mais básica.
A inteligência artificial tem o seu lugar no mundo do som e da fala. Assim como aplicações como o Google Translate, que permite traduzir qualquer conversa em tempo real (uma ferramenta útil para pedir direções em outros idiomas se viajarmos), o Google Live Transcript (disponível na Play Store) faz uma transcrição em tempo real das conversas ao redor e avisa de sons como o latido de um cão ou o toque de uma porta.
Essas ferramentas de tradução também podem ser usadas nas línguas de sinais. Esse é o projeto de Priyanjali Gupta, uma estudante de engenharia no Instituto de Tecnologia Vellore, na Índia, que desenvolveu uma inteligência artificial capaz de traduzir em tempo real a língua de sinais americana (ASL, em inglês, usada nos Estados Unidos, Canadá e México) para o inglês escrito.
A inteligência artificial pode ser usada como apoio para desenvolver diferentes competências ou como um recurso terapêutico para crianças com dificuldade de fala, como o Timlogo. É uma plataforma online (disponível apenas em romeno) desenvolvida pela empresa romena Ascendia que oferece jogos destinados a pacientes menores de idade e é capaz de analisar a pronúncia das crianças para detectar problemas específicos no seu discurso e oferecer exercícios personalizados através desta tecnologia.
Pessoas com deficiência auditiva podem apresentar problemas na fala e isso dificulta a comunicação oral com outras pessoas. Embora existam ferramentas capazes de converter texto escrito em voz (um processo conhecido como 'text-to-speech'), estes sistemas não são totalmente fluentes na hora de manter uma conversa.
Para tentar solucionar este problema, o Google desenvolveu o Parrotron: uma inteligência artificial capaz de reconhecer o discurso de uma pessoa com dificuldades de fala e fazer com que uma voz sintética (aquela gerada por computador e capaz de imitar a nossa forma de falar) repita cada frase com uma cadência e prosódia consistente, embora por enquanto esteja em fase de pesquisa.
Os problemas de fala podem dificultar o uso de outra tecnologia como os assistentes de voz, como Siri, Alexa ou o Assistente Google, que podem ser úteis para pessoas com certos tipos de deficiência, pois nos permitem ligar para os nossos contatos, ouvir um podcast ou acender as luzes de um quarto com apenas um comando de voz.
Embora estes sistemas estejam treinados com centenas de gravações de voz para aprender a reconhecer instruções orais, não estão preparados para compreender o discurso de alguém que tenha dificuldades para falar. Mas pouco a pouco surgem alternativas como o Voiceitt: um modelo de inteligência artificial focado em usuários com dificuldade de fala e que pode ser implementado em assistentes de voz como Alexa ou usado para gerar transcrições em reuniões online em plataformas como o Webex. O Voiceitt está disponível em espanhol através de uma assinatura mensal de 50 dólares na sua plataforma web.
Há casos em que uma pessoa pode ter perdido a capacidade de fala permanentemente, como os pacientes com Esclerose Lateral Amiotrófica (ELA). Embora os sistemas de conversão de texto em voz possam facilitar a comunicação àqueles que já não conservam a fala, estas ferramentas utilizam vozes sintéticas que podem parecer impessoais e artificiais.
Graças à inteligência artificial e às vozes clonadas (aquelas vozes que imitam a fala, o timbre e a prosódia de uma pessoa específica), podem ser criados sistemas de conversão de texto em voz personalizados que ajudam os pacientes a manter a sua identidade e melhorar a sua qualidade de vida. Foi o caso do pai de Álvaro Medina, jornalista no Prodigioso Volcán, que em colaboração com ahoLab conseguiu conservar a sua voz depois de gravar diferentes amostras da sua voz com um microfone e criar um modelo acústico da mesma, uma função que já se encontra disponível em dispositivos Apple.
COMENTÁRIOS
Sem comentários de clientes no momento.