Veröffentlicht am 15.01.2024
Persönliche Assistenten wie Siri oder Alexa ermöglichen es, den Fernseher einzuschalten oder das Licht auszuschalten, indem man es einfach anfragt. Sie haben jedoch Schwierigkeiten, eine Person mit Sprechstörungen zu verstehen. Gleiches gilt für Anwendungen, die das Scannen von Text ermöglichen, diesen aber nicht laut vorlesen, was für eine Person mit Sehbehinderung unerlässlich ist. Künstliche Intelligenz kann eine Unterstützung sein, um diese Hindernisse zu überwinden, wie Programme, die darauf trainiert sind, alle Arten von Reden und Stimmmodulationen zu verarbeiten oder intelligente Brillen, die unsere Umgebung beschreiben können.
Einige Anwendungen der künstlichen Intelligenz in den letzten Jahren konzentrieren sich auf die Erzeugung von Bildern und Videos aus Textanweisungen, den sogenannten 'Prompts'. Es gibt jedoch auch Anwendungen, die den umgekehrten Prozess ermöglichen: das Hochladen eines Fotos oder das Aufnehmen eines Videos, damit eine KI die darin erscheinenden Elemente beschreiben kann.
Dies ist der Fall bei Be My Eyes, einer App, die seit August 2023 diese Technologie integriert hat, um Bildern für sehbehinderte Benutzer zu beschreiben. Bislang musste man warten, um über diese Plattform einen Freiwilligen zu kontaktieren, um diese Art von Hilfe zu erhalten, aber mit künstlicher Intelligenz ist es einfacher.
Das Sprachmodell GPT-4, dieselbe Technologie, die von ChatGPT verwendet wird, ermöglicht es, diese Unterstützung von einer künstlichen Intelligenz anzufordern und Hilfe beim Finden heruntergefallener Gegenstände, beim Lesen von Etiketten oder beim Navigieren durch einen Ort zu erbitten. Be My Eyes ist im Play Store und im App Store verfügbar.
Ask Envision ist ein weiteres Projekt, das die Technologie von ChatGPT nutzt, um Menschen mit Sehproblemen neue Werkzeuge zur Verfügung zu stellen. Anstatt einer mobilen App verwendet Ask Envision die Envision-Brillen: mit dem Internet verbundene Brillen, die auf der Google Glass-Technologie basieren und es ermöglichen, Bilder unserer Umgebung aufzunehmen und eine Beschreibung der umgebenden Elemente zu liefern.
Zum Beispiel ist es möglich, das Menü eines Restaurants zu scannen und die gesamte Karte lesen zu lassen oder den Assistenten zu fragen, welche vegetarischen Optionen es gibt. Die Envision-Brillen sind ab 1.899 Euro in ihrer Basisversion erhältlich.
Künstliche Intelligenz hat ihren Platz in der Welt des Klangs und der Sprache. Wie Anwendungen wie Google Translate, die es ermöglichen, jedes Gespräch in Echtzeit zu übersetzen (ein nützliches Werkzeug, um in anderen Sprachen nach dem Weg zu fragen, wenn wir reisen), führt Google Live Transcript (im Play Store erhältlich) eine Echtzeit-Transkription der umgebenden Gespräche durch und warnt vor Geräuschen wie Hundegebell oder einer Türklingel.
Diese Übersetzungswerkzeuge können auch in Gebärdensprachen verwendet werden. Dies ist das Projekt von Priyanjali Gupta, einer Ingenieurstudentin am Vellore Institute of Technology in Indien, die eine KI entwickelt hat, die die amerikanische Gebärdensprache (ASL, verwendet in den USA, Kanada und Mexiko) in Echtzeit in geschriebenes Englisch übersetzen kann.
Künstliche Intelligenz kann als Unterstützung zum Erlernen verschiedener Fähigkeiten oder als therapeutische Ressource für Kinder mit Sprachschwierigkeiten eingesetzt werden, wie bei Timlogo. Es handelt sich um eine Online-Plattform (nur auf Rumänisch verfügbar), die von der rumänischen Firma Ascendia entwickelt wurde und Spiele für minderjährige Patienten anbietet. Sie ist in der Lage, die Aussprache von Kindern zu analysieren, um spezifische Probleme in ihrer Rede zu erkennen und personalisierte Übungen durch diese Technologie anzubieten.
Menschen mit Hörbehinderung können Schwierigkeiten beim Sprechen haben, was die mündliche Kommunikation mit anderen erschwert. Obwohl es Werkzeuge gibt, die geschriebenen Text in Sprache umwandeln können (ein Prozess, der als 'Text-to-Speech' bekannt ist), sind diese Systeme nicht ganz fließend darin, ein Gespräch aufrechtzuerhalten.
Um dieses Problem zu lösen, hat Google Parrotron entwickelt: eine KI, die in der Lage ist, die Sprache einer Person mit Sprechschwierigkeiten zu erkennen und sie von einer synthetischen Stimme (die von einem Computer generiert wird und in der Lage ist, unsere Sprechweise nachzuahmen) mit einer konsistenten Kadenz und Prosodie wiederholen zu lassen, obwohl sie sich derzeit noch in der Forschungsphase befindet.
Sprechprobleme können die Nutzung anderer Technologien wie Sprachassistenten wie Siri, Alexa oder Google Assistant erschweren, die für Menschen mit bestimmten Arten von Behinderungen nützlich sein können, da sie uns ermöglichen, unsere Kontakte anzurufen, einen Podcast zu hören oder das Licht in einem Raum mit einem einfachen Sprachbefehl einzuschalten.
Obwohl diese Systeme mit Hunderten von Sprachaufnahmen trainiert sind, um mündliche Anweisungen zu erkennen, sind sie nicht darauf vorbereitet, die Sprache von jemandem mit Sprechschwierigkeiten zu verstehen. Aber allmählich tauchen Alternativen wie Voiceitt auf: ein KI-Modell, das sich auf Nutzer mit Sprechschwierigkeiten konzentriert und in Sprachassistenten wie Alexa implementiert werden kann oder zur Erstellung von Transkriptionen in Online-Meetings auf Plattformen wie Webex verwendet werden kann. Voiceitt ist auf Spanisch über ein monatliches Abonnement von 50 Dollar auf seiner Webplattform verfügbar.
Es gibt Fälle, in denen eine Person möglicherweise dauerhaft die Fähigkeit zu sprechen verloren hat, wie Patienten mit amyotropher Lateralsklerose (ALS). Obwohl Text-zu-Sprache-Konvertierungssysteme die Kommunikation für diejenigen erleichtern können, die die Sprache nicht mehr beherrschen, verwenden diese Werkzeuge synthetische Stimmen, die unpersönlich und künstlich wirken können.
Dank künstlicher Intelligenz und geklonter Stimmen (diejenigen, die die Sprache, den Klang und die Prosodie einer bestimmten Person nachahmen), können personalisierte Text-zu-Sprache-Konvertierungssysteme erstellt werden, die Patienten helfen, ihre Identität zu bewahren und ihre Lebensqualität zu verbessern. Dies war der Fall beim Vater von Álvaro Medina, einem Journalisten bei Prodigioso Volcán, der in Zusammenarbeit mit ahoLab seine Stimme bewahren konnte, nachdem er verschiedene Proben seiner Stimme mit einem Mikrofon aufgenommen und ein akustisches Modell davon erstellt hatte, eine Funktion, die jetzt auf Apple-Geräten verfügbar ist.
KOMMENTARE
Im Moment keine Kundenkommentare.