El reconocimiento del habla es un sistema tecnológico que se utiliza cada vez más. Su utilidad se ve reflejada en aquellas situaciones donde nuestras manos están ocupadas. Aunque también se utiliza por temas de comodidad y rapidez, a pesar de tener las manos libres.
Hablar con nuestros dispositivos móviles, dictar órdenes a nuestro coche mientras manejamos, y emitir mensajes a sistemas de voces instalados en nuestro hogar, son algunas de las virtudes que el reconocimiento de voz nos proporciona.
A su vez, los beneficios que aporta en el ámbito profesional y empresarial es altamente destacable, pues su utilidad radica en el ahorro de tiempo y recursos en aquellas situaciones que lo ameritan.
En la medicina, por ejemplo, ayuda a redactar informes de manera más rápida, los diagnósticos son más veloces, y la gestión general del trabajo médico es más óptima.
Definición de reconocimiento de voz
El reconocimiento de voz o reconocimiento del habla es una rama de la inteligencia artificial cuya finalidad es posibilitar la comunicación entre humanos y sistemas informáticos.
Un sistema de reconocimiento de voz tiene la capacidad de detectar y entender las palabras que un ser humano emite de forma natural.
Existen sistemas de reconocimientos de voz más o menos sofisticados, habiendo aquellos que entienden las palabras de manera fácil, y otros con más dificultades para comprender el habla de los humanos.
¿Cómo funciona el reconocimiento de voz?
El funcionamiento interno de un sistema de reconocimiento de voz es complejo, pero de forma resumida, funciona así:
-
El sistema detecta las palabras que un humano emite.
-
Luego, convierte estas palabras en un formato que sea legible por la máquina.
-
Finalmente, según el mensaje recibido, el sistema procede a reaccionar. Esta reacción puede ser la ejecución de una orden, ofrecer una respuesta, o seguir el flujo de una conversación.
Aplicaciones del reconocimiento de voz
-
Sistemas de coche: Para controlar algunas operaciones dentro del coche. Como, por ejemplo, activar el GPS, realizar una llamada, o reproducir una canción.
-
Dictado de voz: El dictado de voz es un sistema que escribe automáticamente todo lo que dictamos. Es la aplicación más común en el reconocimiento de voz.
-
Control por comandos: Consta de una serie de órdenes para controlar el ordenador. La cantidad de comandos que identifica es baja.
-
Ámbito telefónico: Permite ejecutar órdenes mediante el habla en una conversación telefónica a un agente no humano, en lugar de pulsar botones físicos o táctiles.
-
Dispositivos móviles: Puede utilizarse, también, en dispositivos de tamaño reducido y móvil (relojes inteligentes, teléfonos móviles, acelerómetros, etc.) para emitir órdenes y evitar manipularlos en situaciones incómodas.
-
Sistemas para personas con discapacidad: Dependiendo del tipo de discapacidad que una persona posea, utilizará un dispositivo u otro, y de acuerdo a este dispositivo, se puede utilizar un sistema de reconocimiento de voz para ayudar a manejar su problema.
Características del reconocimiento de voz
-
Para perfeccionar los sistemas de reconocimiento del habla, han tenido que intervenir varias disciplinas: inteligencia artificial, ciencias de la computación, procesado de señales, lingüística, acústica y fisiología.
-
Los primeros indicios de esta disciplina se encuentran en el año 1950.
-
Un elemento clave para el gran avance que ha tenido el reconocimiento de voz en los últimos años, ha sido gracias al machine learning.
-
Las empresas más relevantes en este ámbito, son: Apple (Siri), Microsoft (Cortana), y Amazon (Alexa). Siendo estas las grandes corporaciones que han traído las tecnologías más notables a la industria.