Reconocimiento del habla
Keywords: Reconocimiento del habla, 2010, 2011, Bill Gates, Comprensión del lenguaje, IBM, Lenguaje
| 40px | Puedes colaborar con Wikipedia fusionando este artículo con Comprensión del lenguaje. |
Categoría:Wikipedia:Fusionar
| WikiLetra | Puedes colaborar con Wikipedia mejorando este artículo. Una buena fuente son los artículos de la wikipedia en otros idiomas. |
La tecnología del reconocimiento del habla permite que los ordenadores equipados con una fuente de captura de sonido, como un micrófono, puedan interpretar el lenguaje humano, por ejemplo para la transcripción o como un método alternativo de interactuar con un ordenador.
| Tabla de contenidos |
Clasificación
Los sistemas que forman esta tecnología se pueden clasificar de la siguiente manera:
- En función de si requieren al usuario "guiar" el sistema para reconocer sus pautas particulares en el habla.
- En función de si el sistema se guía para un usuario o si es un hablante independiente.
- O si el sistema puede reconocer discursos completos, o requiere que los usuarios dividan su discurso por palabras.
- Si el sistema está destinado a un material del discurso claro, o diseñado para operar en canales de transferencia deformada y un posible ruido de fondo, así como otro hablante hablando simultáneamente.
- O en función de si el vocabulario que reconoce el sistema es escaso(decenas o cientos de palabras) o amplio(miles de palabras).
Los sistemas que dependen del hablante y que requieren poco enfoque, pueden capturar los discursos en su totalidad con un amplio vocabulario con una precisión del 98% (tomando dos palabras de cien mal). Mientras que los sistemas que no requieren ningún tipo de enfoque, pueden reconocer una pequeña cantidad de palabras. Estos sistemas son populares por las rutinarias llamadas telefónicas enviadas a su destino en enormes organizaciones.
Reconocimiento del habla
Los sistemas comerciales han estado disponobles desde el año 1990. A pesar del aparente éxito de estas tecnologias, muy pocas personas utilizan el sistema del reconocimiento del habla en sus computadoras.Parece ser que muchos de los usuarios utilizan el ratón y el teclado para guardar o redactar documentos, porque les resulta más comodo y rápido a pesar del hecho de que todos podemos hablar a más velocidad de la que tecleamos. Sin embargo, mediante el uso de ambos, el teclado y el reconocimiento del habla, nuestro trabajo será mucho más efectivo.
Este sistema donde está siendo más utilizado es en aplicaciones telefónicas: agencias de viajes, atención al cliente, información etc. La mejoría de estos sistemas de reconicimiento del habla han ido aumentando y su eficacia cada vez es mayor.
Reconocimiento de la gramática restringida
El reconocimiento de la gramática restringida trabaja reduciendo las típicas frases reconocidas a un tamaño mas pequeño que la gramática formal. Este tipo de reconocimiento, trabaja mejor cuando el hablante proporciona respuestas cortas, breves, a cuestiones o preguntas específicas, como las preguntas de “si” o “no”; al elegir una opción del menú; un artículo de una lista determinada como las de seguridades financiales, nombres de aeropuertos, etc.
La gramática específica las palabras y frases más típicas que una persona diría como respuesta rápida y después asocia esas palabras o frases a un concepto semántico. Como por ejemplo, un “si” puede sustituirse por un “yeah”, “hu-huh”, “sure” o “okay”, y un “no” por “nope”, “nuh-huh” o “no-way dude!”.
Si el hablante dice algo que gramaticalmente no tiene sentido, el reconocimiento fallará. Normalmente, si el reconocimiento falla, la aplicación incitara al usuario a repetir lo que ha dicho, y el reconocimiento se intentará de nuevo. Si el sistema esta correctamente diseñado y es repetidamente incapaz de entender al usuario (debido a que no se ha entendido bien la pregunta, un acento cerrado, interferencias o demasiado ruido alrededor), se retirará y desviará la llamada a otro operador. La investigación muestra que las llamadas a las que se las pide replantear la pregunta o cuestión una y otra vez, en poco tiempo se frustran y se agitan.
Reconocimiento del Lenguaje Natural
El reconocimiento de la lengua natural permite que el locutor proporcione de manera natural, respuestas de la oración a las preguntas específicas. El reconocimiento de la lengua natural utiliza modelos estadísticos. El procedimiento general es crear una recopilación tan grande como sea posible de respuestas típicas, y cada respuesta emparejada con un símbolo o un concepto. En la mayoría de los acercamientos, se utiliza una técnica llamada Wizard de la onza. Una persona (el mago) escucha en tiempo real o vía grabaciones un número muy grande de los altavoces que responden naturalmente a un aviso. El mago entonces selecciona el concepto que representa lo que significó el usuario. Un programa del software entonces analiza la recopilación de elocuciones habladas y su semántica y él correspondiente crea un modelo estadístico que se pueda utilizar para trazar oraciones similares a los conceptos apropiados para los altavoces futuros.
Por ejemplo, esta aplicación que se encarga de resolver las dudas del cliente requiere que éste explique brevemente sus problemas. Para el concepto "mi llamada al departamento de facturación", usted desearía reconocer las oraciones como "tengo un problema con mi cuenta", "fue cargado incorrectamente", "cuánto debo este mes", etc. Mientras que usted podría construir una gramática con todas las palabras claves probables (la cuenta, carga, cargó, debió, etc.), si el que llama habla en oraciones, usted puede entrar en un conflicto múltiple. Es difícil crear las gramáticas amplias, ricas que consideran el contexto en el cual las palabras son dichas. Además, como la gramática se mantiene muy amplia, las ocasiones de tener palabras que suenan similares en la gramática aumentan.
La ventaja más obvia del reconocimiento del lenguaje natural frente a la gramática restringida es que no es necesario identificar las palabras y frases exactas. Una gran desventaja es que el cuerpo tiene que ser bastante largo, aunque es un método que trabaja bien. Crear un cuerpo extenso lleva mucho tiempo y es caro. Además, las preguntas abiertas usadas por algunos sistemas, animan a los que llaman a hablar rápido y a ser creativos en sus respuestas de modo que normalmente a los ordenadores les resulta difícil entender lo que quieren decir. También, en algunos sistemas es difícil idear una lista de las posibles confirmaciones inmediatas para garantizar a los hablantes que sus peticiones han sido correctamente reconocidas. A pesar de esto muchas aplicaciones de éxito en la respuesta por voz usan avisos para animar al hablante a usar frases cortas que pueden ser reconocidas correctamente usando el reconocimiento de la gramática complicada.
Algunos sistemas usan una gramática restingida y el reconocimiento del lengaje natural permite responder con frases de limitada largura a preguntas especificas, pero ignora la parte irrelevante de la frase usando el lenguaje natural. Combinando este adelanto con otras sugerencias que permitan crear frases cortas, puede ser efectivo al ampliar la exactitud y la corrección de este reconocimiento del lenguaje.
Agentes de mercado
El reto para los desarrolladores de los motores ASR es que al final, el usuario los juzge según el criterio: ¿entiende lo que digo? Esto deja un pequeño espacio para la diferenciación. Por supuesto, hay áreas como el soporte del multi-lenguaje, herramientas reguladoras, integración del API (la propuesta "standard" MRCP o propiedad), etc., pero el reconocimiento cualitativo es más visible. Debido a la complejidad de algoritmos y los modelos del lenguaje requeridos para implementar una alta calidad en el reconocimeiento del habla, es difícil para las nuevas compañías entrar en este mercado como también es difícil para los vendedores existentes mantener el nivel de las investigaciones necesarias para mantenerse y seguir adelante.
Frecuentemente, Nuance y ScanSoft dominan el mercado del reconocimiento del habla (estos están ahora en el proceso de fusión, con ScanSoft adquiriendo Nuance). Hay algunos pequeños vendedores como Aculab, Fonix Speech, Loquendo, LumenVox, Verbio, etc., pero ellos son esencialmente jugadores de nicho. El reconocimiento del habla de ScanSoft está actualmente compuesto de SpeechWorks y de productos de algunos jugadores de nichos anteriores. IBM han participado también en el mercado del reconocimiento del lenguaje, pero sus productos "ViaVoice" han ganado primariamente tracción el el comando "desktop" y control (gramático-limitado) y mercados de dictado. ScanSoft también hace "Dragon NaturallySpeaking", un sistema de dictado "desktop" con unas tasas de reconocimiento de más del 99 por ciento.
Todo esto está cambiando. El grande y pesado software, Microsoft (Speech Server) and IBM está ahora haciendo investigaciones substanciales en el reconocimiento del habla. IBM clama por tener que poner 100 buscadores del lenguaje en el problema de coger ASR a través del nivel humano del reconocimiento del habla por 2010. Bill Gates está también haciendo unas largas investigaciones en el reconocimiento del habla en Microsoft. En "SpeechTEK", Gates predice que para 2011 la calidad del ASR alcanzará el reconocimiento del lenguaje humano. IBM y Microsoft están todavía detras de Nuance y canSoft en el mercado.
