Sintetización del habla

Keywords: Sintetización del habla, Discurso, Lingüística computacional, Procesamiento de lenguaje natural, Text-to-speech, Transcripción, Voz

WikiLetra Puedes colaborar con Wikipedia mejorando este artículo.
Una buena fuente son los artículos de la wikipedia en otros idiomas.

La sintetización del habla, síntesis del discurso o síntesis de voz es la producción de discurso humano sin utilizar directamente la voz humana.

En general, se denomina sintetizador del habla a cualquier tipo de sistema (tal como una aplicación informática implementada sobre un ordenador o algún tipo de dispositivo hardware) capaces de producir habla artificial.

En particular, a los sistemas que son capaces de partir de un texto escrito mediante grafías convencionales y a partir de ellos generar habla sintética se los denomina en inglés sistemas text-to-speech (TTS), en alusión a su capacidad de convertir un texto escrito en discurso. Sin embargo, también existen sistemas que permiten transformar en habla sintética solamente representaciones lingüísticas más próximas a la descripción gráfica de la secuencia de sonidos que constituye el habla humana, tales como la transcripción fonética. Téngase en cuenta que en la práctica totalidad de los lenguajes naturales, sus representaciones gráficas usuales no permiten establecer una correspondencia biunívoca entre los grafemas y los sonidos que representan, siendo en este sentido algunos idiomas más regulares que otros.

Visión general de la tecnología de síntesis de voz

Los sistemas de conversión de texto en voz (TTS por sus siglas en inglés: texto to speech) se componen de dos partes. Grosso modo, en la primera fase, o parte anterior, se toma una entrada en forma de texto y se facilita una salida en forma de representación lingüística simbólica. En la segunda fase se toma como entrada dicha representación lingüística y se obtiene como resultado el habla sintética que, en definitiva, pretendemos generar.

En cuanto a las cualidades de la voz sintética generada, se habla, por un lado, de su naturalidad, término con el que nos referimos a en qué medida la salida sonora se asemeja a la voz de un auténtico humano, y por otro de su intelegibilidad o facilidad con que la salida del sistema puede ser entendida.

La primera fase del proceso realiza dos grandes tareas. En primer lugar, toma el texto en su estado original y convierte cosas como los números o las abreviaturas en la correspondiente forma textual convencional. A este proceso se lo denomina normalización del texto, preprocesado o tokenización. A continuación se asigna transcripciones fonéticas a cada palabra, y se divide el texto en unidades prosódicas, tales como unidades sintagmáticas, proposiciones y frases. El proceso de convertir las transcripciones fonéticas en palabras se denomina conversión texto-fonema (TTP en sus siglas en inglés de text-to-phoneme) o conversión grafema-fonema (GTP en sus siglas en inglés de grapheme-to-phoneme). La combinación de transcripción fonética e información prosódica da lugar a la salida en forma de representación lingüística simbólica de la primera parte del proceso.

La segunda fase del proceso toma la representación lingüística simbólica y la convierte en una salida sonora. La parte del sistema que realiza esta tarea suele ser denominada sintetizador.

Algunas muestras de textos reproducidos mediante esta técnica se pueden encontrar en la sección de audiolibros leídos por sintetizador del habla de la biblioteca del proyecto gutenberg

Véase también

Keywords: Sintetización del habla, Discurso, Lingüística computacional, Procesamiento de lenguaje natural, Text-to-speech, Transcripción, Voz