Eventos

Eventos

Dissertação de Mestrado - Nº 1.902: A Convolutional Neural Network Approach for Speech Quality Assessment

14 de Fevereiro de 2020 às 15:33:20

Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado  Nº 1.902

Aluno: Renato Quirino de Albuquerque
Orientador: Prof. Carlos Alexandre Barros de Mello
Título: A Convolutional Neural Network Approach for Speech Quality 
Assessment
Data: 20/02/2020
Hora/Local: 14h – Centro de Informática - Auditório
Banca Examinadora:
Prof. Tsang Ing Ren  (UFPE / Centro de Informática)
Prof. Francisco Madeiro Bernardino Junior (UPE/Escola Politécnica de Pernambuco)
Prof. Carlos Alexandre Barros de Mello (UFPE / Centro de Informática)

RESUMO:

Como uma das características humanas mais importantes, a fala pode ser 
considerada um subsistema de uma das formas utilizadas na comunicação. O 
processo de comunicação oral envolvido é concluído quando ocorre a 
compreensão da fala pelo ouvinte. Como matéria de estudo, o processo de 
compreensão da fala é realizado por um sistema complexo que ocorre 
primariamente no ouvido e posteriormente no cérebro. Um aspecto importante 
da compreensão da fala pode ser definido como qualidade. Esta pode ser 
entendida como a fidelidade do sinal de fala em relação à sua versão 
original (ou idealizada) quando uma comparação é permitida. O aspecto da 
qualidade é uma questão subjetiva e, por isso, é bastante difícil de medir 
e predizer.

A maneira mais comum de medir a qualidade de fala, nos sistemas de 
processamento de fala, é realizada com testes de escuta subjetiva. Nesses 
testes, indivíduos avaliam a qualidade das amostras de fala associando-as à 
índices de qualidade. Embora o uso comum de tais testes, há detalhes 
preocupantes relacionados à sua aplicação, como tempo e custo. Os problemas 
relacionados a aplicabilidade de testes de escuta subjetiva naturalmente 
exigem esforços no desenvolvimento de abordagens automáticas.

Embora o aspecto da qualidade de fala possa ser considerado uma métrica 
altamente subjetiva, existem maneiras de mensurá-lo por meio de métodos 
instrumentais. Estas são ferramentas dedicadas a aproximar automaticamente 
a qualidade subjetiva de uma pontuação de opinião média. Em relação aos 
dados utilizados, os modelos de avaliação de qualidade de fala são 
tipicamente divididos em dois grupos: as metodologias que utilizam apenas a 
amostra de fala a ser avaliada (non-reference) e as que utilizam as versões 
degradada e de referência da amostra de fala (full-reference). 
Infelizmente, para a maioria das aplicações de tempo real, praticamente não 
é possível obter a amostra de fala original, sendo necessário realizar uma 
avaliação apenas na versão degradada.

Desde o nascimento da área de avaliação da qualidade de fala, surgiram 
metodologias dedicadas ao tratamento de um número crescente de distorções. 
Alguns modelos, empregando modelagem psicoacústica, se mostraram eficazes, 
tornando-se recomendações internacionais, tais como PESQ, POLQA e P.563. 
Outros modelos empregaram técnicas mais semelhantes ao processo de 
aprendizado humano, como técnicas de aprendizado de máquina, para modelar 
os estágios da percepção de qualidade. Mais recentemente, o avanço na área 
de aprendizado profundo conduziu o desenvolvimento de abordagens aplicadas 
a avaliação de qualidade de fala utilizando modelos de Redes Neurais 
Profundas (DNN).

Nesta dissertação, é apresentado um modelo de rede neural convolucional 
para avaliação de qualidade de fala (CNN-SQA). Esta é uma metodologia 
non-reference que aplica camadas convolucionais como extratores de 
características para uma representação visual da fala. Seu desempenho é 
avaliado comparando-o com as metodologias PESQ, ViSQOL e P.563. Os 
experimentos foram realizados em bancos de dados disponíveis publicamente, 
assim como em um novo banco de dados criado para avaliar o modelo no 
contexto de ruído de fundo. Os resultados são analisados por meio de 
medidas de correlação e descrições estatísticas.

Palavras-chave: Fala. Qualidade. Avaliação automática. Avaliação da 
qualidade de fala. Redes Neurais Convolucionais.