Para legendagem, os seres humanos ainda são a chave para a tecnologia acessível impulsionada pela IA

Human beings are still the key to AI-driven accessible technology for subtitling.

O caso para a supervisão humana dos serviços de inteligência artificial (IA) continua, com o mundo interligado da transcrição de áudio, legendagem e reconhecimento automático de fala (ASR) juntando-se ao apelo por aplicativos que complementem, e não substituam, a contribuição humana.

Legendas e legendas ocultas desempenham um papel vital ao fornecer acesso a mídia e informações para espectadores surdos ou com deficiência auditiva, e seu uso popular aumentou nos últimos anos. Defensores de pessoas com deficiência têm lutado por melhores opções de legendagem por décadas, destacando uma necessidade cada vez mais relevante com a proliferação de serviços de streaming sob demanda. Plataformas de vídeo também aderiram rapidamente à IA, com o YouTube anunciando testes iniciais de um novo recurso de IA que resume vídeos inteiros e o TikTok explorando seu próprio chat bot.

Então, com a crescente loucura em torno da IA como uma bóia para as limitações da tecnologia, envolver as mais recentes ferramentas e serviços de IA na legendagem automática pode parecer um próximo passo lógico.

A 3Play Media, uma empresa de serviços de acessibilidade e legendagem de vídeo, focou no impacto das ferramentas de IA generativas nas legendas usadas principalmente por espectadores surdos ou com deficiência auditiva em seu relatório recentemente publicado “Estado do Reconhecimento Automático de Fala em 2023”. De acordo com as descobertas, os usuários precisam estar cientes de muito mais do que apenas a precisão simples quando novos serviços de IA em rápido avanço são adicionados à mistura.

A precisão do Reconhecimento Automático de Fala

O relatório da 3Play Media analisou a taxa de erro de palavras (o número de palavras transcritas com precisão) e a taxa de erro formatada (a precisão tanto das palavras quanto da formatação em um arquivo transcrito) de diferentes motores ASR, ou geradores de legendas com inteligência artificial. Os diversos motores ASR são incorporados em uma variedade de setores, incluindo notícias, educação superior e esportes.

“ASR de alta qualidade não necessariamente leva a legendas de alta qualidade”, constatou o relatório. “Para a taxa de erro de palavras, mesmo os melhores motores tiveram um desempenho de cerca de 90% de precisão, e para a taxa de erro formatada, apenas cerca de 80% de precisão, o que não é suficiente para conformidade legal e 99% de precisão, o padrão da indústria para acessibilidade.”

A Lei dos Americanos com Deficiências (ADA) exige que governos estaduais e locais, empresas e organizações sem fins lucrativos que atendem ao público “se comuniquem efetivamente com pessoas com deficiências de comunicação”, incluindo serviços de legendagem fechada ou em tempo real para pessoas surdas e com deficiência auditiva. De acordo com as regras de conformidade da Comissão Federal de Comunicações (FCC) para televisão, as legendas devem ser precisas, sincronizadas, contínuas e colocadas corretamente na “maior medida possível”.

A precisão das legendas em todo o conjunto de dados variou muito em diferentes mercados e casos de uso também. “Notícias, redes de televisão, cinema e esportes são os mais difíceis de transcrever com precisão usando ASR”, escreve a 3Play Media, “pois esses mercados frequentemente têm conteúdo com música de fundo, fala sobreposta e áudio difícil. Esses mercados têm as maiores taxas médias de erro de taxa de erro de palavras e taxa de erro formatada, sendo as notícias e redes de televisão as menos precisas.”

Embora, em geral, o desempenho tenha melhorado desde o relatório de 2022 da 3Play Media, a empresa descobriu que as taxas de erro ainda eram altas o suficiente para justificar a colaboração de editores humanos em todos os mercados testados.

Mantendo os humanos envolvidos

Modelos de transcrição em todos os níveis, desde o uso do consumidor até o uso industrial, incorporaram a legendagem de áudio gerada por IA por anos. Muitos já utilizam o que é conhecido como sistemas “humanos no loop”, onde um processo de várias etapas incorpora tanto ferramentas ASR (ou IA) quanto editores humanos. Empresas como a Rev, outro serviço de legendagem e transcrição, destacaram a importância de editores humanos na sincronização áudio-visual, formatação de tela e outras etapas necessárias na criação de mídia visual totalmente acessível.

O tweet pode ter sido excluído

Modelos “humanos no loop” também têm sido promovidos no desenvolvimento de IA generativa para melhor monitorar o viés implícito nos modelos de IA e orientar a IA generativa com tomadas de decisão lideradas por humanos.

A Iniciativa de Acessibilidade na Web do Consórcio World Wide Web (W3C) também sempre defendeu a supervisão humana, conforme observado em suas diretrizes para legendas ocultas e legendas. “As legendas geradas automaticamente não atendem às necessidades do usuário ou aos requisitos de acessibilidade, a menos que sejam confirmadas como totalmente precisas. Geralmente, elas precisam de uma edição significativa”, afirmam as diretrizes da organização. “Legendas automáticas podem ser usadas como ponto de partida para desenvolver legendas e transcrições precisas.”

E em um relatório de 2021 sobre a importância de transcrições geradas por humanos em tempo real, a 3Play Media observou hesitações semelhantes.

“A inteligência artificial (IA) não possui a mesma capacidade de contextualização que um ser humano, o que significa que quando o ASR entende erroneamente uma palavra, existe a possibilidade de substituí-la por algo irrelevante ou omiti-la completamente”, afirma a empresa. “Embora atualmente não haja um requisito legal definitivo para taxas de precisão na legenda ao vivo, as regulamentações federais e estaduais existentes para legendas de conteúdo gravado afirmam que as acomodações acessíveis devem proporcionar uma experiência igual à de um espectador ouvinte… Embora nem a IA nem os legendeiros humanos possam oferecer 100% de precisão, os métodos mais eficazes de legendagem ao vivo incorporam ambos para se aproximarem o máximo possível.”

Sinalizando alucinações

Além de números mais baixos de precisão ao usar apenas o ASR, o relatório da 3Play Media observou uma preocupação explícita com a possibilidade de “alucinações” da IA, tanto na forma de imprecisões factuais quanto na inclusão de frases inteiras completamente fabricadas.

De forma geral, as alucinações baseadas em IA se tornaram um aspecto central entre uma série de reclamações contra textos gerados por IA.

Em janeiro, o monitor de desinformação NewsGuard publicou um estudo sobre a facilidade do ChatGPT em gerar e fornecer informações enganosas para usuários que se passam por “atores maliciosos”. O estudo observou que o bot de IA compartilhou desinformação sobre eventos de notícias em 80 de 100 vezes em resposta a perguntas levantadas relacionadas a uma amostragem de narrativas falsas. Em junho, um apresentador de rádio americano entrou com um processo por difamação contra a OpenAI depois que seu chatbot, ChatGPT, supostamente ofereceu “fatos” errôneos sobre o apresentador para um usuário em busca de detalhes sobre um caso federal em tribunal.

No mês passado, líderes em IA (incluindo Amazon, Anthropic, Google, Inflection, Meta, Microsoft e OpenAI) se reuniram com a administração de Biden-Harris “para avançar em direção ao desenvolvimento seguro, seguro e transparente da tecnologia de IA” antes de uma possível ordem executiva sobre o uso responsável da IA. Todas as empresas presentes assinaram uma série de oito compromissos para garantir a segurança, a confiabilidade e a confiança do público.

Para a incorporação da IA na tecnologia do dia a dia – e especificamente para os desenvolvedores que buscam outras formas de IA geradora de texto como um caminho pavimentado para a acessibilidade -, imprecisões como alucinações representam um risco tão grande para os usuários, explica a 3Play Media.

“Do ponto de vista da acessibilidade, as alucinações apresentam um problema ainda mais grave: a falsa representação de precisão para telespectadores surdos e com deficiência auditiva”, explica o relatório da 3Play. A 3Play afirma que, apesar do desempenho impressionante relacionado à produção de frases bem pontuadas e gramaticalmente corretas, questões como alucinações representam atualmente altos riscos para os usuários.

Os líderes do setor estão tentando lidar com as alucinações por meio de treinamento contínuo, e alguns dos maiores líderes da tecnologia, como Bill Gates, são extremamente otimistas. Mas aqueles que precisam de serviços acessíveis não têm tempo para esperar que os desenvolvedores aperfeiçoem seus sistemas de IA.

“Embora seja possível que essas alucinações sejam reduzidas por meio de ajustes finos, as consequências negativas para a acessibilidade podem ser profundas”, conclui o relatório da 3Play Media. “Editores humanos continuam indispensáveis na produção de legendas de alta qualidade acessíveis aos nossos usuários finais principais: pessoas surdas e com deficiência auditiva.”

Quer mais histórias sobre ação social e acessibilidade na sua caixa de entrada? Inscreva-se na newsletter de Principais Histórias do Mashable hoje mesmo.