Algoritmos de IA são tendenciosos contra a pele com tons amarelos

Algoritmos de IA são tendenciosos contra pele amarela

Depois que evidências surgiram em 2018 de que os principais algoritmos de análise facial eram menos precisos para pessoas com pele mais escura, empresas como Google e Meta adotaram medidas de tom de pele para testar a eficácia de seus softwares de IA. Nova pesquisa da Sony sugere que esses testes não levam em consideração um aspecto crucial da diversidade da cor da pele humana.

Ao expressar o tom de pele usando apenas uma escala deslizante do mais claro ao mais escuro, ou do branco ao preto, as medidas comuns de hoje ignoram a contribuição dos tons amarelos e vermelhos para a variedade de cores da pele humana, de acordo com pesquisadores da Sony. Eles descobriram que os sistemas de IA generativos, algoritmos de recorte de imagens e ferramentas de análise de fotos têm dificuldade especialmente com a pele mais amarelada. A mesma fraqueza pode se aplicar a várias tecnologias cuja precisão é comprovadamente afetada pela cor da pele, como softwares de IA para reconhecimento facial, rastreamento corporal e detecção de deepfake, ou dispositivos como monitores de frequência cardíaca e detectores de movimento.

“Se os produtos forem avaliados apenas de forma unidimensional, haverá muitos preconceitos que passarão despercebidos e não serão mitigados”, diz Alice Xiang, cientista líder de pesquisa e chefe global de Ética em IA da Sony. “Nossa esperança é que o trabalho que estamos fazendo aqui possa ajudar a substituir algumas das escalas existentes de tom de pele que realmente se concentram apenas na luz versus o escuro.”

Mas nem todos têm certeza de que as opções existentes são insuficientes para avaliar os sistemas de IA. Ellis Monk, sociólogo da Universidade de Harvard, diz que uma paleta de 10 tons de pele que oferece opções de claro a escuro, que ele introduziu junto com o Google no ano passado, não é unidimensional. “Devo admitir que fiquei um pouco confuso com a afirmação de que pesquisas anteriores nessa área ignoraram os subtons e a tonalidade”, diz Monk, cuja escala Monk de tons de pele o Google disponibiliza para uso de outras pessoas. “A pesquisa se dedicou a decidir quais subtons priorizar na escala e em quais pontos.” Ele escolheu os 10 tons de pele em sua escala com base em seus próprios estudos de colorismo e após consultar outros especialistas e pessoas de comunidades sub-representadas.

X. Eyeé, CEO da consultoria de ética em IA Malo Santo e que anteriormente fundou a equipe de pesquisa de tons de pele do Google, diz que a escala Monk nunca foi pensada como uma solução final e considera o trabalho da Sony um progresso importante. No entanto, Eyeé também alerta que a posição da câmera afeta os valores de cor CIELAB em uma imagem, um dos vários problemas que tornam o padrão um ponto de referência potencialmente pouco confiável. “Antes de incorporarmos a medição do tom de pele em algoritmos de IA do mundo real, como filtros de câmera e videoconferência, é necessário mais trabalho para garantir uma medição consistente”, diz Eyeé.

A disputa em torno das escalas é mais do que acadêmica. Encontrar medidas apropriadas de “imparcialidade”, como os pesquisadores de IA chamam, é uma grande prioridade para a indústria de tecnologia, à medida que legisladores, incluindo da União Europeia e dos EUA, debatem a exigência de que as empresas auditem seus sistemas de IA e revelem riscos e falhas. Métodos de avaliação inadequados podem corroer alguns dos benefícios práticos das regulamentações, dizem os pesquisadores da Sony.

Quanto à cor da pele, Xiang diz que os esforços para desenvolver medidas adicionais e aprimoradas serão intermináveis. “Precisamos continuar tentando progredir”, diz ela. Monk diz que medidas diferentes podem ser úteis dependendo da situação. “Estou muito feliz que haja um interesse crescente nessa área após um longo período de negligência”, diz ele. Brian Gabriel, porta-voz do Google, diz que a empresa recebeu bem a nova pesquisa e está revisando-a.

Se os produtos forem avaliados apenas de forma unidimensional, os preconceitos passarão despercebidos e não serão mitigados

A cor da pele de uma pessoa resulta da interação da luz com proteínas, células sanguíneas e pigmentos como a melanina. A maneira padrão de testar algoritmos quanto ao viés causado pela cor da pele tem sido verificar como eles se comportam em diferentes tons de pele, ao longo de uma escala de seis opções que vai do mais claro ao mais escuro, conhecida como escala de Fitzpatrick. Ela foi originalmente desenvolvida por um dermatologista para estimar a resposta da pele à luz UV. No ano passado, pesquisadores de IA em várias empresas de tecnologia aplaudiram a introdução da escala Monk pelo Google, considerando-a mais inclusiva.

Os pesquisadores da Sony afirmam em um estudo que está sendo apresentado na Conferência Internacional de Visão por Computador em Paris nesta semana que um padrão internacional de cor conhecido como CIELAB, usado em edição de fotos e fabricação, aponta para uma maneira ainda mais fiel de representar o amplo espectro de cores da pele. Quando aplicaram o padrão CIELAB para analisar fotos de diferentes pessoas, descobriram que a cor da pele não variava apenas em tom, mas também em matiz, ou seja, a graduação dela.

As escalas de cor da pele que não capturam adequadamente os tons vermelhos e amarelos da pele humana parecem ter ajudado a manter algum viés não detectado em algoritmos de imagens. Quando os pesquisadores da Sony testaram sistemas de IA de código aberto, incluindo um recortador de imagens desenvolvido pelo Twitter e um par de algoritmos de geração de imagens, descobriram uma preferência por peles mais avermelhadas, o que significa que um grande número de pessoas com pele mais amarela estão sub-representadas nas imagens finais geradas pelos algoritmos. Isso pode colocar diversas populações, incluindo as da Ásia Oriental, Ásia do Sul, América Latina e Oriente Médio, em desvantagem.

Os pesquisadores da Sony propuseram uma nova maneira de representar a cor da pele para capturar a diversidade anteriormente ignorada. Seu sistema descreve a cor da pele em uma imagem usando duas coordenadas, em vez de um único número. Ele especifica tanto um lugar ao longo de uma escala de claro a escuro quanto em um continuum de amarelo a vermelho, ou o que a indústria de cosméticos às vezes chama de tons quentes e frios.

O novo método funciona isolando todos os pixels em uma imagem que mostram a pele, convertendo os valores de cor RGB de cada pixel em códigos CIELAB e calculando uma tonalidade média em agrupamentos de pixels de pele. Um exemplo no estudo mostra fotos aparentes do ex-jogador de futebol americano Terrell Owens e da falecida atriz Eva Gabor compartilhando um tom de pele, mas separados por matiz, com a imagem de Owens mais vermelha e a de Gabor mais amarela.

Escala de cores que não capturam adequadamente os tons de vermelho e amarelo na pele humana ajudaram a viés permanecer indetectado em algoritmos de imagem.

Quando a equipe da Sony aplicou sua abordagem a dados e sistemas de IA disponíveis on-line, eles encontraram problemas significativos. O CelebAMask-HQ, um conjunto de dados popular de rostos de celebridades usado para treinar reconhecimento facial e outros programas de visão computacional, tinha 82% de suas imagens inclinando para tons de pele vermelha, e outro conjunto de dados FFHQ, desenvolvido pela Nvidia, inclinava-se 66% para o lado vermelho, descobriram os pesquisadores. Dois modelos de IA generativos treinados no FFHQ reproduziram o viés: cerca de quatro de cada cinco imagens geradas por cada um deles inclinavam-se para tons de vermelho.

Não parou por aí. Os programas de IA ArcFace, FaceNet e Dlib tiveram melhor desempenho em tons de pele mais vermelhos ao serem solicitados a identificar se dois retratos correspondem à mesma pessoa, de acordo com o estudo da Sony. Davis King, o desenvolvedor que criou o Dlib, diz que não está surpreso com o viés, porque o modelo é treinado principalmente em fotos de celebridades dos EUA. As ferramentas de IA em nuvem da Microsoft Azure e Amazon Web Services para detectar sorrisos também funcionaram melhor em tons mais vermelhos. A Nvidia se recusou a comentar, e a Microsoft e a Amazon não responderam aos pedidos de comentários.

Como pessoa com a pele amarelada, descobrir as limitações da maneira como a IA é testada hoje preocupa Xiang. Ela diz que a Sony analisará seus próprios modelos de visão computacional centrados em seres humanos usando o novo sistema à medida que forem revisados, embora ela tenha se recusado a especificar quais. “Todos nós temos diferentes tipos de tons em nossas peles. Isso não deve ser algo usado para nos discriminar”, diz ela.

A abordagem da Sony tem uma vantagem potencial adicional. Medidas como a escala Monk do Google exigem que os humanos categorizem em qual espectro a pele de um determinado indivíduo se encaixa. Essa é uma tarefa que os desenvolvedores de IA dizem introduzir variabilidade, porque as percepções das pessoas são afetadas por sua localização ou concepções próprias de raça e identidade.

A abordagem da Sony é totalmente automatizada, sem necessidade de julgamento humano. Mas o Monk de Harvard questiona se isso é melhor. Medidas objetivas como as da Sony podem acabar simplificando ou ignorando outras complexidades da diversidade humana. “Se nosso objetivo é eliminar o viés, que também é um fenômeno social, então não tenho tanta certeza de que deveríamos estar excluindo como os humanos percebem socialmente a cor da pele de nossa análise”, diz ele.

Joanne Rondilla, socióloga da Universidade Estadual de San José, que estudou colorismo e comunidades asiático-americanas, diz que aprecia a tentativa da Sony de considerar os tons. Ela também espera que os desenvolvedores de IA colaborem com cientistas sociais para considerar como a política, as estruturas de poder e dimensões sociais adicionais afetam as percepções da cor da pele. A escala “desenvolvida pelo projeto da Sony pode ajudar estudiosos a entender questões de colorismo”, diz ela.

Xiang, da Sony, reconhece que o colorismo está inevitavelmente incorporado à maneira como os humanos discutem e pensam sobre a pele. No final das contas, não são apenas as máquinas que precisam olhar para as cores de maneira diferente. Ela tem esperança de que o campo possa melhorar, mas também está ciente de que o progresso não será necessariamente tranquilo. Embora os pesquisadores de IA, como ela mesma, tenham pressionado para que o campo tenha uma visão mais nuance de gênero, muitos estudos continuam a classificar cada pessoa no binário masculino ou feminino.

“Esses processos enormemente problemáticos derivam desse desejo muito forte de colocar as pessoas nos compartimentos mínimos possíveis necessários para obter uma avaliação justa e passar em algum tipo de teste”, diz Xiang. Há valor na simplicidade, diz ela, mas adicionar novas dimensões é importante quando o ato de tornar as pessoas legíveis por máquinas acaba obscurecendo sua verdadeira diversidade.