Peles negras estão sub-representadas em bancos de dados usados para treinar algoritmos de detecção de doenças

A inovação digital está ampliando o acesso a tratamento especializado e melhorando os cuidados com a saúde. Entre os diversos usos de aprendizado de máquina, a identificação e classificação de doenças por meio de imagem vem avançando significativamente, principalmente no segmento de dermatologia.

A evolução na acuracidade do diagnóstico é resultado do uso de aprendizado profundo baseado em grandes repositórios de imagens digitais. Bancos de dados públicos vêm cada vez mais sendo utilizados para treinar algoritmos no diagnóstico de câncer de pele por meio do aprendizado de máquina.

Porém, especialistas alertam para a necessidade de uma análise cuidadosa do conteúdo destes repositórios. É preciso avaliar se as imagens refletem a diversidade de características encontradas na sociedade.

Um estudo publicado pelo The Lancet Digital Health avaliou 21 bases de dados públicas com imagens de condições de pele. Juntos, eles possuem mais de 100 mil imagens. Mas análise revelou um importante ponto de atenção: os algoritmos não são confiáveis para analisar e identificar problemas de pele em pessoas não brancas.

Das dezenas de milhares de imagens disponíveis, somente 1,4 mil trazem informações sobre a etnia dos pacientes e apenas 2,2 mil sobre o tom de pele deles. Segundo os pesquisadores, a limitação dos dados reduz a capacidade dos especialistas para identificar vieses em algoritmos treinados com imagens.

E os algoritmos podem ser bastante tendenciosos. Entre as imagens que continham informações sobre o tom de pele, apenas 11 eram de pacientes das duas categorias mais escuras da escala colorimétrica de Fitzpatrick. Além disto, não havia nenhuma imagem de pessoas de origem africana, afro-caribenha ou sul-asiática.

Sub-representação de tons de pele

A conclusão é que dados e imagens usados para treinar algoritmos que detectam doenças de pele não possuem informações suficientes sobre os tons de pele. E naquelas em que há estas informações, há uma quantidade muito pequena de peles escuras.

A conclusão corrobora uma análise publicada anteriormente sobre dados usados para desenvolver ou testar algoritmos e revelou que apenas 10% deles continham informação sobre os tipos de pele nas imagens. De acordo com os dermatologistas, os tons de pele precisam ser identificados no exame clínico e registrados, pois não é possível identificá-los com precisão somente observando as imagens.

Sem informações detalhadas nas imagens, não há como verificar se os algoritmos foram desenvolvidos considerando dados suficientemente diversos sobre os tipos de pele. E eles são importantes para diagnosticar doenças, como o câncer de pele, que pode ser tratada com sucesso de diagnosticada precocemente.

“A sub-representação de tons de pele mais escuros nos processos de aprendizado de máquina pode comprometer o avanço proporcionado pela inteligência artificial e seus benefícios para a melhoria das condições de vida”, alerta Arie Halpern, especialista em tecnologias disruptivas.