Já ouviu falar em Data Augmentation, técnica para aumentar a precisão dos modelos de aprendizado de máquina?

Os modelos de aprendizado de máquina são capazes de fazer coisas fantásticas e apontar soluções a partir da análise de bases de dados. Porém, muitas vezes, quantidade de informações disponíveis é limitada, impedindo extrapolar a análise. A solução nestes casos é recorrer à Data Augmentation ou aumento de dados, uma técnica que gera novos exemplos de treinamento a partir dos existentes.

Quando os modelos de aprendizado de máquina são treinados com exemplos limitados, eles tendem a se “ajustar demais”.  O overfitting ocorre quando um modelo tem um desempenho preciso nos exemplos de treinamento, mas não consegue generalizar e extrapolar os dados.

O aumento de dados é um método eficaz e de custo relativamente baixo para melhorar o desempenho e a precisão dos modelos de aprendizado de máquina em ambientes com dados restritos. A técnica consiste em aumentar a quantidade de dados adicionando cópias ligeiramente modificadas dos dados existentes.

Um modelo que utiliza o aprendizado de máquina para classificar imagens, por exemplo, precisa de um extenso e diversificado conjunto de exemplos para ter acuracidade ao analisar imagens reais. Ao acrescentar cópias das próprias imagens com modificações na rotação, corte, zoom e translação é possível aumentar a amostra usada para treinar a máquina. As opções não se limitam a estas, é possível alterar as cores e usar outros efeitos, como filtros e nitidez.

O aumento de dados é especialmente útil para o aprendizado supervisionado, porque você já tem os rótulos e não precisa esforço adicional para analisar novos exemplos. O aumento de dados também é útil para outras classes de algoritmos de aprendizado de máquina, como aprendizado não supervisionado, aprendizado contrastivo e modelos generativos.

Aumento de dados também tem seus limites

O aumento de dados se tornou uma prática padrão para treinar modelos de aprendizado de máquina para aplicativos de visão computacional. Bibliotecas populares de aprendizado de máquina e de programação de aprendizado profundo têm funções fáceis de usar para integrar o aumento de dados ao pipeline de treinamento.

E ele não se limita a imagens, podendo ser usado em outros tipos de análise de dados. Em conjuntos de dados de texto, por exemplo, substantivos e verbos podem ser substituídos por seus sinônimos. Em dados de áudio, os exemplos de treinamento podem ser modificados adicionando ruído ou alterando a velocidade de reprodução.

Mas o aumento de dados não é uma solução mágica para resolver todos os porque não é ilimitado. Mesmo com esta possibilidade, ainda é necessário um conjunto de dados amplo e variado. Ou seja, o ponto de partida precisa ter uma quantidade mínima. “Ele também não endereça outros problemas, como os vieses, comuns em conjunto de dados usados no aprendizado de máquina”, pondera o especialista em tecnologias disruptivas Arie Halpern.