Pesquisa cria reconhecimento de vídeo funcional para smartphones

Nos últimos anos, com a queda no custo de câmeras e softwares de edição, as redes foram inundadas com novos conteúdos em vídeo. A cada dia, mais de 720 mil horas são carregadas apenas no YouTube, a plataforma mais popular de compartilhamento desse tipo de produção. Se os novos vídeos do YouTube anexados a cada 60 minutos fossem exibidos um após o outro, isso resultaria numa sequência aproximada de três anos e meio. Com essa produção massiva, e que cresce de forma exponencial, são cada vez mais necessárias ferramentas eficazes de Inteligência Artificial (IA) para catalogar os conteúdos e, assim, ajudar espectadores e anunciantes a localizar vídeos mais rapidamente.

O grande gargalo, segundo os especialistas, é que a análise de vídeos é muito mais intensiva em capacidade de processamento do que as de fotografias, que já contam com ferramentas adequadas de classificação. O trabalho de um programa inteligente para imagens em movimento é cerca de 50 vezes mais pesado do que para imagens paradas. Justamente para atacar esse problema, o Departamento de Engenharia Elétrica e Ciência da Computação do Massachusetts Institut of Tecnology está pesquisando modelos de aprendizado profundo mais eficientes. Em um artigo para a Conferência Internacional sobre Visão Computacional, pesquisadores do MIT descreveram um método para reduzir modelos de reconhecimento de vídeo compatíveis com smartphones e outros dispositivos móveis. Ele permite reduzir os parâmetros necessários dos atuais 150 milhões de parâmetros para 25 milhões. O sistema faz isso transferindo os mapas de recursos de um quadro de vídeo selecionado para quadros vizinhos. Ao mesclar representações espaciais do passado, presente e futuro, o modelo obtém uma sensação de tempo sem representá-lo explicitamente.

“Essa bem-vinda novidade pode tornar no futuro a Inteligência Artificial de reconhecimento de vídeos disponível para qualquer usuário comum com um bom smartphone”, afirma o especialista em tecnologias disruptivas Arie Halpern. Para o especialista, uma das grandes vantagens dos novos modelos poderá ser a economia de energia propiciada pela redução drástica da necessidade de processamento.

Redes neurais

Hoje, as máquinas já superam os humanos em atividades de reconhecimento visual bem definidas, como a leitura de exames médicos. Os modelos são baseados em redes neurais, que são inspiradas nas maneiras pelas quais o cérebro humano processa a informação captada através dos olhos. Com exemplos suficientes, as redes neurais “aprendem” a reconhecer pessoas, objetos e como eles se relacionam.