A IA do Facebook aprendeu o reconhecimento de objetos com 1 bilhão de fotos do Instagram

Uma variedade de imagens

O Facebook usou uma abordagem diferente para construir uma IA para identificar o que está nas imagens

smuki – stock.adobe.com/Facebook

A inteligência artificial construída pelo Facebook aprendeu a classificar imagens de 1 bilhão de fotos do Instagram. A IA usou uma técnica de aprendizagem diferente de muitos outros algoritmos semelhantes, dependendo menos da entrada de humanos. A equipe por trás disso diz que a IA aprende de uma forma mais de bom senso.

Convencionalmente, os sistemas de visão por computador são treinados para identificar coisas específicas, como um gato ou um cachorro. Eles conseguem isso aprendendo com uma grande coleção de imagens que foram anotadas para descrever o que há nelas. Depois de fazer isso o suficiente, a IA pode então identificar as mesmas coisas em novas imagens, por exemplo, avistar um cachorro em uma imagem que ele nunca viu antes.

Este processo é eficaz, mas deve ser feito de novo com cada coisa nova que a IA precisa identificar, caso contrário, o desempenho pode cair.

Por outro lado, a abordagem usada pelo Facebook é uma técnica chamada aprendizagem autossupervisionada, na qual as imagens não vêm com anotações. Em vez disso, a IA primeiro aprende apenas a identificar as diferenças entre as imagens. Assim que puder fazer isso, ele verá um pequeno número de imagens anotadas para combinar os nomes com as características já identificadas.

“O objetivo era ver se era possível fazer os sistemas autossupervisionados funcionarem melhor do que os sistemas supervisionados em cenários reais”, diz Armand Joulin, do Facebook AI Research.

O treinamento da IA ​​levou cerca de um mês, usando 500 chips especializados chamados unidades de processamento gráfico. Ele alcançou uma precisão de 84,2 por cento na identificação do conteúdo de 13.000 imagens que nunca tinha visto do banco de dados de imagens ImageNet, que é freqüentemente usado para classificar a eficácia das ferramentas de visão computacional.

Joulin diz que a aprendizagem autossupervisionada é um passo em direção à compreensão do “senso comum” pela IA. “Deve ser capaz de compreender qualquer coisa sobre a imagem que é fornecida”, diz ele.

Ao adotar essa abordagem, ele e seus colegas acham que as IAs terão uma compreensão mais holística do que está em qualquer imagem. No entanto, a abordagem precisa de muitos dados. Joulin diz que você precisa de cerca de 100 vezes mais imagens para atingir o mesmo nível de precisão com um sistema autossupervisionado do que com um que tenha as imagens anotadas.

“Eu aceitaria com uma pitada de sal a afirmação de que o aprendizado autossupervisionado por si só pode nos levar a máquinas que têm um entendimento de bom senso”, disse Nikita Aggarwal, do Oxford Internet Institute, no Reino Unido. “Há uma diferença entre desenvolver sistemas de IA que podem identificar correlações em dados para classificar imagens e sistemas que podem realmente entender o significado e o contexto do que estão fazendo, ou mesmo raciocinar sobre isso.”

Aggarwal também está preocupado em usar imagens do Instagram para treinar IAs para aprender sobre o mundo. As imagens irão “representar de forma desproporcional a demografia mais jovem e aqueles que têm acesso à internet e ao celular”, diz ela. “Não há garantia de que este modelo de visão computacional produzirá resultados precisos para grupos que não estão bem representados pelo conjunto de dados de imagem no qual foi treinado.”

Joulin diz que o sistema ainda não foi testado o suficiente para entender seus vieses, mas “é algo que queremos investigar no futuro”. Ele também espera expandir o banco de dados de 1 bilhão de imagens para expandir ainda mais a compreensão da IA. “Aqui, apenas arranhamos a superfície”, diz ele.

Artigo alterado em
5 de março de 2021

Emendamos parte do discurso relatado de Nikita Aggarwal.

Mais sobre esses tópicos:

Leave a Reply

Your email address will not be published. Required fields are marked *