O aprendizado de máquina enfrenta seu maior desafio: discernir donuts de bagels

Você está em: Início » aprendizado de máquina » Google » IA » novidades » O aprendizado de máquina enfrenta seu maior desafio: discernir donuts de bagels

segunda-feira, 15 de fevereiro de 2021

O aprendizado de máquina enfrenta seu maior desafio: discernir donuts de bagels

O aprendizado de máquina enfrenta seu maior desafio: discernir donuts de bagels. A Google espera consertar os "pontos fracos" da aprendizagem de máquina com um desafio de crowdsourcing.

fonte: Android Police

O aprendizado de máquina pode beirar a mágica e fornecer muitos dos maiores benefícios técnicos que desfrutamos na última década, mas tem muitos "pontos fracos". Uma das maiores preocupações da Google é que os modelos são frequentemente treinados usando dados de exemplo que são muito fáceis de interpretar, tornando-os despreparados para a maior ambiguidade do mundo real. Caso em questão: diferenciar um donut de um bagel.

É um erro fácil de cometer, pois eles compartilham muitas características: ambos são redondos, têm um furo e às vezes uma textura visível na parte superior. Pode até ser algo que você ou eu podemos ter dificuldade em reconhecer a diferença nas circunstâncias certas, mas na verdade não acaba sendo um problema para nós, muitas vezes graças ao contexto.

É um problema fundamental com base em como treinamos os modelos de aprendizado de máquina. Conjuntos de dados para coisas como reconhecimento de imagem, por exemplo, são freqüentemente removidos para conter imagens que são intencionalmente fáceis de discernir, com um foco claro no assunto. A esperança é claramente que, a partir desses exemplos bem focados, o modelo ganhe a capacidade de reconhecer imagens no contexto, mas isso nem sempre dá certo e os deixa vulneráveis ao examinar exemplos do mundo real que podem não ser tão tolerantes . Mas, de longe, a parte mais difícil é determinar exatamente o que esses modelos não sabem - seus "pontos fracos".

Existem basicamente duas categorias de pontos fracos, com nomes que apenas engenheiros de software poderiam ter criado: desconhecidos conhecidos (known unknowns) e desconhecidos desconhecidos (unknown unknowns). De modo geral, uma incógnita conhecida é quando o próprio modelo relata baixa confiança em sua resposta - ou seja, ele sabe que não sabe o que está olhando. E isso é muito fácil de consertar. Se o modelo pode confiar em sua falta de confiança, ele pode deixar essa imagem de lado para uma resposta humana. Desconhecidas desconhecidas são difíceis de resolver porque o modelo acaba totalmente confiante em sua resposta errada. Isso não é algo que você pode corrigir da mesma maneira.

fonte: Android Police

Desconhecidas desconhecidas também assumem algumas formas diferentes. Por exemplo, uma imagem pode ser manipulada intencionalmente de maneiras sutis para induzir um modelo a cometer um erro, como no caso do panda que você vê logo acima. Um pouco de ruído, invisível aos nossos próprios olhos humanos, pode introduzir detalhes que um modelo pode pegar para classificá-lo incorretamente - provavelmente algo que é ainda mais exagerado se um modelo for treinado demais em um conjunto de dados de exemplo disponível publicamente. Mas isso é resultado de uma ação intencional. São exemplos do mundo real que preocupam mais os pesquisadores, coisas como fotos normais que você ou eu podemos tirar do nosso jantar ou da natureza que acabam sendo classificadas erroneamente com extrema confiança.

Desconhecidos desconhecidos podem ser classificados como "raros", no caso de coisas que são tão obscuras que um modelo pode não ter sido treinado nelas (como raças de cães específicas); "complicado", se a moldura, o ângulo ou as posições podem ser confusos, mas o contexto torna imediatamente claro para um observador humano (um donut tem mais probabilidade de ser coberto com gelo ou pó, um cachorro provavelmente não seria encontrado em uma árvore, etc.); ou ambos "raro" e "complicado" se ambos forem combinados (como um carro de corrida em uma pista, visto de um ângulo incomum através do brilho da superfície quente). Há um número surpreendente de maneiras pelas quais um modelo de aprendizado de máquina pode estar errado com segurança.

Possíveis "desconhecidos desconhecidos" do conjunto de dados Open Images, fonte: Android Police

Para esse fim, a Google está abrindo um desafio. Os Pesquisadores de Aprendizagwem de máquina, desenvolvedores de software e até mesmo entusiastas dispostos a trabalhar um pouco são convidados para selecionar imagens do conjunto de dados de imagens abertas de 24 rótulos de destino para encontrar exemplos do mundo real desses desconhecidos desconhecidos.

Novamente, isso não é para o consumidor médio, nem para mim. A Google está procurando desenvolvedores e pesquisadores para participar, e existem muitas regras sobre como você deve fazer seus envios. Mas os entusiastas do aprendizado de máquina ou desenvolvedores Android que procuram expandir seus horizontes um pouco enquanto estamos todos presos podem estar interessados em dar uma olhada. Há todo um sistema de pontuação e, embora não haja nenhum prêmio, a Google vai até coroar um "vencedor". O desafio termina em 30 de abril de 2021.

fonte: Android Police via Google, CATS4ML Challenge