Robótica hábil: o caminho mais rápido para a maestria

07/03/2024

ÍNDICE DE CONTEÚDO

Levando robôs para a escola – Abordagem inovadora leva ao domínio de habilidades

O Instituto de Pesquisa da Toyota (TRI) está revelando uma revolução na robótica ao introduzir uma abordagem de treinamento inovadora que impulsiona os robôs do trivial universo de pegar e colocar para um reino onde podem rapidamente compreender e aperfeiçoar novos comportamentos. Embora os robôs sejam promissores na assistência em uma ampla variedade de tarefas, sempre houve uma barreira significativa no ensino dessas tarefas – até agora.

Usando o método inovador do TRI, os robôs não apenas aprendem; eles observam, absorvem e dominam tarefas manipulativas complexas durante a noite, adquirindo a habilidade para manusear ferramentas, despejar líquidos e até mesmo descascar vegetais, tudo isso sem uma única alteração no código ou a necessidade de programação exaustiva (Figura 1). Diga adeus aos dias de aprendizado de máquina com milhões de casos de treinamento e abrace uma era em que os robôs não são apenas inteligentes, mas surpreendentemente habilidosos e impressionantemente adaptáveis.

Figura 1: “Ensinando” ao robô habilidades culinárias que ele aprenderá em uma tarde e poderá executar na manhã do dia seguinte. (Fonte: TRI)

A Nova Abordagem

Russ Tedrake, Vice-Presidente de Pesquisa em Robótica da TRI, lançou uma missão em 2016 para impulsionar os robôs para uma destreza sem precedentes. Os obstáculos iniciais levaram a uma questão revolucionária: “Qual é o calcanhar de Aquiles da robótica moderna?” A resposta? Uma dependência excessiva da simulação. Assim, surge o Projeto de Física Intuitiva, uma iniciativa audaciosa para desbloquear habilidades humanas além dos limites dos mundos virtuais.

Em vez de depender de simulações, a equipe abraçou uma estratégia radical: aprendizado por imitação com um toque moderno. Avançando rapidamente para 2022, um estagiário de verão audacioso introduziu um ajuste inovador – modelos de difusão. Os modelos permitem o aprendizado eficiente de regras reativas a partir de um pequeno conjunto de dados de treinamento fornecidos.

Após coletar um conjunto de demonstrações para um comportamento específico, o robô aprende a realizar esse comportamento de forma autônoma. No centro dessa capacidade está uma técnica de IA generativa chamada Diffusion Policy¹. Por exemplo, um professor demonstra um pequeno conjunto de habilidades, e a Diffusion Policy gera ações no robô com base em observações de sensores de movimento humano e linguagem natural. A demonstração é executada por várias horas após a demonstração original do professor. O uso da Diffusion Policy proporciona três benefícios-chave:

Aplica-se a demonstrações multimodais, onde os demonstradores humanos ensinam comportamentos naturalmente, sem se preocupar em confundir o robô.
Como é adequado para espaços de ação de alta dimensão, o robô pode planejar com antecedência, evitando comportamentos míopes, inconsistentes ou erráticos.
Isso resulta em um treinamento de robô estável e seguro em escala, com a confiança de que funcionarão sem ajustes manuais ou busca por pontos de verificação ideais.

A sensação de tato também permite que os robôs aprendam mais facilmente. Os sensores Soft-Bubble² da TRI consistem em uma câmera interna observando uma membrana externa inflada e deformável, e vão além da medição de sinais de força dispersos. Isso permite que um robô perceba informações espacialmente densas sobre padrões de contato, geometria, deslizamento e força. Os robôs se saem bem quando podem “sentir” uma interação com o ambiente (Tabela 1).

Habilidade	Objetivos da tarefa	Número de demonstrações	Taxa de sucesso com toque	Taxa de sucesso sem toque
Abrir massa	Abra uma bola de massa com um rolo de aproximadamente 15 cm de comprimento	75	96%(48/50 tentativas)	0%(0/50)
Servir comida	Servir 3 panquecas em um prato usando uma espátula	75	90%(27/30 panquecas)	10%(3/30)
Reunir e transferir	Juntar rodelas de cenoura e servir em uma caixa	60	80%(56/70 rodelas)	14%(10/70 rodelas)
Virar panqueca	Virar panquecas em uma frigideira	95	90%(27/30 viradas)	83%(25/30 viradas)

Tabela 1: Uma comparação de desempenho do mundo real entre habilidades aprendidas de forma tátil e habilidades aprendidas apenas observando. (Fonte: TRI)

A Plataforma

Imagine um mundo onde robôs podem preparar seu café da manhã ou virar uma panqueca sem esforço. Essa é a visão que a TRI está buscando com sua abordagem inovadora. Ao aproveitar uma variedade de ferramentas de teleoperação – desde o simples joystick até dispositivos bimanuais sofisticados – eles estão reescrevendo as regras da educação de robôs. Com a magia da IA generativa de ponta, eles capacitaram um robô a dominar uma variedade de habilidades complexas, como artes culinárias e manuseio de dispositivos. Siyuan Feng, pesquisador da TRI na vanguarda da Diffusion Policy, esclarece o processo: enquanto eles orientam os robôs, eles construíram resiliência em seu DNA de aprendizado, preparando-os para contratempos do mundo real.

A chave para receber comandos hábeis é o acoplamento de posição-posição, onde um operador humano pode ensinar ao robô poses e movimentos com uma entrada bimanual. O robô executa as poses e movimentos através do Controle de Espaço Operacional baseado em torque, imitando os movimentos do operador e enviando feedback tátil ao operador. E, felizmente, a TRI planeja compartilhar essa dinâmica com o mundo, sugerindo um lançamento de código aberto.

A simulação, outrora deixada de lado para ação prática, está fazendo um retorno dramático. A TRI está meticulosamente elaborando um currículo imersivo em seu “jardim de infância robótico” virtual, tanto no mundo tangível quanto em seu playground digital. Eles já registraram mais de 60 comportamentos, e o objetivo final é ter robôs que possam nos surpreender realizando proezas que nunca foram explicitamente ensinadas.

Com objetivos altos, a TRI está se preparando para revelar centenas de novas habilidades de robôs em um futuro próximo, visando um impressionante milhar até o final de 2024. E a cereja do bolo? Sua expertise em simulação está lançando as sementes para uma revolução robótica, onde uma lição aprendida por um se torna sabedoria para todos. O futuro, parece, é uma dança de metal e IA.

O Que Vem A Seguir?

Ben Burchfiel, o líder da equipe de manipulação tátil da TRI, compartilha: “Estamos ampliando os limites com algoritmos escaláveis, inspirados pelos avanços na tecnologia de linguagem e imagem.” Ainda assim, o mundo da robótica ainda está faminto por um rico e diversificado tecido de dados, algo que a TRI está elaborando com paixão. A visão deles? Tecer grandes modelos de comportamento que misturam profundo entendimento com brilhantismo tátil, capacitando os robôs a conceber intuitivamente novas ações ágeis. Esta jornada promete não apenas redefinir a robótica, mas também estimular inovações em automação, aprendizado de máquina e na colaboração entre humanos e máquinas.

Referências

1. Chi, Cheng, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, and Shuran Song. “Diffusion Policy: Visuomotor Policy Learning via Action Diffusion.” June 1, 2023, https://arxiv.org/abs/2303.04137.

2. Punyo. “Soft Bubble Grippers for Robust and Perceptive Manipulation.” Accessed December 29, 2023, https://punyo.tech/.

Artigo escrito por Carolyn Mathas e publicado no blog da Mouser Electronics: Dexterous Robotics: The Fast-Track to Mastery

Traduzido pela Equipe Embarcados. Visite a página da Mouser Electronics no Embarcados