Levando robôs para a escola – Abordagem inovadora leva ao domínio de habilidades
O Instituto de Pesquisa da Toyota (TRI) está revelando uma revolução na robótica ao introduzir uma abordagem de treinamento inovadora que impulsiona os robôs do trivial universo de pegar e colocar para um reino onde podem rapidamente compreender e aperfeiçoar novos comportamentos. Embora os robôs sejam promissores na assistência em uma ampla variedade de tarefas, sempre houve uma barreira significativa no ensino dessas tarefas – até agora.
Usando o método inovador do TRI, os robôs não apenas aprendem; eles observam, absorvem e dominam tarefas manipulativas complexas durante a noite, adquirindo a habilidade para manusear ferramentas, despejar líquidos e até mesmo descascar vegetais, tudo isso sem uma única alteração no código ou a necessidade de programação exaustiva (Figura 1). Diga adeus aos dias de aprendizado de máquina com milhões de casos de treinamento e abrace uma era em que os robôs não são apenas inteligentes, mas surpreendentemente habilidosos e impressionantemente adaptáveis.
A Nova Abordagem
Russ Tedrake, Vice-Presidente de Pesquisa em Robótica da TRI, lançou uma missão em 2016 para impulsionar os robôs para uma destreza sem precedentes. Os obstáculos iniciais levaram a uma questão revolucionária: “Qual é o calcanhar de Aquiles da robótica moderna?” A resposta? Uma dependência excessiva da simulação. Assim, surge o Projeto de Física Intuitiva, uma iniciativa audaciosa para desbloquear habilidades humanas além dos limites dos mundos virtuais.
Em vez de depender de simulações, a equipe abraçou uma estratégia radical: aprendizado por imitação com um toque moderno. Avançando rapidamente para 2022, um estagiário de verão audacioso introduziu um ajuste inovador – modelos de difusão. Os modelos permitem o aprendizado eficiente de regras reativas a partir de um pequeno conjunto de dados de treinamento fornecidos.
Após coletar um conjunto de demonstrações para um comportamento específico, o robô aprende a realizar esse comportamento de forma autônoma. No centro dessa capacidade está uma técnica de IA generativa chamada Diffusion Policy1. Por exemplo, um professor demonstra um pequeno conjunto de habilidades, e a Diffusion Policy gera ações no robô com base em observações de sensores de movimento humano e linguagem natural. A demonstração é executada por várias horas após a demonstração original do professor. O uso da Diffusion Policy proporciona três benefícios-chave:
- Aplica-se a demonstrações multimodais, onde os demonstradores humanos ensinam comportamentos naturalmente, sem se preocupar em confundir o robô.
- Como é adequado para espaços de ação de alta dimensão, o robô pode planejar com antecedência, evitando comportamentos míopes, inconsistentes ou erráticos.
- Isso resulta em um treinamento de robô estável e seguro em escala, com a confiança de que funcionarão sem ajustes manuais ou busca por pontos de verificação ideais.
A sensação de tato também permite que os robôs aprendam mais facilmente. Os sensores Soft-Bubble2 da TRI consistem em uma câmera interna observando uma membrana externa inflada e deformável, e vão além da medição de sinais de força dispersos. Isso permite que um robô perceba informações espacialmente densas sobre padrões de contato, geometria, deslizamento e força. Os robôs se saem bem quando podem “sentir” uma interação com o ambiente (Tabela 1).
| Habilidade | Objetivos da tarefa | Número de demonstrações | Taxa de sucesso com toque | Taxa de sucesso sem toque |
| Abrir massa | Abra uma bola de massa com um rolo de aproximadamente 15 cm de comprimento | 75 | 96%(48/50 tentativas) | 0%(0/50) |
| Servir comida | Servir 3 panquecas em um prato usando uma espátula | 75 | 90%(27/30 panquecas) | 10%(3/30) |
| Reunir e transferir | Juntar rodelas de cenoura e servir em uma caixa | 60 | 80%(56/70 rodelas) | 14%(10/70 rodelas) |
| Virar panqueca | Virar panquecas em uma frigideira | 95 | 90%(27/30 viradas) | 83%(25/30 viradas) |
A Plataforma
Imagine um mundo onde robôs podem preparar seu café da manhã ou virar uma panqueca sem esforço. Essa é a visão que a TRI está buscando com sua abordagem inovadora. Ao aproveitar uma variedade de ferramentas de teleoperação – desde o simples joystick até dispositivos bimanuais sofisticados – eles estão reescrevendo as regras da educação de robôs. Com a magia da IA generativa de ponta, eles capacitaram um robô a dominar uma variedade de habilidades complexas, como artes culinárias e manuseio de dispositivos. Siyuan Feng, pesquisador da TRI na vanguarda da Diffusion Policy, esclarece o processo: enquanto eles orientam os robôs, eles construíram resiliência em seu DNA de aprendizado, preparando-os para contratempos do mundo real.
A chave para receber comandos hábeis é o acoplamento de posição-posição, onde um operador humano pode ensinar ao robô poses e movimentos com uma entrada bimanual. O robô executa as poses e movimentos através do Controle de Espaço Operacional baseado em torque, imitando os movimentos do operador e enviando feedback tátil ao operador. E, felizmente, a TRI planeja compartilhar essa dinâmica com o mundo, sugerindo um lançamento de código aberto.
A simulação, outrora deixada de lado para ação prática, está fazendo um retorno dramático. A TRI está meticulosamente elaborando um currículo imersivo em seu “jardim de infância robótico” virtual, tanto no mundo tangível quanto em seu playground digital. Eles já registraram mais de 60 comportamentos, e o objetivo final é ter robôs que possam nos surpreender realizando proezas que nunca foram explicitamente ensinadas.
Com objetivos altos, a TRI está se preparando para revelar centenas de novas habilidades de robôs em um futuro próximo, visando um impressionante milhar até o final de 2024. E a cereja do bolo? Sua expertise em simulação está lançando as sementes para uma revolução robótica, onde uma lição aprendida por um se torna sabedoria para todos. O futuro, parece, é uma dança de metal e IA.
O Que Vem A Seguir?
Ben Burchfiel, o líder da equipe de manipulação tátil da TRI, compartilha: “Estamos ampliando os limites com algoritmos escaláveis, inspirados pelos avanços na tecnologia de linguagem e imagem.” Ainda assim, o mundo da robótica ainda está faminto por um rico e diversificado tecido de dados, algo que a TRI está elaborando com paixão. A visão deles? Tecer grandes modelos de comportamento que misturam profundo entendimento com brilhantismo tátil, capacitando os robôs a conceber intuitivamente novas ações ágeis. Esta jornada promete não apenas redefinir a robótica, mas também estimular inovações em automação, aprendizado de máquina e na colaboração entre humanos e máquinas.
Referências
1. Chi, Cheng, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, and Shuran Song. “Diffusion Policy: Visuomotor Policy Learning via Action Diffusion.” June 1, 2023, https://arxiv.org/abs/2303.04137.
2. Punyo. “Soft Bubble Grippers for Robust and Perceptive Manipulation.” Accessed December 29, 2023, https://punyo.tech/.
Artigo escrito por Carolyn Mathas e publicado no blog da Mouser Electronics: Dexterous Robotics: The Fast-Track to Mastery
Traduzido pela Equipe Embarcados. Visite a página da Mouser Electronics no Embarcados








