Google wprowadza nowatorskie metody szkolenia robotów z wykorzystaniem wideo i dużych modeli językowych

Rozwój sztucznej inteligencji nie zwalnia tempa, a najnowsze badania Google otwierają nowy rozdział w szkoleniu robotów. W 2024 roku możemy być świadkami przełomu w sposobie, w jaki roboty uczą się i działają, a wszystko to za sprawą kombinacji wideo i zaawansowanych modeli językowych.

Spis treści

1 Google DeepMind bada nowe horyzonty w robotyce

2 Praktyczne aplikacje AutoRT

3 RT-Trajectory – nowe podejście do nauki maszyn

Google DeepMind bada nowe horyzonty w robotyce

W roku 2024, interakcja między generatywną sztuczną inteligencją a robotyką może osiągnąć nowy poziom. Zespół badaczy Google DeepMind skupia się na eksploracji tego potencjału, a ich najnowsze badania zdają się rozwijać zupełnie nowe podejście do szkolenia robotów. W tradycyjnym podejściu, roboty są projektowane do wykonywania jednego zadania w kółko przez cały czas ich użytkowania. Jednak w obliczu nieoczekiwanych zmian czy błędów, takie jednozadaniowe maszyny napotykają na poważne wyzwania.

Odpowiedzią na te wyzwania jest AutoRT, nowatorski system, który ma wykorzystać duże modele językowe do różnorodnych celów. Na przykład, Visual Language Model (VLM) ma na celu zwiększenie świadomości sytuacyjnej robotów pracujących wspólnie. System ten zarządza grupą robotów wyposażonych w kamery, które pozwalają im zrozumieć otoczenie i obiekty w nim zawarte.

W dodatku, duży model językowy proponuje zadania, które roboty mogą wykonać, w tym z zastosowaniem ich końcówki roboczej, czyli end effectora. Uważa się, że te duże modele językowe są kluczowe dla umożliwienia robotom rozumienia poleceń w naturalnym języku, co redukuje potrzebę tworzenia twardo zakodowanych umiejętności.

Praktyczne aplikacje AutoRT

AutoRT przeszło gruntowne testy przez ostatnie siedem miesięcy, koordynując pracę do 20 robotów jednocześnie i obsługując łącznie 52 różne urządzenia. W tym czasie DeepMind zgromadził ponad 77,000 prób, obejmujących więcej niż 6,000 zadań. To świadczy o zaawansowaniu projektu i jego szerokim zakresie zastosowania.

DeepMind zbiera cenne dane, które są kluczowe dla dalszego rozwoju i optymalizacji AutoRT. Wiele z tych zadań obejmowało wyzwania, które miały na celu sprawdzenie zdolności robotów do adaptacji i wykonania pracy w zmieniających się warunkach. Warto zwrócić uwagę, że zespół wprowadził także RT-Trajectory, metodę wykorzystującą wejście wideo do uczenia robotów.

RT-Trajectory – nowe podejście do nauki maszyn

RT-Trajectory zakłada wykorzystanie wejścia wideo do nauczania robotów poprzez nakładanie dwuwymiarowego szkicu ruchu ramienia robota na wideo, dodając tym samym nowy wymiar do procesu szkoleniowego. W testach RT-Trajectory osiągnął 63% skuteczności w realizacji 41 zadań, co stanowi znaczącą poprawę w porównaniu z 29% skutecznością poprzedniego treningu RT-2.

Metoda ta otwiera drogę do wykorzystania istniejących zbiorów danych dla odblokowania wiedzy, która może być wykorzystana do tworzenia robotów zdolnych do efektywnych i precyzyjnych ruchów w nowych sytuacjach. Jest to kolejny krok w kierunku tworzenia maszyn, które będą mogły lepiej współpracować z ludźmi i adaptować się do dynamicznie zmieniających się wymagań.

W świetle tych badań, 2024 rok zapowiada się jako znaczący dla połączenia generatywnej AI, dużych modeli fundamentalnych i robotyki. Ekscytacja wokół potencjalnych zastosowań tej technologii jest ogromna, zwłaszcza jeśli weźmiemy pod uwagę możliwości w uczeniu się i projektowaniu produktów. Google’s DeepMind Robotics rzuca światło na fascynujący postęp w tej dziedzinie, który ma szansę nie tylko ulepszyć sposób, w jaki roboty uczą się i działają, ale również zmienić nasze codzienne życie i pracę.