Googleov PaLM-E je generalni robotski mozak koji preuzima naredbe

Robotska ruka kojom upravlja PaLM-E poseže za vrećicom čipsa u pokaznom videu.
Povećaj/ Robotska ruka kojom upravlja PaLM-E poseže za vrećicom čipsa u pokaznom videu.

Google istraživanje

U ponedjeljak je skupina istraživača umjetne inteligencije iz Googlea i Tehničkog sveučilišta u Berlinu predstavila PaLM-E, multimodalni utjelovljeni vizualno-jezični model (VLM) s 562 milijarde parametri koji integrira viziju i jezik za robotsko upravljanje. Tvrde da je to najveći VLM ikada razvijen i da može obavljati razne zadatke bez potrebe za ponovnim osposobljavanjem.

Daljnje čitanje

Roboti omogućuju ChatGPT-u da dodirne stvarni svijet zahvaljujući Microsoftu

Prema Googleu, kada se dobije naredba visoke razine, poput "donesi mi čips riže iz ladice", PaLM-E može generirajte plan akcije za mobilnu robotsku platformu s rukom (razvio Google Robotics) i izvršite radnje sebe.

PaLM-E to čini analizom podataka iz robotove kamere bez potrebe za prethodno obrađenim prikazom scene. Ovo eliminira potrebu da čovjek prethodno obrađuje ili komentira podatke i omogućuje autonomniju robotsku kontrolu.

U demo videu koji je dostavio Google, PaLM-E izvodi "donesi mi čips riže iz ladice", što uključuje više koraka planiranja kao i uključivanje vizualne povratne informacije s robotove kamere.

Također je otporan i može reagirati na okolinu. Na primjer, model PaLM-E može voditi robota dobiti vrećicu za čips iz kuhinje—a s PaLM-E integriranim u kontrolnu petlju, postaje otporan na prekide koji se mogu dogoditi tijekom zadatka. U video primjeru, istraživač grabi žetone iz robota i pomiče ih, ali robot locira žetone i ponovno ih zgrabi.

U još jedan primjer, isti model PaLM-E autonomno kontrolira robota kroz zadatke sa složenim sekvencama koje su prije zahtijevale ljudsko vodstvo. Googleov znanstveni rad objašnjava kako PaLM-E pretvara upute u akcije:

Demonstriramo izvedbu PaLM-E na zahtjevnim i raznolikim zadacima mobilne manipulacije. Uglavnom slijedimo postavku u Ahn et al. (2022), gdje robot treba planirati slijed navigacijskih i manipulacijskih radnji na temelju ljudskih uputa. Na primjer, s obzirom na uputu "Prolio sam piće, možeš li mi donijeti nešto da to počistim?", robot treba isplanirati niz koji sadrži "1. Pronađi spužvu, 2. Uzmi spužvu, 3. Donesite ga korisniku, 4. Spusti spužvu." Inspirirani ovim zadacima, razvijamo 3 slučaja upotrebe za testiranje utjelovljenih sposobnosti razmišljanja PaLM-E-a: predviđanje pristupačnosti, otkrivanje kvarova i dugoročno planiranje. Politike niske razine potječu iz RT-1 (Brohan et al., 2022.), modela transformatora koji preuzima RGB sliku i instrukcije prirodnog jezika i šalje kontrolne naredbe krajnjeg efektora.

PaLM-E je prediktor sljedećeg tokena, a zove se "PaLM-E" jer se temelji na Googleovom postojećem velikom jezičnom modelu (LLM) pod nazivom "Dlan" (što je slično tehnologiji koja stoji iza ChatGPT). Google je PaLM učinio "utjelovljenim" dodavanjem senzorskih informacija i robotske kontrole.

Budući da se temelji na jezičnom modelu, PaLM-E uzima kontinuirana opažanja, poput slika ili senzorskih podataka, i kodira ih u niz vektora koji su iste veličine kao jezični tokeni. To omogućuje modelu da "razumije" senzorne informacije na isti način na koji obrađuje jezik.

Googleov demo video koji prikazuje robota vođenog PaLM-E prema uputama "Donesi mi zelena zvijezda." Istraživači kažu da je zelena zvijezda "objekt kojem ovaj robot nije bio izravno izložen do."

Uz to RT-1 robotski transformator, PaLM-E se oslanja na Googleov prethodni rad na ViT-22B, model transformatora vida otkriven u veljači. ViT-22B je obučen za različite vizualne zadatke, kao što su klasifikacija slika, detekcija objekata, semantička segmentacija i opisi slika.

Google Robotics nije jedina istraživačka skupina koja radi na upravljanju robotima s neuronskim mrežama. Ovaj poseban rad nalikuje Microsoftovom nedavnom "ChatGPT za robotiku", koji je eksperimentirao s kombiniranjem vizualnih podataka i velikih jezičnih modela za robotsku kontrolu na sličan način.

Daljnje čitanje

Microsoft predstavlja AI model koji razumije slikovni sadržaj, rješava vizualne zagonetke

Osim robotike, Googleovi istraživači primijetili su nekoliko zanimljivih učinaka koji očito dolaze iz korištenja velikog jezičnog modela kao jezgre PaLM-E. Kao prvo, pokazuje "pozitivan prijenos", što znači da može prenijeti znanje i vještine koje je naučio s jednog zadatka na drugi, što je rezultiralo "značajno većom izvedbom" u usporedbi s robotom s jednim zadatkom modeli.

Također, oni promatranom trend s ljestvicom modela: "Što je jezični model veći, to više održava svoje jezične sposobnosti tijekom obuke na zadacima vizualnog jezika i robotike—kvantitativno, model 562B PaLM-E gotovo zadržava sav svoj jezik sposobnosti."

PaLM-E je najveći VLM prijavljen do danas. Promatramo novonastale sposobnosti kao što je multimodalni misaoni lanac razmišljanja i zaključivanje s više slika, unatoč tome što smo trenirani samo na upitima s jednom slikom. Iako nije fokus našeg rada, PaLM-E postavlja novu SOTA na OK-VQA mjerilu. pic.twitter.com/9FHug25tOF

— Danny Driess (@DannyDriess) 7. ožujka 2023

I istraživači zahtjev da PaLM-E pokazuje nove mogućnosti poput multimodalnog razmišljanja u lancu misli (omogućujući modelu da analizira niz ulaza koji uključuju oba jezika i vizualne informacije) i zaključivanje s više slika (korištenje više slika kao ulaznih podataka za donošenje zaključaka ili predviđanja) usprkos obuci samo na jednoj slici upita. U tom smislu čini se da PaLM-E nastaviti trend iznenađenja koja se pojavljuju kako modeli dubokog učenja s vremenom postaju sve složeniji.

Googleovi istraživači planiraju istražiti više primjena PaLM-E za scenarije stvarnog svijeta kao što su kućna automatizacija ili industrijska robotika. I nadaju se da će PaLM-E potaknuti više istraživanja o multimodalnom razmišljanju i utjelovljenoj umjetnoj inteligenciji.

"Multimodalni" je poštapalica koju ćemo sve više čuti kao tvrtke posegnuti za umjetnom općom inteligencijom koji će tobože moći obavljati opće zadatke poput čovjeka.

Najnoviji post na blogu

Najbolje društvene igre 2017
September 26, 2023

Pripadanje biblioteciAdam McIver, Renegade Game Studios, 1-4 igrača, 45 minuta, dob 12+48 dolara na AmazonuPovećajUnatoč prilično suhoparnom nazivu...

Vrhunski vodič za darivanje društvenih igara tvrtke Ars Technica, izdanje 2018
September 26, 2023

Teža cijenaDulje i složenije, igre u ovom dijelu su "igre za igrače". Evo nekoliko preporuka za održavanje mozga.Terra Mystica2-5 igrača, 60-150 mi...

Vrhunski vodič za darivanje društvenih igara tvrtke Ars Technica, izdanje 2018
September 26, 2023

Moderni klasiciVelike su šanse da je jedna od dolje navedenih "pristupnih igara" dovela vas ili vašeg poklonika u hobi. Ako ne — ako niste igrali o...