Forskere utvikler KI-modell for «oversettelse» av bevegelser for å kontrollere roboter

KI-generert illustrasjon. xAI/Grok
Bilde: KI-generert illustrasjon. xAI/Grok
Forskere ved Brown University i Providence, Rhode Islands, har utviklet en ny kunstig intelligensmodell som kan generere bevegelser for alle typer roboter og animerte figurer – fra humanoider og firbeinte robotter til andre, utallige former – basert på enkle tekstkommandoer.

Forskere ved Brown University har utviklet en kunstig intelligensmodell som kan generere bevegelse i roboter og animerte figurer på samme måte som KI-modeller som ChatGPT genererer tekst. Det skriver universitetet selv på egne hjemmesider.

Modellen, kalt MotionGlot, gjør det mulig for brukere å skrive en handling – «gå fremover noen skritt og ta til høyre» – og modellen genererer nøyaktige representasjoner av denne bevegelsen for å styre en robot eller en animert avatar.

Ifølge forskerne er modellens viktigste gjennombrudd dens evne til å «oversette» bevegelse på tvers av ulike typer robotter og figurer, fra humanoider til firbeinte roboter og videre. Dette gjør det mulig å generere bevegelse for et bredt spekter av robotiske legemliggjøringer i forskjellige romlige konfigurasjoner og sammenhenger.

– Vi behandler bevegelse som et språk, sier Sudarshan Harithas, Ph.D.-student i informatikk ved Brown og hovedforfatteren av studien. – Akkurat som vi kan oversette språk – fra engelsk til kinesisk, for eksempel – kan vi nå oversette språkbaserte kommandoer til tilsvarende handlinger på tvers av ulike legemliggjøringer. Dette åpner for et bredt spekter av nye anvendelser.

Forskningen, som har fått støtte fra Office of Naval Research, vil bli presentert senere denne måneden på den internasjonale konferansen om robotikk og automasjon i Atlanta i 2025. Arbeidet er skrevet av Harithas sammen med hans veileder, Srinath Sridhar, assisterende professor i informatikk ved Brown.

Hvordan modellen fungerer

Store språkmodeller som ChatGPT genererer tekst gjennom en prosess kalt «next token prediction» (prediksjon av neste token), hvor språket brytes ned i en serie med tokens, eller små enheter som individuelle ord eller tegn. Med ett token eller en sekvens av tokens gjør språkmodellen en prediksjon om hva neste token vil være. Disse modellene har hatt stor suksess med å generere tekst, og forskere har nå begynt å bruke lignende tilnærminger for bevegelse. Ideen er å dele opp bevegelsens komponenter – som for eksempel beinets posisjon under gange – i tokens. Når bevegelsen er tokenisert, kan flytende bevegelser genereres gjennom prediksjon av neste token.

En utfordring med denne tilnærmingen er at bevegelser for én kroppstype kan se svært forskjellige ut for en annen. For eksempel, når en person går med en hund, utfører både personen og hunden noe som kalles «gåing», men de faktiske bevegelsene er veldig forskjellige. Personen er oppreist på to bein, mens hunden beveger seg på alle fire. Ifølge Harithas kan MotionGlot oversette betydningen av «å gå» fra én legemliggjøring til en annen. Så hvis en bruker gir kommandoen «gå fremover i en rett linje», vil modellen generere riktig bevegelse enten det er en humanoid figur eller en robot-hund som skal utføre handlingen.

Trening av modellen

For å trene modellen brukte forskerne to datasett som inneholder timer med annotert bevegelsesdata. QUAD-LOCO-datasettet inneholder data fra hundelignende firbeinte roboter som utfører ulike handlinger, sammen med detaljerte tekstbeskrivelser av disse bevegelsene. Et lignende datasett, QUES-CAP, inneholder data fra ekte menneskelige bevegelser, sammen med detaljerte bildetekster og annotasjoner som er relevante for hver bevegelse.

Ved hjelp av disse treningsdataene kan modellen pålitelig generere passende handlinger ut fra tekstkommandoer, til og med handlinger den ikke har sett før. I tester har modellen vært i stand til å gjenskape spesifikke instruksjoner, som «en robot går bakover, svinger til venstre og går fremover», samt mer abstrakte kommandoer som «en robot går lykkelig». Den kan til og med bruke bevegelse til å svare på spørsmål. Når den blir spurt «Kan du vise meg bevegelse i kardiovaskulær aktivitet?», genererer modellen en person som jogger.

– Disse modellene fungerer best når de er trent på store mengder data, sier Sridhar. – Hvis vi kunne samle store mengder data, kan modellen lett skaleres opp.

Potensielle anvendelser

Den nåværende funksjonaliteten til modellen og dens tilpasningsevne på tvers av ulike legemliggjøringer åpner for lovende anvendelser innenfor områder som menneske-robot samarbeid, spill og virtuell virkelighet, samt digital animasjon og videoproduksjon, ifølge forskerne. De planlegger å gjøre modellen og kildekoden tilgjengelig for offentligheten, slik at andre forskere kan bruke og videreutvikle den.

Har du innspill til denne saken, eller andre saker?
Kontakt [email protected]