Google DeepMind har lansert en ny versjon av sitt språkmodellbaserte AI-system kalt Gemini Robotics, som nå gjør det mulig for roboter å forstå, tolke og utføre komplekse oppgaver direkte på enheten, uten behov for tilkobling til eksterne servere. Dette kommer frem i en artikkel publisert av The Robot Report
En modell som kombinerer syn, språk og handling
Gemini Robotics er en såkalt «vision–language–action»-modell (VLA), noe som betyr at den forener visuell forståelse, språklig resonnering og evnen til å utføre fysiske handlinger i én samlet arkitektur. Roboten kan dermed se et objekt, tolke en verbal instruksjon, og utføre handlingen direkte – uten forsinkelse, og uten å være avhengig av å hente prosessering fra skyen. Dette gjør det mulig å bruke Gemini i roboter som opererer lokalt, for eksempel i industrielle miljøer, helsevesenet eller i hjemmet.
Basert på Gemini 2.0 og utviklet for fysisk intelligens
Modellen er en videreutvikling av DeepMinds tidligere språkmodeller i Gemini 2.0-familien, som er kjent for avansert multimodal forståelse og logisk resonnering. I Gemini Robotics har disse evnene blitt tilpasset det fysiske rommet, slik at roboten ikke bare kan forstå og snakke, men også manipulere objekter, forutse bevegelser og navigere i tredimensjonale omgivelser. En spesialvariant kalt Gemini Robotics-ER (Embodied Reasoning) gir roboten særlig god evne til å håndtere oppgaver som krever spatial planlegging og presis objektkontroll.
Lærer nye ferdigheter med minimale data
Et av de mest oppsiktsvekkende trekkene ved Gemini Robotics er modellens evne til å lære nye oppgaver med svært lite treningsdata. Ifølge DeepMind holder det med så lite som 100 eksempler for å spesialisere en robot til nye typer oppgaver, enten det er å sortere gjenstander, betjene en maskin eller assistere mennesker i dagliglivet. I stedet for å kode hver enkelt oppgave manuelt, kan brukeren ganske enkelt demonstrere eller beskrive det ønskede utfallet, og modellen lærer av det.
Kjører lokalt – og gjør roboter raskere og tryggere
En stor fordel med at Gemini Robotics kjører direkte på robotens innebygde maskinvare, er at responstiden blir langt raskere enn om roboten måtte sende data frem og tilbake til en server i skyen. Dette gir ikke bare bedre ytelse, men øker også påliteligheten i situasjoner der nettverkstilgang er ustabil eller ikke tillatt. DeepMind legger dessuten vekt på at lokal prosessering er et viktig sikkerhetsgrep i sammenhenger hvor roboter opererer tett på mennesker, og hvor det er kritisk at beslutninger fattes i sanntid.
Et stort skritt mot generaliserte roboter
Gemini Robotics er en del av en større trend der AI-modeller med generaliserte evner nå tas i bruk i fysiske maskiner. Der roboter tidligere var låst til én spesialisert oppgave – for eksempel å montere én bestemt del i en fabrikk – kan de nå håndtere helt nye situasjoner med større fleksibilitet. Med lanseringen av Gemini Robotics tar DeepMind et stort steg nærmere visjonen om en generell robotassistent: en robot som forstår naturlig språk, tilpasser seg nye omgivelser og handler presist – alt uten behov for skreddersydd programmering.
Fremtiden er lokal, intelligent og tilpasningsdyktig
Med Gemini Robotics viser DeepMind hvordan kraftige AI-modeller kan overføres fra ren programvare til fysiske systemer – uten å gå på kompromiss med ytelse, presisjon eller sikkerhet. Dette kan få stor betydning for både små og store bedrifter i fremtiden. Alt fra lager- og produksjonsbedrifter til helsevesen og servicebransjer kan nå se for seg roboter som ikke bare gjør én ting, men som forstår, lærer og tilpasser seg – direkte der de trengs.