Xiaomi Robotics-0: Visuell intelligens för robotik

8 Minutes

Introduktion

En handduk vikt som om en vaksam människa rört den. Klossar demonterade med stadiga händer. Små prestationer kanske, men talande sådana. Xiaomis nya Robotics-0-modell är inte en blänkande konsumentenhet; det är ett försök att lära maskiner att se, förstå och röra sig med den finess vi länge tillskrivit mänsklig intuition.

I botten försöker Robotics-0 sluta den krets som definierar varje kapabel robot: perception, beslut och utförande. Företaget ramar in detta som "fysisk intelligens" — en kortfattad fras som döljer en uppsättning svåra problem. Hur håller man ett system skarpt i språk- och bildresonemang samtidigt som man tränar det att utföra millimeternoga rörelser? Xiaomis svar är en arkitektur som skiljer tänkandet från rörelsen.

Arkitektur: att dela upp ansvar

På ena sidan finns en Visuell Språkmodell — tänk på den som robotens tolk. Den bearbetar högupplösta kameraflöden och mänskliga instruktioner, även de vaga: "Vik handduken, tack." Den tar hand om objektigenkänning, rumsliga relationer, visuell fråga-svar (visual Q&A) och den form av vardagsförnuft som förvandlar pixlar till uppgifter. På den andra sidan finns Action Expert: en Diffusion Transformer utformad inte för att spotta ut ett enda motoriskt kommando utan för att producera en "aktionsbit" — en kort sekvens koordinerade rörelser. I praktiken innebär det mjukare övergångar och färre ryckiga korrigeringar.

Det ingenjörsmässiga valet bakom denna uppdelning kallas Mixture-of-Transformers-arkitektur. Ansvar fördelas i stället för att pressas in i en monolitisk modell. Det hjälper till att tackla ett välkänt problem: när man tränar en vision-language-modell att agera tenderar den ofta att tappa en del av sin resonemangsförmåga. För att undvika detta co-tränar Xiaomi på multimodala data och action-trajectories så att modellen behåller förmågan att "tänka" samtidigt som den lär sig att "röra" sig.

Visuell språkmodell och perception

Visuell språkmodell (VLM) i Robotics-0 fyller flera kritiska roller i robotens kognitiva stack. Den skapar en gemensam representationsyta för bild- och språkinformation, översätter naturligt språk till bildbaserade uppmärksamhetsfält och genererar sannolikhetsfördelningar över möjliga handlingar. VLM:en tränas på stora multimodala dataset: stillbilder, videoströmmar, textinstruktioner och annoterade interaktioner. Detta ger en robust grund för uppgifter som kräver både objektigenkänning och vanlig vardagslogik — till exempel att avgöra var en handduk bäst greppas för att vikas eller vilka block som måste tas bort först vid demontering.

Tekniskt sett bygger VLM-delen på transformerarkitektur med tokenisering av visuella patcher och språkliga enheter. Genom att använda nyckel-värde-funktioner (key-value features) i stället för enbart diskreta språktoken upprätthålls kontinuerlig information som senare kan styra motionsdelen. Modellen levererar en fördelning över möjliga handlingar vid varje tidssteg — en kritisk länk som kallas Action Proposal.

Action Proposal: bro mellan seende och agerande

Action Proposal är ett tidigt steg i träningspipelinjen där den visuella modellen förutsäger sannolikhetsfördelningar över rimliga aktioner medan den tolkar en bild eller scen. Denna förutsägelse fungerar som ett mjukt samtal mellan perception och motorik och hjälper till att aligna interna representationer för att se och göra. Då VLM föreslår flera plausibla aktioner kan systemet välja eller väva ihop dem beroende på mål, riskbedömning och tidigare trajectory-historik.

Action Expert: Diffusion Transformer och Action Chunks

Den andra huvudkomponenten — Action Expert — är designad för att översätta de utsignaler som VLM genererar till faktiska rörelsemönster. I stället för att ge ett enstaka motoriskt kommando tränas Diffusion Transformern att producera short, koordinerade sekvenser kallade "Action Chunks". Varje chunk är en tidssekvens av målställningar eller joint-kommando-vektorer som, när de spelas upp, skapar flytande rörelser utan att roboten behöver stanna upp för varje nytt beslut.

Diffusion-modellen lär sig att "denoise" sekvenser: från grova, brusiga gissningar till exekverbara rörelser. Träningen styrs av nyckel-värde-funktioner och kontinuerliga representationer snarare än diskreta språktoken, vilket gör modellen bättre på att hantera små variationer i miljön och fysiska egenskaper hos objekt, som styvhet eller flexibiltet.

Fördelarna med Action Chunks

Mjuka övergångar mellan rörelsefaser.
Minskad frekvens av korrigerande ryck.
Förmåga att planera korta sekvenser som ändå anpassas kontinuerligt.
Bättre hantering av dynamiska och flexibla objekt, t.ex. tyg eller handdukar.

Träningsstrategi och ko-training

Träningen av Robotics-0 sker i flera faser för att undvika att någon del av systemet "glömmer" sin primära funktion. Först kommer Action Proposal-fasen där VLM lär sig att skapa fördelningar över möjliga aktioner. Därefter fryses den visuella delen — ett vanligt trick för att bevara resonemangsförmåga — medan Diffusion Transformern tränas att packa upp och förfina de föreslagna banorna till exekverbara rörelser.

Co-training sker genom att både multimodala perceptionsexempel och faktiska action-trajectories används i samma pipeline. Detta minskar risken att VLM:en överanpassar sig till enbart språkliga eller visuella signaler när den förväntas generera aktionsförslag. Praktiskt innebär detta stora dataset med synkroniserade sensorflöden (kameror, kraft/vridmoment-sensorer, proprioception) samt annoterade handlingssekvenser från både simulering och fysikaliska robotplattformar.

Simulering mot verkliga världens data

Simulerade miljöer som LIBERO, CALVIN och SimplerEnv används för snabba iterationer och för att generera stora mängder träningsdata. Dessa benchmark-miljöer tillåter stress-test av generalisering och strategier över olika objekt och uppgifter. Samtidigt behövs verkliga data för att fånga sensoroch aktuatoregenskaper som inte fullständigt kan modelleras i simulering — särskilt för mjuka material och komplexa kontaktinteraktioner.

Praktiska utmaningar: latens, jitter och kontinuerlig rörelse

Att använda avancerade modeller i realtid introducerar praktiska friktioner. Latens är en av de mest uppenbara. När modellen behöver tid för beräkning kan roboten frysa eller tappa balans i sin rörelse. Xiaomi löser detta genom asynkron inferens: beräkning och hårdvara kör semi-oberoende så att motion kan fortsätta även när modellen fortfarande kalkylerar nästa steg.

En annan viktig mekanism är återmatning av tidigare förutsagda åtgärder — en "Clean Action Prefix" — som dämpar jitter och upprätthåller momentum. Det innebär att tidigare genererade action chunks delvis återanvänds eller sömlöst blends in i nya sekvenser, vilket ger stabilitet även vid oförutsedda förseningar i modellens output.

Ytterligare förbättring kommer från en specialformad attentionmask, beskriven som en lambda (Λ), som gynnar aktuell visuell information framför äldre historik. Detta hjälper systemet att reagera snabbare på plötsliga miljöförändringar, som att ett objekt glider eller att ljusförhållanden ändras.

Benchmarking och fälttester

Benchmarks berättar en del av historien. Xiaomi rapporterar toppresultat över LIBERO, CALVIN och SimplerEnv-simuleringar och presterar bättre än ungefär 30 jämförbara system. Siffror är viktiga, men verkliga tester väger tungt. På en dubbelarmsplattform hanterade Robotics-0 långsiktiga uppgifter som handduksvikning och demontering av klossar, visande stabil hand-öga-koordination samt hantering av både styva och flexibla objekt utan uppenbara stora felkällor.

Dessa tester visar också hur väl arkitekturen generaliserar: att separera perception från handling minskar risken att ett system gör snabba, impulsiva rörelser som komprometterar resonemang eller att en resonemangsmodell tappar sin precision när den överbelastas med motorikuppgifter.

Öppen källkod och forskningspåverkan

En praktisk punkt är att Xiaomi släpper Robotics-0 som öppen källkod. Det har stor betydelse för forskningshastigheten. När team kan inspektera kod, replikera experiment och bygga vidare på varandras arbete accelererar utvecklingen. Förvänta dig följdartiklar, forks och sannolika snabba iterationer där samma VLA (vision-language-action) idéer appliceras på olika hårdvaruplattformar och användningsområden.

Öppen källkod ökar också transparensen kring träningsdata, utvärderingsmetoder och prestandamått, vilket hjälper både akademi och industri att jämföra metoder mer rättvist och att hitta verkliga svagheter som kräver ny forskning.

Begränsningar och öppna utmaningar

Robotics-0 löser inte alla problem. Hantering av mjuka objekt (soft-object manipulation), generalisering till mycket olika miljöer, och full autonomi kvarstår som öppna utmaningar. Mjuka material introducerar komplex kontaktmekanik och variabel deformation som är svår att modellera. Full autonomi kräver robust felhantering, långsiktig planering och säkerhetsverifiering i oförutsägbara hem- eller industrimiljöer.

Modellen pekar dock på en pragmatisk riktning: håll perception och handling tätt alignade utan att låta den ena kannibalisera den andra. Arkitekturval kan ge stora vinster, inte bara större modeller eller mer data. Genom att designa system som bevarar resonemangsförmåga samtidigt som de levererar exekverbara banor tar man ett konkret steg mot praktisk, tillämpbar robotik.

Tekniska inblickar och rekommendationer

För ingenjörer och forskare som vill bygga vidare finns flera intressanta riktlinjer och tekniska insikter att ta med sig:

Separera representationslärning (perception) och motionsgenerering (action) när målet är både komplex resonemang och precisa rörelser.
Använd diffusion-baserade modeller för att generera tidssekvenser av rörelser snarare än individuella tidssteg, för att få jämnare och mer naturliga rörelser.
Implementera asynkron inferens och återmatning (action prefix) för att hantera latens i realtidssystem.
Kombinera simulering för storskalig datagenerering med riktiga robotexperiment för att fånga sensor- och aktuatordynamik som simuleringar missar.
Publicera kod och dataset i öppen källkod för att möjliggöra reproducerbarhet och accelererad forskning.

Framtidsutsikter och konkurrensposition

Robotics-0 visar hur företagsdrivna initiativ kan påverka hela fältet. Genom att kombinera en tydlig arkitektur med öppna verktyg och benchmark-resultat skapas en plattform som andra kan iterera på snabbt. Konkurrensfördelen ligger i balansakten: att bevara stark visuell och språklig resonemangskapacitet samtidigt som man levererar praktiska, exekverbara rörelser i verkligheten.

Fältet rör sig mot mer modulära system där komponenter med olika specialiseringar samarbetar. Detta gör lösningarna mer robusta och lättare att anpassa till olika hårdvarukonfigurationer — från enkla enarmade manipulators till komplexa, tvåarmade hushållsrobotar.

Sammanfattning

Om du bryr dig om var robotars rörelser tar vägen härnäst, följ hur denna modell beter sig utanför Xiaomis laboratorier och vilka delar som communityn behåller och förfinar. Nästa gång en hushållsrobot viker din handduk kan du skymta Robotics-0:s fingeravtryck i varje jämn vikning. Modellen är inget slutmål, men ett steg mot praktisk fysisk intelligens där visuell förståelse, språklig tolkning och koordinerad handling fungerar tillsammans.

Nyckelbegrepp och termer att hålla koll på: vision-language-action (VLA), Mixture-of-Transformers, Diffusion Transformer, Visuell Språkmodell (VLM), Action Chunks, asynkron inferens, hand-öga koordination och öppen källkod. Dessa begrepp binder samman de tekniska valen och visar var forskning och tillämpning sannolikt går vidare under de kommande åren.

Henrik Persson

"Jag bevakar trender inom AI och maskininlärning. Det fascinerar mig hur tekniken lär sig tänka – och hur vi människor förändras tillsammans med den."

Comments

DaNix

2026-02-14

Snabb tanke: separation funkar ok, men känns lite hypat. Diffusion+VLM är coolt, men datasetbias och reproducerbarhet kan ställa till problem. Öppen kod hjälper.

Erik

2026-02-14

Hmm, låter bra på papper men är detta ens praktiskt? sim->real gap, latency, och safety känns inte helt löst. Någon proof i verkliga hem?

datapuls

2026-02-14

Oj, väntat inte att Xiaomi skulle göra något så här genomtänkt. Action chunks låter lovande, men latens och mjuka material är nog svåra i praktiken... spännande!

Xiaomi Robotics-0: Visuell intelligens för robotik

Xiaomi Robotics-0 kombinerar visuell språkförståelse och en Diffusion Transformer för att skapa mjuka, koordinerade rörelser. Artikeln går igenom arkitektur, träning, praktiska utmaningar och varför öppen källkod är viktig för robotikforskning.

Introduktion

Arkitektur: att dela upp ansvar

Visuell språkmodell och perception

Action Proposal: bro mellan seende och agerande

Action Expert: Diffusion Transformer och Action Chunks

Fördelarna med Action Chunks

Träningsstrategi och ko-training

Simulering mot verkliga världens data

Praktiska utmaningar: latens, jitter och kontinuerlig rörelse

Benchmarking och fälttester

Öppen källkod och forskningspåverkan

Begränsningar och öppna utmaningar

Tekniska inblickar och rekommendationer

Framtidsutsikter och konkurrensposition

Sammanfattning

Leave a Comment

Comments

DaNix

Erik

datapuls

Related Posts

Apples inställda Mac Pro: M2/M3 Extreme skrotade av företaget

CXMT satsar på panelbaserad DDR6 för att utmana jättar

Redmi 17 4G: Nästan 74 timmars batteritid och robust

Samsung satsar på bredare Galaxy Z Fold8 och större skärm

Förberedelser inför AGI: Vad snabba genombrott innebär

Vivo X300e: Zeiss-kamera och 7200 mAh batteri för foto

Xiaomi upphör med uppdateringar för tio äldre modeller

Australiens AI-regler tvingar vatten- och upphovsskydd

DeepSik V4 Pro: Ny kinesisk AI som imponerar utvecklare

OpenAI varnar föräldrar när ChatGPT-konton stängs av

Xiaomi Smart Solar Camera 4 Pro: Kompakt solkamera med 4G

Fel i AWS-fakturor orsakade panik och skadade förtroendet