11 Minuter
Introduktion
En handduk vikt som om en vaksam människa rört den. Klossar demonterade med stadiga händer. Små prestationer kanske, men talande sådana. Xiaomis nya Robotics-0-modell är inte en blänkande konsumentenhet; det är ett försök att lära maskiner att se, förstå och röra sig med den finess vi länge tillskrivit mänsklig intuition.
I botten försöker Robotics-0 sluta den krets som definierar varje kapabel robot: perception, beslut och utförande. Företaget ramar in detta som "fysisk intelligens" — en kortfattad fras som döljer en uppsättning svåra problem. Hur håller man ett system skarpt i språk- och bildresonemang samtidigt som man tränar det att utföra millimeternoga rörelser? Xiaomis svar är en arkitektur som skiljer tänkandet från rörelsen.
Arkitektur: att dela upp ansvar
På ena sidan finns en Visuell Språkmodell — tänk på den som robotens tolk. Den bearbetar högupplösta kameraflöden och mänskliga instruktioner, även de vaga: "Vik handduken, tack." Den tar hand om objektigenkänning, rumsliga relationer, visuell fråga-svar (visual Q&A) och den form av vardagsförnuft som förvandlar pixlar till uppgifter. På den andra sidan finns Action Expert: en Diffusion Transformer utformad inte för att spotta ut ett enda motoriskt kommando utan för att producera en "aktionsbit" — en kort sekvens koordinerade rörelser. I praktiken innebär det mjukare övergångar och färre ryckiga korrigeringar.
Det ingenjörsmässiga valet bakom denna uppdelning kallas Mixture-of-Transformers-arkitektur. Ansvar fördelas i stället för att pressas in i en monolitisk modell. Det hjälper till att tackla ett välkänt problem: när man tränar en vision-language-modell att agera tenderar den ofta att tappa en del av sin resonemangsförmåga. För att undvika detta co-tränar Xiaomi på multimodala data och action-trajectories så att modellen behåller förmågan att "tänka" samtidigt som den lär sig att "röra" sig.
Visuell språkmodell och perception
Visuell språkmodell (VLM) i Robotics-0 fyller flera kritiska roller i robotens kognitiva stack. Den skapar en gemensam representationsyta för bild- och språkinformation, översätter naturligt språk till bildbaserade uppmärksamhetsfält och genererar sannolikhetsfördelningar över möjliga handlingar. VLM:en tränas på stora multimodala dataset: stillbilder, videoströmmar, textinstruktioner och annoterade interaktioner. Detta ger en robust grund för uppgifter som kräver både objektigenkänning och vanlig vardagslogik — till exempel att avgöra var en handduk bäst greppas för att vikas eller vilka block som måste tas bort först vid demontering.
Tekniskt sett bygger VLM-delen på transformerarkitektur med tokenisering av visuella patcher och språkliga enheter. Genom att använda nyckel-värde-funktioner (key-value features) i stället för enbart diskreta språktoken upprätthålls kontinuerlig information som senare kan styra motionsdelen. Modellen levererar en fördelning över möjliga handlingar vid varje tidssteg — en kritisk länk som kallas Action Proposal.
Action Proposal: bro mellan seende och agerande
Action Proposal är ett tidigt steg i träningspipelinjen där den visuella modellen förutsäger sannolikhetsfördelningar över rimliga aktioner medan den tolkar en bild eller scen. Denna förutsägelse fungerar som ett mjukt samtal mellan perception och motorik och hjälper till att aligna interna representationer för att se och göra. Då VLM föreslår flera plausibla aktioner kan systemet välja eller väva ihop dem beroende på mål, riskbedömning och tidigare trajectory-historik.
Action Expert: Diffusion Transformer och Action Chunks
Den andra huvudkomponenten — Action Expert — är designad för att översätta de utsignaler som VLM genererar till faktiska rörelsemönster. I stället för att ge ett enstaka motoriskt kommando tränas Diffusion Transformern att producera short, koordinerade sekvenser kallade "Action Chunks". Varje chunk är en tidssekvens av målställningar eller joint-kommando-vektorer som, när de spelas upp, skapar flytande rörelser utan att roboten behöver stanna upp för varje nytt beslut.
Diffusion-modellen lär sig att "denoise" sekvenser: från grova, brusiga gissningar till exekverbara rörelser. Träningen styrs av nyckel-värde-funktioner och kontinuerliga representationer snarare än diskreta språktoken, vilket gör modellen bättre på att hantera små variationer i miljön och fysiska egenskaper hos objekt, som styvhet eller flexibiltet.
Fördelarna med Action Chunks
- Mjuka övergångar mellan rörelsefaser.
- Minskad frekvens av korrigerande ryck.
- Förmåga att planera korta sekvenser som ändå anpassas kontinuerligt.
- Bättre hantering av dynamiska och flexibla objekt, t.ex. tyg eller handdukar.
Träningsstrategi och ko-training
Träningen av Robotics-0 sker i flera faser för att undvika att någon del av systemet "glömmer" sin primära funktion. Först kommer Action Proposal-fasen där VLM lär sig att skapa fördelningar över möjliga aktioner. Därefter fryses den visuella delen — ett vanligt trick för att bevara resonemangsförmåga — medan Diffusion Transformern tränas att packa upp och förfina de föreslagna banorna till exekverbara rörelser.
Co-training sker genom att både multimodala perceptionsexempel och faktiska action-trajectories används i samma pipeline. Detta minskar risken att VLM:en överanpassar sig till enbart språkliga eller visuella signaler när den förväntas generera aktionsförslag. Praktiskt innebär detta stora dataset med synkroniserade sensorflöden (kameror, kraft/vridmoment-sensorer, proprioception) samt annoterade handlingssekvenser från både simulering och fysikaliska robotplattformar.
Simulering mot verkliga världens data
Simulerade miljöer som LIBERO, CALVIN och SimplerEnv används för snabba iterationer och för att generera stora mängder träningsdata. Dessa benchmark-miljöer tillåter stress-test av generalisering och strategier över olika objekt och uppgifter. Samtidigt behövs verkliga data för att fånga sensoroch aktuatoregenskaper som inte fullständigt kan modelleras i simulering — särskilt för mjuka material och komplexa kontaktinteraktioner.
Praktiska utmaningar: latens, jitter och kontinuerlig rörelse
Att använda avancerade modeller i realtid introducerar praktiska friktioner. Latens är en av de mest uppenbara. När modellen behöver tid för beräkning kan roboten frysa eller tappa balans i sin rörelse. Xiaomi löser detta genom asynkron inferens: beräkning och hårdvara kör semi-oberoende så att motion kan fortsätta även när modellen fortfarande kalkylerar nästa steg.
En annan viktig mekanism är återmatning av tidigare förutsagda åtgärder — en "Clean Action Prefix" — som dämpar jitter och upprätthåller momentum. Det innebär att tidigare genererade action chunks delvis återanvänds eller sömlöst blends in i nya sekvenser, vilket ger stabilitet även vid oförutsedda förseningar i modellens output.
Ytterligare förbättring kommer från en specialformad attentionmask, beskriven som en lambda (Λ), som gynnar aktuell visuell information framför äldre historik. Detta hjälper systemet att reagera snabbare på plötsliga miljöförändringar, som att ett objekt glider eller att ljusförhållanden ändras.
Benchmarking och fälttester
Benchmarks berättar en del av historien. Xiaomi rapporterar toppresultat över LIBERO, CALVIN och SimplerEnv-simuleringar och presterar bättre än ungefär 30 jämförbara system. Siffror är viktiga, men verkliga tester väger tungt. På en dubbelarmsplattform hanterade Robotics-0 långsiktiga uppgifter som handduksvikning och demontering av klossar, visande stabil hand-öga-koordination samt hantering av både styva och flexibla objekt utan uppenbara stora felkällor.
Dessa tester visar också hur väl arkitekturen generaliserar: att separera perception från handling minskar risken att ett system gör snabba, impulsiva rörelser som komprometterar resonemang eller att en resonemangsmodell tappar sin precision när den överbelastas med motorikuppgifter.
Öppen källkod och forskningspåverkan
En praktisk punkt är att Xiaomi släpper Robotics-0 som öppen källkod. Det har stor betydelse för forskningshastigheten. När team kan inspektera kod, replikera experiment och bygga vidare på varandras arbete accelererar utvecklingen. Förvänta dig följdartiklar, forks och sannolika snabba iterationer där samma VLA (vision-language-action) idéer appliceras på olika hårdvaruplattformar och användningsområden.
Öppen källkod ökar också transparensen kring träningsdata, utvärderingsmetoder och prestandamått, vilket hjälper både akademi och industri att jämföra metoder mer rättvist och att hitta verkliga svagheter som kräver ny forskning.
Begränsningar och öppna utmaningar
Robotics-0 löser inte alla problem. Hantering av mjuka objekt (soft-object manipulation), generalisering till mycket olika miljöer, och full autonomi kvarstår som öppna utmaningar. Mjuka material introducerar komplex kontaktmekanik och variabel deformation som är svår att modellera. Full autonomi kräver robust felhantering, långsiktig planering och säkerhetsverifiering i oförutsägbara hem- eller industrimiljöer.
Modellen pekar dock på en pragmatisk riktning: håll perception och handling tätt alignade utan att låta den ena kannibalisera den andra. Arkitekturval kan ge stora vinster, inte bara större modeller eller mer data. Genom att designa system som bevarar resonemangsförmåga samtidigt som de levererar exekverbara banor tar man ett konkret steg mot praktisk, tillämpbar robotik.
Tekniska inblickar och rekommendationer
För ingenjörer och forskare som vill bygga vidare finns flera intressanta riktlinjer och tekniska insikter att ta med sig:
- Separera representationslärning (perception) och motionsgenerering (action) när målet är både komplex resonemang och precisa rörelser.
- Använd diffusion-baserade modeller för att generera tidssekvenser av rörelser snarare än individuella tidssteg, för att få jämnare och mer naturliga rörelser.
- Implementera asynkron inferens och återmatning (action prefix) för att hantera latens i realtidssystem.
- Kombinera simulering för storskalig datagenerering med riktiga robotexperiment för att fånga sensor- och aktuatordynamik som simuleringar missar.
- Publicera kod och dataset i öppen källkod för att möjliggöra reproducerbarhet och accelererad forskning.
Framtidsutsikter och konkurrensposition
Robotics-0 visar hur företagsdrivna initiativ kan påverka hela fältet. Genom att kombinera en tydlig arkitektur med öppna verktyg och benchmark-resultat skapas en plattform som andra kan iterera på snabbt. Konkurrensfördelen ligger i balansakten: att bevara stark visuell och språklig resonemangskapacitet samtidigt som man levererar praktiska, exekverbara rörelser i verkligheten.
Fältet rör sig mot mer modulära system där komponenter med olika specialiseringar samarbetar. Detta gör lösningarna mer robusta och lättare att anpassa till olika hårdvarukonfigurationer — från enkla enarmade manipulators till komplexa, tvåarmade hushållsrobotar.
Sammanfattning
Om du bryr dig om var robotars rörelser tar vägen härnäst, följ hur denna modell beter sig utanför Xiaomis laboratorier och vilka delar som communityn behåller och förfinar. Nästa gång en hushållsrobot viker din handduk kan du skymta Robotics-0:s fingeravtryck i varje jämn vikning. Modellen är inget slutmål, men ett steg mot praktisk fysisk intelligens där visuell förståelse, språklig tolkning och koordinerad handling fungerar tillsammans.

Nyckelbegrepp och termer att hålla koll på: vision-language-action (VLA), Mixture-of-Transformers, Diffusion Transformer, Visuell Språkmodell (VLM), Action Chunks, asynkron inferens, hand-öga koordination och öppen källkod. Dessa begrepp binder samman de tekniska valen och visar var forskning och tillämpning sannolikt går vidare under de kommande åren.

Källa: gizmochina
Kommentarer
DaNix
Snabb tanke: separation funkar ok, men känns lite hypat. Diffusion+VLM är coolt, men datasetbias och reproducerbarhet kan ställa till problem. Öppen kod hjälper.
Erik
Hmm, låter bra på papper men är detta ens praktiskt? sim->real gap, latency, och safety känns inte helt löst. Någon proof i verkliga hem?
datapuls
Oj, väntat inte att Xiaomi skulle göra något så här genomtänkt. Action chunks låter lovande, men latens och mjuka material är nog svåra i praktiken... spännande!
Lämna en kommentar