Moore Threads Huagang: Lushan för grafik, Huashan för AI

Moore Threads Huagang: Lushan för grafik, Huashan för AI

Emilia Berg Emilia Berg . 3 Kommentarer

11 Minuter

Kinesiska GPU-tillverkaren Moore Threads presenterade sin nästa generations Huagang ("Flowerpot")-arkitektur vid MUSA 2025 Developer Conference och lovade betydande förbättringar både för spel och AI-arbetslaster. Företaget visade också upp två kretsar baserade på designen — Lushan för grafik och Huashan för AI-beräkning — med planerade produktlanseringar riktade mot 2026.

Två kretsar, två uppdrag: Lushan för spelare, Huashan för AI

Huagang fokuserar på tätare och mer energieffektiv beräkningskraft: omarbetade compute units som Moore Threads uppger ökar beräkningsdensiteten med cirka 50% samtidigt som energieffektiviteten förbättras med ungefär 10%. Arkitekturen inkluderar en ny instruktionuppsättning, stöd för asynkron programmering och smartare schemaläggning av trådar — funktioner optimerade för modern realtidsrendering och storskalig AI-inferens.

Lushan ersätter de äldre MTT S80 och S90-korten och riktar sig både till spelare och professionella användare. Moore Threads hävdar omfattande förbättringar: upp till 15× bättre prestanda i AAA-titlar, 50× starkare ray tracing och 64× högre AI-beräkningsprestanda i vissa arbetslaster. Företaget lyfter också fram stora förbättringar i geometri- och texturfyllnadsfrekvenser, samt en minnesuppgradering från 16GB till upp till 64GB — en konkret fördel för stora scener och CAD/CAE-applikationer. Lushan introducerar UniTE, en enhetlig renderingarkitektur, samt ett dedikerat AI-block för att accelerera blandade grafik-/AI-uppgifter.

Huashan å andra sidan är byggd för tung AI-beräkning. Den använder ett dual-chiplet-upplägg i kombination med nio HBM-moduler och stödjer datatyperna FP4 och FP64. Moore Threads jämförde Huashan direkt med NVIDIAs Hopper- och Blackwell-familjer och påstod flyttalsprestanda nära Blackwell B200 samt jämförbar total bandbredd, med särskilt starka minnesåtkomstegenskaper. Kretsen kan skalas över många enheter med hjälp av MTLink 4.0, med angiven interconnect-hastighet på 1 314 GB/s och teoretisk skalbarhet till över 100 000 enheter.

Dessa påståenden kommer från företaget och oberoende benchmarktester krävs för att verifiera verklig prestanda mot etablerade konkurrenter. Ändå signalerar Moore Threads fokus på minneskapacitet, enhetlig rendering och dedikerad AI-hårdvara en ambition att minska gapen både inom spel och datacentersegmentet. Kan större lokalt minne och förbättrad ray tracing göra Lushan attraktiv för prosumers? Kommer Huashans chiplet-strategi och MTLink-skalbarhet att få genomslag i AI-kluster? Förvänta dig att de första konsumentkorten baserade på Lushan dyker upp 2026, med Huashan-baserade produkter omkring samma tid.

Teknisk översikt av Huagang-arkitekturen

För att förstå vad Huagang innebär i praktiken krävs en närmare granskning av de tekniska nyheterna. Moore Threads har enligt presentationen omstrukturerat compute units för att pressa in fler beräkningsenheter per kvadratmillimeter samtidigt som strömeffektiviteten förbättras. Detta är viktigt för att tävla i både grafiska arbetsflöden och AI-inferens där prestanda-per-watt ofta avgör totalkostnaden för drift i datacenter och prestanda i bärbara eller effektbegränsade system.

Den nya instruktionuppsättningen ger mer uttrycksfulla operationer riktade mot grafiska shaders och tensor-typer för maskininlärning. Stöd för asynkron programmering betyder att GPU:n bättre kan överlappa beräkningar och minnesöverföringar, vilket reducerar väntetid och förbättrar genomströmningen i realtidsrendering och batch-inferens. Förbättrad trådschemaläggning gör det lättare att utnyttja parallellism över heterogena arbetslaster där grafik och AI körs samtidigt.

UniTE-arkitekturen som introduceras med Lushan syftar till att förena raster- och ray tracing-stigar, vilket kan förenkla pipeline-optimeringar för spelutvecklare och applikationsutvecklare. En enhetlig pipeline kan också göra det enklare att implementera hybridrendering där ray tracing används selektivt för att höja visuell kvalitet samtidigt som rasterisering bibehåller hög bildfrekvens.

Lushan: arkitektur, funktioner och användningsfall

Designmål och målgrupp

Lushan är positionerat som ett mångsidigt grafikkort för både entusiaster och professionella. Målet är att erbjuda konkurrenskraftig spelprestanda i AAA-titlar samtidigt som kortet ska klara kraven från produktivitetsapplikationer inom design, CAD och visualisering. Ökad minneskapacitet — upp till 64GB — är en strategisk förbättring för användare som arbetar med stora 3D-scener, texturtung rendering eller komplexa simuleringar.

Prestanda och grafiska förbättringar

Moore Threads hävdar markanta förbättringar i flera viktiga områden: rasterprestanda, geometrihantering, texturfyllnad och ray tracing. Specifika påståenden som "upp till 15× bättre prestanda i AAA" eller "50× bättre ray tracing" bör ses som marknadsföringsuppgifter tills oberoende tester bekräftar dem; men även mindre, verifierbara förbättringar i geometri- och texturfix kan ge påtagliga upplevelsevinster i moderna spelmotorer, särskilt i scener med många polygoner eller högupplösta texturer.

Den dedikerade AI-blocket i Lushan indikeras vara avsedd för mixed workload-scenarier där spel och AI används parallellt — exempelvis realtidsupscaling, generativ grafikassistent, eller AI-driven postprocessning. Integrationen av AI-acceleration direkt i grafikkortet gör det möjligt att köra inferens nära renderingspipen, vilket minskar latens jämfört med CPU-baserade lösningar.

Användarscenarier: spel, prosumers och professionella arbetsflöden

För spelare innebär Lushan potentiellt högre bildfrekvenser och bättre visuell fidelity genom förbättrad ray tracing och större texturminne. Prosumenter — användare som både spelar och skapar — får nytta av den ökade videominnekapaciteten för videoeditering, 3D-modellering och rendering utan att behöva vända sig till dyrare proffskort.

Inom professionella arbetsflöden, såsom CAD/CAE, visual effects och arkitekturvisualisering, är stabiliteten i drivrutiner och stöd i branschspecifika applikationer avgörande. Här blir verktygsstöd, certifierade drivrutiner och kompatibilitet med etablerade mjukvaruverktyg en viktig del av produkternas framgång.

Huashan: design för storskalig AI-beräkning

Chiplet-arkitektur och minneskonfiguration

Huashan bygger på en chiplet-approach som underlättar modularitet och skalbarhet. Genom att kombinera flera chiplets med nio HBM-moduler uppnår kretsen både hög bandbredd och stor lokal minneskapacitet. HBM (High Bandwidth Memory) är ofta avgörande för AI-modeller som kräver snabb tillgång till stora mängder parametrar och aktiveringar, särskilt för träning och stor batch-inferens.

Stödet för både FP4 och FP64 visar att Huashan riktar sig mot ett brett spektrum av AI- och vetenskapliga arbetslaster: FP4 för extremt hög genomströmning vid inferens och kvantiserade modeller, och FP64 för beräkningar där hög precision är nödvändig, som vissa vetenskapliga simuleringar eller finansiella modellberäkningar.

Skalbarhet med MTLink 4.0

MTLink 4.0 presenteras som Moores svar på höghastighetsinterconnects i multi-GPU-kluster. Med en angiven länkbandbredd på 1 314 GB/s och teoretisk skalbarhet till över 100 000 enheter adresserar tekniken behoven i stora datacenter och träningsfabriker. I praktiken kommer verklig skalbarhet att bero på mjukvarustack, topologi, latenshantering och hur bra modeller kan distribueras över många noder.

För AI-kluster betyder snabb och effektiv interconnect att modeller med stora parameteruppsättningar kan delas över flera chips utan att kommunikationen blir den kritiska flaskhalsen. Men precis som med andra leverantörer krävs anpassningar i ramverk och optimering av kommunikationsmönster för att nå maximal nyttjandegrad.

Jämförelser med etablerade alternativ

Moore Threads jämför Huashan med NVIDIAs Hopper och Blackwell-serier, och menar att flyttalskapaciteten kan ligga nära Blackwell B200 med liknande total bandbredd. Sådana jämförelser är viktiga för marknadspositionering men kräver oberoende mätningar för att säkerställa att parametrar som effektivitet, minneslatens, mjukvarustöd och drivare ger jämförbara resultat i riktiga arbetslaster.

Mjukvara, drivrutiner och ekosystem

En avgörande faktor för att Moore Threads ska vinna marknadsandelar är hur väl deras mjukvara och drivrutiner fungerar i praktiken. För GPU:er är ekosystemet — inklusive kompilatorer, bibliotek för AI (till exempel tensorbibliotek), integrationsstöd i spelmotorer och certifieringar för professionella applikationer — ofta lika viktigt som rå hårdvara.

Stöd för etablerade AI-ramverk (t.ex. TensorFlow, PyTorch) och GPU-accelererade bibliotek är nödvändigt för acceptans i forsknings- och industrimiljöer. Dessutom kommer verktyg för prestandaprofiler, felsökning och kompatibilitetstester att avgöra hur snabbt utvecklare och företag kan migrera eller adoptera plattformen.

Prestandamätningar och verifiering

Det är viktigt att understryka att alla prestandapåståenden i presentationer måste verifieras genom oberoende tester. Branschstandardbenchmarks för spel (framförallt moderna AAA-spel), ray tracing-tester och AI-mätningar (inbegripet inferenslatens, throughput och energiförbrukning) kommer att ge en robust bild av verklig konkurrenskraft.

Reproducerbarhet i tester, transparens i testmetoder och användning av öppna datasets och modeller gör det enklare för analytiker och köpare att bedöma hur väl Lushan och Huashan står sig mot konkurrenter i olika segment: konsument-GPU, professionella grafikkort och AI-acceleratorer för datacenter.

Marknadspositionering och konkurrens

Moore Threads agerar i en konkurrensutsatt marknad där etablerade aktörer har stort ekosystemstöd och mogna drivrutiner. För att vinna fotfäste behöver företaget inte bara följa i prestandaspåren utan också erbjuda prismässig konkurrens, attraktivt minne per krona, och bra mjukvarustöd. En differentierande faktor kan bli hög lokal minneskapacitet på Lushan och skalbar interconnect på Huashan, vilket riktar produkterna mot specifika nischer där dessa egenskaper är avgörande.

Företagets möjlighet att erbjuda kompletta lösningar — hårdvara tillsammans med optimerad mjukvara — avgör ofta hur snabbt nya GPU-arkitekturer kan accepteras i industriella och forskningstunga miljöer. Samarbeten med mjukvaruleverantörer, spelmotorer och plattformar för maskininlärning kan öka genomslaget.

Riskscenarier och osäkerhetsfaktorer

Det finns flera osäkerheter: produktionskapacitet för HBM-moduler, tillgång till avancerade tillverkningsnoder, kvalitet och stabilitet i drivrutiner samt omfattningen av tredjepartsstöd. Dessa faktorer kan påverka leveranstider, prestanda i praktiska scenarier och den totala upplevelsen för slutanvändaren.

Vidare kommer regulatoriska frågor, handelspolitiska begränsningar och internationella samarbeten att påverka hur snabbt Moore Threads kan skala globalt. För avancerade AI-implementeringar krävs också robust certifiering och validering, särskilt i industrier med höga krav på spårbarhet och precision.

Vägkarta och lanseringstidslinje

Enligt företaget är planen att introducera Lushan-baserade konsumentkort under 2026, samtidigt som Huashan-baserade produkter för AI-kluster och datacenter förväntas anlända omkring samma tid. Tidslinjen innebär att Moore Threads har tid att finslipa mjukvara, bygga partnerskap och genomföra fler intern- och externtester innan bred kommersiell distribution.

Under perioden fram till lansering är det troligt att fler detaljer om specifikationer, termisk design, referenskort och OEM-partners kommer att framkomma. Dessa detaljer blir viktiga för att bedöma prisbild, kylning och integrationsmöjligheter i både konsument- och serversystem.

Sammanfattning och perspektiv

Moore Threads ambition med Huagang, Lushan och Huashan är tydlig: att erbjuda konkurrenskraftiga alternativ inom både grafikkorts- och AI-acceleratorsegmenten genom högre minneskapacitet, enhetlig rendering och skalbar chiplet-arkitektur. De tekniska nyheterna — om de håller i oberoende tester — kan göra produkterna intressanta för prosumers, spelare och AI-operatörer i datacenter.

Samtidigt kvarstår frågor kring mjukvarustöd, drivrutinskvalitet, tillverkningskapacitet och verklig prestanda i breda testsviter. För konsumenter och företag är det klokt att invänta oberoende benchmarks och praktiska recensioner innan större inköp. Om Moore Threads realiserar sina löften kan vi få se ökad konkurrens i ett område som hittills dominerats av ett fåtal stora aktörer — något som ofta gynnar både pris och innovation.

Nyckelord att följa framöver inkluderar: GPU, grafikkort, ray tracing, HBM-minne, chiplet, MTLink, AI-accelerator, realtidsrendering, inferens och minneskapacitet. Dessa begrepp kommer att styra diskussionen kring hur väl Lushan och Huashan kan utmana etablerade lösningar under 2026 och framåt.

Källa: gizmochina

"Jag bevakar de senaste tekniknyheterna – från nya produkter till digitala trender. Mitt mål är att hjälpa läsarna förstå vad som händer just nu och varför det spelar roll."

Lämna en kommentar

Kommentarer

Erik

MTLink till 100k enheter? Coolt på papper, men mjukvara, latens och faktisk bandbredd i verkligheten avgör. Försiktigt optimistisk

resflode

64GB VRAM i ett spelkort, wow… det kan bli game changer för prosumers. Hoppas bara drivrutinerna funkar, pls

datapuls

Låter imponerande, men 15× i AAA? Verkligen? Måste se oberoende tester innan jag köper hypen.