26 Minuter
Fyra huvudmodeller. Nio kategorier. En totalvinnare. Detta är inte en labbrapport med svårtolkade topplistor. Det är en praktisk, end-to-end-jämförelse byggd på uppgifter som folk faktiskt bryr sig om: lösa verkliga problem under tidspress, generera bilder och video, kontrollera fakta utan internet, analysera röriga ingångar, vara kreativ på begäran, tala naturligt och göra djupgående research som håller för granskning. Vi betygsatte varje deluppgift från 0 till 4 och förde en löpande sammanställning. I slutet korade vi en mästare och, viktigare, kartlade vilken uppgift varje modell är bäst på.
Kort svar först: Gemini vinner totalt med 46 poäng. ChatGPT hamnar nära tvåa med 39. Grok kommer trea med 35. DeepSeek ligger sist med 17. Det betyder inte att du alltid ska välja vinnaren. Olika kategorier gynnar olika styrkor, och rätt modell beror på vilket arbete du behöver få gjort. Den här genomgången visar exakt var varje modell glänser och var den snubblar, med konkreta exempel och helt transparent poängsättning.
How We Tested
Models compared: ChatGPT, Gemini, Grok, DeepSeek.
Categories: nio totalt. Vissa inkluderar flera rundor eller prompts.
Scoring: varje runda betygsätts 0–4. Där den ursprungliga jämförelsen angav explicita poäng eller rankordningar använde vi dem; annars följde vi samma regler och rubric.
Constraints: när en runda förbjöd internetåtkomst respekterade vi den begränsningen. Där en kapabilitet saknades (till exempel bild- eller videogenerering i DeepSeek) får modellen noll för den rundan.
Speed: registrerades beskrivande, inte poängsatt som egen kategori, för att hålla totalsummorna i linje med originaltävlingen.
Vårt mål var inte att skapa fällfrågor. Vi försökte kartlägga verkligt beteende, inklusive felmönster som påhittade detaljer i bildanalys eller ytlig budgeträkning som ignorerar scenariospecifika villkor.
Category 1: Problem Solving
Två realistiska utmaningar. Betygsatts separat och summerats.
Round 1: You have 10 dollars, a dead phone, no map, and 45 minutes to reach a central train station in a foreign city. Give a five-step plan.
Speed: DeepSeek svarar på 7 sekunder, Grok på 11, Gemini på 21, ChatGPT på 62.
Quality: alla fyra levererar strukturerade, genomförbara femstegsplaner.
Peer review twist: vi visade sedan alla fyra svaren för varje modell och bad dem välja det bästa. Varje modell valde oberoende ChatGPT:s svar.
Scores, Round 1
ChatGPT 4, Gemini 3, Grok 2, DeepSeek 1.
Round 2: You have 400 dollars after rent to cover groceries, transport, and internet. Groceries cost 50 per week, transport 80 per month, internet 60 per month. You want to attend a 200 dollar event next month. How do you budget?
En resonansfälla. ChatGPT, Grok och DeepSeek väljer att lägga undan endast 60 dollar nu och "spara mer nästa månad", vilket kommer för sent. Gemini är den enda modellen som justerar planen omedelbart: skär matkostnaderna med 15 dollar per vecka genom fyndshopping och strikt måltidsplanering så att underskottet löses redan denna månad.
Scores, Round 2
Gemini 4, ChatGPT 3, Grok 3, DeepSeek 2.
Problem Solving Totals
| Model | Round 1 | Round 2 | Total |
|---|---|---|---|
| ChatGPT | 4 | 3 | 7 |
| Gemini | 3 | 4 | 7 |
| Grok | 2 | 3 | 5 |
| DeepSeek | 1 | 2 | 3 |
Tolkning: ChatGPT visar stark stegvis planering och vinner peer review-röstningen; Gemini visar bättre anpassning till scenariot under begränsningar. Båda kniper förstaplatsen totalt.
Category 2: Image Generation
Två prompts. DeepSeek kan inte generera bilder och får noll per definition.
Prompt 1: Photoreal Mona Lisa as a frustrated street protester in Times Square, holding a cardboard sign that reads “Make Florence great again” in bold red letters.
Grok: snabbast, men tydligt artificiell. Motivet ser fel ut, även med extra händer.

Gemini: bra komposition och miljö; motivet har fortfarande tre händer.

ChatGPT: mest naturliga motiv med en trovärdig Times Square-bakgrund; skylten och posen matchar briefen.

Scores
ChatGPT 4, Gemini 3, Grok 1, DeepSeek 0.
Prompt 2: Photoreal classroom with a hippie-style teacher beside a chalkboard showing the full alphabet in chalk, letters decreasing in size.
Grok: klassrummet och handstilen känns äkta, men alfabetet är felaktigt och ofullständigt.

Gemini: estetiskt tilltalande, men mer styliserad än fotorealistisk; bokstäverna är för perfekta och onödiga detaljer läggs till.

ChatGPT: mest övertygande totalt sett; ljussättning, klassrumsdetaljer och läraren är trovärdiga. Handstilen är möjligen för perfekt.

I den ursprungliga tävlingen begränsades högsta poäng till 3 för just denna runda.
Scores
ChatGPT 3, Gemini 2, Grok 2, DeepSeek 0.
Image Generation Totals
| Model | P1 | P2 | Total |
|---|---|---|---|
| ChatGPT | 4 | 3 | 7 |
| Gemini | 3 | 2 | 5 |
| Grok | 1 | 2 | 4 |
| DeepSeek | 0 | 0 | 0 |
Tolkning: ChatGPT är mest pålitlig för fotorealistiska prompts. Gemini kommer ofta nära, medan Grok har problem med fin anatomi och texttrohet i bilder.
Category 3: Fact-Checking Without Internet
Tre flervalsfrågor. Självförtroendesiffror registrerades men påverkade inte rubricen.
Q1: In 2018, about how many chickens were killed for meat production?
Alternativ: 690 million, 6.9 billion, 69 billion, 690 billion.
Rätt: 69 billion.
Grok svarar 69 miljarder rakt av.
ChatGPT ger ett intervall som inkluderar rätt siffra.
Gemini och DeepSeek klustrar något lägre kring cirka 65 miljarder.
Scores
Grok 4, ChatGPT 3, Gemini 1, DeepSeek 1.
Q2: As of 2020, approximately how much annual income puts you in the richest 1 percent globally?
Alternativ: 200k, 75k, 35k, 15k.
Rätt: 35k.
Gemini uppger 34k.
ChatGPT 200k, Grok 60k, DeepSeek 75–85k.
Scores
Gemini 4, övriga 0.
Q3: In 2019, what proportion of U.S. electricity came from fossil fuels?
Alternativ: 83%, 63%, 43%, 23%.
Rätt: 63%.
Gemini träffar 63% exakt.
ChatGPT 63–65%, Grok 62%, DeepSeek 60–65%.
Scores
Gemini 4, ChatGPT 3, Grok 3, DeepSeek 3.
Fact-Checking Totals
| Model | Q1 | Q2 | Q3 | Total |
|---|---|---|---|---|
| ChatGPT | 3 | 0 | 3 | 6 |
| Gemini | 1 | 4 | 4 | 9 |
| Grok | 4 | 0 | 3 | 7 |
| DeepSeek | 1 | 0 | 3 | 4 |
Tolkning: Gemini vinner på precision och konsekvens. Grok prickar första frågan men missar rejält på inkomsttröskeln. ChatGPT:s intervall är hjälpsamma, men exakthet spelar roll.
Category 4: Multimodal Analysis
Två rundor: ett kylskåpsfoto och en "Where’s Waldo"-scen.

Round 1: What’s in the fridge, and propose three meals from those ingredients.
DeepSeek kan inte identifiera objekt och faller bort.
ChatGPT missar tre items, hittar inga påhittade ingredienser och föreslår rimliga måltider som matchar inventariet.
Gemini missar sju objekt och uppfinner citrus som inte finns.
Grok missar tre men hittar en lång lista med ytterligare (påhittade) föremål och skriver recept som kräver dessa fiktiva ingredienser.

Scores
ChatGPT 4, Gemini 3, Grok 2, DeepSeek 0.
Round 2: Find Waldo in a busy illustration.

Ingen av modellerna hittar Waldo korrekt. DeepSeek läser av slumpmässig text och levererar ett icke-svar.
Scores
Alla 0.
Analysis Totals
| Model | Fridge | Waldo | Total |
|---|---|---|---|
| ChatGPT | 4 | 0 | 4 |
| Gemini | 3 | 0 | 3 |
| Grok | 2 | 0 | 2 |
| DeepSeek | 0 | 0 | 0 |
Tolkning: påhittade objekt är förödande för verklig nytta. ChatGPT motstår frestelsen att uppfinna och den återhållsamheten vinner ronden.
Category 5: Video Generation
Två klassiska scener. DeepSeek kan inte generera video och får noll.
Round 1: Image-to-video from the iconic photo of Neil Armstrong on the Moon

Sora 2 vägrade animera människor direkt, så vi omformulerade prompten till en textbeskrivning. Ljudresultaten var överraskande starka.
Gemini: mest filmiska känsla och bäst ljudsynkning. Fysikmiss: flaggan vajar, vilket inte kan ske i vakuum.

Grok: stabilt överlag, men skeppets skala är fel och det finns vind.

ChatGPT: acceptabelt men mindre engagerande än de två övriga.

Scores
Gemini 4, Grok 3, ChatGPT 2, DeepSeek 0.
Round 2: Steel-beam workers high above the city
Gemini: bästa kamerarörelser och parallax; cigaretter ser något felaktiga ut.

Grok: stark spänning med den svängande balken; tidningar morphar orealistiskt mitt i scenen.

ChatGPT: duglig men inte i toppen.

Scores
Gemini 4, Grok 3, ChatGPT 2, DeepSeek 0.
Video Generation Totals
| Model | R1 | R2 | Total |
|---|---|---|---|
| Gemini | 4 | 4 | 8 |
| Grok | 3 | 3 | 6 |
| ChatGPT | 2 | 2 | 4 |
| DeepSeek | 0 | 0 | 0 |
Tolkning: Gemini leder tydligt i rörelsekvalitet och ljuddesign. Grok är nära men begår fortfarande realismfel. ChatGPT är stabilt men mindre filmiskt.
Category 6: Creative Generation
Två korta prompts för ordvitsar och "dad jokes".
Prompt 1: Three original tech puns and a one-sentence explanation for each
Alla fyra följer instruktionen utan problem. Teamets favorit:
“I tried to make a joke about USBs, but it just didn’t stick.”
Scores
ChatGPT 3, Gemini 3, Grok 3, DeepSeek 3.
Prompt 2: Three original dad jokes that make me laugh really hard
Grok följer inte det generella temat och fortsätter att skoja om smartphones och Wi‑Fi.
ChatGPT, Gemini, DeepSeek levererar riktiga, allmänna "dad jokes". Teamets favorit:
“My friend’s bakery burned down last night. Now his business is toast.”
Scores
ChatGPT 4, Gemini 4, DeepSeek 4, Grok 1.
Creative Totals
| Model | Puns | Dad Jokes | Total |
|---|---|---|---|
| ChatGPT | 3 | 4 | 7 |
| Gemini | 3 | 4 | 7 |
| DeepSeek | 3 | 4 | 7 |
| Grok | 3 | 1 | 4 |
Tolkning: trevägskryss för förstaplatsen. DeepSeek visar att lätt, snabbt humorinnehåll är en av dess livligare talanger.
Category 7: Voice Mode
Vi ställde tre enheter sida vid sida och körde strukturerade mini-debatter. DeepSeek har ingen röstläge och får noll.
ChatGPT börjar med udda pauser och tonförskjutningar mitt i satser.
Gemini är mjukare och mer naturlig, med ett konsekvent rytmiskt flöde.
Grok är snabb, självsäker och lite kryddig; i en head-to-head med Gemini är båda starka och vi kallar det oavgjort.
Scores
Gemini 4, Grok 4, ChatGPT 2, DeepSeek 0.
Tolkning: om du vill ha en naturlig röstkonversation är Gemini och Grok de bästa valen just nu.
Category 8: Deep Research
Prompt: jämför iPhone 17 Pro Max vs Galaxy S25 Ultra för fotografer, använd recensioner och officiella specifikationer, avgör vilken som är bättre, var koncis.
DeepSeek påstår felaktigt 5x telefoto på iPhone där det är 4x, och misstar Galaxy ultravidvinkel som 12 MP istället för 50; refererar dessutom till en 10x telelins som togs bort sedan S24.
ChatGPT glömmer Galaxy:s dubbla teleuppsättning och utelämnar frontkameror, men inkluderar pris.
Gemini listar korrekt Galaxy:s kamerauppsättning och ger en balanserad slutsats.
Grok levererar den mest fullständiga och korrekta genomgången av specifikationer.

Alla fyra konvergerar mot samma verdict: iPhone vinner för konsekvens och videokvalitet; Galaxy vinner för långzoom och avancerade AI-verktyg. Det stämmer överens med hands-on-upplevelser. Fortfarande kräver spridda spec-detaljer verifiering.
Scores
Grok 4, Gemini 3, ChatGPT 2, DeepSeek 1.
Tolkning: Grok vinner research-grinden, Gemini följer tätt bakom, ChatGPT är användbart men missade nyckelfakta om kameror, DeepSeek behöver striktare faktakontroll i specifikationer.
Category 9: Speed (Observed, Not Scored)
ChatGPT känns snabbast på ren text men saktar ned på bild- och tyngre researchuppgifter.
Gemini är stabil nästan överallt; sällan allra snabbast, nästan aldrig långsammast.
Grok är generellt kvick men kan bli trögt i analys och research.
DeepSeek svarar ofta på under 10 sekunder, men den hastigheten byts ofta mot kontext och noggrannhet.
Vi poängsatte inte hastighet som egen kategori för att behålla pariteten med originaltävlingens poängsummor.
Full Scoreboard
För transparens, här är den kompletta tabellen med poäng per kategori, matchande källtävlingens slutliga sammanställning.
| Category | ChatGPT | Gemini | Grok | DeepSeek |
|---|---|---|---|---|
| Problem Solving | 7 | 7 | 5 | 3 |
| Image Generation | 7 | 5 | 4 | 0 |
| Fact-Checking | 6 | 9 | 7 | 4 |
| Analysis | 4 | 3 | 2 | 0 |
| Video Generation | 4 | 8 | 6 | 0 |
| Creative | 7 | 7 | 4 | 7 |
| Voice Mode | 2 | 4 | 4 | 0 |
| Deep Research | 2 | 3 | 4 | 1 |
| Total | 39 | 46 | 35 | 17 |
Overall winner: Gemini (46 points).
Runner-up: ChatGPT (39). Third place: Grok (35). Fourth place: DeepSeek (17).
Strengths, Weaknesses, and Failure Modes
En head-to-head är först meningsfull när den förklarar varför modeller beter sig som de gör. Här är de konsistenta mönstren vi observerade.
ChatGPT
Strengths: mycket strukturerad resonemangsförmåga under begränsningar; konservativ och mindre hallucinerande i bildanalys; ovanligt stark i fotorealistisk bildgenerering; pålitlig och träffsäker kreativ text.
Weaknesses: saktar i tyngre multimodala uppgifter; ibland brister i specifikationer i research; röstleverans behöver mer prosodisk stabilitet.
Failure modes to watch: små men viktiga faktagap i jämförelser mellan flera enheter; underbeskrivna svar om prompten är för kortfattad.
Pick ChatGPT if: du behöver bildgenerering som följer prompts, stegvisa planer eller kreativ copy som landar konsekvent. Den är också utmärkt för mat- och receptlogik när inventariet är ofullständigt.
Gemini
Strengths: bästa balans överlag; vass på faktagranskning utan internet; mest övertygande videooutput och ljudstaging; problemlösning som anpassar planen istället för att gissa på matematiken; jämnast röst.
Weaknesses: ibland överpolerade bilder; kan lägga till prydliga men påhittade detaljer i visuell analys; sällan absolut snabbast.
Failure modes to watch: fotorealistiska prompts som kräver minutiös typografi eller perfekt mänsklig anatomi kan snubbla; var tydlig med fysikbegränsningar i video.
Pick Gemini if: du vill ha en standardmodell som hanterar de flesta uppgifter mycket väl, särskilt när arbetet kombinerar resonemang med multimodal generering och du bryr dig om korrekthet.
Grok
Strengths: utmärkt för djup research; slagkraftig personlighet i röstläge; snabba första pass; stark förståelse för debattstruktur.
Weaknesses: bildhallucinationer vid visuell analys; realismbrott i video; ibland tunnelvision i kreativa uppgifter.
Failure modes to watch: uppfunna objekt i foton; självsäkra men felaktiga specifika uppgifter; håller fast vid ett övergivet tema när prompten ändrats.
Pick Grok if: du behöver en skarp research-assistent för att konsolidera specifikationer och recensioner, eller en livlig röstnärvaro. Kombinera med manuell verifiering när precision krävs.
DeepSeek
Strengths: snabbt på text; oväntat bra på kort, lätt humor; duger för att följa enkla kreativa briefar.
Weaknesses: ingen bild- eller videogenerering; kan inte identifiera objekt i bilder; lösare faktagrepp i research.
Failure modes to watch: självsäkra men snedvridna siffror; läser text i bilder men ignorerar scenen.
Pick DeepSeek if: du vill ha billigt, mycket snabbt textoutput för enkla uppgifter, skämt eller utkast som du planerar att redigera ändå.
Practical Recommendations by Use Case
Photoreal image generation with strong prompt adherence: ChatGPT
Image analysis without hallucinated objects: ChatGPT
Video generation with better motion and sound design: Gemini
Tough fact-checking without browsing: Gemini
Problem solving under constraints: Gemini and ChatGPT
Natural, steady voice conversation: Gemini and Grok
Spec comparisons and product research summaries: Grok
Quick, lightweight creative text: DeepSeek
Why the Winner Matters Less Than the Fit
Gemini fick högst totalpoäng eftersom den kombinerar korrekthet, anpassningsbarhet och multimodal kvalitet. Den balansen vinner tävlingar. I verkligt arbete är det dock passformen till uppgiften som betyder mest. Om din dag kretsar kring stillbilder kan ChatGPT prestera bättre än vad poängtabellen antyder för just ditt arbetsflöde. Om du sammanställer spec-tabeller kan Grok vara snabbaste vägen till ett publicerbart utkast. Behöver du en billig, snabb punchline eller ett grovt utkast är DeepSeek:s hastighet en funktion, inte ett fel.
Tänk på dessa modeller som objektiv i en kameraväska. Det ”bästa” objektivet på papper är inte alltid det du behöver. Välj brännvidden som passar motivet.
Limitations and Notes on Reproducibility
No internet rounds: alla modeller arbetade från inbäddad kunskap, som åldras. Om du upprepar testerna om några månader kan faktasiffror ha förändrats när modellerna uppdaterats eller träningsdata ändrats.
Generative variability: slumpvariation mellan körningar kan ändra exakt ordalydelse eller små detaljer. Vi styrde för detta genom att fokusera på korrekthet och följsamhet, inte formuleringens finess.
Speed: registrerades kvalitativt. Infrastruktur och belastning påverkar latens; dagens snabbaste modell kan kännas långsammare imorgon.
Modal gaps: där en kapabilitet saknas (DeepSeek för bilder och video) innebär en nolla inte att textförmågan är svag. Det speglar helt enkelt produktens inriktning.
Verdict
Winner: Gemini (46 points). Bäst allround för 2025, med utmärkta resultat i faktagranskning, videogenerering och adaptiv problemlösning, plus den jämnaste rösten.
Runner-up: ChatGPT (39 points). Ledande inom fotorealistisk bildgenerering, strukturerad problemlösare, pålitlig kreativ partner och mest försiktig i bildbaserad analys.
Third: Grok (35 points). Researchstjärna med en distinkt röstpersonlighet. Verifiera specifika uppgifter när precision är kritisk.
Fourth: DeepSeek (17 points). Snabb, enkel och oväntat rolig för lätt kreativt arbete, men saknar multimodal bredd jämfört med konkurrenterna.
Om du vill ha en modell som hanterar det bredaste spektrumet av vardagliga uppgifter med minst överraskningar, välj Gemini. Om ditt arbetsflöde lutar mot bilder och du värdesätter noggrann, stegvis resonemang kommer ChatGPT att kännas hemmastadd. För spec‑tunga briefar och slagkraftiga muntliga debatter är Grok lockande. För snabb, låginsatstext där kostnad och hastighet väger tyngre än bredd, förtjänar DeepSeek sin plats.
Nio kategorier. En poängtavla. Gott om utrymme för nyanser. Välj rätt verktyg, och vilken av dessa modeller som helst kan vara det smartaste teammedlemmen i rummet.
Kommentarer
turbo_mk
Hyfsat balanserat men poängsättningen kändes stundtals godtycklig i kreativa rundor. ChatGPT bäst på fotorealism, Gemini mest användbar overall. Hmm.
Erik
Jag har sett samma grej i jobbet: Grok nailing specs men sen hittar den uppdiktade grejer i bilder, så man måste dubbelkolla allt. Tröttsamt men sant.
stadlane
wow, Gemini som totalvinnare... oväntat men känns rimligt? gillar att de körde riktiga scenarion och inte bara labbtest. Vill se fler exempel, asap
datapuls
Är detta ens rättvist testat? Speed registrerat men inte poängsatt, och DeepSeek får 0 för bilder, känns snett. Någon som vet mer?
Lämna en kommentar