AI-modelltest 2025: Gemini, ChatGPT, Grok, DeepSeek

AI-modelltest 2025: Gemini, ChatGPT, Grok, DeepSeek

Erik Blomqvist Erik Blomqvist . 4 Kommentarer

26 Minuter

Fyra huvudmodeller. Nio kategorier. En totalvinnare. Detta är inte en labbrapport med svårtolkade topplistor. Det är en praktisk, end-to-end-jämförelse byggd på uppgifter som folk faktiskt bryr sig om: lösa verkliga problem under tidspress, generera bilder och video, kontrollera fakta utan internet, analysera röriga ingångar, vara kreativ på begäran, tala naturligt och göra djupgående research som håller för granskning. Vi betygsatte varje deluppgift från 0 till 4 och förde en löpande sammanställning. I slutet korade vi en mästare och, viktigare, kartlade vilken uppgift varje modell är bäst på.

Kort svar först: Gemini vinner totalt med 46 poäng. ChatGPT hamnar nära tvåa med 39. Grok kommer trea med 35. DeepSeek ligger sist med 17. Det betyder inte att du alltid ska välja vinnaren. Olika kategorier gynnar olika styrkor, och rätt modell beror på vilket arbete du behöver få gjort. Den här genomgången visar exakt var varje modell glänser och var den snubblar, med konkreta exempel och helt transparent poängsättning.

How We Tested

  • Models compared: ChatGPT, Gemini, Grok, DeepSeek.

  • Categories: nio totalt. Vissa inkluderar flera rundor eller prompts.

  • Scoring: varje runda betygsätts 0–4. Där den ursprungliga jämförelsen angav explicita poäng eller rankordningar använde vi dem; annars följde vi samma regler och rubric.

  • Constraints: när en runda förbjöd internetåtkomst respekterade vi den begränsningen. Där en kapabilitet saknades (till exempel bild- eller videogenerering i DeepSeek) får modellen noll för den rundan.

  • Speed: registrerades beskrivande, inte poängsatt som egen kategori, för att hålla totalsummorna i linje med originaltävlingen.

Vårt mål var inte att skapa fällfrågor. Vi försökte kartlägga verkligt beteende, inklusive felmönster som påhittade detaljer i bildanalys eller ytlig budgeträkning som ignorerar scenariospecifika villkor.

Category 1: Problem Solving

Två realistiska utmaningar. Betygsatts separat och summerats.

Round 1: You have 10 dollars, a dead phone, no map, and 45 minutes to reach a central train station in a foreign city. Give a five-step plan.

Scores, Round 1
ChatGPT 4, Gemini 3, Grok 2, DeepSeek 1.

Round 2: You have 400 dollars after rent to cover groceries, transport, and internet. Groceries cost 50 per week, transport 80 per month, internet 60 per month. You want to attend a 200 dollar event next month. How do you budget?

En resonansfälla. ChatGPT, Grok och DeepSeek väljer att lägga undan endast 60 dollar nu och "spara mer nästa månad", vilket kommer för sent. Gemini är den enda modellen som justerar planen omedelbart: skär matkostnaderna med 15 dollar per vecka genom fyndshopping och strikt måltidsplanering så att underskottet löses redan denna månad.

Scores, Round 2
Gemini 4, ChatGPT 3, Grok 3, DeepSeek 2.

Problem Solving Totals

ModelRound 1Round 2Total
ChatGPT437
Gemini347
Grok235
DeepSeek123

Tolkning: ChatGPT visar stark stegvis planering och vinner peer review-röstningen; Gemini visar bättre anpassning till scenariot under begränsningar. Båda kniper förstaplatsen totalt.

Category 2: Image Generation

Två prompts. DeepSeek kan inte generera bilder och får noll per definition.

Prompt 1: Photoreal Mona Lisa as a frustrated street protester in Times Square, holding a cardboard sign that reads “Make Florence great again” in bold red letters.

  • Grok: snabbast, men tydligt artificiell. Motivet ser fel ut, även med extra händer.

  • ChatGPT: mest naturliga motiv med en trovärdig Times Square-bakgrund; skylten och posen matchar briefen.

Scores
ChatGPT 4, Gemini 3, Grok 1, DeepSeek 0.

Prompt 2: Photoreal classroom with a hippie-style teacher beside a chalkboard showing the full alphabet in chalk, letters decreasing in size.

  • Grok: klassrummet och handstilen känns äkta, men alfabetet är felaktigt och ofullständigt.

  • Gemini: estetiskt tilltalande, men mer styliserad än fotorealistisk; bokstäverna är för perfekta och onödiga detaljer läggs till.

  • ChatGPT: mest övertygande totalt sett; ljussättning, klassrumsdetaljer och läraren är trovärdiga. Handstilen är möjligen för perfekt.

I den ursprungliga tävlingen begränsades högsta poäng till 3 för just denna runda.

Scores
ChatGPT 3, Gemini 2, Grok 2, DeepSeek 0.

Image Generation Totals

ModelP1P2Total
ChatGPT437
Gemini325
Grok124
DeepSeek000

Tolkning: ChatGPT är mest pålitlig för fotorealistiska prompts. Gemini kommer ofta nära, medan Grok har problem med fin anatomi och texttrohet i bilder.

Category 3: Fact-Checking Without Internet

Tre flervalsfrågor. Självförtroendesiffror registrerades men påverkade inte rubricen.

Q1: In 2018, about how many chickens were killed for meat production?

Alternativ: 690 million, 6.9 billion, 69 billion, 690 billion.
Rätt: 69 billion.

  • Grok svarar 69 miljarder rakt av.

  • ChatGPT ger ett intervall som inkluderar rätt siffra.

  • Gemini och DeepSeek klustrar något lägre kring cirka 65 miljarder.

Scores
Grok 4, ChatGPT 3, Gemini 1, DeepSeek 1.

Q2: As of 2020, approximately how much annual income puts you in the richest 1 percent globally?

Alternativ: 200k, 75k, 35k, 15k.
Rätt: 35k.

  • Gemini uppger 34k.

  • ChatGPT 200k, Grok 60k, DeepSeek 75–85k.

Scores
Gemini 4, övriga 0.

Q3: In 2019, what proportion of U.S. electricity came from fossil fuels?

Alternativ: 83%, 63%, 43%, 23%.
Rätt: 63%.

  • Gemini träffar 63% exakt.

  • ChatGPT 63–65%, Grok 62%, DeepSeek 60–65%.

Scores
Gemini 4, ChatGPT 3, Grok 3, DeepSeek 3.

Fact-Checking Totals

ModelQ1Q2Q3Total
ChatGPT3036
Gemini1449
Grok4037
DeepSeek1034

Tolkning: Gemini vinner på precision och konsekvens. Grok prickar första frågan men missar rejält på inkomsttröskeln. ChatGPT:s intervall är hjälpsamma, men exakthet spelar roll.

Category 4: Multimodal Analysis

Två rundor: ett kylskåpsfoto och en "Where’s Waldo"-scen.

Round 1: What’s in the fridge, and propose three meals from those ingredients.

  • DeepSeek kan inte identifiera objekt och faller bort.

  • ChatGPT missar tre items, hittar inga påhittade ingredienser och föreslår rimliga måltider som matchar inventariet.

  • Gemini missar sju objekt och uppfinner citrus som inte finns.

  • Grok missar tre men hittar en lång lista med ytterligare (påhittade) föremål och skriver recept som kräver dessa fiktiva ingredienser.

Scores
ChatGPT 4, Gemini 3, Grok 2, DeepSeek 0.

Round 2: Find Waldo in a busy illustration.

Ingen av modellerna hittar Waldo korrekt. DeepSeek läser av slumpmässig text och levererar ett icke-svar.

Scores
Alla 0.

Analysis Totals

ModelFridgeWaldoTotal
ChatGPT404
Gemini303
Grok202
DeepSeek000

Tolkning: påhittade objekt är förödande för verklig nytta. ChatGPT motstår frestelsen att uppfinna och den återhållsamheten vinner ronden.

Category 5: Video Generation

Två klassiska scener. DeepSeek kan inte generera video och får noll.

Round 1: Image-to-video from the iconic photo of Neil Armstrong on the Moon

Sora 2 vägrade animera människor direkt, så vi omformulerade prompten till en textbeskrivning. Ljudresultaten var överraskande starka.

  • Gemini: mest filmiska känsla och bäst ljudsynkning. Fysikmiss: flaggan vajar, vilket inte kan ske i vakuum.

  • Grok: stabilt överlag, men skeppets skala är fel och det finns vind.

  • ChatGPT: acceptabelt men mindre engagerande än de två övriga.

Scores
Gemini 4, Grok 3, ChatGPT 2, DeepSeek 0.

Round 2: Steel-beam workers high above the city

  • Gemini: bästa kamerarörelser och parallax; cigaretter ser något felaktiga ut.

  • Grok: stark spänning med den svängande balken; tidningar morphar orealistiskt mitt i scenen.

  • ChatGPT: duglig men inte i toppen.

Scores
Gemini 4, Grok 3, ChatGPT 2, DeepSeek 0.

Video Generation Totals

ModelR1R2Total
Gemini448
Grok336
ChatGPT224
DeepSeek000

Tolkning: Gemini leder tydligt i rörelsekvalitet och ljuddesign. Grok är nära men begår fortfarande realismfel. ChatGPT är stabilt men mindre filmiskt.

Category 6: Creative Generation

Två korta prompts för ordvitsar och "dad jokes".

Prompt 1: Three original tech puns and a one-sentence explanation for each

Alla fyra följer instruktionen utan problem. Teamets favorit:
“I tried to make a joke about USBs, but it just didn’t stick.”

Scores
ChatGPT 3, Gemini 3, Grok 3, DeepSeek 3.

Prompt 2: Three original dad jokes that make me laugh really hard

Scores
ChatGPT 4, Gemini 4, DeepSeek 4, Grok 1.

Creative Totals

ModelPunsDad JokesTotal
ChatGPT347
Gemini347
DeepSeek347
Grok314

Tolkning: trevägskryss för förstaplatsen. DeepSeek visar att lätt, snabbt humorinnehåll är en av dess livligare talanger.

Category 7: Voice Mode

Vi ställde tre enheter sida vid sida och körde strukturerade mini-debatter. DeepSeek har ingen röstläge och får noll.

  • ChatGPT börjar med udda pauser och tonförskjutningar mitt i satser.

  • Gemini är mjukare och mer naturlig, med ett konsekvent rytmiskt flöde.

  • Grok är snabb, självsäker och lite kryddig; i en head-to-head med Gemini är båda starka och vi kallar det oavgjort.

Scores
Gemini 4, Grok 4, ChatGPT 2, DeepSeek 0.

Tolkning: om du vill ha en naturlig röstkonversation är Gemini och Grok de bästa valen just nu.

Category 8: Deep Research

Prompt: jämför iPhone 17 Pro Max vs Galaxy S25 Ultra för fotografer, använd recensioner och officiella specifikationer, avgör vilken som är bättre, var koncis.

  • DeepSeek påstår felaktigt 5x telefoto på iPhone där det är 4x, och misstar Galaxy ultravidvinkel som 12 MP istället för 50; refererar dessutom till en 10x telelins som togs bort sedan S24.

  • ChatGPT glömmer Galaxy:s dubbla teleuppsättning och utelämnar frontkameror, men inkluderar pris.

  • Gemini listar korrekt Galaxy:s kamerauppsättning och ger en balanserad slutsats.

  • Grok levererar den mest fullständiga och korrekta genomgången av specifikationer.

Alla fyra konvergerar mot samma verdict: iPhone vinner för konsekvens och videokvalitet; Galaxy vinner för långzoom och avancerade AI-verktyg. Det stämmer överens med hands-on-upplevelser. Fortfarande kräver spridda spec-detaljer verifiering.

Scores
Grok 4, Gemini 3, ChatGPT 2, DeepSeek 1.

Tolkning: Grok vinner research-grinden, Gemini följer tätt bakom, ChatGPT är användbart men missade nyckelfakta om kameror, DeepSeek behöver striktare faktakontroll i specifikationer.

Category 9: Speed (Observed, Not Scored)

Vi poängsatte inte hastighet som egen kategori för att behålla pariteten med originaltävlingens poängsummor.

Full Scoreboard

För transparens, här är den kompletta tabellen med poäng per kategori, matchande källtävlingens slutliga sammanställning.

CategoryChatGPTGeminiGrokDeepSeek
Problem Solving7753
Image Generation7540
Fact-Checking6974
Analysis4320
Video Generation4860
Creative7747
Voice Mode2440
Deep Research2341
Total39463517

Overall winner: Gemini (46 points).
Runner-up: ChatGPT (39). Third place: Grok (35). Fourth place: DeepSeek (17).

Strengths, Weaknesses, and Failure Modes

En head-to-head är först meningsfull när den förklarar varför modeller beter sig som de gör. Här är de konsistenta mönstren vi observerade.

ChatGPT

  • Strengths: mycket strukturerad resonemangsförmåga under begränsningar; konservativ och mindre hallucinerande i bildanalys; ovanligt stark i fotorealistisk bildgenerering; pålitlig och träffsäker kreativ text.

  • Weaknesses: saktar i tyngre multimodala uppgifter; ibland brister i specifikationer i research; röstleverans behöver mer prosodisk stabilitet.

  • Failure modes to watch: små men viktiga faktagap i jämförelser mellan flera enheter; underbeskrivna svar om prompten är för kortfattad.

Pick ChatGPT if: du behöver bildgenerering som följer prompts, stegvisa planer eller kreativ copy som landar konsekvent. Den är också utmärkt för mat- och receptlogik när inventariet är ofullständigt.

Gemini

  • Strengths: bästa balans överlag; vass på faktagranskning utan internet; mest övertygande videooutput och ljudstaging; problemlösning som anpassar planen istället för att gissa på matematiken; jämnast röst.

  • Weaknesses: ibland överpolerade bilder; kan lägga till prydliga men påhittade detaljer i visuell analys; sällan absolut snabbast.

  • Failure modes to watch: fotorealistiska prompts som kräver minutiös typografi eller perfekt mänsklig anatomi kan snubbla; var tydlig med fysikbegränsningar i video.

Pick Gemini if: du vill ha en standardmodell som hanterar de flesta uppgifter mycket väl, särskilt när arbetet kombinerar resonemang med multimodal generering och du bryr dig om korrekthet.

Grok

  • Strengths: utmärkt för djup research; slagkraftig personlighet i röstläge; snabba första pass; stark förståelse för debattstruktur.

  • Weaknesses: bildhallucinationer vid visuell analys; realismbrott i video; ibland tunnelvision i kreativa uppgifter.

  • Failure modes to watch: uppfunna objekt i foton; självsäkra men felaktiga specifika uppgifter; håller fast vid ett övergivet tema när prompten ändrats.

Pick Grok if: du behöver en skarp research-assistent för att konsolidera specifikationer och recensioner, eller en livlig röstnärvaro. Kombinera med manuell verifiering när precision krävs.

DeepSeek

Pick DeepSeek if: du vill ha billigt, mycket snabbt textoutput för enkla uppgifter, skämt eller utkast som du planerar att redigera ändå.

Practical Recommendations by Use Case

Why the Winner Matters Less Than the Fit

Gemini fick högst totalpoäng eftersom den kombinerar korrekthet, anpassningsbarhet och multimodal kvalitet. Den balansen vinner tävlingar. I verkligt arbete är det dock passformen till uppgiften som betyder mest. Om din dag kretsar kring stillbilder kan ChatGPT prestera bättre än vad poängtabellen antyder för just ditt arbetsflöde. Om du sammanställer spec-tabeller kan Grok vara snabbaste vägen till ett publicerbart utkast. Behöver du en billig, snabb punchline eller ett grovt utkast är DeepSeek:s hastighet en funktion, inte ett fel.

Tänk på dessa modeller som objektiv i en kameraväska. Det ”bästa” objektivet på papper är inte alltid det du behöver. Välj brännvidden som passar motivet.

Limitations and Notes on Reproducibility

  • No internet rounds: alla modeller arbetade från inbäddad kunskap, som åldras. Om du upprepar testerna om några månader kan faktasiffror ha förändrats när modellerna uppdaterats eller träningsdata ändrats.

  • Generative variability: slumpvariation mellan körningar kan ändra exakt ordalydelse eller små detaljer. Vi styrde för detta genom att fokusera på korrekthet och följsamhet, inte formuleringens finess.

  • Speed: registrerades kvalitativt. Infrastruktur och belastning påverkar latens; dagens snabbaste modell kan kännas långsammare imorgon.

  • Modal gaps: där en kapabilitet saknas (DeepSeek för bilder och video) innebär en nolla inte att textförmågan är svag. Det speglar helt enkelt produktens inriktning.

Verdict

Om du vill ha en modell som hanterar det bredaste spektrumet av vardagliga uppgifter med minst överraskningar, välj Gemini. Om ditt arbetsflöde lutar mot bilder och du värdesätter noggrann, stegvis resonemang kommer ChatGPT att kännas hemmastadd. För spec‑tunga briefar och slagkraftiga muntliga debatter är Grok lockande. För snabb, låginsatstext där kostnad och hastighet väger tyngre än bredd, förtjänar DeepSeek sin plats.

Nio kategorier. En poängtavla. Gott om utrymme för nyanser. Välj rätt verktyg, och vilken av dessa modeller som helst kan vara det smartaste teammedlemmen i rummet.

"Jag har arbetat med speljournalistik i över femton år. För mig handlar spel inte bara om underhållning – det är en kulturform som speglar vår tid."

Lämna en kommentar

Kommentarer

turbo_mk

Hyfsat balanserat men poängsättningen kändes stundtals godtycklig i kreativa rundor. ChatGPT bäst på fotorealism, Gemini mest användbar overall. Hmm.

Erik

Jag har sett samma grej i jobbet: Grok nailing specs men sen hittar den uppdiktade grejer i bilder, så man måste dubbelkolla allt. Tröttsamt men sant.

stadlane

wow, Gemini som totalvinnare... oväntat men känns rimligt? gillar att de körde riktiga scenarion och inte bara labbtest. Vill se fler exempel, asap

datapuls

Är detta ens rättvist testat? Speed registrerat men inte poängsatt, och DeepSeek får 0 för bilder, känns snett. Någon som vet mer?