Skip to content

Elon Musks xAI lanserar Grok 4 – “världens smartaste AI”

Bildkälla: xAI (redigerad)
Bildkälla: xAI (redigerad)

Elon Musks AI-företag xAI har lanserat Grok 4, den senaste versionen av sin språkmodell, som enligt Musk är “världens smartaste AI”.

Nyckelfakta om Grok 4

  • Lanseringsdatum: 10 juli 2025
  • Versioner: Grok 4 ($30/månad), Grok 4 Heavy ($300/månad)
  • Prestanda: 44,4 % på Humanity’s Last Exam (Grok 4 Heavy)
  • Nya funktioner: Förbättrad logik, kodgenerering, röstfunktion “Eve”
  • Kontextfönster: upp till 256 000 tokens
Grok 4 får hela 44% rätt på Humanitys Last Exam, klart bättre än konkurrenterna.
Grok 4 får hela 44% rätt på Humanitys Last Exam, klart bättre än konkurrenterna.

Grok 4 visar imponerande resultat i tester

Modellen har visat imponerande resultat i tester, där Grok 4 Heavy nådde 44,4 % på det krävande testet Humanity’s Last Exam, vilket överträffar konkurrenter som OpenAI:s o3 och Googles Gemini 2.5 Pro. 

Vad är Humanity’s Last Exam?

Humanity’s Last Exam är ett test som används för att mäta hur väl avancerade AI-modeller klarar av att svara på komplexa frågor inom en rad olika ämnen. Det liknar ett riktigt prov för människor, men är särskilt utformat för att utmana AI:er på expertfrågor som kräver både fakta, mönsterigenkänning och förmåga att förstå sammanhang.

Testet består av över 3 000 frågor inom mer än 100 ämnen, från lingvistik och historia till rymdteknik och ekologi. Frågorna är blandade mellan flervalsfrågor och korta svar, och svårighetsgraden motsvarar ofta universitetsnivå eller högre.

Syftet är att avgöra hur “mänsklig” en AI:s kunskap och resonemang är. Klarar modellen av att dra slutsatser, analysera data och ge relevanta svar – eller fastnar den i ytliga gissningar?

När OpenAI:s Grok 4 Heavy nyligen testades fick den 44,4 % rätt, vilket är ett anmärkningsvärt resultat och visar att AI:n börjar närma sig mänsklig expertnivå på flera områden.

Hur väl skulle en människa klara Humanity’s Last Exam?

För en genomsnittlig person är Humanity’s Last Exam nästan omöjligt att klara, de flesta skulle bara svara rätt på ca 5–10 % av frågorna eftersom testet är på avancerad universitetsnivå. Vanliga människor utan specialkunskap når sällan över 10 % rätt på Humanity’s Last Exam, som är utformat för att utmana experter inom över 100 olika ämnen.

Grok 4 jämfört med tidigare versioner.
Grok 4 jämfört med tidigare versioner.

Grok 4 är tio gånger mer kraftfull än Grok 3

Grok 4 kommer med en ny funktion kallad “Deep Search”, beskriven som en avancerad sökmotor som kan resonera kring sina svar samtidigt som den hämtar realtidsinformation från nätet. Modellen har realtidsåtkomst till data från X-plattformen (f.d Twitter), vilket gör den särskilt lämpad för att analysera nyheter och trender.

Tabell som visar hur väl Grok 4 presterar på olika prov jämfört med konkurrenter.
Tabell som visar hur väl Grok 4 presterar på olika prov jämfört med konkurrenter.

Förklaring vad de olika prova i bild ovan betyder:

  • GPQA (General Professional Question Answering)
    Ett test som mäter AI:s förmåga att svara korrekt på avancerade kunskapsfrågor från många olika ämnen, liknande högskoleprov eller professionella certifieringar.
  • AIME25 (American Invitational Mathematics Examination)
    En avancerad matematiktävling på gymnasienivå i USA som ofta används som benchmark för att mäta AI:s logiska tänkande och problemlösning i matematik.
  • LCB (Leetcode Benchmark)
    Ett test som utvärderar AI:s förmåga att lösa kodningsproblem och algoritmfrågor som är vanliga i tekniska anställningsintervjuer.
  • HMMT25 (Harvard-MIT Mathematics Tournament)
    Ett svårt matematiktest från en årlig tävling för gymnasieelever, känt för sina kluriga och komplexa problem.
  • USAMO25 (USA Mathematical Olympiad)
    En av de mest prestigefyllda matematikolympiaderna i världen, med problem som kräver djupa resonemang och kreativa lösningar.

Grok 4 har en uppdaterad röstfunktion

I livesändningen av Grok 4 lanseringen demonstrerade xAI teamet den uppdaterade röstfunktionen som Grok 4 nu har. Röstfunktionen i Grok 4 är mer snabb i sina svar och den avbryter inte talaren lika mycket som konkurrerande röstmodeller. Grok 4 röstmodell visade också att den kan sjunga, viska och prata i olika känslolägen och med olika typer av personlighet i rösten.

AI snart i nivå med mänskliga specialister

Lanseringen av Grok 4 markerar ännu ett steg i den snabbt accelererande kapplöpningen inom AI-utveckling. Med imponerande resultat i allt från avancerade matematiktävlingar till kodningsbenchmark visar Grok 4 att språkmodeller inte längre bara är skickliga på att formulera sig, de börjar också bli mästare på logik och problemlösning på en nivå som tidigare var förbehållen mänskliga specialister.

Det återstår att se inom närtid när OpenAI lanserar nästa version av ChatGPT (ChatGPT-5) hur väl den står sig mot Grok 4. AI-kapplöpningen är här och den fortsätter i en allt mer accelererande fart, vi på AI-utbildning ser till att du hänger med.

Missa inte senaste AI nyheter. Avregistrera när du vill.

Tipsa vän eller kollega om artikeln

Hur bra är du på att upptäcka AI-bilder?

kontakt@aiutbildning.se

Publicerat av: Marko Tosic