일론 머스크의 Grok 4 공개: AI의 새로운 이정표

DBS770 2025. 7. 10. 22:30

xAI가 7월 초 조기 액세스로 공개한 Grok 4가 인공지능 벤치마크 판도를 뒤집었습니다. 인공 분석 지능 지수(AAI)에서 73점을 기록해 OpenAI o3와 Google Gemini 2.5 Pro의 70점을 넘어섰고, Anthropic Claude 4 Opus(64점) · DeepSeek R1(68점)도 여유 있게 따돌렸습니다. Grok 3가 ‘상위권 경쟁자’였다면, Grok 4는 ‘선두’로 격상된 셈입니다.

Grok 4는 코딩(LiveCodeBench, SciCode)과 수학(AIME 24, MATH-500) 지수에서도 공동 혹은 단독 1위를 차지했습니다. 특히 GPQA 다이아몬드 88%· HumanEval-last 24%로 모두 기존 SOTA를 경신했으며, MMLU-Pro 87%, AIME 2024 94% 역시 공동 최고 점수입니다. 이런 전방위 우위는 아래 Full set of intelligence benchmark 그래프에서 상세히 확인할 수 있습니다.

Full set of intelligence benchmarks / Coding / Math 전체 그래프

기술 사양도 눈길을 끕니다. 컨텍스트 창은 256만 토큰으로 Claude 4 Sonnet(20만)과 o3(20만)을 크게 웃돌며, 텍스트·이미지 입력과 함수 호출, 구조화 출력까지 지원합니다. 출력 속도는 75 tokens/s로 o3(187) · Gemini 2.5 Pro(141)보다는 느리지만 Claude 4 Opus Thinking(66)보다는 빠릅니다. 다만, 전작 모델인 Grok 3에 비해서는 3분의 1 수준으로 느림을 보여줍니다.

가격과 비용 효율성은 ‘중간’에 속합니다. 가격은 100만 입력·출력 토큰당 $3/$15로 Grok 3와 동일한데, Claude 4 Sonnet과 비슷하나 Gemini 2.5 Pro(입력 토큰당 $1.25)·o3(입력 토큰당 $2, 인하 후)보다는 다소 높습니다. 게다가 Grok 4는 평균 출력 토큰 수가 소폭 많아 AAII 실행 비용이 경쟁 모델보다 높게 책정됩니다. 세부 표는 아래에서 확인 가능합니다.

Cost to Run Artificial Analysis Intelligence Index

Grok 4는 ARC-AGI 벤치에서 ‘추론 SOTA’를 달성했습니다. AI 추론력의 척도인 ARC-AGI-2에서 Grok 4 Thinking은 15.9%로 상업용 모델 최고 기록을 거의 두 배 가까이 갱신했습니다. ARC-AGI-1에서도 66.7%를 기록해 파레토 프런티어를 재현했습니다.

ARC-AGI-2 Leaderboard / ARC-AGI-1 Leaderboard

Grok 4는 현재 xAI API와 X(Twitter) Grok 챗봇으로 우선 제공되며, Microsoft Azure AI Foundry를 통한 서드파티 배포도 예고돼 있습니다. 기업은 초거대 컨텍스트 창과 강력한 추론 성능을 활용해 장문 문서 분석, 멀티 모달 보고서 작성, 고도화된 코드 자동화에 새로운 선택지를 확보하게 됩니다. 최상위 성능을 원하는 개발자·리서처라면 Grok 4의 등장을 주목할 이유가 충분합니다.

참고 문헌 및 출처

저작자표시 비영리 동일조건 (새창열림)