태그된 포스트: 벤치마크

AI 레이더 · 7월 9일 ·3분 읽기

Grok 4.5 — 토큰은 4배 아끼는데 Opus급이라 불러도 되나

SpaceXAI가 Cursor를 $60B에 인수하고 나서 첫 번째 모델을 내놨다. Grok 4.

grok-4-5spacexaicursor

AI 레이더 · 7월 9일 ·3분 읽기

GPT-5.6 풀렸다 — 가격표보다 시스템 카드가 더 뜨겁다

GPT-5.6이 오늘 드디어 API에 풀렸다.

gpt-5-6openai시스템-카드

AI 레이더 · 7월 7일 ·2분 읽기

GLM-5.2, GPT-5.5를 꺾었는데 셀프호스팅은 2천만 원이다

GLM-5.2가 SWE-bench Pro에서 62.

glm-5-2zhipu-ai오픈웨이트

AI 레이더 · 7월 4일 ·3분 읽기

Sonnet 5가 Opus를 터미널에서 꺾었다 — 대신 토크나이저가 35% 더 먹는다

Anthropic이 6월 30일에 Sonnet 5를 내놨다. 보통이면 "Opus 아랫단 모델 업데이트"로 넘어갈 뉴스인데, 이번엔 좀 다르다.

claude-sonnet-5anthropicopus-4-8

AI 레이더 · 6월 3일 ·2분 읽기

오픈웨이트 모델이 GPT-5.5를 코딩에서 이겼다 — MiniMax M3의 실체

SWE-Bench Pro 59.0%.

minimaxm3오픈웨이트

AI 레이더 · 5월 26일 ·2분 읽기

31B로 400B를 이긴다 — Gemma 4 오픈웨이트의 실전 성적표

Google I/O 2026에서 Gemma 4가 조용히 빠져나왔다. 키노트 무대를 차지한 건 Antigravity 2.

gemma-4google-deepmind오픈웨이트

AI 레이더 · 5월 25일 ·3분 읽기

SubQ가 12M 토큰 컨텍스트를 들고 나왔다 — 혁신인가, 과대포장인가

컨텍스트 윈도우만 충분히 길면 RAG가 필요 없어진다는 말, 한 번쯤 들어봤을 거다. 마이애미의 스타트업 Subquadratic이 그 약속을 현실로 만들겠다며 12M 토큰짜리 LLM을 공개했다.

subq서브쿼드라틱컨텍스트-윈도우

AI 레이더 · 5월 24일 ·2분 읽기

DeepSeek V4 Pro 영구 할인 확정 — GPT-5.5의 1/7 가격에 코딩 벤치마크는 오히려 높다

5월 22일, DeepSeek이 V4-Pro의 프로모션 할인을 영구 가격으로 확정했다. 원래 5월 말까지만 적용하겠다던 75% 할인이 그냥 새로운 정가가 된 거다.

deepseekv4-pro가격-인하

AI 레이더 · 5월 23일 ·3분 읽기

OpenAI가 80년 된 에르되시 추측을 뒤집었다 — 수학자들이 진짜 놀란 이유

7개월 전 케빈 와일이 "GPT-5가 에르되시 미해결 문제 10개를 풀었다"고 트윗했을 때, 얀 르쿤과 데미스 하사비스까지 나서서 조롱했다.

openai수학-증명에르되시

프론트엔드 시그널 · 5월 22일 ·3분 읽기

하이드레이션 절반을 나중으로 미루자, 벤치마크가 뒤집어졌다

프레임워크 하나 더 배우는 건 숨쉬기처럼 익숙해진 지 오래다. 문제는 "이번엔 진짜인가"를 가려내는 눈인데 — TanStack Start가 5월 19일 RC에 올라서면서 꺼낸 Deferred Hydration이라는 카드는, 좀 진지하게 볼 필요가 있다.

tanstack start하이드레이션ssr

AI 레이더 · 5월 21일 ·3분 읽기

Cursor Composer 2.5 — Opus 4.7급 코딩을 1/10 가격에? 뜯어보면 이야기가 다르다

코딩 에이전트 시장에서 가격이 10배 싸면서 성능은 비슷하다는 주장이 나오면, 일단 의심부터 해야 한다. Cursor가 5월 18일 공개한 Composer 2.

cursorcomposer-2.5kimi-k2.5

AI 레이더 · 5월 20일 ·3분 읽기

SubQ 1M-Preview — 12M 토큰에 1000배 효율? 논문부터 보자

마이애미의 스타트업 하나가 "트랜스포머의 가장 큰 약점을 풀었다"고 주장하며 2주 전 스텔스에서 나왔다.

subq서브쿼드라틱-어텐션롱컨텍스트

AI 레이더 · 5월 17일 ·2분 읽기

2M 토큰에 가격도 절반 — 그래도 Gemini 3.1 Pro를 메인으로 못 쓰는 이유

Google이 4월에 내놓은 Gemini 3.1 Pro는 종이 위에선 거의 완벽하다.

gemini-3.1-pro벤치마크컨텍스트-윈도우

AI 레이더 · 5월 14일 ·3분 읽기

SubQ가 O(n²)를 깼다고 한다 — 12M 토큰, 어디까지 믿을 수 있나

5월 5일, 마이애미의 스타트업 Subquadratic가 스텔스 모드에서 나오면서 꽤 도발적인 주장을 했다. "최초의 서브쿼드라틱 프론티어 LLM"을 만들었고, 컨텍스트 윈도우가 1200만 토큰이며, FlashAttention보다 52배 빠르다는 것이다.

subq서브쿼드라틱ssa

AI 레이더 · 5월 11일 ·2분 읽기

벤치마크 1위 Gemini 3.1 Pro, 개발자가 외면하는 이유

구글이 4월에 공개한 Gemini 3.1 Pro가 주요 벤치마크를 거의 다 1위로 찍었다.

geminigoogle벤치마크

AI 레이더 · 5월 5일 ·2분 읽기

ChatGPT 기본 모델이 바뀌었다 — GPT-5.5 Instant 환각 성적표

어제 OpenAI가 ChatGPT의 기본 모델을 GPT-5.5 Instant로 교체했다.

gpt-5.5openai환각

AI 레이더 · 5월 4일 ·3분 읽기

코드베이스 통째로 넣었더니 — Gemini 3.1 Pro 롱 컨텍스트 실전 점검

Google이 Gemini 3.1 Pro에 단 컨텍스트 윈도우는 최대 2백만 토큰이다.

gemini-3.1-pro컨텍스트-윈도우롱-컨텍스트

AI 레이더 · 5월 3일 ·2분 읽기

IMO 금메달 따고 시계는 못 읽는다 — 벤치마크가 숨긴 에이전트의 민낯

수학올림피아드 금메달을 딸 수 있는 모델이 아날로그 시계를 읽지 못한다. 농담이 아니다 — Stanford AI Index 2026이 문서화한 숫자다.

ai-에이전트벤치마크stanford-ai-index

프론트엔드 시그널 · 5월 1일 ·2분 읽기

Svelte 5가 React보다 빠르다는 벤치마크, 근데 왜 아무도 안 갈아타나

또 하나의 벤치마크가 올라왔다. Svelte 5가 React 19보다 40% 빠르고, 번들은 6배 작고, 메모리는 절반이라고.

svelte 5react 19runes

AI 레이더 · 4월 29일 ·3분 읽기

GPT-5.5, 두 배 비싸진 만큼 두 배 나아졌을까

GPT-5.4가 나온 지 두 달도 안 됐는데 5.

gpt-5.5openai벤치마크

1 / 2 Next →