태그된 포스트: benchmark

AI 레이더 · 3월 29일 ·3분 읽기

GPT-5.4가 컴퓨터를 사람보다 잘 쓴다 — 근데 세차장은 걸어간다

GPT-5.4가 OSWorld-V 벤치마크에서 75%를 찍었다.

gpt-5.4openaicomputer-use

AI 레이더 · 3월 28일 ·3분 읽기

Qwen 3.5 9B — 6.6GB짜리가 120B를 잡는다

내 맥북에 6.6GB짜리 모델 하나 깔았는데, 파라미터 수 13배 많은 OpenAI 모델보다 벤치마크 점수가 높다.

qwenalibabaopen-source

AI 레이더 · 3월 27일 ·3분 읽기

ARC-AGI-3: GPT-5, Claude, Gemini 전부 1% 미만 — 프론티어 모델이 비디오 게임도 못 깨는 이유

GPT-5.4가 코딩 벤치마크를 갈아엎고, Claude Opus 4.

arc-agibenchmarkreasoning