← 탐색

태그된 포스트: 벤치마크

AI 레이더 · ·3분 읽기

GPT가 쓰고 Claude가 빨간펜 든다 — 혼자보다 14% 나은 이유

GPT o3 혼자 리서치 리포트를 쓰면 DRACO 벤치마크 42.7점이다.

copilotmicrosoftmulti-model
AI 레이더 · ·3분 읽기

컴퓨터를 인간보다 잘 쓰는 AI — 근데 1등은 GPT-5.4가 아니다

9개월 만에 AI의 데스크톱 조작 능력이 47%에서 75%로 뛰었다. GPT-5.

osworldgpt-5.4computer-use
AI 레이더 · ·3분 읽기

Gemma 4의 진짜 무기는 벤치마크가 아니라 Apache 2.0이다

구글이 4월 2일에 Gemma 4를 내놓았다. 모델 네 개, 벤치마크 잔뜩, 블로그 포스트 길이도 역대급이다.

gemma-4googleapache-2.0
AI 레이더 · ·3분 읽기

세 모델 전부 1등이고 전부 꼴등이다 — 프론티어 벤치마크 한 달 정산

GPT-5.4 출시 한 달째다.

gpt-5.4opus-4.6gemini-3.1-pro
AI 레이더 · ·3분 읽기

'스몰'이라면서 H100 4장 — Mistral Small 4의 기묘한 포지셔닝

Mistral이 "Small"이라고 이름 붙인 모델이 H100 4장을 요구한다. 3월 16일에 공개된 Mistral Small 4의 스펙시트를 펼치면 이해는 되지만 — 119B 파라미터 MoE, 128개 전문가, 256K 컨텍스트, 네이티브 비전, Apache 2.

mistralmoeopen-source