← 탐색

태그된 포스트: 벤치마크

AI 레이더 · ·3분 읽기

Cursor Composer 2.5 — Opus 4.7급 코딩을 1/10 가격에? 뜯어보면 이야기가 다르다

코딩 에이전트 시장에서 가격이 10배 싸면서 성능은 비슷하다는 주장이 나오면, 일단 의심부터 해야 한다. Cursor가 5월 18일 공개한 Composer 2.

cursorcomposer-2.5kimi-k2.5
AI 레이더 · ·3분 읽기

SubQ 1M-Preview — 12M 토큰에 1000배 효율? 논문부터 보자

마이애미의 스타트업 하나가 "트랜스포머의 가장 큰 약점을 풀었다"고 주장하며 2주 전 스텔스에서 나왔다.

subq서브쿼드라틱-어텐션롱컨텍스트
AI 레이더 · ·2분 읽기

2M 토큰에 가격도 절반 — 그래도 Gemini 3.1 Pro를 메인으로 못 쓰는 이유

Google이 4월에 내놓은 Gemini 3.1 Pro는 종이 위에선 거의 완벽하다.

gemini-3.1-pro벤치마크컨텍스트-윈도우
AI 레이더 · ·3분 읽기

SubQ가 O(n²)를 깼다고 한다 — 12M 토큰, 어디까지 믿을 수 있나

5월 5일, 마이애미의 스타트업 Subquadratic가 스텔스 모드에서 나오면서 꽤 도발적인 주장을 했다. "최초의 서브쿼드라틱 프론티어 LLM"을 만들었고, 컨텍스트 윈도우가 1200만 토큰이며, FlashAttention보다 52배 빠르다는 것이다.

subq서브쿼드라틱ssa
AI 레이더 · ·2분 읽기

벤치마크 1위 Gemini 3.1 Pro, 개발자가 외면하는 이유

구글이 4월에 공개한 Gemini 3.1 Pro가 주요 벤치마크를 거의 다 1위로 찍었다.

geminigoogle벤치마크
AI 레이더 · ·2분 읽기

ChatGPT 기본 모델이 바뀌었다 — GPT-5.5 Instant 환각 성적표

어제 OpenAI가 ChatGPT의 기본 모델을 GPT-5.5 Instant로 교체했다.

gpt-5.5openai환각
AI 레이더 · ·3분 읽기

코드베이스 통째로 넣었더니 — Gemini 3.1 Pro 롱 컨텍스트 실전 점검

Google이 Gemini 3.1 Pro에 단 컨텍스트 윈도우는 최대 2백만 토큰이다.

gemini-3.1-pro컨텍스트-윈도우롱-컨텍스트
AI 레이더 · ·2분 읽기

IMO 금메달 따고 시계는 못 읽는다 — 벤치마크가 숨긴 에이전트의 민낯

수학올림피아드 금메달을 딸 수 있는 모델이 아날로그 시계를 읽지 못한다. 농담이 아니다 — Stanford AI Index 2026이 문서화한 숫자다.

ai-에이전트벤치마크stanford-ai-index
프론트엔드 시그널 · ·2분 읽기

Svelte 5가 React보다 빠르다는 벤치마크, 근데 왜 아무도 안 갈아타나

또 하나의 벤치마크가 올라왔다. Svelte 5가 React 19보다 40% 빠르고, 번들은 6배 작고, 메모리는 절반이라고.

svelte 5react 19runes
AI 레이더 · ·3분 읽기

GPT-5.5, 두 배 비싸진 만큼 두 배 나아졌을까

GPT-5.4가 나온 지 두 달도 안 됐는데 5.

gpt-5.5openai벤치마크
AI 레이더 · ·2분 읽기

에이전트 10개 중 9개가 프로덕션에서 죽는 이유

기업이 에이전트 하나에 15만80만 달러(2억11억 원)를 쓰고, 10곳 중 9곳이 프로덕션 배포 전에 접는다. 스탠포드 HAI가 이번 달 내놓은 AI Index 2026 보고서에 담긴 숫자다.

에이전트스탠포드ai-index-2026
AI 레이더 · ·3분 읽기

멀티턴 대화에서 LLM 성능 39% 하락 — 20만 건이 증명한 에이전트의 아킬레스건

Claude Code한테 코드 리팩터링을 시키다가 다섯 번째 턴쯤 되면 갑자기 엉뚱한 파일을 건드리기 시작한 경험, 다들 있을 거다. 착각이 아니었다.

iclr-2026멀티턴llm-성능
AI 레이더 · ·2분 읽기

DeepSeek V4 — 오픈 모델이 코드포스에서 프론티어를 넘은 날

어제 OpenAI가 GPT-5.5를 발표한 지 정확히 24시간 만에, DeepSeek이 V4를 내놨다.

deepseek-v4moe오픈소스
AI 레이더 · ·3분 읽기

GPT-5.5 "감자"가 나왔다 — 가격은 두 배, 성능은 그만큼인가

어제 OpenAI가 GPT-5.5를 공개했다.

gpt-5.5openai에이전트-코딩
AI 레이더 · ·3분 읽기

Muse Spark — Meta가 오픈소스를 버리고 얻은 것과 잃은 것

Meta가 오픈소스의 깃발을 내렸다. 9개월 전 Alexandr Wang을 영입하면서 Scale AI 지분 49%에 $14.

muse-sparkmetaalexandr-wang
AI 레이더 · ·3분 읽기

23배를 쏟아부은 미국, 2.7% 앞선 게 전부였다

스탠퍼드 HAI가 매년 내놓는 AI 인덱스 보고서의 2026년판이 이번 주 공개됐다. 200페이지가 넘는 분량에서 눈이 멈추는 숫자 하나: 미국은 AI에 2,860억 달러를 투자했고, 중국은 124억 달러를 투자했다.

스탠퍼드-ai-인덱스미중-ai-경쟁오픈소스
AI 레이더 · ·3분 읽기

과학자를 대체하지 않겠다면서 — GPT-Rosalind가 진짜 파는 것

OpenAI가 처음으로 범용이 아닌 도메인 특화 모델을 출시했다. 이름은 GPT-Rosalind — DNA 구조 규명의 숨은 공로자 로절린드 프랭클린에서 따왔고, 타겟은 신약 개발과 유전체 연구다.

gpt-rosalindopenai신약개발
AI 레이더 · ·3분 읽기

Opus 4.7이 가져온 것과 슬쩍 바꿔놓은 것

Anthropic이 어제 Opus 4.7을 공개했다.

opus-4-7anthropic벤치마크
AI 레이더 · ·3분 읽기

GPT-5.4를 14.5% 이긴 35B 모델 — NVIDIA Ising이 양자 보정에 VLM을 쓰는 이유

GPT-5.4, Claude Opus 4.

nvidiaising양자컴퓨팅
AI 레이더 · ·2분 읽기

주니어 고용 -20%, 생산성 +26% — AI Index가 포착한 비대칭

스탠포드 HAI가 매년 내놓는 AI Index 보고서가 어제 나왔다. 348페이지에서 숫자 하나가 유독 눈에 밟힌다 — 22~25세 소프트웨어 개발자 고용이 2024년 이후 약 20% 줄었다.

스탠포드ai-index개발자-고용
1 / 2 Next →