OpenAI GPT-5.4, 컴퓨터 조작 에이전트·100만 토큰 컨텍스트로 ‘실무 모드’ 전환
신형 모델은 스프레드시트·프레젠테이션 성과를 끌어올리고, 브라우저·데스크톱을 다루는 에이전트 기능을 기본 제공한다. Google은 Apache 2.0의 Gemma 4와 아날로그 계기를 읽는 로보틱스 모델로 맞선다.
핵심 분석
{"scores_breakdown":{"deterministic":{"structure":15,"traceability":14,"locale":10},"llm":{"expert_body":18,"learner_body":19,"frontload":13},"raw_llm":{"expert_body":89,"learner_body":94,"frontload":66}},"issues":[{"severity":"minor","scope":"en","category":"source","message":"The 'Community Pulse' / '커뮤니티 반응' paragraph (Hacker News (216↑) ...) lacks a citation link even though it references an external discussion; body paragraphs are otherwise well-cited."},{"severity":"minor","scope":"both","category":"accessibility","message":"Several common acronyms (e.g., API, GPU, H100, CDP, vLLM) appear without first-use expansions in both EN and KO texts; requirement asks that every acronym be expanded on first use."},{"severity":"major","scope":"frontload","category":"locale","message":"The English and Korean frontloads diverge in reported facts and emphasis: the Korean excerpt adds claims about Google countering with Gemma 4 and a robotics model reading analog gauges that do not appear in the English text. This creates a cross-locale mismatch in substance and editorial judgment."},{"severity":"major","scope":"ko","category":"structure","message":"The Korean focus_items section is empty/missing while the English focus_items are present. A missing mandatory frontload subsection reduces usability and parity between locales."}]}
한 줄 요약
OpenAI가 GPT-5.4로 에이전트를 실무에 투입할 수 있게 만들었고, Google은 Apache 2.0의 Gemma 4와 아날로그 계기 판독까지 해내는 로보틱스 모델로 맞받아쳤다.
LLM & SOTA Models
GPT-5.4: 실무형 작업에 맞춘 차세대 모델
이 모델은 스프레드시트 작성, 슬라이드 다듬기, 장기 업무처럼 계획·도구 사용·문맥 유지를 함께 요구하는 일을 더 적은 왕복으로 끝내게 하는 데 초점을 맞춘다. ChatGPT의 “GPT-5.4 Thinking”은 답변 전 계획을 먼저 보여줘 중간에 방향을 조정할 수 있고, 세부 검색과 장문 문맥 유지가 강화됐다. 지식 작업 벤치마크에서는 44개 직종을 아우르는 GDPval에서 승·무 합산 83.0%(GPT-5.2는 70.9%)를 기록했고, 프레젠테이션은 사람 평가에서 68.0% 선호를 받았다. 내부 스프레드시트 과제 평균은 87.3%(GPT-5.2는 68.4%). 사실 오류도 줄어 개별 주장 오류가 33% 낮고, 전체 응답 오류 포함 비율이 18% 낮다. 1
개발자 관점의 핵심은 컴퓨터 조작 기능의 기본 탑재다. GPT‑5.4는 스크린샷·마우스·키보드·코드를 통해 데스크톱과 브라우저를 다루고, 최대 100만 토큰 컨텍스트로 장기 계획을 수행한다. OSWorld‑Verified 75.0%(GPT‑5.2의 47.3% 및 72.4% 인간 성과 상회), WebArena‑Verified 67.3%, Online‑Mind2Web 92.8%(스크린샷만)로 측정됐다. 시각 이해도 개선되어 MMMU‑Pro 81.2%, OmniDocBench 평균 오류 0.109(낮을수록 좋음). 이미지 입력은 최대 1,024만 픽셀(최대 변 6000px)의 “original”과 256만 픽셀(2048px)의 “high” 모드를 도입했다. 한 파트너는 약 3만 개 포털 과제에서 1차 95%·3차 이내 100% 성공, 세션 속도 약 3배, 토큰 약 70% 절감 사례를 전했다. 1
코딩은 GPT‑5.3‑Codex의 강점을 계승하며 SWE‑Bench Pro 57.7%(5.3‑Codex는 56.8%)에 더해, /fast 모드로 토큰 속도 최대 1.5배를 제공한다. 도구 검색과 병렬화로 도구 사용 효율이 높아지고, 토큰 효율성도 개선돼 다도구 워크플로의 비용·지연이 줄어든다. GPT‑5.4는 ChatGPT(Thinking/Pro), API, Codex에서 사용 가능하며, ChatGPT for Excel 추가 기능과 스프레드시트·슬라이드 스킬도 함께 공개됐다. 1
Gemma 4: 지금까지 가장 강력한 오픈 모델
Google DeepMind는 Gemma 4를 상용 친화적인 Apache 2.0 라이선스로 공개해, 적은 자원으로도 강력한 추론과 에이전트 워크플로를 구현하도록 했다. 구성은 Effective 2B(E2B), Effective 4B(E4B), 26B 전문가 혼합(Mixture of Experts, MoE), 31B 조밀(Dense) 모델로 이루어진다. 31B는 Arena AI 오픈 텍스트 리더보드에서 세계 3위, 26B는 6위에 올랐고, “매개변수 대비 지능”이 높아 로컬·클라우드 어디서든 효율적으로 쓸 수 있음을 강조한다. 에지 모델은 12만 8천 토큰, 대형 모델은 최대 25만 6천 토큰 컨텍스트를 지원하고, 비디오·이미지(오디오는 E2B/E4B) 입력과 함수 호출·구조화 출력으로 에이전트 개발을 지원한다. 2
배포는 현실적이다. 미양자 bfloat16 가중치는 80GB H100 한 장에 올라가고, 양자화 버전은 소비자 GPU에서도 동작한다. E2B/E4B는 Pixel·Qualcomm·MediaTek과 협업해 모바일·소형 기기에서 완전 오프라인·저지연 동작을 지향한다. 도구 지원은 vLLM, llama.cpp, MLX, Hugging Face, NVIDIA NIM/NeMo, Ollama 등으로 시작부터 폭넓고, 가중치는 Hugging Face·Kaggle·Ollama에서 받을 수 있다. 2
배경을 보면, Gemma는 2B·7B 오픈 가중치와 Transformers·PEFT·bitsandbytes·Google Cloud·Inference Endpoints 통합 등 생태계를 일찍부터 넓혔다. Gemma 4는 이를 기반으로 추론·코드·멀티모달 성능을 최신 오픈 SOTA 수준으로 끌어올린 확장판이다. 3
Gemini Robotics ER 1.6: 로봇의 공간 추론 강화
Gemini Robotics‑ER 1.6은 로봇이 “눈으로 생각”하도록 돕는 업그레이드로, 공간 이해·과제 계획·완료 판단을 개선하고 현장 계측기의 바늘·눈금·단위를 읽는 새로운 능력을 추가했다. 이 모델은 포인터로 중요한 지점을 짚고, 필요하면 이미지를 확대하고, 코드 실행까지 결합하는 ‘에이전트형 시각(agentic vision)’로 정밀 판독을 수행한다. Boston Dynamics와의 협업으로 시설 점검 같은 실제 작업 흐름을 겨냥했다. 4
여러 시점(손목·천장 카메라 등)을 통합하는 다중 뷰 추론이 강화돼, 작업이 진짜 끝났는지를 더 잘 판단한다. 안전성도 개선되어 “액체를 다루지 말 것”, “20kg 이상 물체를 들지 말 것” 같은 물리 제약을 더 안정적으로 지키고, 실제 사고 보고서를 바탕으로 한 텍스트·영상 시나리오에서 위험 인지 정확도가 이전 기준 대비 높았다. 개발자는 Gemini API와 Google AI Studio에서 바로 체험할 수 있으며, 시범 Colab도 제공된다. 4
포인팅은 공간 추론의 기초로, ER 1.6은 개수 세기·최적 그립 지점 찾기·“파란 컵에 들어갈 만큼 작은 물체만” 같은 제약 준수에 더 정확해졌다. 계기 판독 파이프라인은 확대→포인팅→코드로 비율 계산→의미 해석까지 단계를 밟아 값에 도달하며, 정적 시각 모델을 넘는 ‘에이전트형 인지’의 예시를 보여준다. 4
Open Source & Repos
browser-use/browser-harness: LLM의 브라우저 작업을 자가 복구로 완주시키는 경량 하네스
이 경량 Chrome DevTools Protocol 하네스는 AI 에이전트가 실제로 브라우저를 조작(타이핑·클릭·업로드 등)하도록 하면서, 필요한 헬퍼 함수가 없으면 과제 도중에 helpers.py를 스스로 수정해 기능을 추가하고 계속 진행한다. 중간 계층을 최소화해 자율성을 극대화한 설계다. 5
셋업은 단순하다. 코드 어시스턴트(Claude Code 또는 Codex)로 레포를 읽히고, install.md로 실제 브라우저 연결, SKILL.md와 helpers.py로 가능 작업을 파악하게 한다. 이후에는 시도→오류 확인→헬퍼 보강→재시도 루프를 돌며, 스크립트가 부서지기 쉬운 자동화 과제에 유용하다. 5
대상: 컴퓨터 조작형 에이전트를 실험하는 빌더로, 규격화된 레일보다 원시 제어와 해커블리티를 선호하는 이들. 주목 이유: GPT‑5.4 같은 프런티어 모델의 컴퓨터 조작 기능과, 모델이 스스로 확장할 수 있는 최소 CDP 하네스가 궁합이 좋다. 5
커뮤니티 반응
Hacker News (216↑) — Gemini Robotics‑ER 1.6을 두고 물리 이해가 얼마나 ‘명시적’이어야 하는지 공방이 이어졌다. 안전 측면에서 물리 인지의 강화에는 대체로 동의하지만, 어느 깊이까지 필요하며 LLM·에이전트 루프가 어디까지 보완할 수 있는지는 논쟁적이라는 평가다. 4
왜 중요한가
오늘의 공통점은 “에이전트의 성숙”이다. GPT‑5.4는 계획·장문 컨텍스트·컴퓨터 조작을 하나의 스택으로 묶어 지식 작업과 코딩을 실무 수준으로 끌어올린다. Gemma 4는 로컬에서도 돌릴 수 있는 오픈 모델로 그 격차를 줄인다. Robotics‑ER 1.6은 시각이 단순 라벨링을 넘어 단계적으로 추론할 때 무엇이 가능한지 보여준다. 이 흐름은 ‘채팅 봇’과 ‘믿고 맡길 수 있는 디지털·물리 동료’ 사이 거리를 빠르게 좁힌다. 1 2 4
댓글 (0)