오픈AI, GPT-5.5 출시 — 도구를 넘나드는 업무 수행에 초점
GPT‑5.5가 GPT‑5.4급 지연시간을 유지하면서 코딩·브라우징·분석 능력을 강화해 ChatGPT에 도입됩니다. 동시에 Google Gemma 4와 Alibaba Qwen3.6‑27B는 효율적인 오픈 모델을 앞세우고, 새로운 MoE 연구는 훈련 계산량을 더 줄입니다.
한 줄 요약
에이전트형 AI가 실무로 진입한다: 오픈AI GPT‑5.5가 도구를 직접 쓰는 업무를 맡기게 만들고, Google Gemma 4와 Alibaba Qwen3.6‑27B가 효율적인 오픈 모델을 앞세우며, MoE 연구는 더 적은 계산으로 더 크게 키우는 방법을 제시한다.
LLM & SOTA Models
OpenAI GPT-5.5: 컴퓨터를 직접 다루는 업무형 모델
GPT‑5.5는 복잡하고 어수선한 업무를 맡겨도 스스로 계획을 세우고 앱·도구·웹을 오가며 마무리하도록 설계됐다. 오픈AI는 Terminal‑Bench 2.0에서 82.7%, SWE‑Bench Pro에서 58.6%, GDPval에서 84.9%, OSWorld‑Verified에서 78.7%를 기록했다고 밝힌다. 동시에 GPT‑5.4와 동일한 토큰당 지연시간을 유지하고, 동일한 Codex 작업을 더 적은 토큰으로 끝낸다. 1
코딩에서는 장기 계획·도구 활용·오류 복구가 강화돼 실제 저장소와 명령줄 워크플로에서 성과를 보였다는 설명이다. 초기 테스트 사용자들은 GPT‑5.4 대비 추론이 더 명확하고 구현 수정이 적었다고 전했다. 1
지식 작업에서도 수치가 뒷받침된다. 오픈AI 내부 팀은 GPT‑5.5와 Codex로 24,771건의 K‑1 세금 양식(71,637쪽)을 검토해 전년 대비 2주를 단축했고, Tau2‑bench Telecom 98.0%(프롬프트 튜닝 없이), FinanceAgent 60.0%를 달성했다고 소개한다. 회사 인력의 85% 이상이 매주 Codex를 사용한다고도 밝혔다. 1
GPT‑5.5는 ChatGPT의 Plus·Pro·Business·Enterprise에 제공되고, GPT‑5.5 Pro는 Pro·Business·Enterprise에 제공된다. API 제공은 추가 안전장치 적용 후 이어진다. 이번 공개는 내부·외부 레드팀, 고급 사이버 보안·생물학 역량 대상의 정밀 테스트, 약 200곳의 얼리 액세스 파트너 피드백을 거쳤다고 한다. 1
Gemma 4: 온디바이스와 워크스테이션을 겨냥한 오픈 모델
Gemma 4는 개인 하드웨어(스마트폰부터 개발 워크스테이션까지)에서 고급 추론과 에이전트형 워크플로를 처리하도록 설계된 Google DeepMind의 오픈 모델 계열이다. 구성은 Effective 2B(E2B), Effective 4B(E4B), 26B 전문가 혼합(Mixture of Experts, MoE), 31B 밀집형으로, Arena AI 리더보드(4월 1일 기준)에서 31B가 오픈 모델 3위, 26B가 6위에 올랐다고 밝힌다. 라이선스는 Apache 2.0이다. 2
이 모델군은 대화형을 넘어 다단계 계획, 함수 호출(Function Calling), 구조적 JSON 출력, 코드 생성, 시각(이미지·영상)과 오디오 입력(E2B/E4B)을 지원하고, 긴 컨텍스트를 처리한다. 엣지 모델은 128K 토큰, 대형 모델은 최대 256K 토큰 컨텍스트 윈도를 제공하며 140+개 언어로 학습됐다. 2
Google은 Transformers·TRL·vLLM·llama.cpp·MLX·Ollama·NVIDIA NIM/NeMo 등 주요 도구를 즉시 지원하고, 가중치를 Hugging Face·Kaggle·Ollama에서 받을 수 있다고 안내한다. 로컬 우선의 맞춤형 에이전트를 시작하기 쉬운 기반을 지향한다. 2
Qwen3.6-27B: 에이전트 코딩 특화 27B 밀집형 공개 가중치
Alibaba의 Qwen 팀은 에이전트 코딩에 초점을 맞춘 270억 파라미터 밀집형 공개 가중치 모델 Qwen3.6‑27B를 공개했다(라이선스 Apache 2.0). 보도에 따르면 긴 컨텍스트에서 효율을 높이기 위해 Gated DeltaNet 선형 어텐션과 표준 어텐션을 혼합한 하이브리드 설계를 썼다. 3
벤치마크에서는 전작 대비 상승세를 보인다. 내부 양자언어(영·중) 프런트엔드 코드 생성 벤치마크인 QwenWebBench 1,487점(3.5‑27B 1,068점, 3.6‑35B‑A3B 1,397점), NL2Repo 36.2, SWE‑bench Verified 77.2, Terminal‑Bench 2.0 59.3 등을 기록해 일부 과제에서는 더 큰 모델과 경쟁한다. 3
대화 역사 전체의 추론 흔적을 이어받는 “Thinking Preservation” 옵션을 제공하고, 기본 262,144 토큰 컨텍스트(YaRN으로 약 1,000,000까지 확장)를 지원한다. BF16과 미세 FP8 가중치를 제공하며 SGLang·vLLM·KTransformers·Transformers 호환성을 갖춘다. 4
Open Source & Repos
screenpipe: 화면을 기억해 에이전트를 돌리는 데스크톱 앱
screenpipe는 “AI memory for your screen”을 표방하는 데스크톱 앱으로, 사용자의 화면 활동을 기억해 배경에서 작동하는 에이전트가 회의 요약 같은 도움 작업을 수행하도록 한다. 5
최신 릴리스 app‑v2.4.39(4월 23일)는 “회의 요약 with AI” 흐름을 수정했다. 데모를 넘어 일상적 워크플로 개선에 초점을 두고 있음을 보여준다. 5
한편, “AI 에이전트를 위한 범용 메모리 레이어”를 표방하는 mem0 프로젝트 이슈에는 OpenMemory README에 “Sunsetting” 경고를 추가하자는 제안이 올라왔다. 장기 의존성을 검토 중이라면 참고할 만한 신호다. 6
Research Papers
Expert Upcycling: 추론 비용을 늘리지 않고 MoE 용량을 키우는 법
전문가 혼합(Mixture of Experts, MoE)은 토큰마다 일부 전문가만 활성화해 토큰당 계산을 늘리지 않고도 모델 용량을 키우는 구조다. Expert Upcycling은 훈련을 이어가며 전문가 수를 늘리는 실용적 절차를 제안한다. 전문가를 복제하고 라우터를 확장하되 상위‑K 라우팅은 고정해 추론 비용을 유지하고, 계속된 훈련으로 복제본의 대칭을 깨 전문화가 이루어지게 한다. 7
7B–13B 총 파라미터 실험에서 업사이클된 모델은 검증 손실에서 고정 크기 기준선을 맞추면서 GPU 시간 32%를 절감했다. 또한 그래디언트 기반 중요도를 써서 복제 대상을 고르는 “유틸리티 기반 전문가 선택”으로, 이어지는 훈련 예산이 제한될 때 격차 해소를 3배 이상 높였다. 7
보완 연구는 동일한 총 파라미터·계산·데이터 조건에서도 잘 설계한 MoE가 밀집형보다 우수할 수 있음을 보였고, 활성화 비율(토큰마다 활성 전문가 비율)의 최적점이 2B와 7B 규모 모두에서 약 20%로 안정적이라고 보고한다. 8
또 다른 연구는 “효율 지렛대(Efficiency Leverage)”라는 지표를 제시하며 활성화 비율·계산 예산·전문가 세분화가 MoE 이점을 좌우한다고 분석했다. 0.85B 활성 파라미터의 MoE‑mini가 6.1B 밀집형과 비슷한 성능을 내며 7배 넘는 효율 지렛대를 보인 사례가 제시된다. 9
커뮤니티 반응
Hacker News (1041↑) — 성능 향상 기대와 함께 과한 안전장치·접근 제한에 대한 불만이 교차한다.
"‘우리는 지금까지 가장 강력한 안전장치를 갖춘 GPT‑5.5를 출시합니다[...]’라니 좀 웃겼다 — 또다시 더 많은 규제(가드레일)냐는 반응" — Hacker News
"출력 100만 토큰에 $30? 지능을 민주화한다던 건 아니었나?!" — Hacker News
r/OpenAI (642↑) — 기능은 반기지만 가격과 초기 접근 대상에 대한 불만도 적지 않다.
"‘우리는 지금까지 가장 강력한 안전장치를 갖춘 GPT‑5.5를 출시합니다[...]’라니 좀 웃겼다 — 또다시 더 많은 규제(가드레일)냐는 반응" — Reddit
"출력 100만 토큰에 $30? 지능을 민주화한다던 건 아니었나?!" — Reddit
Hacker News (218↑) — screenpipe는 상시 동작 에이전트라는 아이디어로 관심을 모으지만, 사용량 보고 방식과 개인정보 보호 기본값 강화 요구가 나온다.
"이 아이디어는 마음에 든다. 그런데 왜 '70명의 사용자가 screenpipe를 24/7로 실행 중!'이라고 써 있지? 앱에서 어떤 정보를 보고하는 건가, 저 숫자를 어떻게 아는 거지?" — Hacker News
"특화된 수직 앱을 잘 개발하면 잠재력이 큰 것을 만들고 있는 것 같다. 시간이 지나면(혹은 외부 압력 때문에) 더 신중한 개인정보 보호 기능을 갖추게 될 거라 본다. 스팸성 자동 메시지를 보내지 않는 LinkedIn 영업 도구 같은 걸 만들 수 있을까? LinkedIn은 다른 AI 자동화 도구를 쓰는 계정을 차단하곤 하니까." — Hacker News
왜 중요한가
폐쇄형과 오픈형이 모두 “계획→도구 사용→소프트웨어 조작”의 에이전트 흐름을 성취하려는 방향으로 수렴한다. GPT‑5.5는 많은 팀이 이미 쓰는 제품 속에서 이를 체감하게 하고, Gemma 4와 Qwen3.6‑27B는 효율적이고 로컬로도 돌릴 수 있는 모델이 어디까지 왔는지 보여준다. 1
연구 측면에서는 Expert Upcycling 같은 MoE 기법과 새로운 스케일링 법칙이 “용량은 키우되 계산은 아끼는” 안내서를 제공한다. 강한 에이전트와 저렴한 훈련·서빙이 맞물리면, 기업 도입과 개인 생산성 도구에서 실질적 확산이 뒤따를 가능성이 높아진다. 7
댓글 (0)