AI 뉴스Research

약 9분 2026. 4. 18.

TransformersReinforcement LearningCompiler OptimizationKernel TuningMultimodal LLMsAgents

아주 작은 구조 변경이 트랜스포머를 더 빠르고 정확하게 만들었다

채널을 나눈 ‘3상’ 잔차 스트림으로 1,536개 파라미터만 더해도 123M 모델의 퍼플렉시티가 7.2% 낮아지고 학습 수렴은 거의 2배 빨라졌다. 동시에 RL 미세조정, 시각 추론 강화, 커널·컴파일러 최적화로 2–5배 속도 향상 연구가 이어진다.

기사에서 찾기

읽기 모드

한 줄 요약

모델을 키우기보다 구조를 다듬는 하루: ‘3상’ 잔차 스트림으로 정확도와 수렴 속도를 동시에 끌어올리고, 최적 수송 관점의 RL, 시각 자기지도 튜닝, 컴파일러·커널 최적화가 실무 성능을 밀어준다.

Research Papers

3PT: 잔차 스트림을 세 갈래로 나눠 안정화한 트랜스포머

이 연구는 트랜스포머 내부의 고속도로(잔차 스트림)를 세 개의 회전 채널로 정리해, 모델이 배울수록 구조가 흐트러지지 않게 만든다. 숨겨진 벡터를 N개 순환 채널로 등분하고 채널별 정규화와 작은 회전(블록마다 2D 기븐스 회전)을 적용하며, 상대 위치(RoPE)와 직교하게 결합되는 절대 위치용 ‘DC’ 보조 채널을 추가한다. 123M 파라미터 모델을 WikiText-103에서 학습했을 때, 동일 조건 RoPE 기준선 대비 퍼플렉시티 7.20% 감소(비트/바이트 −2.62%)를 달성했고, 파라미터는 1,536개(0.00124%)만 늘었으며, 스텝 수렴은 1.93배(벽시계 1.64배) 빨라졌다. ¹

핵심은 자기 안정화다. 채널별 정규화가 각 위상을 잡아주고, 블록마다 소량의 회전이 주의(attention)와 FFN 효과를 위상에 맞춰 섞는다. 절대 위치는 $r(p)=1/(p+1)$ 형태의 고정 ‘호른’ 프로파일을 DC 부분공간에 주입해 표현한다. 이 방식은 RoPE·주의·FFN과 직교적으로 결합되며, N값은 하나의 최적점이라기보다 파라미터 공유의 조절 장치처럼 작동한다(123M 규모에서 N=1과 N=3은 통계적으로 유사). 층별 회전 각도 드리프트가 U자형을 보이는 등 기하 안정성도 보고됐다. ¹

왜 중요한가: 아주 작은 변경으로 정확도와 학습 속도를 동시에 얻는다. 동시에, 소프트맥스 주의를 쓰지 않는 라우팅 중심 아키텍처도 약진 중이다. 예를 들어 계층적 승자독식(HWTA) 회로는 CLUTRR k=10에서 272K 파라미터로 268K 트리 트랜스포머를 동일 루프에서 +44.0포인트 앞섰고, 초소형 설정에서 SCAN·ListOps류 과제 100%를 달성해 ‘주의 없이도 조합적 추론’이 가능함을 시사한다. ²

값 그래디언트 흐름(VGF): 최적 수송으로 다시 설계한 RL 미세조정

이 논문은 기준 행동(오프라인 RL의 데이터 분포나 LLM의 베이스 모델)에서 더 높은 가치 정책으로 ‘흐르게’ 만드는 관점으로 정책을 다듬는다. 제안 기법 값 그래디언트 흐름(Value Gradient Flow, VGF)은 행위 정규화된 강화학습을 기준 분포에서 최적 정책 분포로의 최적 수송 문제로 보고, 값을 따라 입자들을 이산 그래디언트 흐름으로 이동시킨다. 명시적 정책 파라미터화가 필요 없고, 수송 예산을 조절해 테스트 시점 규모를 유연하게 바꿀 수 있다. ³

기존 재파라미터화 정책 그래디언트나 보수적 리젝트 샘플링의 한계를 피하면서, 데이터 바깥으로 나가되 과최적화를 억제하는 규제가 수송 예산으로 암묵적으로 걸린다. 벌점 항을 더하는 방식이 아니라 ‘얼마나 멀리 옮길지’가 정규화 그 자체가 되는 셈이다. ³

실험에서 VGF는 오프라인 RL(D4RL, OGBench)과 LLM RL 과제에서 최신 성능을 보고하며, 대규모 생성 모델에도 확장됨을 보인다. 코드와 실행 기록은 프로젝트 페이지에서 제공된다. ³

자기지도 과제로 시각 지시 튜닝 강화

이 연구는 모델이 언어 패턴에만 기대지 않고 실제 이미지를 ‘보게’ 만들기 위해, 극히 소량의 시각 전용 과제를 자연어 지시 형태로 섞어 학습한다. 회전 예측, 색상 매칭, 크로스뷰 대응 같은 고전 자기지도 과제를 이미지–지시–응답 삼중 항으로 바꿔 지시 튜닝에 주입한다. ⁴

아키텍처 변경, 사람 라벨, 추가 학습 단계 없이, 전체의 3–10%만 이런 시각 근거 지시로 대체해도 여러 모델·훈련 설정에서 시각 중심 벤치마크가 일관되게 오른다. ‘텍스트만으로도 그럴듯한 답’을 내던 다중모달 모델의 전형적 한계를 데이터 분포 조정으로 직접 건드린 셈이다. 구현 코드는 공개되어 있다. ⁴

맥락 확장: 업계 연구는 사전학습과 RL 사이의 ‘미드 트레이닝’ 단계가 추론력을 3–4배 끌어올린다고 보고한다. 본 논문의 데이터만 살짝 바꾸는 접근과 함께 보면, 파라미터 스케일보다 ‘언제·무엇을 섞어 학습하느냐’가 추론력의 강한 지렛대임을 시사한다. ⁵

Prism: 텐서 프로그램을 상징적으로 초최적화

Prism은 텐서 프로그램의 거대한 후보군을 상징적으로 표현(sGraph)해 한 번에 탐색하고, 최종적으로 가장 빠른 구체 구현을 택하는 초최적화기다. 프로그램 계열을 상징적으로 만들고, 그다음 인스턴스화·오토튜닝하는 2단계 탐색으로, 연산 의미·대수 항등식·하드웨어 제약을 이용해 열등 영역을 증명하며 가지치기한다. ⁶

5개 LLM 워크로드에서 Prism은 최고 초최적화기 대비 최대 2.2배, 최고 컴파일러 대비 최대 4.9배 속도 향상을 보였고, 최적화 전체 시간은 최대 3.4배 줄였다. 똑똑한 탐색이 수작업 커널에 맞먹는 성과를 낼 수 있음을 보여준다. ⁶

한편 벤더 스택의 커널 최적화도 진행 중이다. 공개된 TensorRT-LLM PR은 causal_conv1d를 개선해 NVIDIA B300, 40층 Mamba 스타일 설정에서 디코드 1.90–3.32배(배치 1→256), 프리필 1.41–2.16배 속도 향상을 보고했다. 또 다른 PR에는 알려진 이슈로 일부 테스트를 건너뛴 CI 활동이 기록되어, 실서비스 추론 속도의 이면에 있는 개발 흐름을 엿볼 수 있다. ⁷ ⁸

Open Source & Repos

Hermes Web UI: 항상 켜두는 개인 에이전트를 위한 대시보드

이 웹 대시보드는 오픈소스 Hermes Agent의 채팅 세션, 채널(텔레그램/디스코드/슬랙/왓츠앱), 스케줄 작업, 스킬, 사용 분석을 한곳에서 관리하도록 돕는다. 전역 npm 한 줄로 설치해 다양한 플랫폼에서 쓸 수 있도록 설계됐다. ⁹

관심이 큰 이유: Hermes Agent는 자기 호스팅·지속 메모리·자기 개선을 표방하며, 2026년 출시 두 달 만에 GitHub 스타 6만 개를 넘겼다는 개요가 공개되었다. 본 대시보드는 이런 에이전트를 실제 메시징 채널에 얹어 운영하려는 팀에 필요한 관리 도구를 제공한다. ¹⁰

누가 쓰나: 데이터를 로컬에 보유하면서 다중 플랫폼 대화를 잇고, 백그라운드 작업을 예약하며, 에이전트가 200+ LLM을 자유롭게 교체하도록 운영하려는 사용자에게 적합하다. 개발자가 아니어도 설정·모니터링을 중앙에서 처리할 수 있다. ⁹

HWTA 회로: 주의 없이 조합적 추론

이 저장소는 소프트맥스 주의 없이 고정 슬롯 라우팅만으로 구성된 계층적 승자독식(HWTA) 회로를 제시한다. 5개 조합 추론 벤치마크에서 동일 파라미터의 트랜스포머를 큰 폭으로 앞섰고, CLUTRR k=10에서 272K 파라미터로 268K 트리 트랜스포머를 동일 루프에서 +44.0포인트 이겼다. 깊이 일반화를 가능케 한 핵심은 메시지가 소스 슬롯 상태를 함께 운반하도록 한 단 한 줄의 변경이다. ²

Monolith: 하나의 연산자로 하는 상징 회귀

Monolith는 eml(x,y)=exp(x)−ln(y) 하나로 구성한 미니멀 문법의 미분가능 트리로, 그래디언트만으로 기본 함수를 데이터에서 복원하는 실험적 개념 증명을 제공한다. 경쟁 도구는 아니지만, 순수 그래디언트 탐색이 표현할 수 있는 경계를 분명히 보여준다. ¹¹

왜 중요한가

오늘의 메시지는 분명하다. ‘어디를 어떻게 바꿀지’가 ‘얼마나 키울지’보다 크다. 잔차 기하(3PT), 값의 흐름(VGF), 지시 데이터 배합, 상징적 컴파일러 탐색은 모두 작은 개입으로 큰 이득을 냈고, 커널·컴파일러와 맞물려 비용과 지연을 함께 줄인다.

독자를 위한 두 가지 사고 모델: 1) 정보가 흐르는 고속도로의 구조를 다듬기(3PT), 2) 파라미터가 아니라 확률 질량을 옮기기(VGF). 여기에 시스템 최적화를 더하면, 논문 성과를 실제 더 빠르고 저렴한 서비스로 연결할 수 있다.

이번 주 시도해볼 것

V-GIFT 코드 따라하기: 시각 자기지도 지시(회전·색상 등) 몇 개를 섞어 소형 MLLM의 시각 과제 성능 변화를 확인해 보세요. 코드: https://arxiv.org/abs/2604.12966
Hermes Web UI 체험: npm 전역 설치 후 로컬에서 세션·채널을 구성해, 24/7 에이전트 운영 감을 잡아보세요. https://github.com/EKKOLearnAI/hermes-web-ui

출처 13

[1] Arxiv Three-Phase Transformer (3PT) [2] Github Attention Is Not All You Need: Hierarchical WTA Circuits for Compositional Reasoning [3] Arxiv Reinforcement Learning via Value Gradient Flow [4] Medium The Rise of Offensive AI [5] Aisecurity-portal Robust LLM safeguarding via refusal feature adversarial training [6] Arxiv Boosting Visual Instruction Tuning with Self-Supervised Guidance [7] Ibm Mid-training is essential for LLM reasoning, IBM study shows [8] Arxiv Prism: Symbolic Superoptimization of Tensor Programs [9] Github TensorRT-LLM PR #13103: Optimize causal_conv1d prefill and decode kernels [10] Github TensorRT-LLM PR #13067: Waive failed cases [11] Github Monolith: Differentiable EML Trees for Symbolic Regression [12] Github Hermes Web UI [13] Tencentcloud What Is Hermes Agent? - Tencent Cloud

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집