AI 뉴스Research

약 8분 2026. 4. 27.

Embodied AIContrastive decodingReinforcement learningDiffusion modelsLoRADeveloper tools

재학습 없이 3D 에이전트 환각 줄이는 새 방법

연구진이 원본 장면과 일부러 왜곡한 장면을 대비해 근거 없는 토큰을 눌러주는 3D-VCD를 공개했습니다. 더불어 표현 공간을 함께 진화시키는 확산 훈련, 강화학습으로 다중 페이지 웹을 만드는 모델, 로컬에서 돌릴 수 있는 터미널형 코딩 에이전트도 나왔습니다.

기사에서 찾기

읽기 모드

한 줄 요약

근거 기반과 실용성이 강화됐다: 추론 단계에서 3D 환각을 줄이는 방법, 표현 공간을 함께 진화시키는 확산 훈련, 강화학습으로 다중 페이지 웹을 만드는 모델, 로컬 친화 터미널 코딩 에이전트가 나왔다.

Research Papers

3D-VCD: 3D 체화 에이전트의 환각을 대비로 줄이는 추론기법

3D-VCD는 같은 장면의 원본과 일부러 왜곡한 3D 뷰를 서로 대비해, 실제 물체와 기하에 근거하지 않은 토큰을 눌러주는 방식이다. 객체 범주를 바꾸거나 좌표·크기를 흐트러뜨린 왜곡된 3D 장면 그래프를 만들고, 원본과 왜곡 맥락에서의 예측을 비교해 현장 근거가 약한 토큰을 억제한다. 2D 픽셀 노이즈가 아니라 3D에서 중요한 객체 존재와 공간 배치를 겨냥한다. ¹

이 기법은 추론 시점에 동작하며 재학습이 필요 없고, 체화 환경에서 위험한 비근거 행동을 유발하는 언어 편향을 낮추려 한다. 기존 대비 디코딩은 2D 비전-언어에 집중했지만, 본 연구는 기하 의존적 결정을 내리는 3D 체화 추론을 겨냥한다. ¹

3D-POPE와 HEAL 벤치마크에서 모델 가중치 변경 없이 근거 있는 추론이 일관되게 개선되었다고 보고하며, 객체 중심 3D 표현 위의 구조적 대비가 신뢰도 향상에 실용적 경로임을 제시한다. 핵심은 “새 모델”이 아니라, 테스트 시점 절차를 더 똑똑하게 만드는 것이다. ¹

다만 실제 로봇 제어에선 제어 주기 안에 들어올 추론 지연과 장기 과제에서의 안정성이 관건이다. 로봇 제어 연구 이슈에서 제기되는 지연·롱호라이즌 평가 질문은 이러한 기법의 현장 적용에서 주목할 논점을 환기한다. ²

CoReDi: 생성에 맞춰 함께 진화하는 표현 공간

CoReDi는 확산 모델이 의존하는 표현을 고정해 두지 말고, 학습 중에 함께 조정하자는 아이디어다. 구체적으로는 가벼운 선형 투영을 확산 모델과 함께 학습해, 별도 인코더에서 고정된 공간이 아니라 이미지 합성에 특화된 의미 공간을 만든다. ³

직접 최적화하면 특징 붕괴가 생기기 쉬워, CoReDi는 스톱-그래디언트 표적, 정규화, 표적 규제를 조합해 안정성을 확보했다. 변분 오토인코더(VAE) 잠재 공간과 픽셀 공간 모두에 적용해, 고정 표현 기반 대비 더 빠른 수렴과 더 나은 샘플 품질을 보고한다. ³

의료 멀티모달 융합에서도 유사한 신호가 있다. CMAP-Fusion은 ViT-B/16 정렬, SmartTrim 가지치기, 크로스-모달 트랜스포머를 결합해 세 데이터셋 정확도를 95.3%, 89.7%, 93.6%로 끌어올리면서, 매개변수를 44.2% 줄이고 연산 복잡도도 43% 이상 낮췄다. 필요에 맞춘 정렬·선택이 품질과 효율을 함께 끌어올릴 수 있음을 보여준다. ⁴

WebGen-R1: 강화학습으로 기능·미학을 갖춘 다중 페이지 웹 생성

WebGen-R1은 7B(70억) 매개변수 모델을 끝단까지 강화학습(RL)으로 훈련해, 올바로 렌더되고 시각적으로 정렬된 다중 페이지 웹을 생성한다. 거대한 행동 공간은 설계 골격을 먼저 세우는 구조화 생성으로 좁혀, 아키텍처 일관성을 지킨다. ⁵

이어지는 계단식 멀티모달 보상은 구조 보장, 실행 기반 기능 피드백, 시각 기반 미학 감독을 결합한다. 저자들은 7B 기준선을 “거의 비작동” 상태에서 배포 가능한 웹으로 바꾸고, 최대 72B 공개 모델을 앞서며, 기능 성공에서는 DeepSeek-R1(671B)에 견주고, 유효 렌더링과 미학 정렬에서는 이를 웃돈다고 보고한다. ⁵

한편 에이전트 연구에서는 검색 증강 생성(RAG)을 블랙박스 질의가 아니라 세밀 제어 대상으로 바꾸는 Interact-RAG가, 코퍼스 상호작용 엔진과 지도 미세튜닝(SFT)·강화학습을 결합해 여섯 벤치마크에서 강력한 방법들을 능가했다. 구조와 상호작용을 다루는 설계가 예측 그 자체만큼 중요하다는 점을 시사한다. ⁶

LoRA Redux: 대형 모델 미세적응을 원리로 재정리

본 개관 논문은 저랭크 적응(LoRA)을 신호처리 관점에서 재정리해, 어떤 설계·최적화 선택이 실제로 중요한지 설명한다. 아키텍처, 효율적 최적화, 응용이라는 세 축으로 정리하며, 고전 저랭크 모델링 도구와 현대 어댑터 설계를 연결한다. ⁷

아키텍처 측면에서는 특이값 분해(SVD) 기반 분해, 랭크 보강, 계층 간 텐서화가, 최적화 측면에서는 초기화, 교대 솔버, 게이지-불변 최적화, 파라미터화 인지 방법이 다뤄진다. 또한 미세튜닝을 넘어 사전·사후 학습과 서빙·배포까지 LoRA 계열 어댑터의 생애주기를 맵핑한다. ⁷

메모리·지연 제약하에서 매개변수 효율 미세적응(PEFT)을 골라야 하는 팀에 유용한 가이드로, 도메인 데이터 미세튜닝을 전제로 더 작은 ‘적정 크기’ 모델이 비용·데이터 통제 면에서 실무 과제에 적합하다는 업계 분석과도 결을 같이한다. ⁸

Open Source & Repos

Qwen Code: 터미널 속 오픈 AI 코딩 에이전트

Qwen Code는 “터미널에 사는” 오픈소스 코딩 에이전트로, 여러 모델 제공자(로컬 모델 포함)와 연동되며 최신 Node.js(>=20)에서 동작한다. 명령줄 인터페이스(CLI)·텍스트 사용자 인터페이스(TUI)를 선호하고 공급사 종속을 피하려는 개발자를 겨냥한다. ⁹

2026-04-26 공개된 v0.15.3에서는 VS Code 웹뷰 채팅에 복사 동작을 추가하고, 도구 경로의 동기 I/O를 91% 줄였으며, CLI에 번체 중국어를 더했다. 크지 않지만 사용자 경험과 성능을 실용적으로 다듬은 업데이트다. ⁹

블로그들은 유사한 터미널 우선 에이전트를 폐쇄형 도우미의 대안으로 조명하며, 공개 코드, 로컬 우선 프라이버시, 에디터 친화 흐름을 강조한다. Qwen Code가 CLI 중심 팀에서 주목받는 배경이다. ¹⁰

커뮤니티 반응

Hacker News (133↑) — 논문을 코드로 바꾸는 LLM 활용 성공담이 있지만, 신뢰성 문제와 일부 유료 모델 의존성 지적도 나온다. ¹¹

"최근에 포워드 모드 자동미분 논문을 PDF 통째로 Claude에 붙여넣어 해봤어요. Claude로 코딩할 땐 저도 결과가 들쭉날쭉했으니 출력물을 맹신하진 않지만, Claude는 첫 시도에 PyTorch용으로 작동하는 코드를 만들어냈고 성능 특성도 적절했으며 생성된 코드의 일부와 논문 사이의 연결을 설득력 있게 설명했어요. 인상적이었습니다." — Hacker News ¹¹

"이건 OpenAI의 o3-mini 모델에 의존하는데(제 생각엔) 유료인 것으로 알고 있습니다." — Hacker News ¹¹

왜 중요한가

핵심은 ‘근거’와 ‘구조’다. 3D-VCD는 실제 장면에 답을 고정시키며 체화 에이전트의 안전성을 높이고, CoReDi와 WebGen-R1은 표현과 보상을 과제에 맞게 구조화하면 끝단까지 작동하는 시스템으로 이어질 수 있음을 보여준다. 이는 공간·화면·코드 전반에서 더 믿을 수 있는 에이전트로의 현실적인 진전이다. ¹

조직 관점에서는 저랭크 적응(LoRA)을 원리에 맞춰 고르는 지침이 예산·데이터 통제 요구와 맞물린다. 거대 모델 오버헤드 없이도 로컬이나 엣지 배포가 가능한 역량 조합을 설계하는 데 도움을 준다. ⁷

이번 주 시도해볼 것

Qwen Code 설치: npm i -g @qwen-code/qwen-code 후 선호 모델과 연결해 터미널형 페어 프로그래밍을 체험한다. (링크: GitHub 저장소)
WebGen-R1 읽기: arXiv 원문을 훑고, 직접 프롬프트에서 ‘구조 먼저(스캐폴드)’ 계획 후 코드를 쓰는 흐름을 실험한다. (링크: WebGen-R1)

출처 13

[1] Arxiv 3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding [2] Github Inference Latency and Long-Horizon Task Evaluation — mimic-video/mimic-video #1 [3] Github Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval [4] Arxiv Coevolving Representations in Joint Image-Feature Diffusion [5] Plos CMAP-Fusion: A cross-modal feature selection and model pruning framework for laboratory and imaging data [6] Eurekaselect Improved Two Stage Generative Adversarial Networks for Adversarial Example Generation with Real Exposure | Bentham Science [7] Arxiv WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning [8] Arxiv Low-Rank Adaptation Redux for Large Models [9] Dasroot Mapping the Local LLM Landscape in 2025 · Technical news about AI, coding and all [10] Github QwenLM/qwen-code: An open-source AI agent that lives in your terminal. [11] Stnkw OpenCode: The Open-Source Coding Agent That May Replace Proprietary Alternatives [12] Ycombinator Coevolving Representations in Joint Image-Feature Diffusion | Hacker News [13] Neomanex Small Language Models for Enterprise: Why Smaller AI Wins

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집