InCoder-32B, 산업 코드 추론의 새로운 오픈소스 기준 제시
칩 설계부터 임베디드·CAD까지, 32B 코드 LLM이 산업 현장 전체를 아우를 수 있을까? 오늘 공개된 InCoder-32B가 그 해답을 제시합니다.
한 줄 요약
AI 연구가 산업 현장과 실전 워크플로우로 깊숙이 들어오고 있습니다—하드웨어 중심 코드 모델, 통합 문서 인식, 검증 가능한 연구 에이전트가 그 중심입니다.
LLM & SOTA Models
InCoder-32B: 산업 현장에 특화된 코드 AI의 등장
대부분의 코드 LLM(대형 언어 모델)은 일반 프로그래밍에는 강하지만, 칩 설계나 GPU 커널, 임베디드 시스템, CAD 모델링처럼 하드웨어 중심 산업 환경에서는 한계를 드러냅니다. InCoder-32B는 이런 격차를 메우기 위해 탄생한 320억 파라미터 규모의 산업 특화 코드 모델입니다. 단순히 소프트웨어 코드만 학습하는 것이 아니라, Verilog·CUDA 등 하드웨어 언어와 실제 산업 워크플로우 데이터를 대거 반영해 훈련되었습니다. 1
훈련 과정도 세심하게 설계됐습니다. 먼저 일반 코드로 사전학습을 하고, 이후 산업 코드로 '어닐링'하며, 중간 단계에서는 컨텍스트 윈도우를 8,000→128,000토큰까지 확장합니다. 이 덕분에 긴 디버깅 세션이나 다중 파일 프로젝트도 한 번에 처리할 수 있습니다. 마지막 단계에서는 실제 툴체인(Verilator, Renode 등)으로 실행 결과를 검증하며, 생성 코드가 실제 환경에서 동작하는지 확인합니다. 2
성능 면에서도 InCoder-32B는 일반 코드 벤치마크에서 대형 모델과 비슷하거나 근소하게 뒤처지지만, 산업 분야(Verilog 합성 74.8%, Verilog 수리 80% 등)에서는 오픈소스 기준 최고 성능을 기록합니다. 다만, 특수 툴체인에서의 문법·API 오류가 주요 약점으로 남아 있습니다. 3
왜 중요한가? 산업용 소프트웨어는 정확성, 검증, 하드웨어 제약이 핵심입니다. InCoder-32B는 하드웨어 인식·장문맥·실행 검증까지 갖춘 덕분에, 엔지니어가 실제 생산 환경에서 신뢰할 수 있는 AI 코파일럿으로 한 걸음 다가섰습니다. 4
Qianfan-OCR: 문서 인식·이해를 한 번에 처리하는 통합 모델
기존 OCR(광학 문자 인식)은 레이아웃 분석→텍스트 추출→이해 등 여러 단계를 거칩니다. Qianfan-OCR은 40억 파라미터 비전-언어 모델로, 이미지에서 바로 구조화된 Markdown을 생성하고, 표·차트 추출, 문서 질의응답까지 한 번에 처리합니다. 5
특히 'Layout-as-Thought'라는 특수 사고 단계를 통해, 최종 결과를 내기 전 문서의 구조(박스, 타입, 읽는 순서)를 예측합니다. 이 덕분에 복잡한 문서에서도 정확도가 크게 향상됩니다. 실제로 OmniDocBench v1.5(93.12점), OlmOCR Bench(79.8점) 등에서 1위를 차지했고, 훨씬 큰 모델보다도 키 정보 추출 성능이 앞섭니다. 6
추론 속도도 빠릅니다. 양자화 적용 시 A100 GPU 1장으로 초당 1페이지 이상을 처리(기존 대비 2배)하며, GPU 기반 일괄 처리로 대량 문서 업무에 실질적 이점을 제공합니다. 7 8
Research Papers
Online Experiential Learning: 실전 경험으로 계속 성장하는 언어모델
대부분의 언어모델은 학습이 끝나면 더 이상 진화하지 않습니다. Online Experiential Learning (OEL)은 실제 사용자와의 상호작용에서 얻은 경험을 추출해, 모델 파라미터에 반영하는 프레임워크입니다. 경험 지식을 뽑아내고(1단계), 이를 온-정책 컨텍스트 증류로 모델에 녹여넣는(2단계) 과정을 반복합니다. 9
텍스트 게임 실험 결과, OEL은 반복할수록 정확도와 효율이 꾸준히 향상됐습니다. 단순 데이터 재활용보다 경험 지식 추출·통합이 훨씬 효과적이며, 모델이 클수록 성능 개선 폭도 커집니다. 10
MiroThinker-1.7 & H1: 스스로 검증하는 장기 연구 에이전트
장기적이고 복잡한 과학·금융 분석에서 AI는 중간 단계 오류가 누적돼 결과 신뢰도가 떨어집니다. MiroThinker-1.7은 단계별 계획·도구 사용·문맥 추론을 강화하는 mid-training을 도입했고,MiroThinker-H1은 각 단계(로컬), 전체 추론 경로(글로벌) 검증을 추가했습니다. 즉, 진행 중에도 스스로 오류를 바로잡고, 최종 답변 전에는 전체 논리 흐름을 감사합니다. 11
BrowseComp, GAIA, DeepSearchQA 등에서 SOTA(최첨단) 성능을 기록했으며, 소형 오픈소스 버전(3B 파라미터)도 대형 모델과 경쟁할 만큼 효율적입니다. 12 13
SocialOmni: 오디오·비주얼 AI의 '사회성' 평가 벤치마크
Omni-modal LLM은 오디오·비디오·텍스트를 모두 다루지만, 기존 평가는 정적 정확도에만 집중했습니다. SocialOmni는 '누가 말하는지', '언제 끼어들지', '자연스러운 개입을 할 수 있는지' 등 사회적 상호작용 능력을 평가하는 새 벤치마크입니다. 2,000여 샘플로, 단순 인식 정확도와 사회적 맥락 능력은 별개임을 보여줍니다. 14
Open Source & Repos
OmniForcing: 실시간 오디오-비디오 동시 생성 프레임워크
OmniForcing은 느린 양방향 오디오-비디오 생성 모델을, 실시간 스트리밍 생성기로 변환하는 프레임워크입니다. 3단계 증류 파이프라인으로, 단일 GPU에서 25FPS(35배 속도 향상)를 달성하며, 영상·음성 품질도 유지합니다. 실시간 동기화 생성이 필요한 인터랙티브 AI에 새로운 가능성을 엽니다. 15
왜 중요한가
오늘날 AI 연구는 단순 벤치마크를 넘어, 산업·문서·실전 추론 등 복잡한 현실 문제로 진입 중입니다. InCoder-32B는 데이터와 훈련법만 바꾸면 칩 설계·GPU 최적화 등 다양한 산업 분야를 하나의 모델로 지원할 수 있음을 보여줍니다. Qianfan-OCR은 문서 업무를 통합·자동화하고, 최신 연구 에이전트와 벤치마크는 AI가 단순 정확도를 넘어 신뢰성·검증성·사회성까지 갖추도록 이끕니다. 이제 AI는 실제 인간과 협업할 수 있는 실전 파트너로 진화하고 있습니다.
댓글 (0)