InfoLaw가 데이터 품질·반복을 대형 언어 모델 학습 손실 예측으로 연결한다
혼합·반복 데이터로 학습할 때 모델이 얼마나 배우는지 예측하는 새 프레임워크다. 손실 예측 오차 평균 0.15%, 최대 0.96%를 70억 파라미터와 4,250억 토큰 규모까지 보여줘 데이터 레시피 선택을 돕는다.
한 줄 요약
데이터 품질과 반복을 반영하는 학습 지도 덕분에 대형 언어 모델(LLM) 학습을 더 똑똑하게 설계하고, 한편으로는 안전 정렬의 취약 지점과 에이전트의 기억·지식 정제가 함께 점검되고 있다.
Research Papers
InfoLaw: 혼합·반복 데이터까지 아우르는 정보 스케일링 법칙
InfoLaw는 학습 손실을 네 가지 입력—소비 토큰 수, 모델 크기, 데이터 혼합 가중치, 반복—로 예측해 데이터 레시피를 감으로 고르지 않게 해주는 설계 도구다. 저자들은 “고품질” 데이터를 강하게 가중하면 데이터가 부족하고 과도학습된 구간에서 반복이 늘어 성능이 오히려 떨어질 수 있음을 지적하고, 사전학습을 정보 축적으로 모델링해 이를 보정한다. 70억 파라미터와 4,250억 토큰 규모까지 외삽하면서 손실 예측 오차가 평균 0.15%, 최대 0.96%라고 보고한다. 1
핵심은 정보 밀도다. 더 나은 데이터는 토큰당 학습 가능한 정보가 많고, 반복은 규모가 커질수록 체감효과가 커진다. 기존 스케일링 법칙은 데이터 혼합 “레시피”나 높은 반복에서 잘 맞지 않는 경우가 많아, InfoLaw는 품질 가중과 반복 항을 명시적으로 포함해 과도학습 수준을 가로질러 일반화한다. 실제로는 데이터 큐레이션과 연산 예산을 함께 최적화할 수 있음을 뜻한다. 1
InfoLaw가 내놓는 것은 손실 예측이지 곧바로 과제 점수는 아니다. 하지만 손실을 정확히 예측하면 추가 토큰이 언제 더 이상 효익을 주지 않는지, 어떤 혼합이 연산 대비 효율적인지 가늠할 수 있다. 다양한 코퍼스를 동시에 다루는 조직에 계산가능한 사전학습 계획 수단을 제공한다. 1
단일 뉴런 우회: 안전 정렬의 취약성 실증
이 연구는 단 하나의 뉴런 활동을 바꾸는 것만으로 안전 거부 행동을 뒤집을 수 있음을 보인다. “거부 뉴런”을 억제하면 유해 요청에도 답하고, “개념 뉴런”을 증폭하면 무해한 프롬프트에서도 유해 내용을 유도한다. 두 계열에 걸친 일곱 개 모델(17억~700억 파라미터)에서 추가 학습이나 프롬프트 기법 없이 재현된다. 2
저자들은 안전 정렬이 가중치 전체에 견고하게 분산되지 않고, 거부 행동을 매개하는 개별 뉴런에 의해 좌우된다고 주장한다. 두 체계(거부 게이팅 대 유해 지식 인코딩)에서 각각 단일 뉴런을 겨냥해, 다양한 유해 요청에서 양방향 실패를 입증했다. 이는 프롬프트 수준의 방어만으로는 부족하며 심층적 방어가 필요함을 시사한다. 2
별도의 해설 글은 “정렬은 복종이 아니다”라는 관점에서, 시스템이 사용자의 사고 과정 일부가 되는 순간 안전은 단발 응답 준수만이 아니라 상호작용이 시간이 지나면서 사용자를 어떻게 바꾸는지도 다뤄야 한다고 주장한다. 단일 뉴런 결과와 함께 보면, 기술적 통제와 사람 중심 설계가 함께 발전해야 함을 보여준다. 3
DeepRefine: 강화학습으로 에이전트 지식베이스 정제
DeepRefine은 기존에 에이전트가 구축한 지식베이스와 대화하며 증거 누락이나 모호한 연결 같은 결함을 찾아 단계적으로 수정하는 추론 모델이다. Gain-Beyond-Draft(GBD) 보상을 도입하고 강화학습으로 전체 추론 루프를 학습해, 정답 라벨 없이도 정제 정책을 개선한다. 강한 기준선 대비 일관된 다운스트림 성능 향상을 보고한다. 4
이 시스템은 다회전 상호작용 이력을 유지하고, 가정적(압덕티브) 진단으로 오류 가능성을 국소화한 뒤 표적 수정을 실행한다. 반복 사용에서 누적되는 불완전·부정확·중복 문제를 줄여 검색 품질을 끌어올린다. 4
이는 원시 로그 저장보다 “경험”을 저장하는 흐름과 맞닿아 있다. 동반 해설은 검색 증강 생성(Retrieval-Augmented Generation, RAG) 같은 데이터 중심 메모리와 달리, 재사용 가능한 교훈을 구조화해 담는 반성(Reflection) 절차를 강조한다. DeepRefine의 정책 기반 편집은 “실행 → 반성 → 학습 → 개선”이라는 지속 메모리 사고방식의 구체적 사례다. 5
Open Source & Repos
agentmemory: 코딩 에이전트에 장기 기억을 더한다
agentmemory는 코딩 에이전트가 세션을 넘어 기억을 유지해 사용자가 맥락을 반복 설명하지 않도록 해주는 툴킷이다. Claude Code, Cursor, Gemini 명령줄 인터페이스(CLI) 등과 연동하고, 모델 컨텍스트 프로토콜(MCP) 클라이언트라면 어디서나 동작한다. 6
이 프로젝트는 “실사용 벤치마크 기반의 지속 메모리”를 표방하며, 2026-05-12 공개된 v0.9.10에서 사용자 제보 배포 이슈를 수정했다. 에디터 내 에이전트를 시험 중인 팀에 자체 메모리 레이어를 만드는 수고를 덜어준다. 6
대상: 코드 어시스턴트를 배포하며 편집 세션과 레포지토리 전반의 상태 유지를 원하는 개발팀. 주목 이유: 맥락 손실이 줄어들면 중복 토큰이 감소하고 프로젝트가 커져도 도구 동작이 더 안정적이다. 6
Skyvern: 브라우저 업무 자동화 오픈 소스
Skyvern은 대형 언어 모델(LLM)과 컴퓨터 비전을 사용해 브라우저 기반 작업을 자동화하는 프로젝트다. 저장소에는 2026-05-10에 v1.0.36이 공개되었고, 퀵스타트 설치 경로 선택, 요청 정책 계약 수정, 빈 override_llm_key를 무오버라이드로 처리하는 등의 변경이 담겼다. 7
웹사이트·문서·디스코드 커뮤니티가 함께 제공되어 일반 목적의 웹 자동화 스택으로 자리매김한다. 변하는 UI에 취약한 셀렉터 스크립트의 한계를 넘고 양식 입력 같은 절차를 모델 판단과 결합해 진행할 수 있다. 7
평가 팁: 퀵스타트로 시작해 단계적으로 기능을 쌓아가고, 계정·거래가 연루된 흐름은 낮은 위험부터 파일럿하며 로그를 점검하는 것이 바람직하다. 7
커뮤니티 반응
Hacker News (422↑) — Skyvern의 브라우저 자동화 잠재력에 대한 기대와 함께 AGPL3 라이선스, 네트워크 요청 가로채기·데스크톱/시트릭스 지원 부재 같은 우려가 병존한다. 8
"흥미로운 프로젝트네요. 제 회사도 관심을 가질 것 같은데 AGPL3 라이선스라서 우리에게는 시작조차 불가능합니다." — Hacker News 8
왜 중요한가
모델 구조 못지않게 학습 설계가 중요해지고 있다. InfoLaw처럼 데이터 품질과 반복을 함께 보는 손실 예측은 토큰 예산을 잡고 과도학습의 함정을 피하며, 보유 데이터를 최대한 활용하는 데 도움을 준다. 1
배포 측면에서는 Skyvern과 agentmemory 같은 오픈 프로젝트가 에이전트에 손(브라우저 동작)과 기억(지속 맥락)을 더하는 흐름을 보여준다. 동시에 커뮤니티 논의는 라이선스와 기능 공백 등 실무적 절충이 남아 있음을 상기시킨다. 8
이번 주 시도해볼 것
- Skyvern 퀵스타트: 저장소를 클론해 간단한 폼 입력 자동화를 따라 해본다. https://github.com/Skyvern-AI/skyvern
- agentmemory: Cursor나 Claude Code에 지속 메모리를 붙여 재프롬프트 빈도가 줄어드는지 확인한다. https://github.com/rohitg00/agentmemory
댓글 (0)