제01권 · 제10호 CS · AI · Infra 2026년 5월 30일

AI 용어집

용어 사전레퍼런스학습
ML 기초

RL강화 학습

Reinforcement Learning

난이도

쉽게 이해하기

많은 문제는 한 번의 예측이 아니라, 여러 번 이어지는 결정이 누적되어 성패가 갈립니다. 예를 들어 로봇이 이동 경로를 정할 때 당장 한 칸만 잘 가는 게 아니라 전체 경로가 중요합니다. 이런 순차 의사결정에서 정답 라벨을 미리 주기 어렵기 때문에, 스스로 시행착오를 통해 좋은 행동을 찾아가는 방법이 필요했습니다. 강화 학습은 바로 이 문제를 다룹니다. 게임 점수를 많이 따기 위해 다양한 전략을 시도하며 점점 더 높은 점수를 내는 플레이어처럼, 에이전트가 환경에서 행동을 해 보고 그 결과로 받은 보상에 따라 다음 행동 방식을 바꿉니다. 보상이 크면 그 행동을 강화하고, 보상이 작거나 불리하면 피하게 되면서 정책이 개선됩니다.

구체적으로는 상태(state)를 관찰해 행동(action)을 선택하고, 환경으로부터 보상(reward)과 다음 상태를 받아 정책(policy)을 업데이트합니다. 이 과정은 마르코프 결정 과정(MDP)이라는 수학적 틀로 표현되어, 누적 보상을 최대화하도록 학습 목표가 잡힙니다. 방법론은 환경 모델을 배우고 활용하는 모델 기반 접근과, 모델 없이 정책이나 가치 함수를 직접 학습하는 모델 자유(model-free) 접근으로 크게 나뉩니다.

비유와 예시

  • 비디오 게임 전략 학습: 에이전트가 여러 판을 플레이하며 점수를 보상으로 삼아 전략을 바꿉니다. 승리 확률을 높이는 행동이 정책에 점차 반영됩니다.
  • 창고 로봇 경로 결정: 선반 사이를 이동하며 충돌 없이 빠르게 물건을 집는 행동에 보상을 부여합니다. 시행착오를 통해 전체 작업 시간이 줄어드는 경로 선택을 학습합니다.
  • 시뮬레이터에서 정책 튜닝: 현실 환경이 위험하거나 비용이 큰 경우, 가상 환경에서 먼저 상호작용해 정책을 안정화합니다. 이후 실제 환경에서 추가로 미세 조정합니다.

한눈에 비교

지도 학습비지도 학습강화 학습
데이터 형태입력-정답 라벨 쌍라벨 없는 입력상태-행동-보상 순차 데이터
목표예측 오차 최소화구조/군집 발견누적 보상 최대화
피드백 시점즉시(라벨 기반)없음/자체 기준지연·누적(보상 기반)
상호작용정적 데이터셋정적 데이터셋환경과 온라인 상호작용 또는 로그

강화 학습은 피드백이 지연되고 누적되며 환경과의 상호작용이 포함되어, 정답이 주어지는 지도 학습과 학습 신호 구조가 본질적으로 다릅니다.

어디서 왜 중요한가

  • 순차 의사결정 문제의 표준 틀: 불확실한 환경에서 연속된 결정을 MDP로 다루며, 정책·가치 함수 관점이 실무에 자리잡았습니다.
  • 시뮬레이션 우선 학습: 위험·비용이 큰 현실 대신 가상 환경에서 먼저 상호작용해 정책을 학습하는 흐름이 확산되었습니다.
  • 모델 기반 vs 모델 자유 선택: 문제 성격과 자원(샘플/계산)에 따라 접근을 선택하는 기준이 됩니다.
  • 오프라인 RL 부상: 로그 데이터를 활용해 실시간 상호작용 없이 학습하려는 수요가 커졌습니다.

자주 하는 오해

  • 오해: 강화 학습도 라벨만 주면 된다 → 실제: 정답 라벨이 아니라 행동 결과로 받은 보상이 학습 신호다.
  • 오해: 항상 환경과 실시간으로 상호작용해야 한다 → 실제: 기록된 로그로 학습하는 오프라인 강화 학습 접근도 있다.
  • 오해: 환경 모델을 꼭 배워야 한다 → 실제: 모델 없이 정책·가치 함수를 직접 학습하는 모델 자유 기법이 널리 쓰인다.

대화에서는 이렇게

  • "이번 문제는 MDP로 정의하고, 에피소드 길이에 맞춰 누적 보상을 설계합시다."
  • "시뮬레이터에서 정책 초기화를 하고, 실제 환경에선 보상만 미세 조정하죠."
  • "환경 모델 정확도가 낮으니 일단 model-free로 가고, 나중에 모델 기반으로 전환 여지를 남기죠."
  • "로그만 있는 데이터라 오프라인 RL로 시작하고, 안전 가드 붙여서 온라인 탐험은 최소화합시다."
  • "베이스라인은 Q-learning으로 두고, 안정성 이슈 있으면 PPO 후보도 같이 실험해요."

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?