RL강화 학습
Reinforcement Learning
쉽게 이해하기
많은 문제는 한 번의 예측이 아니라, 여러 번 이어지는 결정이 누적되어 성패가 갈립니다. 예를 들어 로봇이 이동 경로를 정할 때 당장 한 칸만 잘 가는 게 아니라 전체 경로가 중요합니다. 이런 순차 의사결정에서 정답 라벨을 미리 주기 어렵기 때문에, 스스로 시행착오를 통해 좋은 행동을 찾아가는 방법이 필요했습니다. 강화 학습은 바로 이 문제를 다룹니다. 게임 점수를 많이 따기 위해 다양한 전략을 시도하며 점점 더 높은 점수를 내는 플레이어처럼, 에이전트가 환경에서 행동을 해 보고 그 결과로 받은 보상에 따라 다음 행동 방식을 바꿉니다. 보상이 크면 그 행동을 강화하고, 보상이 작거나 불리하면 피하게 되면서 정책이 개선됩니다.
구체적으로는 상태(state)를 관찰해 행동(action)을 선택하고, 환경으로부터 보상(reward)과 다음 상태를 받아 정책(policy)을 업데이트합니다. 이 과정은 마르코프 결정 과정(MDP)이라는 수학적 틀로 표현되어, 누적 보상을 최대화하도록 학습 목표가 잡힙니다. 방법론은 환경 모델을 배우고 활용하는 모델 기반 접근과, 모델 없이 정책이나 가치 함수를 직접 학습하는 모델 자유(model-free) 접근으로 크게 나뉩니다.
비유와 예시
- 비디오 게임 전략 학습: 에이전트가 여러 판을 플레이하며 점수를 보상으로 삼아 전략을 바꿉니다. 승리 확률을 높이는 행동이 정책에 점차 반영됩니다.
- 창고 로봇 경로 결정: 선반 사이를 이동하며 충돌 없이 빠르게 물건을 집는 행동에 보상을 부여합니다. 시행착오를 통해 전체 작업 시간이 줄어드는 경로 선택을 학습합니다.
- 시뮬레이터에서 정책 튜닝: 현실 환경이 위험하거나 비용이 큰 경우, 가상 환경에서 먼저 상호작용해 정책을 안정화합니다. 이후 실제 환경에서 추가로 미세 조정합니다.
한눈에 비교
| 지도 학습 | 비지도 학습 | 강화 학습 | |
|---|---|---|---|
| 데이터 형태 | 입력-정답 라벨 쌍 | 라벨 없는 입력 | 상태-행동-보상 순차 데이터 |
| 목표 | 예측 오차 최소화 | 구조/군집 발견 | 누적 보상 최대화 |
| 피드백 시점 | 즉시(라벨 기반) | 없음/자체 기준 | 지연·누적(보상 기반) |
| 상호작용 | 정적 데이터셋 | 정적 데이터셋 | 환경과 온라인 상호작용 또는 로그 |
강화 학습은 피드백이 지연되고 누적되며 환경과의 상호작용이 포함되어, 정답이 주어지는 지도 학습과 학습 신호 구조가 본질적으로 다릅니다.
어디서 왜 중요한가
- 순차 의사결정 문제의 표준 틀: 불확실한 환경에서 연속된 결정을 MDP로 다루며, 정책·가치 함수 관점이 실무에 자리잡았습니다.
- 시뮬레이션 우선 학습: 위험·비용이 큰 현실 대신 가상 환경에서 먼저 상호작용해 정책을 학습하는 흐름이 확산되었습니다.
- 모델 기반 vs 모델 자유 선택: 문제 성격과 자원(샘플/계산)에 따라 접근을 선택하는 기준이 됩니다.
- 오프라인 RL 부상: 로그 데이터를 활용해 실시간 상호작용 없이 학습하려는 수요가 커졌습니다.
자주 하는 오해
- 오해: 강화 학습도 라벨만 주면 된다 → 실제: 정답 라벨이 아니라 행동 결과로 받은 보상이 학습 신호다.
- 오해: 항상 환경과 실시간으로 상호작용해야 한다 → 실제: 기록된 로그로 학습하는 오프라인 강화 학습 접근도 있다.
- 오해: 환경 모델을 꼭 배워야 한다 → 실제: 모델 없이 정책·가치 함수를 직접 학습하는 모델 자유 기법이 널리 쓰인다.
대화에서는 이렇게
- "이번 문제는 MDP로 정의하고, 에피소드 길이에 맞춰 누적 보상을 설계합시다."
- "시뮬레이터에서 정책 초기화를 하고, 실제 환경에선 보상만 미세 조정하죠."
- "환경 모델 정확도가 낮으니 일단 model-free로 가고, 나중에 모델 기반으로 전환 여지를 남기죠."
- "로그만 있는 데이터라 오프라인 RL로 시작하고, 안전 가드 붙여서 온라인 탐험은 최소화합시다."
- "베이스라인은 Q-learning으로 두고, 안정성 이슈 있으면 PPO 후보도 같이 실험해요."
함께 읽으면 좋은 용어
참고 자료
- Discovering state-of-the-art reinforcement learning algorithms
RL 핵심 개념과 대표 알고리즘 레퍼런스 인용.
- Machine Learning: Algorithms, Real-World Applications and Research Directions
강화 학습 개요와 MDP·요소 구성 정리.
- GitHub - tajwarfahim/maxrl: Maximum Likelihood Reinforcement Learning (MaxRL)
강화 학습 계열 구현 레포지토리 예시.
- What is Reinforcement Learning?
시행착오·시뮬레이션 관점의 RL 설명.
- What is reinforcement learning? | IBM
에이전트·환경·오프라인 RL 등 개념 정리.