ML 기초

RL강화 학습

Reinforcement Learning

난이도

쉽게 이해하기

많은 문제는 한 번의 예측이 아니라, 여러 번 이어지는 결정이 누적되어 성패가 갈립니다. 예를 들어 로봇이 이동 경로를 정할 때 당장 한 칸만 잘 가는 게 아니라 전체 경로가 중요합니다. 이런 순차 의사결정에서 정답 라벨을 미리 주기 어렵기 때문에, 스스로 시행착오를 통해 좋은 행동을 찾아가는 방법이 필요했습니다. 강화 학습은 바로 이 문제를 다룹니다. 게임 점수를 많이 따기 위해 다양한 전략을 시도하며 점점 더 높은 점수를 내는 플레이어처럼, 에이전트가 환경에서 행동을 해 보고 그 결과로 받은 보상에 따라 다음 행동 방식을 바꿉니다. 보상이 크면 그 행동을 강화하고, 보상이 작거나 불리하면 피하게 되면서 정책이 개선됩니다.

구체적으로는 상태(state)를 관찰해 행동(action)을 선택하고, 환경으로부터 보상(reward)과 다음 상태를 받아 정책(policy)을 업데이트합니다. 이 과정은 마르코프 결정 과정(MDP)이라는 수학적 틀로 표현되어, 누적 보상을 최대화하도록 학습 목표가 잡힙니다. 방법론은 환경 모델을 배우고 활용하는 모델 기반 접근과, 모델 없이 정책이나 가치 함수를 직접 학습하는 모델 자유(model-free) 접근으로 크게 나뉩니다.

비유와 예시

비디오 게임 전략 학습: 에이전트가 여러 판을 플레이하며 점수를 보상으로 삼아 전략을 바꿉니다. 승리 확률을 높이는 행동이 정책에 점차 반영됩니다.
창고 로봇 경로 결정: 선반 사이를 이동하며 충돌 없이 빠르게 물건을 집는 행동에 보상을 부여합니다. 시행착오를 통해 전체 작업 시간이 줄어드는 경로 선택을 학습합니다.
시뮬레이터에서 정책 튜닝: 현실 환경이 위험하거나 비용이 큰 경우, 가상 환경에서 먼저 상호작용해 정책을 안정화합니다. 이후 실제 환경에서 추가로 미세 조정합니다.

한눈에 비교

	지도 학습	비지도 학습	강화 학습
데이터 형태	입력-정답 라벨 쌍	라벨 없는 입력	상태-행동-보상 순차 데이터
목표	예측 오차 최소화	구조/군집 발견	누적 보상 최대화
피드백 시점	즉시(라벨 기반)	없음/자체 기준	지연·누적(보상 기반)
상호작용	정적 데이터셋	정적 데이터셋	환경과 온라인 상호작용 또는 로그

강화 학습은 피드백이 지연되고 누적되며 환경과의 상호작용이 포함되어, 정답이 주어지는 지도 학습과 학습 신호 구조가 본질적으로 다릅니다.

어디서 왜 중요한가

순차 의사결정 문제의 표준 틀: 불확실한 환경에서 연속된 결정을 MDP로 다루며, 정책·가치 함수 관점이 실무에 자리잡았습니다.
시뮬레이션 우선 학습: 위험·비용이 큰 현실 대신 가상 환경에서 먼저 상호작용해 정책을 학습하는 흐름이 확산되었습니다.
모델 기반 vs 모델 자유 선택: 문제 성격과 자원(샘플/계산)에 따라 접근을 선택하는 기준이 됩니다.
오프라인 RL 부상: 로그 데이터를 활용해 실시간 상호작용 없이 학습하려는 수요가 커졌습니다.

자주 하는 오해

오해: 강화 학습도 라벨만 주면 된다 → 실제: 정답 라벨이 아니라 행동 결과로 받은 보상이 학습 신호다.
오해: 항상 환경과 실시간으로 상호작용해야 한다 → 실제: 기록된 로그로 학습하는 오프라인 강화 학습 접근도 있다.
오해: 환경 모델을 꼭 배워야 한다 → 실제: 모델 없이 정책·가치 함수를 직접 학습하는 모델 자유 기법이 널리 쓰인다.

대화에서는 이렇게

"이번 문제는 MDP로 정의하고, 에피소드 길이에 맞춰 누적 보상을 설계합시다."
"시뮬레이터에서 정책 초기화를 하고, 실제 환경에선 보상만 미세 조정하죠."
"환경 모델 정확도가 낮으니 일단 model-free로 가고, 나중에 모델 기반으로 전환 여지를 남기죠."
"로그만 있는 데이터라 오프라인 RL로 시작하고, 안전 가드 붙여서 온라인 탐험은 최소화합시다."
"베이스라인은 Q-learning으로 두고, 안정성 이슈 있으면 PPO 후보도 같이 실험해요."

참고 자료

★논문
Discovering state-of-the-art reinforcement learning algorithms
RL 핵심 개념과 대표 알고리즘 레퍼런스 인용.
★논문
Machine Learning: Algorithms, Real-World Applications and Research Directions
강화 학습 개요와 MDP·요소 구성 정리.
★코드
GitHub - tajwarfahim/maxrl: Maximum Likelihood Reinforcement Learning (MaxRL)
강화 학습 계열 구현 레포지토리 예시.
·공식 문서
What is Reinforcement Learning?
시행착오·시뮬레이션 관점의 RL 설명.
·공식 문서
What is reinforcement learning? | IBM
에이전트·환경·오프라인 RL 등 개념 정리.

도움이 되었나요?

0to1log Weekly

AI 용어집