LangSmith
랭스미스에이전트 실행 과정을 추적하고 평가·모니터링·배포까지 관리하는 LLM 운영 플랫폼
소개
앱에 계측을 넣어 요청‧응답 트레이스와 평가 결과를 한 콘솔에서 수집하고 배포를 관리합니다. 에이전트·LLM 기능을 개발하는 팀이 프롬프트 디버그, 출력 비교, 운영 모니터링에 활용합니다. LangChain 유무와 관계없이 수동 계측이나 API 연동으로 작동합니다.
에디터 한마디
프롬프트 디버깅, 평가, 배포를 한곳에서 관리해야 하는 팀에 권할 만합니다; 관찰성과 배포 전 비교가 중요한 프로젝트이면서 약간의 계측 작업을 감당할 수 있는 경우에 적합합니다.
주요 기능
- LangChain 연동 또는 수동 훅 추가 → 프레임워크에 상관없이 동일한 트레이스·평가·배포 데이터 수집
- Tracing Project 선택 → 각 실행의 구조화된 요청·응답 트레이스 확인
- 대시보드 열기 → 실행 기록과 평가 결과를 한곳에서 추적
- 프롬프트 편집 후 테스트 재실행 → 배포 전 실행 간 출력 비교
- API 키 생성 후 앱에 연결 → 콘솔에서 배포를 중앙관리
이런 상황에 추천
- 플랫폼 엔지니어가 운영 중인 LLM 에이전트에서 오류 급증 후 원인 분류하고 조치할 때
- 프롬프트 엔지니어가 기능 출시 전에 여러 프롬프트를 반복 수정하며 평가를 돌릴 때
- 데이터 사이언티스트가 고객지원 어시스턴트의 모델 버전별 출력을 비교 분석할 때
이렇게 써보세요
- 1 에이전트 실패 실행 추적하기
LangSmith에서 Tracing Project를 생성 → LangChain 통합 또는 수동 후크로 요청/응답을 수집 → 실패한 실행의 트레이스를 열어 입력, 중간 단계, 최종 출력 등을 확인하며 원인 파악.
- 2 프롬프트 A/B 테스트 반복
두 가지 프롬프트 변형을 별도 런으로 저장 → 동일한 테스트 데이터셋과 채점 로직으로 eval 실행 → 대시보드에서 평가 지표와 출력 비교 후 더 나은 프롬프트 선택.
- 3 모델 버전 간 출력 비교
앱에 모델 버전 메타데이터 태그를 추가하여 런을 기록 → 동일 입력 데이터셋으로 각 버전에 대해 실행 및 추적 → 평가 결과와 비교 뷰로 차이점과 회귀 확인.
- 4 모델 엔드포인트 배포 및 관리
LangSmith에서 API 키 생성 및 배포 설정 등록 → 콘솔에서 배포를 올리거나 앱을 배포 엔드포인트로 연결 → 실시간 런, 로그, 평가 결과를 모니터링하여 배포 후 동작 검증.
- 5 릴리스 전 배치 평가 실행
테스트 데이터셋과 커스텀 또는 내장 채점 로직으로 eval 프로젝트 구성 → 후보 프롬프트/모델에 대해 배치 평가 실행 → 대시보드에서 집계 지표와 실패 사례를 검토해 출시 여부 결정.
장단점
장점
- 트레이싱, 평가, 배포 데이터를 한 콘솔에서 수집해 각 실행의 구조화된 요청·응답 트레이스를 확인할 수 있음.
- LangChain 통합을 통한 자동 트레이싱을 제공하면서, 수동 계측으로도 동일한 관찰성과 평가 기능을 제공함.
- 대시보드와 편집·재실행 워크플로를 통해 배포 전 출력과 평가 결과를 비교할 수 있음.
단점
- 수동 계측은 LangChain의 자동 트레이싱보다 코드 작업이 더 필요해 비-LangChain 앱 통합 부담이 커질 수 있음.
시작하는 법
- 1 smith.langchain.com에 가입하고 Settings에서 API 키 생성
- 2 사용 중인 프레임워크용 통합을 설치하거나 수동 계측을 추가한 뒤 API 키 설정
- 3 앱을 실행하고 Tracing Project를 열어 몇 분 안에 캡처된 실행과 기본 평가 확인
비슷한 도구
FAQ
어떤 플랫폼에서 사용할 수 있나요?
Web, API, Desktop에서 사용 가능합니다.
한국어를 지원하나요?
현재 한국어는 지원하지 않습니다.