Skip to content

Latest commit

 

History

History
42 lines (25 loc) · 3.65 KB

File metadata and controls

42 lines (25 loc) · 3.65 KB

Performance and Scalability

대규모 트랜스포머 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 따라서, 학습 단계에서는 모델이 사용 가능한 GPU 메모리보다 많은 메모리를 요구하거나 학습 속도가 느릴 수 있다. 반면, 배포 단계에서는 프로덕션 환경에서 요구되는 처리량을 모델이 감당하지 못하는 문제가 발생할 수 있다.

이 문서는 이러한 문제들을 극복하고 사용 사례에 최적화된 설정을 찾는 데 도움을 주기 위해 작성했다. 학습과 추론 영역으로 구분되어 있으며, 각각은 다른 문제점과 해결책을 제시한다. 각 섹션 내에서는 학습 시 단일 GPU와 다중 GPU, 추론 시 CPU와 GPU 등 다양한 하드웨어 구성에 대한 별도의 가이드를 찾을 수 있다.

훈련

대규모 트랜스포머 모델을 효율적으로 훈련하려면, GPU나 TPU와 같은 가속기가 필요함. 가장 일반적인 경우는 단일 GPU를 사용하는 경우이고, 단일 GPU에서 훈련 효율을 개선하기 위해 적용할 수 있는 방법들은 다중 GPU와 같은 다른 구성에서도 확장할 수 있다. 그래서 다중 GPU나 CPU 훈련 시 특화된 기술들도 존재하는 것을 명심하라.

추론

대규모 형태의 모델을 프로덕션 환경에서 효율적으로 추론하는 것은 훈련만큼이나 어려울 수 있다. 아래의 부분에서는 CPU 및 단일/다중 GPU 환경에서 추론을 수행하는 방법을 정리했다.

중요: 추론 최적화

  • [TensorRT-LLM 이용하는 방법]
  • [Ollama를 이용하는 방법]
  • [vLLM을 이용하는 방법]