추론 서버 프로젝트 ONNX Runtime Server 소개

안녕하세요 :hugs:

ML 모델 학습 후 추론을 API 형태로 제공하기 위해 여러 방법들이 있지만, 개인적 필요에 의해 만든 프로젝트를 소개합니다.

onnxruntime-server는 간편하게, 빠른 성능의 추론을 제공하고 좋은 DX를 제공하는 것이 목표입니다.
다양한 환경에서 학습된 ML 모델을 ONNX 파일로 export했다면 다른 코드나 메타데이터 작업 없이 API를 제공할 수 있습니다.

  • 별도의 코드 작성 없이 추론 API 제공합니다. 디렉토리 구조에 맞춰서 파일을 두면 됩니다.
  • 모델마다 CPU, CUDA 하드웨어 가속 여부를 선택할 수 있습니다.
  • TCP, HTTP/HTTPS REST API를 제공합니다.
  • ONNX 파일의 inputs, outputs를 추출하여 입출력의 shape를 조회하는 기능이 포함되어 협업자들이 별도의 문의 없이 추론을 위한 입출력 자료 구조를 알 수 있습니다.
  • Swagger API 문서가 빌트인되어 협업자들이 쉽게 API를 테스트하거나 제공되는 기능을 알 수 있습니다. (API 예제)
  • Docker 이미지 준비되어 있습니다.

더 자세한 내용은 github 문서를 참조해 주세요.

궁금하신 부분이 있으시면 편하게 github 이슈나 댓글 주십시오~
감사합니다.


3개의 좋아요

와우, 소개 감사합니다! :bowing_man:
:star: 눌렀습니다~ :+1:

2개의 좋아요