추론 서버 프로젝트 ONNX Runtime Server 소개

kibae · 9월 13, 2023, 12:17오후

안녕하세요

ML 모델 학습 후 추론을 API 형태로 제공하기 위해 여러 방법들이 있지만, 개인적 필요에 의해 만든 프로젝트를 소개합니다.
https://github.com/kibae/onnxruntime-server

onnxruntime-server는 간편하게, 빠른 성능의 추론을 제공하고 좋은 DX를 제공하는 것이 목표입니다.
다양한 환경에서 학습된 ML 모델을 ONNX 파일로 export했다면 다른 코드나 메타데이터 작업 없이 API를 제공할 수 있습니다.

별도의 코드 작성 없이 추론 API 제공합니다. 디렉토리 구조에 맞춰서 파일을 두면 됩니다.
모델마다 CPU, CUDA 하드웨어 가속 여부를 선택할 수 있습니다.
TCP, HTTP/HTTPS REST API를 제공합니다.
ONNX 파일의 inputs, outputs를 추출하여 입출력의 shape를 조회하는 기능이 포함되어 협업자들이 별도의 문의 없이 추론을 위한 입출력 자료 구조를 알 수 있습니다.
Swagger API 문서가 빌트인되어 협업자들이 쉽게 API를 테스트하거나 제공되는 기능을 알 수 있습니다. (API 예제)
Docker 이미지 준비되어 있습니다.

궁금하신 부분이 있으시면 편하게 github 이슈나 댓글 주십시오~
감사합니다.

9bow · 9월 13, 2023, 10:39오후

와우, 소개 감사합니다!
눌렀습니다~