Awesome Open Source AI 소개
Awesome Open Source AI는 오픈소스 인공지능 모델, 라이브러리, 인프라, 개발자 도구를 한 곳에 모아 둔 큐레이션 목록입니다. 진정한 오픈소스 만 모은다는 기준으로 14개 대분류와 100여 개 세부 카테고리에 걸쳐 정리되어 있어, 자기 환경에 맞는 도구를 단번에 후보군으로 좁히고 싶을 때 시작점 역할을 합니다.
기존의 광범위한 awesome 리스트와 달리, 이 저장소는 2026년 시점에 프런티어 AI 개발자가 실제로 손에 잡고 쓰는 영역을 기준으로 분류 체계를 설계한 점이 특징입니다. 단순한 라이브러리 목록을 넘어 추론 엔진, 에이전트 프로토콜, RAG, 평가 벤치마크, MLOps, 안전성과 정렬, 개인정보 보호처럼 프로덕션까지 묶인 영역을 같은 깊이로 다룹니다.
본 게시물에서는 Awesome Open Source AI의 분류 체계와 각 영역의 모든 프로젝트를 GitHub 주소와 함께 빠짐없이 정리합니다.
Awesome Open Source AI의 14개 대분류 한눈에 보기
저장소의 README 상단 목차는 다음 14개 대분류로 구성되며, 각 대분류는 다시 평균 5개 안팎의 세부 섹션으로 쪼개집니다. 어떤 영역을 먼저 펼쳐 볼지 정하기 위한 빠른 지도로 활용할 수 있습니다.
| # | 대분류 | 대표 프로젝트 (저장소에서 발췌) |
|---|---|---|
| 1 | Core Frameworks & Libraries | PyTorch, TensorFlow, JAX, Triton, MLX, scikit-learn, Polars, DuckDB |
| 2 | Open Foundation Models | Qwen3, GLM-5, Llama 4, GPT-OSS, OLMo 2, Phi-4, Whisper, Stable Diffusion XL |
| 3 | Inference Engines & Serving | vLLM, SGLang, llama.cpp, Ollama, TensorRT-LLM, Triton Inference Server |
| 4 | Agentic AI & Multi-Agent Systems | LangGraph, CrewAI, AutoGen, OpenHands, Aider, MetaGPT, OpenAI Agents SDK |
| 5 | RAG & Knowledge | LlamaIndex, Haystack, Chroma, Qdrant, Milvus, GraphRAG, Docling, MinerU |
| 6 | Generative Media Tools | ComfyUI, Diffusers, HunyuanVideo, Wan2.2, ACE-Step, gsplat |
| 7 | Training & Fine-tuning Ecosystem | LLaMA-Factory, Axolotl, Unsloth, torchtune, TRL, verl, DeepSpeed, Megatron-LM |
| 8 | MLOps / LLMOps & Production | MLflow, Langfuse, BentoML, ZenML, Kubeflow, KServe, LiteLLM, Phoenix |
| 9 | Evaluation, Benchmarks & Datasets | lm-evaluation-harness, HELM, SWE-bench, GAIA, OpenCompass, DeepEval, RAGAs |
| 10 | AI Safety, Alignment & Interpretability | TransformerLens, Captum, NeMo Guardrails, PyRIT, Garak, Promptfoo |
| 11 | Specialized Domains | MONAI, nnU-Net, Boltz, OpenFold, OpenCV, YOLO, MuJoCo, Isaac Lab, Qlib |
| 12 | User Interfaces & Self-hosted Platforms | Open WebUI, LobeChat, LibreChat, AnythingLLM, LocalAI, Jan, Cherry Studio |
| 13 | Developer Tools & Integrations | Continue, Tabby, Cline, Aider, Codex CLI, Repomix, Vercel AI SDK |
| 14 | Resources & Learning | Papers with Code, HF Course, LLM Course, ML For Beginners, Karpathy Skills |
각 항목에는 GitHub 링크와 한 줄 요약, 그리고 GitHub Star 배지가 함께 실려 있어 프로젝트의 활성도와 생태계 내 위치를 한눈에 가늠할 수 있도록 정리되어 있습니다.
1. Core Frameworks & Libraries
학습과 추론, 데이터 전 영역의 기초 라이브러리들입니다.
딥러닝 프레임워크 (Deep Learning Frameworks)
- PyTorch - 동적 계산 그래프와 파이썬다운 API를 가진 사실상의 표준 프레임워크
- TensorFlow - TPU 지원과 대규모 서빙 도구를 갖춘 엔드투엔드 플랫폼
- JAX - JIT, vmap, grad 조합 가능한 고성능 수치 컴퓨팅 + Flax
- dm-haiku - Google DeepMind의 JAX 기반 신경망 라이브러리
- Equinox - JAX의 우아한 신경망/과학계산 라이브러리
- Diffrax - JAX의 수치 미분방정식 솔버
- vit-pytorch - PyTorch용 ViT 계열 종합 구현
- NumPyro - JAX 기반 확률적 프로그래밍
- Keras - TF/JAX/PyTorch 멀티 백엔드 고수준 API
- tinygrad - 미니멀리스트 딥러닝 프레임워크
- PaddlePaddle - Baidu의 산업용 딥러닝 플랫폼
- PyTorch Geometric - 그래프/포인트 클라우드용 PyTorch GNN
- timm (pytorch-image-models) - 900+ 사전학습 이미지 모델
- Triton - 커스텀 딥러닝 커널을 위한 언어/컴파일러
- GGML - llama.cpp의 근간이 되는 텐서 라이브러리
- MLX - Apple Silicon용 배열/ML 프레임워크
고성능 컴퓨트 라이브러리 (High-Performance Compute Libraries)
Rust ML 프레임워크
- Burn - 백엔드 독립적인 Rust 딥러닝 프레임워크
- Candle (Hugging Face) - PyTorch-like API를 가진 Rust ML 프레임워크
- linfa - Rust용 scikit-learn 등가물
Julia ML 프레임워크
- Flux.jl - 순수 Julia ML 스택
- MLJ.jl - 200+ 모델 통합 인터페이스
- ModelingToolkit.jl - SciML용 심볼릭/수치 모델링
NLP와 Transformers
- spaCy - 산업용 NLP, 75+ 언어 지원
- Transformers (Hugging Face) - 사전학습 NLP 모델 표준 라이브러리
- sentence-transformers - 문장/이미지 임베딩
- tokenizers (Hugging Face) - 고속 SOTA 토크나이저
- fairseq2 - FAIR의 시퀀스 모델링 툴킷 v2
데이터 처리/조작 (Data Processing & Manipulation)
- Pandas - 파이썬 데이터 분석 표준
- Polars - Rust 백엔드 고속 DataFrame
- cuDF - RAPIDS의 GPU DataFrame
- Modin - 병렬 Pandas DataFrame
- Dask - 빅데이터 병렬 컴퓨팅
- NumPy - 기초 배열 컴퓨팅
- SciPy - 과학 컴퓨팅 알고리즘
- NetworkX - 복잡 네트워크 분석
- cuGraph - GPU 그래프 분석
- Vaex - 아웃오브코어 DataFrame
- Datashader - 대규모 데이터 시각화
- Zarr - 청크 압축 N차원 배열 저장
- NVIDIA DALI - GPU 가속 데이터 로딩
- Narwhals - DataFrame 라이브러리 호환 레이어
- Ibis - 20+ 백엔드 포터블 DataFrame
- skrub - 더러운 범주형 데이터용 전처리
- Oxen - ML용 빠른 데이터 버전 관리
- Pandera - DataFrame 통계 검증
- Snorkel - 약지도 학습 데이터 생성
- DuckDB - 인프로세스 분석 SQL DB
- FiftyOne - 비주얼 데이터셋 개발 툴킷
- Label Studio - 멀티타입 데이터 라벨링
- Delta Lake - Lakehouse 스토리지 프레임워크
- Apache Iceberg - 대용량 분석 테이블 포맷
- Apache Hudi - 오픈 데이터 레이크하우스
- lakeFS - 데이터 레이크용 Git-스타일 버전 관리
- Apache Airflow - 워크플로우 오케스트레이션
- Apache Spark - 대규모 데이터 처리 통합 엔진
- Apache Flink - 스트림 처리 프레임워크
- Apache Beam - 배치/스트리밍 통합 프로그래밍 모델
- Scrapy - 파이썬 웹 크롤링 프레임워크
- Temporal - 내구성 워크플로우 실행 플랫폼
- Luigi - Spotify 배치 파이프라인
- Mage.ai - 모던 오픈소스 데이터 파이프라인
- Hamilton - 선언형 데이터 흐름 프레임워크
- D-Tale - Pandas 시각화 도구
- Sweetviz - EDA용 고밀도 시각화
- TextAttack - NLP 적대적 공격/증강 프레임워크
- uv - Rust로 만든 초고속 파이썬 패키지 매니저
- Vector - 고성능 옵저버빌리티 데이터 파이프라인
클래시컬 ML과 그래디언트 부스팅 (Classical ML & Gradient Boosting)
- scikit-learn - 전통 ML 표준 라이브러리
- XGBoost - 확장형 그래디언트 부스팅
- LightGBM - Microsoft 초고속 GBM
- CatBoost - 범주형 친화 GBM
- sktime - 통합 시계열 ML 프레임워크
- StatsForecast - ARIMA/ETS 등 통계 예측
- MLForecast - 확장 가능한 시계열 ML
- cuML - GPU 가속 scikit-learn 호환 ML
- SynapseML - Spark 위의 분산 ML
- Darts - 통합 시계열 예측/이상탐지
- PyTorch Forecasting - PyTorch 시계열 예측
데이터 엔지니어링과 피처 스토어 (Data Engineering & Feature Stores)
- DataHub - 데이터/AI 메타데이터 플랫폼
- OpenMetadata - 통합 메타데이터 플랫폼
- Amundsen - Lyft의 데이터 탐색 엔진
데이터 변환과 분석 엔지니어링 (Data Transformation & Analytics Engineering)
데이터 품질과 검증 (Data Quality & Validation)
- Deequ - Spark용 데이터 단위 테스트
- Great Expectations - 데이터 검증/프로파일링
- ydata-profiling - 한 줄 EDA 리포트
- Soda Core - YAML 기반 데이터 컨트랙트
- TFX - 프로덕션 ML 파이프라인 플랫폼
데이터 라벨링과 주석 (Data Labeling & Annotation)
- Doccano - 오픈소스 텍스트 주석 도구
- OpenRefine - 더러운 데이터 정제 도구
AutoML과 하이퍼파라미터 최적화
- Optuna - define-by-run 하이퍼파라미터 최적화
- AutoGluon - AWS의 AutoML 툴킷
- FLAML - Microsoft 경량 AutoML
- Katib (Kubeflow) - K8s 네이티브 AutoML
- AutoKeras - Keras 위의 NAS
인터랙티브 ML 앱과 노트북
모델 학습 최적화 유틸리티 (Model Training & Optimization Utilities)
- Hugging Face Accelerate - 멀티 GPU/TPU 학습 단순화
- DeepSpeed - Microsoft 초대규모 학습 최적화
- FlashAttention - 빠른 어텐션 커널
- xFormers - 최적화된 트랜스포머 블록
- PyTorch Lightning - PyTorch 보일러플레이트 제거
- fastai - 실무자용 PyTorch 라이브러리
- PyTorch Ignite - PyTorch 학습/평가 고수준 라이브러리
- ONNX Runtime - 고성능 ONNX 추론/학습
- einops - 가독성 높은 텐서 연산
- safetensors - 안전한 텐서 저장 포맷
- torchmetrics - 분산 PyTorch 메트릭
- torchao - PyTorch 네이티브 양자화/희소화
- SHAP - 모델 해석성 표준
- skorch - scikit-learn 호환 PyTorch
- Composer - MosaicML PyTorch 학습 라이브러리
- NVIDIA Apex - 혼합정밀/분산 학습 확장
2. Open Foundation Models
공개 가중치가 있는 사전학습 언어, 멀티모달, 음성, 비디오 모델들입니다.
대규모 언어 모델 (Base + Chat)
- RWKV-7 "Goose" - 어텐션 프리 선형시간 RNN, Linux Foundation AI 프로젝트
- Qwen3 (Alibaba) - 하이브리드 thinking 모드 플래그십 dense/MoE
- Qwen3.6 (Alibaba) - 2026년 4월 공개, 1M 컨텍스트, 에이전트 코딩
- MiMo-V2-Flash (Xiaomi) - 309B MoE (15B 활성) 하이브리드 어텐션
- Nemotron (NVIDIA) - 에이전트 AI용 오픈 효율 모델
- Gemma 4 (Google) - 2026년 4월 공개, 4가지 사이즈
- Kimi K2 (Moonshot AI) - 1T 파라미터 MoE (32B 활성)
- Kimi K2.5 (Moonshot AI) - 256K 컨텍스트 프런티어 MoE
- Phi-4 (Microsoft) - 추론 특화 소형 모델
- GLM-5 (Zhipu AI) - 강력한 코딩/추론/에이전트 오픈 모델
- OLMo 2 (Allen AI) - 완전 공개 LLM (1B–32B)
- Llama 4 (Meta) - 최초 네이티브 멀티모달 MoE 오픈소스
- GPT-OSS (OpenAI) - GPT-2 이후 OpenAI의 첫 오픈 가중치 (120B/20B MoE)
- Mamba (State Space Models) - 선형시간 SSM 아키텍처
- Pythia (EleutherAI) - 해석성 연구용 LLM 슈트 (70M–12B)
- T5 (Google) - text-to-text 트랜스포머
- GPT-NeoX-20B (EleutherAI) - The Pile로 학습된 20B 자동회귀 모델
코딩과 추론 모델 (Coding & Reasoning Models)
- DeepSeek-Coder-V2 / R1-Coder - 236B MoE 최강 오픈 코딩 모델
- Qwen3-Coder-Next (Alibaba) - 비용 효율적 에이전트 배포용 코딩 모델
멀티모달 모델 (Vision + Language)
- OmniParser (Microsoft) - 순수 비전 기반 GUI 에이전트 프레임워크
- MMaDA (Gen-Verse) - 멀티모달 대형 확산 언어 모델 (NeurIPS 2025)
- Qwen3-VL (Alibaba) - 256K~1M 컨텍스트 비전 에이전트
- GLM-4.5V / GLM-4.1V-Thinking (Zhipu AI) - 강화학습 기반 멀티모달 추론
- MiniCPM-o 2.6 - 스마트폰용 비전/음성/풀듀플렉스 MLLM
- Magma (Microsoft) - 멀티모달 에이전트 파운데이션 (CVPR 2025)
- OpenCLIP - CLIP 오픈소스 구현
- Show-o - 멀티모달 이해/T2I 통합 모델
- Moondream - 0.5B/2B 초소형 VLM
- VILA (NVIDIA) - 엣지/데이터센터 SOTA VLM 패밀리
- OmniGen - 통합 이미지 생성 모델
- Skywork-R1V (Skywork AI) - 멀티모달 추론 SOTA
- Depth Anything V2 - 단안 깊이 추정 파운데이션
- OmniSVG - 멀티모달 SVG 생성 (NeurIPS 2025)
- MiniCPM-V (OpenBMB) - 엣지용 GPT-4V급 MLLM
음성과 오디오 모델 (Speech & Audio Models)
- NVIDIA NeMo Speech - Canary/Parakeet 포함 Speech AI 프레임워크
- FunASR - 산업급 종단간 음성인식 툴킷
- Whisper (OpenAI) - 오픈 STT 골드 스탠다드
- faster-whisper (SYSTRAN) - CTranslate2 기반 4배 빠른 Whisper
- OuteTTS - 고품질 다국어 오픈 TTS
- Fish Speech - 제로샷 음성 복제 TTS
- MusicGen / AudioCraft (Meta) - 오픈 음악/오디오 생성
- VibeVoice (Microsoft) - 7B 표현적 대화 TTS
- Qwen3-TTS (Alibaba) - 스트리밍 표현적 TTS 시리즈
- Chatterbox (Resemble AI) - 350M Turbo 오픈 TTS
- Dia (Nari Labs) - 1.6B 초현실적 대화 TTS
- Voxtral TTS (Mistral) - 4B SOTA TTS, 9개 언어
- Ultravox (Fixie AI) - 실시간 음성용 멀티모달 LLM
- WhisperSpeech - Whisper 역변환 TTS
- VoxCPM - 2B 토크나이저 없는 확산 자동회귀 TTS
- F5-TTS - 플로우 매칭 기반 TTS
- CosyVoice - 다국어 대형 음성 생성
- ChatTTS - 일상 대화 최적화 생성 음성
- SpeechBrain - PyTorch 음성 툴킷
비디오와 애니메이션 모델 (Video & Animation Models)
- Open-Sora (HPC-AI Tech) - 11B 비디오 생성 시스템
- Mochi 1 (Genmo) - 10B 오픈 비디오 모델
이미지 생성 모델
- Stable Diffusion XL - 1024px 차세대 이미지 생성
3. Inference Engines & Serving
모델을 로컬이나 프로덕션에서 돌리기 위한 추론 런타임과 서빙 시스템입니다.
로컬/온디바이스 추론 (Local / On-device Inference)
- llama.cpp - C/C++ GGUF 추론 엔진, OpenAI 호환 서버 포함
- Ollama - 원라인 설치 로컬 LLM 러너
- MLC-LLM - 브라우저/모바일/로컬 컴파일 배포 엔진
- WebLLM - WebGPU 브라우저 추론
- llama-cpp-python - llama.cpp 공식 파이썬 바인딩
- KoboldCpp - 롤플레잉 친화 llama.cpp 포크
- RamaLama - 컨테이너 중심 로컬 AI 서빙
- LiteRT-LM - Google 엣지 LLM 추론
- exo - 디바이스 클러스터링으로 프런티어 AI 로컬 실행
고성능 서빙과 API 서버 (High-performance Serving & API Servers)
- llm-d - K8s 네이티브 분산 LLM 추론
- LMDeploy - OpenMMLab LLM 압축/배포 툴킷
- vLLM - PagedAttention SOTA 서빙 엔진
- LMCache - LLM 추론용 KV 캐시 레이어
- vLLM Production Stack - K8s 네이티브 vLLM 프로덕션 스택
- nano-vLLM - 1,200줄 미니멀 vLLM
- SGLang - RadixAttention 차세대 서빙
- TensorRT-LLM - NVIDIA 공식 고성능 백엔드
- Aphrodite Engine - RP 최적화 vLLM 포크
- AIBrix - vLLM용 GenAI 인프라
- Triton Inference Server - NVIDIA 프로덕션 추론 서버
- mistral.rs - Rust 네이티브 LLM 추론 엔진
- KTransformers - CPU-GPU 이종 LLM 추론
- llamafile - 단일 파일 LLM 배포
- Xinference - 통합 프로덕션 추론 API
- RTP-LLM (Alibaba) - Taobao/Tmall 구동 고성능 LLM 엔진
- LitServe (Lightning AI) - FastAPI 대비 2배 빠른 AI 추론 서버
- LightLLM - 순수 파이썬 경량 LLM 서빙
- TabbyAPI - ExLlamaV2/V3용 FastAPI 서버
- GPUStack - vLLM/SGLang GPU 클러스터 매니저
- One-API - LLM API 게이트웨이/키 재배포
- OpenLLM (BentoML) - OSS LLM을 OpenAI 호환 엔드포인트로
- Higress (Alibaba) - AI 네이티브 API 게이트웨이
- NVIDIA Dynamo - 데이터센터급 분산 추론 서빙
- Microsoft BitNet - 1비트 LLM 공식 추론 프레임워크
추가 추론 엔진
- CTranslate2 - 트랜스포머 고속 추론 엔진
- llama-swap - llama.cpp 모델 스왑 프록시
- optillm - LLM 최적화 추론 프록시
- mllm - 모바일/엣지 멀티모달 LLM 엔진
- shimmy - 파이썬 프리 Rust 추론 서버
- PowerInfer - 소비자 GPU용 고속 추론 (최대 11배)
- distributed-llama - 홈 디바이스 분산 추론
- ik_llama.cpp - CPU/하이브리드 최적화 llama.cpp 포크
- xLLM - 중국산 가속기 최적 JD.com 엔진
- Mooncake - Kimi의 서빙 플랫폼
- gemma.cpp - Gemma용 경량 C++ 추론
- FlashInfer - LLM 서빙용 커널 라이브러리
- mini-sglang - SGLang 교육용 컴팩트 구현
양자화/증류/최적화 (Quantization, Distillation & Optimization)
- bitsandbytes - 8/4비트 옵티마이저와 양자화
- ExLlamaV2 - 4/8비트 최적 CUDA 커널
- Optimum - 하드웨어별 가속/양자화
4. Agentic AI & Multi-Agent Systems
에이전트 기반 시스템과 멀티에이전트 워크플로우 구축 프레임워크입니다.
단일 에이전트 프레임워크 (Single-Agent Frameworks)
- AutoGPT - 자율 AI 에이전트의 원조
- BabyAGI - 태스크 기반 자율 에이전트
- LangGraph - 상태형 제어형 에이전트 오케스트레이션
- CrewAI - 역할 기반 에이전트 프레임워크
- AutoGen (AG2) - 유연한 멀티에이전트 대화 프레임워크
- DSPy - LM 파이프라인 프로그래밍 프레임워크
- Semantic Kernel - 다언어 AI 에이전트 SDK
- smolagents - 도구 사용/코드 실행 경량 에이전트
- LangChain - 에이전트/체인/메모리 기초 라이브러리
- Neuron AI - PHP 에이전틱 프레임워크
- II-Agent - 멀티 모델 에이전트 프레임워크
- Hermes Agent (NousResearch) - 영구 메모리 자율 에이전트
- Strands Agents - 모델 주도 에이전트 빌더
- Agno - 고성능 멀티에이전트 프레임워크
- Upsonic - 핀테크/뱅킹용 에이전트 프레임워크
- VoltAgent - TypeScript 우선 AI 에이전트 플랫폼
- PocketFlow - 100줄 미니멀 LLM 프레임워크
- Agent Development Kit (Google) - Google 코드 우선 에이전트 툴킷
- PydanticAI - 타입 안전 AI 에이전트 프레임워크
- Qwen-Agent - Qwen 기반 에이전트 프레임워크
- Griptape - 모듈러 파이썬 에이전트 프레임워크
- Langroid - 멀티에이전트 프로그래밍
- Marvin - 구조화 출력/에이전트 파이썬 프레임워크
- Burr - 상태형 AI 앱 빌더 (Apache 인큐베이팅)
- KaibanJS - JS 네이티브 칸반 스타일 멀티에이전트
- Jido - Elixir 자율 에이전트 프레임워크
멀티에이전트 오케스트레이션 (Multi-Agent Orchestration)
- MetaGPT - 첫 AI 소프트웨어 회사 프레임워크
- ChatDev - 멀티에이전트 SW 개발 프레임워크
- CAMEL - 확장형 에이전트 시스템 빌더
- Swarms - 엔터프라이즈 멀티에이전트 오케스트레이션
- Mastra - TS 우선 에이전트 프레임워크
- Deer-Flow (ByteDance) - 장기 SuperAgent 하네스
- OpenAI Agents SDK - Swarm 후속 멀티에이전트 워크플로우
- Symphony (OpenAI) - 자율 구현 런 오케스트레이터
- Paperclip - 55K+ 별 AI 에이전트 회사 프레임워크
- AgentScope - Alibaba 프로덕션 멀티에이전트
- mcp-agent - MCP 기반 효과적 에이전트 빌더
- Microsoft Agent Framework - AutoGen + Semantic Kernel 통합
- Agency Swarm - OpenAI Assistants API 위 멀티에이전트
- elizaOS - 자율 멀티에이전트 프레임워크
- OpenManus - 범용 AI 에이전트 빌더
- OpenAgents - 협업 오픈 멀티에이전트
- Hive (Aden) - 프로덕션급 멀티에이전트 오케스트레이션
- Agent Squad (AWS Labs) - 유연한 멀티에이전트 오케스트레이션
- DeepResearchAgent - 계층형 딥리서치 멀티에이전트
- Composio Agent Orchestrator - 병렬 코딩 에이전트 오케스트레이터
- Open Multi-Agent - TS 네이티브 멀티 모델 오케스트레이션
- BeeAI Framework (IBM) - LF AI 멀티에이전트 프레임워크
- AI Town - AI 캐릭터 가상 마을 스타터킷
- Conductor OSS - 이벤트 주도 에이전틱 오케스트레이션
- A2A Protocol - Agent2Agent 오픈 프로토콜 (LF)
- Sim Studio - 비주얼 AI 에이전트 워크스페이스
- 2FastLabs Agent Squad - 경량 멀티에이전트 오케스트레이션
에이전트 프로토콜과 표준 (Agent Protocols & Standards)
- Agent File (Letta) - 에이전트 상태 직렬화 포맷 (.af)
자율 코딩 에이전트 (Autonomous Coding Agents)
- OpenHands - 풀피처 오픈소스 AI SW 엔지니어
- Goose - 확장형 온머신 개발 에이전트
- OpenCode - 터미널 네이티브 자율 코딩 에이전트
- Aider - CLI 페어 프로그래밍 에이전트
- Pi (badlogic) - 해시 앵커드 편집 터미널 에이전트
- Mistral-Vibe - Mistral 미니멀 CLI 코딩 에이전트
- Nanocoder - 로컬 우선 터미널 코딩 에이전트
- Gemini CLI (Google) - Gemini 오픈소스 터미널 에이전트
- Archon - 결정적 AI 코딩 에이전트 워크플로우 엔진
- mini-SWE-agent - 경량 코딩 에이전트
- Trae Agent (ByteDance) - SWE 에이전트
- Kilo Code - 오픈소스 에이전트 코딩 어시스턴트
- Open SWE - LangChain 비동기 코딩 에이전트
- Letta Code - 메모리 우선 코딩 하네스
- gptme - 터미널 내 로컬 도구 에이전트
프롬프트 엔지니어링과 구조화 출력 (Prompt Engineering & Structured Outputs)
- Outlines - LLM 구조화 출력 보장
- Promptify - 태스크 기반 NLP 엔진
- LangGPT - 구조화 메타 프롬프트 프레임워크
- AutoPrompt - 의도 기반 프롬프트 캘리브레이션
- Prompt Optimizer - AI 프롬프트 최적화 도구
- Guidance - LM 스티어링 프로그래밍 패러다임
- XGrammar - 구조화 생성 엔진
- LM Format Enforcer - 출력 포맷 강제
- AdalFlow - LLM-AutoDiff 자동 최적화
- PromptTools - 프롬프트 테스팅/실험 도구
도메인 특화 에이전트 (Domain-Specific Agents)
- Composio - 1000+ 툴킷 통합 레이어
- Langflow - 로우코드 비주얼 에이전트
- Dify - 프로덕션급 에이전트 워크플로우
- OWL (camel-ai/owl) - 고급 멀티에이전트 협업
- gpt-researcher - 자율 딥리서치 에이전트
- AI-Scientist-v2 (SakanaAI) - 자동 과학 발견 에이전트
- PraisonAI - 로우코드 멀티에이전트
- Agent-S (Simular AI) - 컴퓨터 사용 에이전트 (OSWorld SOTA)
- MobileAgent (Alibaba/X-PLUG) - 자율 모바일 GUI 에이전트
- UI-TARS Desktop (ByteDance) - 데스크톱 GUI 에이전트
- Browser Use - AI 에이전트용 웹 자동화
- Steel Browser - 에이전트용 오픈소스 브라우저 API
- TradingAgents - 금융 트레이딩 멀티에이전트
- Parlant - 고객 응대 AI 컨텍스트 엔지니어링
- n8n - 셀프호스트 워크플로우 자동화
- Activepieces - 오픈소스 자동화 플랫폼
- Julep - 상태형 에이전트 워크플로우
- uAgents (Fetch.ai) - 탈중앙 에이전트 프레임워크
- Tracecat - 셀프호스트 보안 자동화
- ToolJet - 셀프호스트 내부 앱 빌더
에이전트 메모리와 상태 (Agent Memory & State)
- Letta (ex-MemGPT) - 상태형 에이전트 메모리 플랫폼
- Mem0 - 범용 AI 에이전트 메모리 레이어
- Hindsight (Vectorize) - SOTA 장기 메모리
5. Retrieval-Augmented Generation (RAG) & Knowledge
벡터 DB, 임베딩 모델, RAG 파이프라인 도구 모음입니다.
벡터 DB와 검색 엔진 (Vector Databases & Search Engines)
- Chroma - 인기 오픈 임베딩 DB
- Qdrant - Rust 고성능 벡터 검색
- Weaviate - GraphQL 네이티브 벡터 검색
- Milvus - 확장형 클라우드 네이티브 벡터 DB
- Faiss - 유사도 검색/클러스터링
- LanceDB - 서버리스 멀티모달 벡터 DB
- Vespa - 하이브리드 검색 AI+데이터 플랫폼
- pgvector - PostgreSQL 벡터 확장
- pgvectorscale - DiskANN 확장형 PG 벡터
- VectorChord - Postgres 디스크 친화 벡터 검색
- Quickwit - 옵저버빌리티용 클라우드 검색 엔진
- Tantivy - Lucene 영감 Rust 풀텍스트 검색
- Manticore Search - ES 대안 검색 DB
- OpenSearch - 분산 검색/분석 슈트
- Marqo - 멀티모달 벡터 검색
- Vald - 확장 분산 벡터 검색
- hnswlib - 헤더 온리 ANN C++ 라이브러리
- sqlite-vec - SQLite 벡터 검색 확장
- zvec (Alibaba) - 인프로세스 벡터 DB
- Meilisearch - 초고속 하이브리드 검색
- Typesense - Algolia/Pinecone 대안
- Elasticsearch - 분산 검색/분석 엔진
- Apache Solr - 성숙한 Lucene 검색 플랫폼
- RediSearch - Redis 풀텍스트/벡터 검색
- ParadeDB - Postgres 네이티브 검색
- Orama - 경량 풀텍스트/벡터 검색
- HelixDB - 그래프-벡터 DB
- USearch - 단일 파일 ANN 엔진
- Voyager (Spotify) - Spotify ANN 라이브러리
- Deep Lake - 에이전트용 AI 데이터 런타임
- DiskANN (Microsoft) - SSD 기반 빌리언 벡터 ANN
- SPTAG (Microsoft) - Bing 구동 분산 ANN
- nanoflann - C++ KD트리 ANN
- NMSLIB - 비메트릭 유사도 검색
- Vearch - 클라우드 네이티브 분산 벡터 DB
- JVector (DataStax) - Java 임베디드 벡터 검색
- VectorDBBench (Zilliz) - 벡터 DB 벤치마크 슈트
임베딩 모델 (Embedding Models)
- BGE (FlagEmbedding) - BAAI 최강 임베딩 패밀리
- E5 (Microsoft) - 고성능 텍스트 임베딩
- FastEmbed (Qdrant) - ONNX 경량 임베딩 라이브러리
- EmbedAnything - Rust 멀티모달 임베딩 파이프라인
- Text Embeddings Inference (HF) - 고속 임베딩 추론 서버
임베딩 벤치마크 (Embedding Benchmarks)
- MTEB - 산업 표준 임베딩 벤치마크
RAG 프레임워크와 고급 검색 도구 (RAG Frameworks & Advanced Retrieval Tools)
- EmbedChain - 범용 RAG 메모리 레이어
- LlamaIndex - 풀피처 RAG 파이프라인
- Haystack - 엔드투엔드 NLP/RAG 프레임워크
- RAGFlow - 딥 문서 이해 RAG 엔진
- GraphRAG (Microsoft) - 지식 그래프 기반 RAG
- Docling - GenAI용 문서 처리 툴킷
- Unstructured - 최고급 문서 전처리
- MinerU - 고정밀 LLM/RAG용 문서 파싱
- Marker - PDF-to-markdown 변환기
- ColPali / ColQwen - 문서 검색용 VLM
- LightRAG - 그래프 기반 RAG (EMNLP 2025)
- RAG-Anything - 올인원 멀티모달 RAG
- RAGLite (Superlinear) - DuckDB/PG 파이썬 RAG 툴킷
- GPT-RAG (Azure) - Azure 엔터프라이즈 RAG
- LangChain4j - Java LLM 통합 라이브러리
- Kernel Memory (Microsoft) - RAG 메모리 솔루션
- txtai - 시맨틱 검색/LLM 워크플로우
- Infinity (Embeddings Server) - 임베딩/리랭킹 서빙 엔진
- FlashRAG - RAG 연구용 효율 툴킷
- DocsGPT - 프라이빗 AI 에이전트/어시스턴트
- llmware - 소형 모델 엔터프라이즈 RAG
- AutoFlow - TiDB 그래프 RAG 지식베이스
- rerankers (Answer.AI) - 리랭킹 통합 API
- KAG (OpenSPG) - 지식 증강 생성 프레임워크
- Chonkie - 경량 문서 청킹 라이브러리
- PageIndex (VectifyAI) - 벡터리스 추론 기반 RAG
- Kotaemon (Cinnamon) - 오픈소스 문서 챗 RAG
- Reader (Jina AI) - URL을 LLM 친화 입력으로 변환
- UltraRAG (OpenBMB) - 첫 MCP 기반 경량 RAG
- Semantic Router - 시맨틱 LLM 의사결정 레이어
- Neurite - 프랙탈 GoT 마인드매핑
- Verba - Weaviate 기반 골든 RAG트리버
- Pathway - 스트림 처리/RAG 파이썬 ETL
- Infinity (AI Database) - LLM 앱용 AI 네이티브 DB
- PrivateGPT - 프라이빗 문서 Q&A
- FastGPT - 지식베이스 플랫폼
- MaxKB - 셀프호스트 지식베이스/에이전트
- DB-GPT - 셀프호스트 AI 데이터 어시스턴트
- localGPT - 로컬 문서 챗
- SurfSense - 프라이버시 NotebookLM 대안
- Morphik - 오픈소스 멀티모달 RAG
RAG용 지식 그래프 (Knowledge Graphs for RAG)
- Graphiti (Zep) - 실시간 시간형 지식 그래프
웹 데이터 인제스천 (Web Data Ingestion)
- Crawl4AI - LLM 친화 웹 크롤러
- Lightpanda - 머신 우선 헤드리스 브라우저 (Zig)
- Paperless-AI - Paperless-ngx 자동 분석기
- Firecrawl - AI용 웹 데이터 API
문서 변환과 전처리 (Document Conversion & Preprocessing)
- MarkItDown (Microsoft) - 파일을 Markdown으로 변환
- OmniParse - 비정형 데이터 인제스트/파싱
- DocETL (UC Berkeley) - LLM 기반 문서 ETL
LLM 애플리케이션 프레임워크 (LLM Application Frameworks)
- aisuite (Andrew Ng) - 통합 GenAI 프로바이더 인터페이스
- Spring AI - Spring 생태계 AI 앱 프레임워크
- Rig - Rust LLM 앱 라이브러리
- Ax - TS용 DSPy 영감 프레임워크
- Genkit - 풀스택 AI 앱 프레임워크 (JS/Go/Python)
- ContextGem - 문서 LLM 추출 프레임워크
- Eino (CloudWeGo) - Go LLM 앱 개발 프레임워크
- ruby_llm - 통합 Ruby LLM API
- LangChain.rb - Ruby LLM 앱 빌더
6. Generative Media Tools
이미지/비디오/오디오/3D 생성과 편집용 오픈소스 모델과 앱입니다.
이미지 생성과 편집 (Image Generation & Editing)
- ComfyUI - 노드 기반 비주얼 워크플로우
- Stable Diffusion WebUI Forge - Neo - Forge 기반 SD 웹UI
- Fooocus - Midjourney 스타일 UI
- Diffusers (HF) - 확산 파이프라인 PyTorch 라이브러리
- InvokeAI - 풀피처 크리에이티브 스튜디오
- PowerPaint (OpenMMLab) - 다목적 이미지 인페인팅 (ECCV 2024)
- SD.Next - 올인원 생성 웹UI
- Qwen-Image (Alibaba) - 20B MMDiT 이미지 파운데이션
- Upscayl - 오픈소스 AI 이미지 업스케일러
- Z-Image (Tongyi) - 6B 효율적 이미지 생성 패밀리
- Krita AI Diffusion - Krita 플러그인
페이스 스왑과 딥페이크 (Face Swap & Deepfake)
- Deep-Live-Cam - 단일 이미지 실시간 페이스 스왑
포트레이트 애니메이션 (Portrait Animation)
- EchoMimic (Ant Group) - 오디오 주도 포트레이트 애니메이션 (AAAI 2025)
비디오 생성 (Video Generation)
- Wan2.2 (Alibaba) - 선도 오픈 MoE 텍스트-비디오
- HunyuanVideo (Tencent) - 13B 비디오 생성 프레임워크
- SkyReels V2/V3 (Skywork) - 첫 오픈소스 무한 길이 영화 생성
- LTX-Video (Lightricks) - 고속 네이티브 4K 비디오
- Open-Sora-Plan (PKU-YuanGroup) - Sora 재현 오픈 파이프라인
- Helios (PKU-YuanGroup) - 효율 장편 비디오 생성
- WhisperLive - 실시간 Whisper STT
오디오/음악/음성 생성 (Audio / Music / Voice Generation)
- ACE-Step 1.5 - 로컬 우선 음악 생성
- Amphion - 오디오/음악/음성 생성 종합 툴킷
- Stable Audio Tools - Stability AI 오디오 생성
- GPT-SoVITS - 1분 데이터 퓨샷 음성 복제
- Real-Time Voice Cloning - 5초 음성 복제
3D와 크리에이티브 도구 (3D & Creative Tools)
- gsplat - 고성능 3D Gaussian Splatting
- LichtFeld-Studio - 3D Gaussian Splatting 네이티브 앱
- OpenSplat - 프로덕션급 3D Gaussian Splatting
7. Training & Fine-tuning Ecosystem
모델 학습, 파인튜닝, 합성 데이터 생성, 분산 학습 도구들입니다.
전체 학습 프레임워크 (Full Training Frameworks)
- Oumi - 100+ 모델 200+ 레시피 오픈 플랫폼
- LLaMA-Factory - 원스톱 SFT/DPO/ORPO/KTO 웹UI
- Axolotl - YAML 풀 파이프라인
- ms-swift - 600+ LLM 통합 학습 (AAAI 2025)
- Unsloth - 2배 빠르고 70% 적은 메모리 파인튜닝
- LitGPT - 20+ LLM 클린 구현
- LLM Foundry - Databricks 학습 프레임워크
- torchtune - PyTorch 네이티브 포스트트레이닝
- kohya_ss - SD 학습 GUI/CLI
- TRL (HF) - RLHF/SFT/DPO 공식 라이브러리
- verl (Volcano Engine) - PPO/GRPO/REINFORCE++ (EuroSys 2025)
- NeMo-RL - DTensor/Megatron RL 툴킷
- OpenRLHF - Ray 기반 확장 RLHF
- LMFlow - 확장 파인튜닝 툴킷
- XTuner - 초대형 MoE 차세대 학습 엔진
- Ludwig - 로우코드 커스텀 LLM 빌더 (LF)
- nanoGPT (Karpathy) - 가장 단순한 GPT 학습 리포
- TorchTitan (PyTorch) - 4D 병렬 GenAI 학습 플랫폼
- VeOmni (ByteDance) - 멀티모달 분산 학습 레시피
- H2O LLM Studio - 노코드 LLM 파인튜닝 GUI
- TinyZero - DeepSeek R1-Zero 미니 재현
- PRIME-RL - 1000+ GPU 에이전틱 RL
- slime (THUDM) - RL 스케일링 포스트트레이닝
- rLLM - LLM RL 민주화
- EasyR1 - 효율 멀티모달 RL (veRL 확장)
- Search-R1 - 추론+검색 RL 프레임워크
- simpleRL-reason - 단순 RL 추론 향상 레시피
- align-anything - 전모달 정렬 학습
- LeRobot (HF) - 로보틱스 AI 접근성
- AI-Toolkit - 확산 모델 파인튜닝 툴킷
- OneTrainer - 통합 확산 학습 솔루션
- FluxGym - 단순 FLUX LoRA 학습 UI
- MiniMind - 2시간 $3로 64M LLM 학습
- FastChat - Chatbot Arena 구동 LLM 플랫폼
- PaddleNLP - PaddlePaddle 기반 LLM 라이브러리
LoRA / PEFT 도구
- PEFT (HF) - LoRA/QLoRA/DoRA 공식 라이브러리
- Liger Kernel (LinkedIn) - 초고속 학습 가속 커널
- MergeKit - 고급 모델 머징 도구
합성 데이터 생성 (Synthetic Data Generation)
- distilabel (Argilla) - 합성 지시 데이터 파이프라인
- Data-Juicer (Alibaba) - LLM 학습용 고성능 데이터 처리
- Argilla - 데이터 라벨링/합성 플랫폼
- SDV - 표/관계형 합성 데이터
- DataTrove (HF) - 플랫폼 독립 데이터 파이프라인
- Bespoke Curator - 합성 데이터 큐레이션
- SDG (HITSZ) - 표 합성 데이터 프레임워크
분산 학습 (Distributed Training)
- DeepSpeed - 극대 규모 학습 최적화
- Colossal-AI - 100B+ 통합 시스템
- Megatron-LM (NVIDIA) - 대형 트랜스포머 분산 학습
- Ray Train - 확장형 분산 학습
- Nanotron (HF) - 3D 병렬 LLM 사전학습
- veScale (ByteDance) - 하이퍼스케일 PyTorch 분산
- RLinf - 확장형 RL 인프라
- dstack - 벤더 독립 학습/추론 오케스트레이션
- Streaming (MosaicML) - 효율적 학습 데이터 스트리밍
모델 양자화와 최적화 (Model Quantization & Optimization)
- LLM Compressor (vLLM) - vLLM용 LLM 압축 라이브러리
- NVIDIA Model Optimizer - SOTA 모델 최적화 통합 라이브러리
8. MLOps / LLMOps & Production
AI 시스템을 프로덕션에서 추적, 배포, 모니터링, 운영하는 도구들입니다.
실험 추적과 버저닝 (Experiment Tracking & Versioning)
- MLflow - ML/LLM 라이프사이클 엔드투엔드 플랫폼
- DVC - 데이터/모델 Git-스타일 버저닝
- ClearML - 실험 추적/오케스트레이션/서빙
- Weights & Biases Weave - 오픈소스 트레이싱/실험 추적
- Aim - 셀프호스트 ML 실험 트래커
- Feast - 오픈소스 피처 스토어
- OpenLineage - 리니지 메타데이터 수집 표준
- Marquez - LF AI 메타데이터 수집/시각화
모델 허브와 레지스트리 (Model Hubs & Registries)
- Civitai - 생성 AI 모델 허브
- Hugging Face Hub - 공식 HF Hub 파이썬 클라이언트
- ModelScope - 700+ SOTA 모델 MaaS 플랫폼
- OpenVINO Open Model Zoo - Intel 최적 사전학습 모델
- ONNX Model Zoo - ONNX 포맷 SOTA 모델
- Transformers.js - 브라우저 ML
- DJL - Java 엔진 독립 딥러닝
- PaddleSeg - 이미지 분할 모델 주
- TorchVision Models - PyTorch 공식 CV 라이브러리
- TensorFlow Model Garden - TF SOTA 모델 리포
- PINTO Model Zoo - 프레임워크 간 변환 모델
- Cerebras Model Zoo - Cerebras 하드웨어 최적 모델
- PaddleClas - 이미지 인식/분류 툴킷
모델 패키징과 배포 (Model Packaging & Deployment)
- Cog (Replicate) - ML 모델 컨테이너화/배포
배포와 오케스트레이션 (Deployment & Orchestration)
- BentoML - AI 앱 빌드/배포/확장 프레임워크
- ZenML - ML/LLM 파이프라인 프레임워크
- Kubeflow - K8s 네이티브 ML/LLM 플랫폼
- KServe - K8s 모델 서빙
- Seldon Core - MLOps/LLMOps K8s 프레임워크
- Metaflow (Netflix) - Netflix ML 플랫폼
- Flyte - K8s 워크플로우 오케스트레이션
- Prefect - 워크플로우 오케스트레이션
- Dagster - 클라우드 네이티브 오케스트레이션
- Kubeflow Pipelines - K8s ML 파이프라인
- Argo Workflows - CNCF 컨테이너 워크플로우
- MLRun - AI 오케스트레이션 플랫폼
- Kestra - 이벤트 주도 오케스트레이션
- KitOps - CNCF AI/ML 패키징/공유
- Polyaxon - K8s MLOps 도구
- Netflix Maestro - 차세대 워크플로우 오케스트레이터
- HAMi - K8s 이종 GPU 공유 (CNCF)
- NVIDIA KAI Scheduler - K8s GPU 스케줄러
- NVIDIA DeepOps - GPU 클러스터 자동화
- SkyPilot - 모든 AI 인프라 워크로드 실행
- Volcano - 클라우드 네이티브 배치 스케줄링
- Apache YuniKorn - K8s 리소스 스케줄러
- Kueue - K8s 잡 큐잉 시스템
피처 엔지니어링과 데이터 준비 (Feature Engineering & Data Preparation)
- Featuretools - 자동 피처 엔지니어링
- Kedro - 프로덕션 데이터 사이언스 툴박스
- Feature-engine - 피처 엔지니어링 트랜스포머
- NVTabular - GPU 가속 표 데이터 피처 엔지니어링
- OpenMLDB - ML 데이터베이스/피처 플랫폼
모니터링, 평가, 옵저버빌리티 (Monitoring, Evaluation & Observability)
- Langfuse - #1 오픈소스 LLM 옵저버빌리티
- Phoenix (Arize) - AI 옵저버빌리티/평가
- Evidently - ML/LLM 모니터링
- Deepchecks - 종합 검증/테스팅 슈트
- Opik (Comet) - 프로덕션 LLM 평가 플랫폼
- LiteLLM - 100+ LLM API 게이트웨이
- OpenLIT - OpenTelemetry LLM 옵저버빌리티
- OpenLLMetry (Traceloop) - OTel GenAI 옵저버빌리티
- Agenta - 오픈소스 LLMOps 플랫폼
- Latitude - 오픈 에이전트 엔지니어링 플랫폼
- Helicone - LLM 옵저버빌리티
- Giskard - 오픈 평가/테스팅 라이브러리
- Portkey Gateway - 200+ LLM AI 게이트웨이
- TensorZero - 통합 LLMOps 플랫폼
- Envoy AI Gateway - K8s AI 게이트웨이
- Pezzo - 클라우드 네이티브 LLMOps
- Microsoft PromptFlow - LLM 앱 개발 슈트
- ChainForge - 비주얼 프롬프트 테스팅
가드레일과 안전 도구 (Guardrails & Safety Tools)
- LLM Guard - LLM 보안 종합 툴킷
- PurpleLlama (Meta) - LLM 보안 평가/개선
- Garak (NVIDIA) - LLM 취약점 스캐너
- Promptfoo - LLM 평가/레드티밍
- DeepTeam (Confident AI) - LLM 레드티밍 프레임워크
9. Evaluation, Benchmarks & Datasets
벤치마크, 평가 프레임워크, 데이터셋, 모델 평가 지원 도구입니다.
벤치마크 슈트 (Benchmark Suites)
- LiveBench - 오염 프리 LLM 벤치마크 (ICLR 2025)
- lm-evaluation-harness (EleutherAI) - 생성 모델 평가 표준
- HELM (Stanford) - 종합 LLM 평가
- SWE-bench - 실제 GitHub 이슈 평가
- GAIA - 실세계 멀티스텝 에이전틱 벤치마크
- OpenCompass - LLM/MLLM 평가 플랫폼
- MLPerf Inference - 산업 표준 추론 벤치마크
- MLPerf Training - 산업 표준 학습 벤치마크
- VLMEvalKit - 220+ LMM 평가 툴킷
- Vectara Hallucination Leaderboard - LLM 환각 리더보드
- SWE-rebench (Nebius) - 21,000+ SWE 태스크 벤치마크
- AgentBench (THUDM) - 에이전트 LLM 평가 (ICLR 2024)
- MLE-bench (OpenAI) - ML 엔지니어링 에이전트 벤치마크
- WebArena - 자율 에이전트 웹 환경 (ICLR 2024)
- PinchBench - 코딩 에이전트 평가 시스템
평가 프레임워크 (Evaluation Frameworks)
- DeepEval - LLM용 Pytest
- Inspect AI (UK AISI) - 영국 AISI LLM 평가 프레임워크
- RAGAs - 엔드투엔드 RAG 평가
- Lighteval (HF) - 멀티 백엔드 LLM 평가
- HF Evaluate - 표준화된 평가 메트릭
- OpenAI Evals - LLM 평가 프레임워크
- LMMs-Eval - 통합 멀티모달 평가
- BrowserGym (ServiceNow) - 웹 자동화 Gym 환경
- TruLens - LLM/에이전트 평가/추적
- OpenEvals (LangChain) - 오픈 LLM/에이전트 평가
- AutoRAG - RAG AutoML 최적화 도구
- E2B Code Interpreter - 격리 샌드박스 AI 코드 실행
- SimpleEvals (OpenAI) - 경량 LM 평가 라이브러리
- EvalScope (ModelScope) - 대형 모델 평가 프레임워크
- Harbor - 에이전트 평가/RL 환경 프레임워크
고품질 오픈 데이터셋과 데이터 도구 (High-quality Open Datasets & Data Tools)
- Hugging Face Datasets - 최대 오픈 데이터셋 리포지토리
- Cleanlab - 데이터셋 이슈 자동 발견/수정
- FineWeb / FineWeb-2 (HF) - 큐레이션 15T+ 토큰 웹 데이터셋
- OSWorld - 멀티모달 에이전트 벤치마크
- OpenThoughts - 완전 오픈 추론 데이터 큐레이션
10. AI Safety, Alignment & Interpretability
정렬, 해석성, 안전성 평가, 적대적 테스트 도구입니다.
안전성 평가 프레임워크 (Safety Evaluation Frameworks)
- AgentOps - AI 에이전트 모니터링 SDK
- Bloom (Anthropic safety-research) - 자동 행동 평가 에이전틱 프레임워크
정렬과 RLHF 도구 (Alignment & RLHF Tools)
- Safe-RLHF - 안전 RLHF
- Alignment Handbook (HF) - 풀스택 정렬 레시피
해석성과 설명가능성 (Interpretability & Explainability)
- interpret (Microsoft) - 해석 가능 모델/SHAP
- TransformerLens - 기계적 해석성 골드 스탠다드
- SAELens - 해석 가능 피처 SAE
- Captum (PyTorch) - PyTorch 공식 해석성 라이브러리
- XAI - eXplainability 툴박스
- EasyEdit - LLM 지식 편집 (ACL 2024)
- AIX360 - 종합 AI 설명가능성 툴킷
- ELI5 - ML 분류기 디버깅/예측 설명
- Shapash - 사용자 친화 설명가능성 라이브러리
공정성과 편향 완화 (Fairness & Bias Mitigation)
- AI Fairness 360 (Trusted-AI) - 알고리즘 편향 탐지/완화 툴킷
- Fairlearn - ML 모델 공정성 평가/개선
적대적/레드티밍 도구 (Adversarial & Red-teaming Tools)
- PyRIT (Microsoft) - GenAI 위험 식별 도구
- Adversarial Robustness Toolbox (ART) - ML 보안 파이썬 라이브러리
- Agentic Security - 에이전틱 LLM 취약점 스캐너
- NeMo Guardrails (NVIDIA) - 프로그래머블 가드레일 툴킷
- Guardrails AI - I/O 검증 프레임워크
- Detoxify - 독성 코멘트 예측 모델
- RedAmon - AI 에이전틱 레드팀 프레임워크
- CAI - 사이버보안 AI 프레임워크
- AI-Infra-Guard (Tencent) - AI 풀스택 레드티밍 플랫폼
- PentestAgent - AI 블랙박스 보안 테스트 에이전트
- Superagent - 프롬프트 인젝션/데이터 누출 방어
책임 있는 AI 개발 (Responsible AI Development)
- Responsible AI Toolbox (Microsoft) - AI 시스템 책임 개발 도구
11. Specialized Domains
특정 분야에 특화된 모델과 도구들입니다.
기상/기후 AI (Weather & Climate AI)
- GraphCast (Google DeepMind) - 딥러닝 기상 예측 모델
과학 AI와 물리 ML (Scientific AI & Physics ML)
- NVIDIA Modulus - 물리 정보 ML (Physics-ML) 프레임워크
- TorchGeo (Microsoft) - 지리공간 PyTorch 도메인 라이브러리
- Astropy - 천문/천체물리 파이썬 코어
과학 AI와 신약 개발 (Scientific AI & Drug Discovery)
- Boltz - 오픈 생체분자 상호작용 예측
- Protenix (ByteDance) - 고정밀 오픈 생체분자 구조 예측
- OpenFold - AlphaFold2 PyTorch 재현
- DeepChem - 신약/양자화학/생물용 딥러닝
확률적 프로그래밍과 베이즈 ML (Probabilistic Programming & Bayesian ML)
- PyMC - 모던 확률적 프로그래밍 프레임워크
- ArviZ - 베이즈 모델 탐색 분석
- Stanza (Stanford) - 100+ 언어 NLP 라이브러리
의료 영상과 헬스케어 AI (Medical Imaging & Healthcare AI)
게임 AI와 시뮬레이션 (Game AI & Simulations)
- Unity ML-Agents - 게임/시뮬레이션 RL 에이전트 학습
- Tianshou (THU) - PyTorch 딥 RL 라이브러리
- RL Baselines3 Zoo - Stable Baselines3 학습 프레임워크
- skrl - 모듈형 RL 라이브러리
- Finetrainers (HF) - 확산 모델 학습
- OpenSpiel (Google DeepMind) - RL/검색/플래닝 환경
금융과 퀀트 AI (Finance & Quantitative AI)
- OpenBB - 금융 데이터 플랫폼
- FinGPT (AI4Finance) - 오픈 금융 LLM
- FinRL (AI4Finance) - 금융 RL 프레임워크
- Qlib (Microsoft) - AI 퀀트 투자 플랫폼
- FinRobot (AI4Finance) - LLM 금융 분석 에이전트
컴퓨터 비전 (Computer Vision)
- OpenCV - 가장 널리 쓰이는 CV 라이브러리
- Ultralytics YOLO - SOTA 실시간 객체 탐지
- Detectron2 - 고성능 객체 탐지
- CVAT - 산업 표준 CV 데이터 라벨링
- SAM 2 - 프롬프트 가능 이미지/비디오 분할
- Kornia - 미분 가능 CV 라이브러리
- torchaudio - PyTorch 오디오 처리
- MediaPipe (Google) - 크로스 플랫폼 멀티모달 파이프라인
3D 비전과 포인트 클라우드 처리 (3D Vision & Point Cloud Processing)
- Open3D - 모던 3D 데이터 처리 라이브러리
- Point Cloud Library (PCL) - 2D/3D 포인트 클라우드 처리
- PyTorch3D - FAIR 3D 딥러닝 컴포넌트
- RTAB-Map - 실시간 외관 기반 SLAM
- MoveIt 2 - ROS 2 로보틱스 매니퓰레이션
강화학습과 로보틱스 (Reinforcement Learning & Robotics)
- Stable-Baselines3 - 프로덕션급 RL 알고리즘
- Isaac Lab - GPU 가속 로봇 학습
- MuJoCo (Google DeepMind) - 범용 물리 시뮬레이터
- Gymnasium - 표준 RL 환경 API
시계열과 과학 AI (Time Series & Scientific AI)
- Time Series Library (TSLib) - 시계열 모델 종합 벤치마크
- Chronos (Amazon) - 시계열 예측 파운데이션 모델
- GluonTS (AWS Labs) - 확률적 시계열 모델링
- AutoTS - 자동 시계열 예측
엣지/온디바이스 AI (Edge / On-device AI)
- ExecuTorch - PyTorch 모바일/엣지 런타임
- OpenVINO - Intel 엣지 배포 툴킷
- Apache TVM - 오픈 ML 컴파일러 프레임워크
- NCNN (Tencent) - 모바일 고성능 신경망 추론
- MNN (Alibaba) - 초고속 경량 추론 엔진
법률 AI와 계약 분석 (Legal AI & Contract Analysis)
- OpenContracts - 셀프호스트 법률 문서 주석 플랫폼
자율주행과 로보틱스 시뮬레이터 (Autonomous Driving & Robotics Simulators)
- CARLA - 자율주행 연구 오픈 시뮬레이터
- Webots - 멀티 플랫폼 로봇 시뮬레이터
- Habitat-Sim (Meta) - 임바디드 AI 3D 시뮬레이터
- NASA Astrobee - NASA 자유 비행 로봇 SW
- OpenPilot - 로보틱스 OS, 300+ 차종 ADAS
- Autoware - 자율주행 오픈소스 표준
12. User Interfaces & Self-hosted Platforms
로컬 AI 챗 UI와 개인 비서 (Local AI Chat UIs & Personal Assistants)
- OpenClaw - 로컬 우선 개인 AI 어시스턴트
- Open WebUI - 인기 셀프호스트 ChatGPT 스타일 UI
- text-generation-webui - 로컬 LLM 웹 UI
- LobeChat - 세련된 모던 챗 UI
- LibreChat - 다중 LLM 풀피처 인터페이스
- HuggingChat - HuggingChat 공식 셀프호스트 코드
- Khoj - 셀프호스트 개인 AI 어시스턴트
- Newelle - GNOME/Linux 데스크톱 가상 비서
- NextChat - 경량 멀티플랫폼 AI 어시스턴트
- big-AGI - 파워 유저용 AI 슈트
- Morphic - AI 생성 UI 검색 엔진
- Leon - 오픈 개인 비서
- Willow - 오픈 로컬 음성 비서
- CoPaw (AgentScope) - 개인 AI 어시스턴트
- Smart2Brain - Obsidian AI 세컨드 브레인
- Casibase - 엔터프라이즈 AI 지식베이스/에이전트
- BionicGPT - 팀용 온프렘 ChatGPT 대체
풀 셀프호스트 AI 플랫폼 (Full Self-hosted AI Platforms)
- AnythingLLM - 올인원 RAG + 에이전트 플랫폼
- Flowise - 드래그앤드롭 LLM 앱 빌더
- LocalAI - 오픈 셀프호스트 OpenAI 호환 엔진
- Onyx - 풀피처 AI 플랫폼 (Chat/RAG/Agents)
- biniou - 30+ 생성 AI 셀프호스트 웹UI
- Self-hosted AI Starter Kit (n8n) - n8n 로컬 AI 도커 템플릿
- CoAI - 차세대 멀티 테넌트 AI 솔루션
- Plane - 오픈 Jira/Linear 대안
- RAG Web UI - RAG 기반 대화 시스템
데스크톱과 모바일 AI 앱 (Desktop & Mobile AI Apps)
- Jan - 로컬 우선 AI 앱 프레임워크
- Cherry Studio - AI 생산성 스튜디오
- DeepChat - MCP/ACP 스마트 어시스턴트
- SillyTavern - 커스터마이즈 가능 RP 프론트엔드
- ChatALL - 다중 AI 동시 챗
- Chatbox - 파워풀 데스크톱 AI 클라이언트
- Maid - Android llama.cpp 인터페이스
- Dive - 오픈 MCP 호스트 데스크톱 앱
- PocketPal AI - 폰용 SLM 앱
에이전트와 음성 인프라 (Agent & Voice Infrastructure)
- LiveKit Agents - 실시간 음성 AI 에이전트 프레임워크
- Pipecat - 음성/멀티모달 대화 AI 프레임워크
- Agent Chat UI (LangChain) - LangGraph 에이전트 챗 웹앱
13. Developer Tools & Integrations
AI 네이티브 IDE와 개발 환경 (AI-Native IDEs & Development Environments)
- Ralph - Claude Code 자율 개발 루프
- Nimbalyst (Crystal) - 다중 Codex/Claude Code 워크트리 데스크톱 앱
- Nezha - AI 에이전트 시대 코드 에디터
- Aider Desk - aider 데스크톱 UI
- Zed - 고성능 멀티플레이어 코드 에디터
- Void Editor - AI 네이티브 VS Code 포크
- Code Server (Coder) - 브라우저 VS Code
- Gitpod - 클라우드 개발 환경 플랫폼
- Onlook - AI 우선 React 디자인 에디터
- Daytona - AI 생성 코드 안전 실행 인프라
AI 코딩 어시스턴트 (오픈소스)
- Continue - VS Code/JetBrains 오픈 코파일럿
- Tabby - 셀프호스트 AI 코딩 어시스턴트
- Cline - 오픈 IDE 코딩 에이전트
- Open Interpreter - LLM 로컬 코드 실행
- Roo Code - 오픈 에디터 기반 코딩 에이전트
- Aider (terminal) - 터미널 AI 페어 프로그래머
- Kimi CLI (Moonshot) - Kimi 터미널 코딩 어시스턴트
- Refact - 오픈 AI 코드 어시스턴트
- Qwen Code - Qwen 터미널 AI 에이전트
- DeepCode (HKUDS) - 논문→프로덕션 코드 자동화
노트북과 인터랙티브 컴퓨팅 (Notebooks & Interactive Computing)
- Open Notebook - Notebook LM 오픈소스 구현
- Deta Surf - 로컬 우선 개인 AI 노트북
- Quarto - 과학 출판 시스템
- Drawdata - 노트북 내 데이터셋 그리기
- Deepnote - AI 우선 Jupyter 대체
- Zasper - Go 고성능 Jupyter IDE
IDE 플러그인과 확장 (IDE Plugins & Extensions)
- llama.vim - Vim용 llama.cpp 코드 완성
- CodeCompanion.nvim - Neovim AI 코딩 어시스턴트
- ProxyAI - JetBrains 오픈 AI 코파일럿
- avante.nvim - Cursor 같은 Neovim AI IDE
- Serena - 코딩 에이전트용 MCP 툴킷
- vim-ai - Vim AI 코드 어시스턴트
- windsurf.vim - Vim용 무료 Copilot 대안
- Jupyter AI - 노트북 내 챗/코드 생성
- Minuet AI - Neovim 자동 코드 완성
- Peekaboo - macOS CLI/MCP 스크린샷 자동화
UI 컴포넌트와 챗 라이브러리 (UI Components & Chat Libraries)
- Assistant UI - React AI 챗 인터페이스 빌더
- Deep Chat - 커스터마이즈 AI 챗봇 컴포넌트
- CopilotKit - 풀스택 에이전틱 앱 SDK
CLI 도구와 API 클라이언트 (CLI Tools & API Clients)
- Ruler - 중앙 AI 에이전트 룰 레지스트리
- PR-Agent (Qodo) - AI 코드 리뷰 에이전트
- LLM (Simon Willison) - LLM CLI/파이썬 라이브러리
- AIChat - Rust 올인원 LLM CLI
- aicommits - AI Git 커밋 메시지 CLI
- Codex CLI (OpenAI) - OpenAI 경량 터미널 코딩 에이전트
- Repomix - 리포지토리를 AI 친화 파일로 패킹
- GitIngest - GitHub URL→프롬프트 친화 추출
- Instructor - LLM 구조화 데이터 추출
- Mirascope - LLM 앱 빌더 툴킷
- Context7 - 최신 코드 문서 LLM 컨텍스트
- Claude Squad - 다중 AI 터미널 에이전트 매니저
- DesktopCommander MCP - Claude MCP 데스크톱 서버
SDK와 API 개발 도구 (SDKs & API Development Tools)
- Vercel AI SDK - 프로바이더 독립 TypeScript AI 툴킷
- GitHub Copilot SDK - Copilot Agent 통합 SDK
- Fern - 오픈 REST API SDK 생성기
프롬프트 엔지니어링과 관리 (Prompt Engineering & Management)
14. Resources & Learning
오픈 구현이 있는 논문 (Papers with Open Implementations)
- Papers with Code - 논문-코드-데이터셋 연결 결정판 DB
- Hugging Face Papers - 오픈 가중치 arXiv 일일 피드
- Open LLM Leaderboard (HF) - 오픈 모델 실시간 랭킹
커뮤니티, 포럼, 뉴스레터 (Communities, Forums & Newsletters)
- Hugging Face Discussions - 최대 오픈 AI 포럼
교육 자원과 강좌 (Educational Resources & Courses)
- Prompt Engineering Guide (DAIR-AI) - 프롬프트 엔지니어링 결정판 자료
- Homemade Machine Learning - 인기 ML 알고리즘 파이썬 예제
- Start Machine Learning - 2026년 ML/AI 입문 가이드
- r/LocalLLaMA - 로컬/오픈소스 LLM 서브레딧
강좌와 인터랙티브 플레이그라운드 (Courses & Interactive Playgrounds)
- Hugging Face Course - 오픈 모델 무료 핸즈온
- ML For Beginners (Microsoft) - 12주 26강 클래시컬 ML
- LLM Course (Maxime Labonne) - 엔드투엔드 LLM 강좌
- AI For Beginners (Microsoft) - 12주 24강 AI 커리큘럼
- Generative AI for Beginners (Microsoft) - 21강 생성 AI 강좌
- LangChain Academy - 에이전트/RAG 무료 강좌
- Data Science for Beginners (Microsoft) - 10주 데이터 사이언스 커리큘럼
- Learn PyTorch for Deep Learning - PyTorch 종합 강좌
- The Incredible PyTorch - PyTorch 리소스 큐레이션
- Deep RL Class (HF) - 무료 딥 RL 강좌
- Practical RL (Yandex) - 종합 RL 강좌
- NLP Course (Yandex) - YSDA NLP 강좌
- Large Language Model Notebooks Course - 실전 LLM 강좌
- Transformers Tutorials (Niels Rogge) - HF Transformers 튜토리얼
- Made With ML - 프로덕션 ML/MLOps 강좌
- AI Engineering Hub - 93+ 프로덕션 AI 튜토리얼
- Complete Agentic AI Engineering Course - 6주 에이전틱 AI 강좌
스타터 프로젝트와 예제 (Starter Projects & Examples)
- TensorFlow Tutorials - TF 공식 가이드
- HF Transformers Notebooks - Colab에서 실행 가능
큐레이션 리소스 목록 (Curated Resource Lists)
- Awesome Machine Learning - ML 라이브러리 결정판 큐레이션
- Andrej Karpathy Skills - Karpathy 영감 CLAUDE.md
Awesome Open Source AI가 자기 영역을 좁히는 방식
이 저장소가 다른 일반 awesome 목록과 갈리는 지점은 진정한 오픈소스 라는 기준입니다. Awesome Open Source AI는 스스로를 "Open-source artificial intelligence models, libraries, infrastructure, and developer tools"라는 한 줄로 정의하며, 이 정의에 들어맞지 않는 가중치만 공개된 모델이나 사용 제한이 있는 프로젝트를 의도적으로 거른다는 인상을 분류 구성에서도 보여 줍니다.
별도의 EMERGING.md 문서는 아직 메인 카테고리에 자리잡기 전이거나 빠르게 변화 중인 프로젝트를 모아 두는 공간으로 운영됩니다. 메인 목록과 분리해 두기 때문에, 메인 목록의 안정성을 유지하면서도 새로 부상하는 프로젝트를 놓치지 않으려는 의도가 읽힙니다.
또한 CONTRIBUTING.md 기여 가이드라인은 OSI 승인 라이선스, 최근 6개월 내 커밋이 있는 활발한 프로젝트, 그리고 문서화가 잘 되어 있고 실제로 채택된 프로젝트라는 세 가지 기준을 명시합니다.
Awesome Open Source AI 사용법
이 저장소 자체는 설치할 코드가 아니라 읽고 탐색하는 자료입니다. GitHub 저장소를 그대로 읽거나, 자신의 관심 영역에 해당하는 대분류부터 펼쳐 보는 방식이 가장 단순합니다.
기여는 표준적인 awesome 목록 컨트리뷰션 방식으로 받습니다. 새로 추가하고 싶은 프로젝트가 있다면 적절한 대분류와 세부 섹션을 골라 한 줄 요약과 GitHub Star 배지 한 줄을 포함한 PR을 보내는 형식입니다.
더 읽어보기
- Awesome LLM Apps, RAG 및 Agent 활용 사례를 모아둔 GitHub 저장소 — RAG와 Agent 영역에 특화된 자매격 awesome 목록
- Awesome AI Coding Tools: 개발자를 위한 100여가지 AI 코딩 도구 소개 목록 — 13번 Developer Tools 카테고리를 한층 깊게 보고 싶을 때
- AI-research-SKILLs: 자율적인 AI 연구 및 엔지니어링 수행을 돕기 위한, 70가지 오픈소스 라이브러리/도구 모음 — 연구 워크플로우 관점에서 정리된 도구 모음
- VoltAgent가 정리한 유용한 Claude Skills 모음집 (awesome-claude-skills) — 4번 Agentic AI 카테고리와 연결되는 에이전트 스킬 큐레이션
- Awesome AI Anatomy: Claude Code, Dify, Browser Use 등 15개 AI 코딩 에이전트의 소스코드를 해부하는 오픈소스 분석 프로젝트 — 카테고리 4·13의 대표 에이전트 내부 구조 비교
Awesome Open Source AI의 라이선스
Awesome Open Source AI는 Creative Commons Zero (CC0 1.0 Universal)으로 공개되어 있어 콘텐츠를 권리 주장 없이 자유롭게 사용, 수정, 재배포할 수 있습니다. 공용 도메인 헌사 형식으로, awesome 목록 큐레이션 자체를 사실상의 공공재로 두기 위한 선택입니다.
Awesome Open Source AI 프로젝트 GitHub 저장소
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()

