Future AGI: LLM과 AI 에이전트를 위한 오픈소스 통합 평가 및 관찰 플랫폼

9bow · 4월 28, 2026, 6:30오전

Future AGI 소개

LLM 기반 에이전트를 프로덕션에 배포하는 팀이라면 누구나 공통된 난관에 직면합니다. 에이전트가 개발 환경에서는 잘 동작하다가도, 실제 사용자가 입력하는 예기치 못한 상황에서 환각(Hallucination)을 일으키거나 의도치 않은 결과를 출력하는 경우가 빈번합니다. 이 문제를 해결하기 위해 많은 팀이 평가 도구, 관찰 플랫폼, 가드레일(Guardrails) 솔루션을 각각 도입하고 통합하는 데 상당한 공수를 들이고 있습니다. Langfuse로 트레이싱(Tracing)을 하고, Braintrust로 평가를 진행하고, Helicone으로 API 사용량을 모니터링하고, Guardrails AI로 안전성을 검사하는 방식은 파이프라인마다 중복 비용이 발생하며 데이터 흐름이 단절되는 문제를 낳습니다. 서로 다른 도구들이 연결되지 않으면 평가 결과가 다음 학습 데이터로 이어지지 못하고, 배포 후 관찰한 이상 신호가 에이전트 개선으로 피드백되지 않습니다.

Future AGI는 이 모든 과정을 하나의 플랫폼과 단일 피드백 루프로 통합합니다. 출시 전 엣지 케이스 시뮬레이션, 프로덕션 평가, 실시간 보호, 트레이스 기반 최적화까지 에이전트 라이프사이클 전체를 시뮬레이션(Simulate) → 평가(Evaluate) → 보호(Protect) → 모니터링(Monitor) → 최적화(Optimize)의 연속적인 루프로 이어주는 구조가 핵심입니다. Apache 2.0 라이선스로 공개된 오픈소스 플랫폼이며, 자체 호스팅(Self-hosting)과 관리형 클라우드(Managed Cloud) 모두 지원합니다. 현재 나이틀리(Nightly) 릴리즈로 조기 테스트 단계에 있으며, 안정 버전이 곧 출시될 예정입니다.

Future AGI Installation

Future AGI의 아키텍처는 에이전트 관찰에서 개선까지 데이터가 자연스럽게 흐르도록 설계되었습니다. OpenTelemetry OTLP를 통해 트레이스를 수집하고, OpenAI 호환 HTTP 엔드포인트로 게이트웨이를 제공하며, PostgreSQL과 ClickHouse로 메타데이터와 스팬(Span)을 저장합니다. 런타임 스택은 Python 3.11+과 Django 4.2(백엔드), Go 1.23+(게이트웨이), React 18(대시보드)로 구성되어 있으며, LangChain, LlamaIndex, CrewAI, DSPy 등 50개 이상의 AI 프레임워크 인스트루멘테이션(Instrumentation)을 기본 제공합니다.

Future AGI와 기존 도구 비교

유사한 목적의 도구들과 비교했을 때 Future AGI의 차별점이 분명하게 드러납니다.

특징	Future AGI	Langfuse	Phoenix	Helicone
오픈소스	Apache 2.0	MIT	Elastic v2	Apache 2.0
자체 호스팅
LLM 트레이싱 (OTel)				via OpenLLMetry
평가 메트릭	50개 이상			제한적
에이전트 시뮬레이션
음성 에이전트 평가
LLM 게이트웨이 내장	100개+ 프로바이더
가드레일 내장	18 + 15 어댑터
프롬프트 최적화	6가지 알고리즘

기존 도구들이 관찰, 평가, 보호 중 일부만 담당하는 반면, Future AGI는 에이전트 개선 사이클 전체를 단일 플랫폼에서 처리할 수 있도록 설계되었습니다.

Future AGI의 6가지 핵심 기능 기둥

Future AGI는 에이전트 라이프사이클을 커버하는 6가지 기능 기둥(Pillar)으로 구성됩니다. 각 기둥은 별도의 도구를 대체하면서도 하나의 피드백 루프 안에서 연동됩니다.

시뮬레이션(Simulate): 수천 건의 멀티턴(Multi-turn) 대화를 사실적인 페르소나(Persona), 적대적 입력(Adversarial input), 엣지 케이스를 대상으로 사전 테스트합니다. 텍스트와 음성(LiveKit, VAPI, Retell, Pipecat) 에이전트 모두 지원합니다. 출시 전에 미리 실패 시나리오를 발견하고 수정할 수 있어 프로덕션 장애를 줄입니다.

평가(Evaluate): 단일 evaluate() 호출로 50개 이상의 메트릭을 평가합니다. 근거성(Groundedness), 환각 탐지(Hallucination detection), 도구 사용 정확도, PII(개인식별정보) 누출, 톤, 커스텀 루브릭(Custom rubric)을 LLM-as-judge, 휴리스틱(Heuristic), ML 방식으로 복합 평가합니다.

보호(Protect): PII 탐지, 젤브레이크(Jailbreak), 프롬프트 인젝션(Prompt injection) 등 18개 내장 스캐너와 Lakera, Presidio, Llama Guard 등 15개 벤더 어댑터를 제공합니다. 게이트웨이 인라인 또는 독립 SDK 방식으로 사용할 수 있습니다.

모니터링(Monitor): LangChain, LlamaIndex, CrewAI, DSPy 등 50개 이상의 프레임워크에 대해 OpenTelemetry 네이티브 트레이싱을 제공합니다. 스팬 그래프(Span graph), 지연 시간(Latency), 토큰 비용, 실시간 대시보드를 제로 설정으로 시작할 수 있습니다.

에이전트 커맨드 센터(Agent Command Center): OpenAI 호환 게이트웨이로 100개 이상의 LLM 프로바이더, 15가지 라우팅 전략, 시맨틱 캐싱(Semantic caching), 가상 키(Virtual key), MCP, A2A를 지원합니다. Go 언어로 구현된 게이트웨이는 t3.xlarge 인스턴스에서 초당 약 29,000 요청, P99 지연 시간 21ms 이하, 가드레일 활성화 상태에서도 유사 수준의 성능을 제공합니다.

최적화(Optimize): GEPA, PromptWizard, ProTeGi, Bayesian, Meta-Prompt, Random 등 6가지 프롬프트 최적화 알고리즘을 제공합니다. 프로덕션 트레이스가 다음 버전의 학습 데이터로 자동 피드백됩니다.

Future AGI 빠른 시작

클라우드, Docker, Kubernetes 세 가지 방식으로 시작할 수 있습니다.

클라우드 (가장 빠름)

# 무료 티어로 가입: app.futureagi.com
pip install ai-evaluation

Self-host (Docker)

git clone https://github.com/future-agi/future-agi.git
cd future-agi
cp futureagi/.env.example futureagi/.env
docker compose up -d
# http://localhost:3031 에서 접속

첫 번째 에이전트 트레이싱(Python 예시):

from fi_instrumentation import register
from traceai_openai import OpenAIInstrumentor

register(project_name="my-agent")
OpenAIInstrumentor().instrument()

# 기존 OpenAI 코드가 자동으로 트레이싱됩니다
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": query}],
)

TypeScript에서의 트레이싱:

import { register } from "@traceai/fi-core";
import { OpenAIInstrumentation } from "@traceai/openai";

register({ projectName: "my-agent" });
new OpenAIInstrumentation().instrument();

// 기존 OpenAI 코드가 자동으로 트레이싱됩니다
const response = await openai.chat.completions.create({
  model: "gpt-4o",
  messages: [{ role: "user", content: query }],
});

50개 이상의 평가 메트릭을 한 번의 호출로 실행하는 예시:

from ai_evaluation import evaluate

result = evaluate(
    query="파이썬에서 리스트 컴프리헨션을 설명해줘",
    response=agent_response,
    metrics=["groundedness", "hallucination", "tone"],
    context=retrieved_docs
)
print(result.scores)

Future AGI 지원 인프라 및 SDK 생태계

Future AGI는 모놀리식(Monolithic) 플랫폼이 아닌 독립적으로 사용 가능한 SDK 생태계로 구성되어 있습니다. 각 SDK는 Apache 2.0 또는 MIT 라이선스로 별도 패키지로 배포됩니다.

라이브러리	설치	목적
traceAI	`pip install fi-instrumentation-otel`	50개+ AI 프레임워크 제로설정 OTel 트레이싱
ai-evaluation	`pip install ai-evaluation`	50개+ 평가 메트릭 + 가드레일 스캐너
futureagi	`pip install futureagi`	플랫폼 SDK (데이터셋, 프롬프트, 실험)
agent-opt	`pip install agent-opt`	6가지 프롬프트 최적화 알고리즘
simulate-sdk	`pip install agent-simulate`	음성 에이전트 시뮬레이션

100개 이상의 LLM 프로바이더(OpenAI, Anthropic, Google Gemini, AWS Bedrock, Azure OpenAI, Mistral, Groq 등)와 LangChain, LlamaIndex, CrewAI, AutoGen, PydanticAI, DSPy, Claude SDK 등 주요 에이전트 프레임워크를 지원하며, VAPI, Retell, LiveKit, Pipecat 등 음성 플랫폼과 Pinecone, Weaviate, Chroma 등 벡터 DB도 통합 지원합니다.

라이선스

Future AGI는 Apache-2.0 라이선스로 공개되어 있어 개인 및 상업적 목적으로 자유롭게 사용, 수정, 배포할 수 있습니다.

Future AGI 공식 홈페이지

Future AGI 프로젝트 GitHub 저장소

더 읽어보기

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~