DeepEval
소개
DeepEval은 LLM의 응답을 평가하기 위한 다양한 메트릭을 제공하여 응답을 평가합니다. 이러한 메트릭들을 사용하여 ML 개발자가 LLM 어플리케이션을 개선할 때 신속하고 잘 동작할 수 있는지를 판단할 수 있는 것은 물론, CI/CD 파이프라인에 추가할 수 있습니다.
특히, 파이썬 친화적인(Pythonic) 접근 방식으로, 쉽고 간단하게 테스트를 작성하고 제품 개발 파이프라인에 추가할 수 있습니다.
주요 특징
-
LLM 답변의 관련성(relevancy), 사실의 일관성(factual consistency), 독성(toxicness), 편향성(bias) 테스트
-
테스트, 구현, 비교를 보기 위한 Web UI 제공
-
생성한 질문-답변을 사용한 자동 평가
설치 및 빠른 시작
설치
pip install deepeval
CLI에서 실행
# Optional - if you want a web UI
deepeval login
# Run the API key and implementation name
deepeval login --api-key $API_KEY --implementation-name "sample"
# Generate a sample test file
deepeval test generate --output-file test_sample.py
# Run this test
deepeval test run test_sample.py
설명 영상
추가 설명
Synthetic Query Generation
Dashboard
DeepEval 소개
DeepEval은 검색 증강 생성(RAG)과 같은 언어 학습 모델(LLM) 애플리케이션의 테스트 프로세스를 간소화합니다. 우리의 목표는 파이썬으로 단위 테스트를 작성하는 것만큼 간단하게 테스트를 작성하는 것입니다.
DeepEval simplifies the testing process for Language Learning Model (LLM) applications such as Retrieval Augmented Generation (RAG). Our goal is to make writing tests as simple as writing unit tests in Python.
머신러닝(ML) 분야에서는 피드백이 원시 평가 손실로 제공되는 경우가 많은데, 이는 소프트웨어 개발에서 일반적으로 볼 수 있는 구조화된 피드백에서 벗어난 것입니다.
In the Machine Learning (ML) domain, feedback is often provided as raw evaluation loss, which is a departure from the structured feedback typically seen in software development.
에이전트, LLM 및 AI의 배포가 증가함에 따라 ML 엔지니어에게 일반 소프트웨어 개발에서 볼 수 있는 것과 동일한 친숙한 추상화 및 도구를 제공하는 도구가 필요해졌습니다. 반복적인 개선 속도를 높이기 위해 더 빠른 피드백 루프를 활성화하는 것이 목표입니다.
With the increasing deployment of agents, LLMs, and AI, there is a need for a tool that provides the same familiar abstractions and tools found in general software development to ML engineers. The goal is to enable a faster feedback loop to speed up iterative improvements.
DeepEval은 LLM 테스트를 간소화하고 효율화하기 위해 설계된 도구입니다.
DeepEval is a tool designed to simplify and streamline LLM testing. Our aim is to change the way we write, run, automate, and manage our LLM tests.
DeepEval에 오신 것을 환영합니다.
Welcome to DeepEval.
더 읽어보기
DeepEval 저장소
DeepEval 문서
https://docs.confident-ai.com/docs/