Reflection 70B: Llama 3.1 70B 기반 오픈소스 LLM (feat. Reflection Tuning)

Reflection 70B: Llama 3.1 70B 기반 오픈소스 LLM (feat. Reflection Tuning)

Reflection 70B 소개

HyperWrite의 CEO인 Matt Shumer는 새로운 오픈소스 AI 모델인 Reflection 70B를 발표했습니다. 이 모델은 Meta의 Llama 3.1-70B Instruct를 기반으로 개발되었으며, 새로운 오류 자체 교정 기술인 Reflection Tuning 기법을 사용하여 성능을 향상시키고, 여러 벤치마크 테스트에서 우수한 결과를 보여주었습니다.

Reflection 70B 모델의 주요한 특징은 다음과 같습니다:

  • 오류 자체 교정: Reflection 70B는 "Reflection-Tuning"이라는 기술을 사용하여 모델이 자체적으로 오류를 인식하고 교정할 수 있습니다. 이 기술은 모델이 내부적으로 생각하고 반영하는 과정을 통해 최종 답변을 제공합니다.

  • 성능: Reflection 70B는 여러 벤치마크 테스트에서 우수한 결과를 보여주었습니다. MMLU, MATH, IFEval, GSM8K 등 다양한 테스트에서 Llama 3.1 405B를 능가하고, GPT-4o와 Sonnet과 같은 상용 모델과 경쟁할 수 있는 성능을 보였습니다.

  • 오픈소스: Reflection 70B는 오픈소스 모델로, Hugging Face에서 모델 파일을 다운로드할 수 있으며, Hyperbolic Labs를 통해 API가 곧 제공될 예정입니다.

벤치마크 결과

  • ProLLM StackUnseen: Reflection 70B는 ProLLM StackUnseen 벤치마크에서 50%의 정확도를 보여주었으며, 이는 기존의 Llama 70B 모델보다 9% 높은 결과입니다.

  • MMLU와 HumanEval: Reflection 70B는 MMLU와 HumanEval 벤치마크에서도 우수한 결과를 보여주었습니다. LMSys의 LLM Decontaminator를 사용하여 결과가 오염되지 않은 것을 확인했습니다.

  • GSM8K: Reflection 70B는 GSM8K 벤치마크에서 75%의 정확도를 보여주었으며, 이는 기존의 Llama 70B 모델보다 10% 높은 결과입니다.

하지만, 이러한 벤치마크에 대해서는 일부 논란과 한계가 있습니다:

  • 비교의 공정성: 일부 사용자는 Reflection 70B와 다른 모델의 비교가 공정하지 않다고 주장합니다. Reflection 70B는 특정한 출력 포스트프로세싱 기술을 사용하기 때문에, 다른 모델과 직접 비교하는 것이 어렵다고 합니다.

  • 성능 한계: Reflection 70B는 70B의 파라미터를 사용하기 때문에, 더 큰 모델과 비교했을 때 성능이 떨어질 수 있습니다. 예를 들어, Mistral 123B와 비교했을 때, Reflection 70B는 일부 테스트에서 더 낮은 성능을 보였습니다.

사용 방법

  • 로컬 실행: Reflection 70B를 로컬에서 실행하기 위해서는 Hugging Face에서 모델 파일을 다운로드하고, Pinocchio를 사용하여 모델을 설치하고 실행할 수 있습니다.
  • API: Hyperbolic Labs를 통해 API가 곧 제공될 예정입니다.

:framed_picture: Reflection 70B 모델 사용해보기

https://reflection-playground-production.up.railway.app/

:hugs: Reflection 70B 모델 가중치

:scroll: Reflection Tuning 논문 (Ming Li 외, 2023년 10월 / ACL'24)

:github: Reflection Tuning GitHub 저장소

https://github.com/tianyi-lab/Reflection_Tuning

:scroll: Selective Reflection Tuning 논문 (Ming Li 외, 2024년 02월)

관련 기사




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

2개의 좋아요

이 Reflection 70B: Llama 3.1 70B 모델에 대해서 현재 X.com에서 논란이 많습니다. 허깅페이스에 올린 모델이 아니라 이 모델의 저자가 제공하는 API에 의한 테스트에만 발표한 것과 유사한 성능이 나온다는 이야기도 있고, 사기라는 이야기도 나오고 있습니다.

여기 참조하세요. x.com

그리고, Artificial Analysis라는 곳에서 이모델을 테스팅을 했는데 그 결과를 다음과 같이 발표합니다. 여기 참조하세요 x.com

"We did evaluations of GPT-4o, Claude 3.5 Sonnet and regular Llama 3.1 70B with the Reflective model's default system prompt from HF (which we did not use in the chart) and interestingly did not see meaningful changes in the evaluation results of those models."

"Reflective 모델의 기본 시스템 프롬프트인 HF(차트에서는 사용하지 않음)를 사용하여 GPT-4o, 클로드 3.5 소네트, 일반 라마 3.1 70B를 평가했는데 흥미롭게도 해당 모델의 평가 결과에서 의미 있는 변화를 발견하지 못했습니다."

인공지능의 인기와 각종 모델의 발표홍수속에 온갖 사기와 협잡도 난무하고 있는지도 모릅니다. 유튜브에도 이 모델에 대한 동영상이 수십개 올라왔는데 직접 이걸 설치해서 테스트해보고 이런 영상을 올린 사람은 거의 없어 보입니다.

미국인들은 소위 Marekting Stunt 에는 세계 최고의 수준을 보입니다만 실제로 어떤 기술을 구현하는데는 많은 의심이 따릅니다. 수소 트럭회사 니콜라도 결국 사기로 들어났죠. 인공지능 분야는 실제로 보여지는 실물이 없슴으로 사기 치기 더 쉽죠. 조심하세요.

이 모델에 대한 가장 최신 포스팅은 이것입니다. 여기 참조하세요.
https://x.com/ArtificialAnlys/status/1832487709853585428

3개의 좋아요

먼가 이런저런 얘기가 많아보이던데 기분탓이 아니었군요

사기가 들어났는데도 뭐가 잘못돼었는지 자기도 잘 모르겠고 현재 조사중이라고 합니다. 아마도 그 조사에 대한 발표는 영원히 이루어지지 않을 것으로 생각됩니다만, 그나저나 니콜라 수소연료전지 엔진 트럭회사의 CEO는 지금은 어디로 갔을까요?

하여튼, 한국 못지 않은 미국의 사기꾼 문화 진짜 인류의 암세포가 되고 있습니다.

1개의 좋아요

문득 생각나서 찾아보니, 니콜라 창업자 트레버 밀튼(Trevor Milton)은 사기 혐의로 4년 형을 작년 말에 받았었네요. 아마 복역 중(?)이지 않을까요?