[TLDR] 오늘의 AI 뉴스, 2023-08-28: GPT-4를 능가한 미세 조정된 라마 모델 🦙, 애플의 초고속 ViT 🍎, LLM의 편향성 감지 ⚖️

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다. :star_struck:

더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! :robot:

TLDR-AI 뉴스 레터 썸네일


:rocket: 주요 뉴스 & 신규 출시 소식 / Headlines & Launches

코드 벤치마크에서 GPT-4를 능가한, 미세 조정된 Llama 코드 모델 / Fine-tuned Llama code model beats GPT-4 on code benchmark (1 minute read)

고품질의 내부 데이터를 저장하고 있는 기업들은 Meta가 새로운 프로그래밍 언어 모델을 출시한 지 불과 며칠 만에 코드에 매우 능숙한 미세 조정된 버전의 Llama를 출시했습니다. 현재 버전의 GPT-4가 코딩에 있어서는 여전히 어떤 오픈소스 모델보다 우수하다는 점에 유의하는 것이 중요합니다. 이 글에서는 새로운 라마 모델과 3월 버전의 GPT-4를 비교합니다.

Companies with stores of high quality internal data have released fine-tuned versions of Llama that are extremely adept at code just days after Meta released its new programming language models. It is important to note that the current version of GPT-4 is still better than any open-source model at coding. This article compares the new Llama models with the March version of GPT-4.

메타의 포토리얼 언리얼 그래픽스(PUG) / Photorealistic Unreal Graphics (PUG) from Meta (5 minute read)

메타 AI가 포토리얼한 이미지를 위해 언리얼 엔진의 성능을 활용하는 일련의 데이터세트를 공개했습니다. 이번에 공개된 데이터세트에는 파운데이션 모델 연구를 위한 PUG: Animals, 이미지 분류기 견고성 평가를 위한 PUG: ImageNet, 비전 언어 모델 평가를 위한 PUG: SPAR이 포함되어 있습니다.

Meta AI has unveiled a series of datasets that harness the power of Unreal Engine for photorealistic imagery. The released datasets include PUG: Animals for foundation model research, PUG: ImageNet to assess image classifier robustness, and PUG: SPAR for vision-language model evaluation.

(더 읽어보기 :point_right: Meta AI, Vision 모델을 위한 PUG(Photorealistic Unreal Graphics) 데이터셋 공개)

AI 봇은 인간의 뇌와 시각을 모방하는 데 너무 능숙해서 보안 문자가 쓸모없다 / AI bots are so good at mimicking the human brain and vision that CAPTCHAs are useless (3 minute read)

최근 연구에 따르면 AI 봇이 사람보다 더 빠르고 정확하게 보안 문자를 해독하는 것으로 나타났습니다. 이 연구는 AI가 발전하는 시대에 보안 문자의 효용성에 대한 의문을 제기합니다.

Recent research revealed that AI bots decode CAPTCHAs faster and more accurately than humans. The study challenges the effectiveness of CAPTCHAs in the age of advancing AI.

:brain: 연구 & 혁신 관련 소식 / Research & Innovation

PViC: 인간-사물 상호작용 감지 향상 / Enhancing Detecting of Human-Object Interactions (16 minute read)

DETR 프레임워크는 인간-사물 상호작용(HOI) 연구에 널리 사용되지만, 현재의 2단계 트랜스포머는 포즈와 방향과 같은 중요한 맥락적 세부 사항을 간과하여 복잡한 상호작용을 식별하는 데 문제가 있습니다. 향상된 술어 시각적 컨텍스트(PViC)는 이미지 특징과 공간 정보를 더 잘 통합하여 HOI 인식을 개선합니다.

While the DETR framework is popular for human-object interaction (HOI) research, current two-stage transformers overlook critical contextual details, like pose and orientation, leading to issues in identifying complex interactions. Enhanced predicate visual context (PViC) improves HOI recognition by better integrating image features and spatial information.

DeepSpeed Ulysses딥스피드로 긴 컨텍스트 모델 학습하기(GitHub Repo) / Train long context models with deep speed (GitHub Repo)

딥스피드는 언어 모델 사전 학습을 확장하는 데 사용할 수 있는 Microsoft의 라이브러리입니다. 사용하기는 다소 복잡하지만 강력한 추상화를 제공합니다. Microsoft는 최근 더 긴 컨텍스트 길이의 모델을 학습하기 위해 시퀀스 병렬 처리 기능을 추가했습니다. 이는 새로운 혁신이라기보다는 오픈소스 커뮤니티를 위한 엔지니어링의 승리라고 할 수 있습니다.

DeepSpeed is a library from Microsoft that can be used to scale up language models pre-training. It is somewhat complicated to use, but it provides powerful abstractions. Microsoft recently added sequence parallelism to train models with longer context lengths. It isn't a novel breakthrough, but rather an engineering win for the open-source community.

(더 읽어보기 :point_right: [GN] DeepSpeed Ulysses: 긴 시퀀스 트랜스포머 모델 학습을 위한 시스템 최적화)

FastViT: Apple의 초고속 ViT(GitHub Repo) / Apple's ultra fast ViT (GitHub Repo)

1ms 미만의 지연 시간으로 실행되는 Apple의 이 초고속 비전 트랜스포머는 엣지 배포의 사례 연구입니다.

Running at less than 1 ms latency, this super fast vision transformer from Apple is a case study in edge deployment.

:man_technologist: 엔지니어링 및 리소스 관련 소식 / Engineering & Resources

FineRecon: 상세한 3D 재구성을 위한 깊이 인식 피드포워드 네트워크 / FineRecon: Depth-aware Feed-forward Network for Detailed 3D Reconstruction (26 minute read)

Apple의 새로운 연구는 3D 물체 재구성이라는 까다로운 문제에 대한 놀라운 성능을 보여줍니다.

New research from Apple shows amazing performance on the challenging problem of 3D object reconstruction.

MGDN: 더 선명한 이미지 융합을 위한 동적 네트워크 / A Dynamic Network for Sharper Image Fusion (18 minute read)

과학자들은 여러 이미지를 하나의 선명한 사진으로 병합하여 다양한 이미지를 사용하는 기존 방법의 문제점을 해결하는 MGDN이라는 새로운 시스템을 설계했습니다. MGDN 내부의 특수 도구는 이미지의 여러 부분을 더 잘 이해하고 매끄럽게 혼합하는 데 도움이 됩니다.

Scientists have designed a new system called MGDN that merges multiple images into one clear picture, fixing the issues older methods had in using varying images. The special tools inside MGDN help in understanding the different parts of images better and blending them smoothly.

CALM: LLM의 편향성을 감지하기 위한 더 나은 테스트 / A Better Test for Detecting Bias in LLMs (13 minute read)

연구원들은 AI 언어 도구가 편향되어 있는지 확인하기 위해 CALM이라는 새로운 테스트를 개발했습니다. 다양한 소스에서 많은 데이터를 수집하고 다양한 AI 모델을 테스트한 결과, 일부 대형 AI 모델이 소규모 모델보다 더 편향적일 수 있다는 사실을 발견했습니다.

Researchers have developed a new test called CALM to check if AI language tools are biased. After collecting a lot of data from different sources and testing various AI models, they found that some big AI models can be more biased than smaller ones.

:gift: 그 외 소식 / Miscellaneous

WizardCoder: 더 나은 오픈소스 코드 모델 / Another even better open-source code model (6 minute read)

WizardLM 개발자들은 Evol 인스트럭트 기법을 사용하여 라마 코드 성능을 극적으로 개선했으며 심지어 Phind 모델을 능가했습니다. 이러한 결과는 고정된 데이터셋을 사용하고 평가를 고정된 것으로 취급하는 대신 평가 점수를 직접 개선하는 명령어를 생성하기 때문에 약간 의심스럽습니다. 이는 문제가 되지 않을 수도 있지만 머신러닝 모범 사례를 위반하는 것이므로 전체 일반적인 기능이 무엇인지 알기 어렵습니다.

The WizardLM folks have used their Evol instruct technique to dramatically improve Llama code performance - they even beat the Phind model. These results are slightly suspect because they generate instructions that directly improve their evaluation scores, instead of using a fixed dataset and also treating evaluation as fixed. This may not be an issue, but it breaks machine learning best practices and so it's hard to know what the full general capabilities are.

Lemur: 언어 능력을 잃은 코드 모델 개선 / Code models lose language skills, but we can fix it (7 minute read)

Claude나 GPT-4와 같은 클로즈드 소스 모델이 인상적인 이유는 추론 능력이 뛰어나고 범용 언어 능력을 갖추고 있기 때문입니다. 많은 개방형 대안은 극히 좁은 틈새 기술에 초점을 맞추고 다른 기술은 소홀히 합니다. OpenLemur 프로젝트는 폐쇄형 모델과 유사한 다양한 작업에서 언어 모델 기술의 균형을 맞추는 것을 목표로 합니다.

The reason closed source models like Claude or GPT-4 are so impressive is because they are incredibly good at reasoning AND have general purpose language ability. Many open alternatives focus on an extremely narrow niche of skills and neglect others. The OpenLemur project aims to balance language model skills across many different tasks similar to closed models.

a16z: 마크 안드레센과의 인터뷰: AI와 세상을 바꾸는 방법 / An Interview with Marc Andreessen about AI and How You Change the World (25 minute read)

AI는 실존적 위협에 대한 '히스테리적인 공포'에 대응하여 인류의 삶에 큰 경제적 이익과 개선을 가져올 것입니다. 일반적인 AI는 진화 동력이 부족하기 때문에 이를 대체할 위험은 과장된 측면이 있습니다. 우리는 점진적인 발전이라는 공학적 접근 방식을 취해야 합니다.

AI will create major economic benefits and improvements in human life, countering "hysterical freakout" about existential threats. The risks of general AI taking over are overblown since it lacks evolutionary drives. We should take an engineering approach of incremental progress.

:zap: 더 읽어보기 / Quick Links

오픈코파일럿 / OpenCoPilot (GitHub Repo)

SaaS 제품을 위한 오픈소스 AI 부조종사.

An open source AI copilot for your SaaS product.

(더 읽어보기 :point_right: [GN] OpenCopilot - 오픈소스 AI Copilot)

코믹북 팩토리 / Comic book factory (HuggingFace Space)

스타일과 스토리 프롬프트가 주어지면 어느 정도 일관된 만화책을 만드는 디퓨젼 모델 기반 도구입니다.

Diffusion model-based tool that creates somewhat coherent comic books given style and story prompts.

(더 읽어보기 :point_right: [GN] Comic-Factory - 디퓨전 모델을 이용하여 만화를 생성해주는 도구)

Dicer (Product)

다이서는 더 많은 수익을 창출하는 데 필요한 인사이트를 제공하는 디지털 마케터입니다.

Dicer is a digital marketer that provides the insights you need to make more money.