[TLDR] 오늘의 AI 뉴스, 2023-07-19: 라마 2 🦙, AI가 만든 TV 쇼 📺, 트랜스포머 경쟁자 RetentiveNet 🤖

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다. :star_struck:

더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! :robot:

TLDR-AI 뉴스 레터 썸네일


:rocket: 주요 뉴스 & 신규 출시 소식 / Headlines & Launches

라마 2 / Llama 2 (6 minute read)

메타:meta_logo:의 매우 인기 있는 라마 모델의 상업적 라이선스 버전이 출시되었습니다. 2T 토큰으로 학습되었으며 최대 70억 개의 매개변수를 가진 모델이 포함되어 있습니다. 블로그에 링크된 논문에는 커뮤니티에서 추측했지만 확인되지 않았던 풍부한 세부 사항과 인상적인 정보가 포함되어 있으며, 그 중 가장 중요한 내용은 보상 모델을 올바르게 학습하는 절대적인 기본 특성에 관한 것입니다. 보상 모델을 올바르게 학습하는 것은 생각보다 어렵습니다.

The commercially licensed version of Meta's extremely popular Llama model is now available. It was trained on 2T tokens and they have models up to 70B parameters. The paper linked in the blog has rich details and impressive tidbits that the community has guessed at but never confirmed, primary of which is around the absolute foundational nature of training the reward model properly. It’s harder to get right than it seems.

OpenAI, 개인 정보 보호 문제 우려로 인해 GPT4 이미지 기능을 보류 중 / OpenAI Is Holding back GPT4 Image Features Due To Privacy Issue Fears (2 minute read)

OpenAI는 이미지 인식 기능을 지원하는 GPT-4의 멀티모달 버전을 정식 출시하기 전에 테스트해 왔습니다. 그러나 특정 개인을 잠재적으로 인식할 수 있다는 우려로 인해 대중의 접근이 제한되고 있습니다.

OpenAI has been testing its multimodal version of GPT-4 with image-recognition support prior to a planned wide release. However, public access is being curtailed due to concerns about its ability to potentially recognize specific individuals.

8K MPT 모델 / 8K MPT models (4 minute read)

3일 동안 H100에서 추가로 5,000억 개의 토큰으로 학습된 Mosaic의 8K 컨텍스트 길이 모델은 다양한 작업에서 우수한 성능을 발휘하며 미세 조정을 위한 강력한 기본 모델 역할을 할 수 있습니다.

Trained on an additional 500 billion tokens on H100s for 3 days, the 8K context length models from Mosaic perform well on a variety of tasks and can serve as strong base models for fine-tuning.

:brain: 연구 & 혁신 관련 소식 / Research & Innovation

AutoChain (GitHub Repo)

AutoChain은 LangChain과 AutoGPT에서 영감을 받아 개발자가 커스텀 툴과 함께 LLM을 사용하여 자체 에이전트를 구축할 수 있는 가볍고 확장 가능한 프레임워크를 제공함으로써 두 가지 문제를 모두 해결하는 것을 목표로 합니다.

AutoChain takes inspiration from LangChain and AutoGPT and aims to solve problems with both by providing a lightweight and extensible framework for developers to build their own agents using LLMs with custom tools.

사전 학습된 모델로 인간 행동 모방하기 / Mimicking Human Behavior with Pretrained Models (GitHub Repo)

이 논문에서는 이전 방법과 달리 대량의 합성 이미지에 의존하지 않는 새로운 이미지 조화 방법을 제안하여 학습 비용이 저렴하고 일반화할 수 있습니다.

This paper proposes a new method for image harmonization that, unlike previous methods, doesn't rely on a massive number of composite images, making it less expensive to train and more generalizable.

Neural Video Depth Stabilizer: 일관된 비디오 깊이 추정을 위한 도구 / A Tool for Improved, Consistent Video Depth Estimation (GitHub Repo)

이 논문에서는 비디오에서 일관되고 정확한 깊이 추정을 제공하는 신경 비디오 깊이 안정화 기법(Neural Video Depth Stabilizer)이라는 새로운 방법을 소개합니다. 또한 자연 장면의 비디오 심도에 대한 역대 최대 규모의 데이터셋인 'Video Depth in the Wild'를 소개합니다.

This paper introduces a new method called Neural Video Depth Stabilizer that provides consistent and accurate depth estimations in videos. The team also presents the largest-ever dataset of natural-scene video depth, called Video Depth in the Wild.

:man_technologist: 엔지니어링 및 리소스 관련 소식 / Engineering & Resources

RetNet: 트랜스포머의 경쟁자 RetentiveNet / RetentiveNet, the Transformer contender (27 minute read)

Microsoft Research의 UniLM 그룹에서 RetNet이라는 또 다른 잠재적으로 파괴적인 아키텍처를 발표했습니다. 이 아키텍처는 리커런트 모델과 트랜스포머의 중간 지점에 있으면서 각각의 장점을 유지합니다. 규모를 확장하고 7B 모델(100억 토큰에 대해 학습)을 찾아내면 트랜스포머보다 성능이 뛰어납니다. 강력한 이론적 비교를 제외하고 가장 흥미로운 점은 512개의 AMD MI200 GPU에서 학습되었다는 점입니다.

Microsoft Research’s UniLM group has released another potentially disruptive architecture called RetNet. It is a middle ground between recurrent models and transformers while maintaining benefits of each. The scale up and find 7B models (trained for 100B tokens) outperform transformers. Potentially the most interesting tidbit, aside from the robust theoretical comparison, is that it was trained on 512 AMD MI200 GPUs.

SkeletonMAE: 행동 인식을 위한 효율적인 프레임워크 / An Efficient Framework for Action Recognition (14 minute read)

이 논문에서는 광범위한 레이블 데이터 없이도 인간의 행동을 학습하고 이해하기 위해 인간 골격 관절 간의 세밀한 의존성을 사용하는 새로운 방법인 골격 시퀀스 학습(Skeleton Sequence Learning)을 소개합니다.

This paper presents a new method, Skeleton Sequence Learning, which uses the fine-grained dependencies among human skeleton joints to learn and understand human action without needing extensive labeled data.

COLLIE: 복잡한 제약 조건이 있는 텍스트 생성 / Text Generation with Complex Constraints (2 minute read)

이 연구에서는 현재 자연어 처리에 사용되는 단순한 제약 조건보다 더 큰 도전 과제인 다양한 수준(단어, 문장, 단락, 구절)의 복잡한 문법 기반 제약 조건에 따라 텍스트를 생성할 수 있는 새로운 도구인 COLLIE를 소개합니다.

The study introduces COLLIE, a new tool that enables text generation based on complex, grammar-based constraints at various levels (words, sentences, paragraphs, and passages), providing a bigger challenge than the simple constraints currently used in natural language processing.

:gift: 그 외 소식 / Miscellaneous

AI 앱 구축에 대해 이야기할 때 말하지 않는 것들 / What We Don’t Talk When We Talk About Building AI Apps (3 minute read)

AI 앱을 구축할 때 자주 논의되지 않는 몇 가지 문제점에 대해 설명합니다.

Some of the pain points in building AI apps that are not often discussed.

MindEye: 마음의 눈 재구성하기 / Reconstructing The Mind’s Eye (4 minute read)

MindEye는 fMRI 뇌 활동에서 이미지를 재구성하고 검색하는 최첨단 접근 방식입니다.

MindEye is a state-of-the-art approach that reconstructs and retrieves images from fMRI brain activity.

AI를 배포하는 기업을 위한 좋은 거버넌스 필수 요소 / Good Governance Essentials For Enterprises Deploying AI (9 minute read)

기업이 공정하고 투명한 시스템을 구축할 수 있는 방법에 대해 JPMorgan Chase의 모델옵스, AI, ML 수명주기 관리 및 거버넌스 책임자인 Stephanie Zhang과의 인터뷰입니다.

An interview with Stephanie Zhang, Head of ModelOps, AI, and ML lifecycle management and governance at JPMorgan Chase, on how enterprises can build fair and transparent systems.

:zap: 더 읽어보기 / Quick Links

Wope (Product Launch)

생성형 검색 시대를 위한 강력한 SEO 인사이트.

Powerful SEO insights for the generative search era.

생성형 AI 공간과 외계인의 정신적 이미지 / Generative AI Space And The Mental Imagery Of Alien Minds (25 minute read)

Stephen Wolfram이 외계인의 정신 이미지를 이해하는 데 도움이 되는 생성형 AI의 잠재력에 대해 설명합니다. 그는 가능한 생성 AI 프로그램의 공간을 탐구함으로써 마음이 세계를 표현하고 상호 작용하는 다양한 방식에 대한 통찰력을 얻을 수 있다고 주장합니다.

Stephen Wolfram discusses the potential of generative AI to help us understand the mental imagery of alien minds. He argues that by exploring the space of possible generative AI programs, we can gain insights into the different ways that minds can represent and interact with the world.

어쩌면 작가 파업 중에 AI가 생성한 가짜 TV 에피소드를 보여주는 것은 나쁜 생각일지도 / Maybe showing off an AI-generated fake TV episode during a writers’ strike is a bad idea (4 minute read)

할리우드 파업 중에 페이블 스튜디오는 전체 TV 프로그램을 제작할 수 있는 AI를 시연하여 업계에서 일자리 손실에 대한 우려를 불러일으켰습니다. CEO 에드워드 사치는 이번 파업을 크리에이터들이 더 나은 AI 사용 보호를 협상할 수 있는 기회로 보고 있습니다.

Amidst a Hollywood strike, Fable Studios demonstrated an AI capable of producing an entire TV show, creating concerns about job loss in the industry. CEO Edward Saatchi sees this as an opportunity for creatives to negotiate better AI usage protections.

수천 명의 작가들이 AI 제조업체에 책 도용을 중단할 것을 촉구하는 서한에 서명 / Thousands of authors sign letter urging AI makers to stop stealing books (3 minute read)

8,500명이 넘는 작가들이 AI 개발자들에게 자신의 저작물을 무단으로 사용하는 행위를 중단할 것을 요구하는 공개 서한에 서명했습니다. 이들은 기업이 저작물을 사용하기 전에 허가를 요청하고, 과거 및 현재 사용에 대한 보상을 제공하며, AI 결과물에 사용된 저작물에 대한 대가를 지불하기를 원합니다.

Over 8,500 authors have signed an open letter to AI developers, demanding an end to the unauthorized use of their works. They want companies to ask for permission before using their work, compensation for past and ongoing use, and payment for works used in AI outputs.