파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다.
더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요!
주요 뉴스 & 신규 출시 소식 / Headlines & Launches
OpenAI, 슈퍼얼라인먼트 팀 출범 / OpenAI launches Superalignment team (7 minute read)
인간보다 훨씬 똑똑한 모델을 어떻게 정렬할 수 있을까요? OpenAI는 한동안 여러 팀에서 이 문제를 연구해 왔지만, 이제 전체 조직의 20%를 (컴퓨팅 측면에서) 이 과제에 투입하고 있습니다. 대규모 채용을 진행하고 있으며 내부적으로도 많은 최고의 과학자들이 이 문제를 연구하고 있습니다.
How do you align a model much smarter than humans? OpenAI has been working on this question across teams for some time, but now they're bringing 20% of the entire org (compute-wise) to bear on this challenge. They're hiring extensively and many top scientists internally are working on this problem.
Playground AI, 이미지 편집을 위해 4천만 달러 모금 / Playground AI raises $40m for image editing (2 minute read)
인기 있는 AI 기반 이미지 편집 제품군이 픽셀을 통해 표현되는 텍스트 중심의 창의성을 계속 발전시키기 위해 자금을 모금했습니다.
The popular AI powered image editing suite raised money to continue pushing forward text driven creativity expressed via pixels.
연구 & 혁신 관련 소식 / Research & Innovation
새로운 벡터 데이터베이스, 메탈 셰이더로 작성 / New vector database, written with Metal shaders (GitHub Repo)
다양한 언어 모델의 메모리를 보강하기 위해 벡터 데이터베이스를 사용하는 것에 대해 많은 사람들이 흥미를 보이고 있습니다. 이 벡터 데이터베이스는 인터페이스가 간단하며 주로 ChatGPT 플러그인에 사용됩니다. 단순함을 유지하면서 경쟁사보다 몇 배나 빠르게 실행됩니다. 다른 많은 제품처럼 화려한 기능은 없지만 플러그인 작업을 잘 수행합니다.
There's a lot of excitement around using vector databases to augment the memory of different language models. This vector database has a simple interface and is primarily used for ChatGPT plugins. It runs many times faster than competitors while maintaining simplicity. It doesn't have the bells and whistles of many other offerings, but it performs the task well for plugins.
효율적인 야간 무인 항공기(UAV) 추적 / Efficient Nighttime UAV Tracking (GitHub Repo)
이 연구에서는 야간에 무인 항공기(UAV; unmanned aerial vehicles)의 실시간 추적을 개선하는 새로운 시스템인 SAM-DA를 소개합니다. 세그먼트 애니씽 모델(SAM)을 사용하여 제한된 야간 영상에서 상세한 학습 샘플을 생성함으로써 더 적은 리소스를 사용하면서 추적 능력을 크게 향상시킵니다.
This research introduces SAM-DA, a new system that improves real-time tracking of unmanned aerial vehicles (UAVs) at night. By using the Segment Anything Model (SAM) to generate detailed training samples from limited nighttime images, it significantly enhances the tracking ability while using fewer resources.
WebGLM: 비용 효율적인 온라인 Q&A 도구 / WebGLM: A Cost-Effective Online Q&A Tool (GitHub Repo)
WebGLM은 웹을 검색하고 가장 관련성이 높은 정보를 제공하여 질문에 답하도록 설계된 인공지능 기반의 새로운 온라인 도구입니다. 정확성과 효율성이 향상되어 이전 모델보다 개선되었으며, 연구에 따르면 더 복잡한 시스템보다 낫지는 않더라도 비슷한 성능을 발휘하는 것으로 나타났습니다.
WebGLM is a new online tool powered by artificial intelligence designed to answer questions by searching the web and providing the most relevant information. It improves upon previous models by offering increased accuracy and efficiency, and studies show that it performs as well as, if not better than, more complex systems.
엔지니어링 및 리소스 관련 소식 / Engineering & Resources
UniFine: 향상된 시각-언어 제로 샷 학습 / Enhanced Vision-Language Zero-Shot Learning (16 minute read)
이 연구는 특히 보이지 않는 시나리오에 직면했을 때 미세한 디테일과 키워드에 집중하여 이미지-텍스트 작업에 대한 AI의 이해도를 향상시키고 성능을 향상시키는 기술을 제시합니다.
This study presents a technique that improves AI's understanding of image-text tasks by focusing on fine details and keywords, enhancing performance, especially when faced with unseen scenarios.
LongNet: 10억 토큰 크기의 Context / 1 Billion tokens in context (26 minute read)
확장된 어텐션(dialated attention)이 드디어 효과가 있는 것 같습니다! 이 기능이 대규모로 유지된다면, 이는 본질적으로 문서의 전체를 컨텍스트로 취급할 수 있다는 것을 의미하기 때문에 매우 흥미로운 발전입니다. 깃허브에 있는 모든 파이썬 코드는 몇 천억 개의 토큰에 불과합니다. LongNet은 선형 어텐션의 변형이지만, 학습이 안정화되어 있고 짧은 시퀀스에서도 성능이 저하되지 않는 것으로 보입니다.
It seems like dilated attention now finally works! This is an exciting advancement if it holds at scale, because it means that we can essentially treat entire corpi of documents as context. All of the Python code on GitHub is only a few hundred billion tokens. LongNet is a linear attention variant, but they seem to have stabilized training, and it doesn’t sacrifice performance on shorter sequences.
코스모스-2 체크포인트 공개 / Kosmos-2 checkpoints released (GitHub Repo)
오늘날 최고의 멀티모달 모델 중 하나는 Microsoft의 UniLM 팀에서 개발했습니다. 이제 데모 코드, 가중치 체크포인트 등을 공개하여 직접 사용해보고 시스템에 통합할 수 있습니다.
One of the top multimodal models today was developed by the UniLM team at Microsoft. They have now released demo code, weight checkpoints, and more for you to play with and integrate into your systems.
그 외 소식 / Miscellaneous
Streamlit과 LLM 가지고 놀기 / Playing with Streamlit and LLMs (4 minute read)
생성형 AI로 무언가를 하고 있고 내부적으로 자체 LLM을 가지고 놀고 있다면 Streamlit에 대한 이 포스팅을 꼭 확인해보세요.
If you’re doing anything with generative AI and playing internally with your own LLMs, you should check out this post about Streamlit.
NLP를 위한 선형 어텐션 / Linear attention for NLP (40 minute video)
최근 주의력을 대체할 수 있는 방법으로 상태 공간, RWKV 및 기타 비이차적 방법이 등장하고 있습니다. 이 동영상에서는 이러한 여러 가지 방법과 서로 비교하는 방법, 그리고 현재 연구 방향에 대해 추론하는 방법을 안내합니다.
State-space, RWKV, and other non-quadratic methods have emerged recently as potential replacements for Attention. This video walks through several of these methods, how they're compared to one another, and how to reason about the current research direction.
유명인들, AI를 사용하여 자신의 이미지 관리 중 / Celebrities Use AI To Take Control Of Their Own Images (5 minute read)
유명인들은 브랜드와 제휴하여 마케팅 캠페인에 사용할 수 있는 AI로 생성된 자신의 복제본을 만들고 있습니다. 이를 통해 유명인은 자신의 이미지를 더 잘 제어할 수 있고 브랜드는 이전에는 불가능했던 방식으로 스타를 활용할 수 있습니다.
Celebrities are partnering with brands to create AI-generated duplicates of themselves that can be used in marketing campaigns. This gives celebrities more control over their own images and allows brands to use the stars in ways they never could before.
더 읽어보기 / Quick Links
디지털 마인드가 알 수 있는 다양한 방법 / The Many Ways That Digital Minds Can Know (10 minute read)
라이언 멀튼이 직접 프로그래밍, 머신러닝, 시뮬레이션, 학습 등 디지털 마인드가 지식을 습득할 수 있는 다양한 방법에 대해 설명합니다.
Ryan Moulton discusses the various methods through which digital minds can acquire knowledge, such as direct programming, machine learning, simulation, and training.
NanoT5 (GitHub Repo)
이전 뉴스레터에서도 다룬 적이 있지만 방금 업그레이드되었습니다. Andrej의 훌륭한 NanoGPT 저장소에서 영감을 받은 NanoT5 저장소는 모델을 T5 종이 성능과 동등한 수준으로 150배 빠르게 학습할 수 있습니다. 모델을 처음부터 학습하는 데 관심이 있다면 꼭 확인해 볼 가치가 있습니다.
We’ve covered this in previous newsletters, but it just got an upgrade. Inspired by Andrej’s great NanoGPT repo, the NanoT5 repo can train a model to equivalent T5 paper performance 150x faster. It’s definitely worth checking out if you care about training models from scratch.
AI 모델의 가중치는 오픈 '소스'가 아니다 / AI Weights Are Not Open “Source” (5 minute read)
이 글에서는 AI 모델 가중치 문제와 오픈소스 여부에 대해 살펴봅니다. 이 글에서는 AI 모델의 소스 코드는 공개될 수 있지만, 실제 학습된 지식이 포함된 가중치는 지적 재산권 문제, 개인정보 보호, 상업적 이해관계 등 다양한 이유로 인해 일반적으로 공개적으로 공유되지 않는다고 주장합니다.
The article explores the issue of AI model weights and their availability as open-source. It argues that while the source code of AI models may be open, the weights—which contain the actual learned knowledge—are typically not shared openly due to various reasons such as intellectual property concerns, privacy, and commercial interests.
BrewNote (Product Launch)
사용자 인터뷰에 대한 고품질 노트를 즉시 얻을 수 있습니다. 통화를 다시 보는 데 몇 시간을 소비하는 대신, 사용자 인터뷰 녹음을 BrewNote에 업로드하고 몇 분 안에 AI 기반의 지능형 노트를 얻으세요. UX 및 제품 담당자를 위해 설계되었습니다.
Get high quality notes for User Interviews, instantly. Instead of spending hours rewatching calls, upload your user interview recording to BrewNote and get AI-powered intelligent notes in minutes. Designed for UX and product folks.