파이토치 한국 사용자 모임에서는 TLDR 뉴스레터 의 승인을 받아 AI 소식을 DeepL로 번역 하여 전합니다.
더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요!
주요 뉴스 & 신규 출시 소식 / Headlines & Launches
모바일 혁명 vs. AI 혁명 / The Mobile Revolution vs. The AI Revolution (12 minute read)
AI는 컴퓨터가 더 이상 계산기처럼 작동하지 않고 인간의 두뇌와 같은 역할을 하게 될 것이기 때문에 스마트폰의 확산보다 인터넷의 발명에 더 가까운 기술 혁명이라는 내용의 글입니다.
AI is a technological revolution more akin to the invention of the internet than the proliferation of smartphones, as computers will no longer act like calculators, but as something like the human brain.
마이크로소프트 CEO, 구글 반독점 재판에서 AI의 한계에 대해 증언하다 / Microsoft CEO Testifies About Limits of AI at Google Antitrust Trial (5 minute read)
사티아 나델라 Microsoft CEO는 구글을 상대로 한 미국 반독점 소송에서 구글의 인터넷 검색 지배력이 애플과의 불공정 계약 등 불공정한 전술을 통해 유지되고 있다고 주장하며 증언했습니다. AI에 대한 투자와 Bing의 새로운 기능에도 불구하고 Microsoft는 Google의 시장 지배력을 깨기 위해 고군분투하고 있습니다. 나델라는 AI의 발전에도 불구하고 기본 습관을 바꾸는 것은 여전히 어려울 수 있다고 암시했습니다. microsoft
Microsoft CEO Satya Nadella testified in the U.S. antitrust case against Google, claiming Google's dominance in internet search is maintained through unfair tactics, including default agreements with Apple. Despite investments in AI and new features for Bing, Microsoft struggles to break Google's market stronghold. Nadella hinted that even with AI advancements, changing default habits might remain challenging.
야후, 엔터프라이즈 AI 확장 엔진인 베스파를 독립 회사로 분사 / Yahoo spins out Vespa, the enterprise AI scaling engine as an independent company (2 minute read)
Spotify, Wix 및 대형 금융 그룹과 같은 회사에서 사용하는 Vespa AI 엔진이 분사하였습니다. 야후는 여전히 최대 고객이자 재정적 후원자입니다. 이 엔진은 성능이 뛰어나며 초당 수백만 개의 쿼리를 처리할 수 있습니다. enterprise-ai
Used by companies such as Spotify, Wix, and big financial groups - the Vespa AI engine is now being spun off. Yahoo is still their largest customer and financial backer. The engine is performant and can handle millions of queries per second.
연구 & 혁신 관련 소식 / Research & Innovation
LLM은 인간처럼 서로 잘 협력할 수 있을까요? / Do LLMs Work Well Together Like Humans Do? (16 minute read)
이 논문은 LLM이 사회에서 사람처럼 그룹을 이루어 함께 일하는 방식을 연구합니다. 연구자들은 서로 다른 개성을 가진 컴퓨터 '사회'를 만들어 팀을 이루어 과제를 수행하는 것을 관찰한 결과, 컴퓨터가 때때로 다수를 따르거나 토론을 하는 등 인간처럼 행동하며 어떤 팀은 다른 팀보다 더 잘 일한다는 것을 발견했습니다. llm llm-agent
This paper studies how LLMs might work together in groups, just like people in a society. Researchers have made computer "societies" with different personalities and watched them team up on tasks, finding they sometimes act like humans - like following the majority or debating - and some teams work better than others.
MiniGPT-5: 이미지와 텍스트를 함께 생성하는 새로운 방법 / MiniGPT-5: A New Way to Generate Images and Text Together (GitHub Repo)
텍스트를 이해하고 쓸 뿐만 아니라 일치하는 그림도 만들 수 있는 모델을 상상해 보세요. 이 새로운 모델인 MiniGPT-5는 "제너레이티브 토큰"이라는 특수 기술을 사용하여 이를 수행합니다. minigpt-4 gpt-4v
Imagine a model that not only understands and writes text but can also create matching pictures. This new model, MiniGPT-5, uses special techniques called "generative vokens" to do that.
파이토치의 분산 샴푸 옵티마이저 / Distributed Shampoo optimizer in PyTorch (GitHub Repo)
AI 시스템은 아키텍처, 데이터, 학습 방법으로 구성됩니다. 옵티마이저는 세 번째 그룹에 속합니다. Adam은 "그냥 작동"하기 때문에 현재 많은 사람들이 가장 선호하는 제품입니다. LION과 샴푸는 채택이 증가하고 있는 두 가지 대안입니다. 메타의 파이토치에서 구현되었다는 것은 확실한 승인 도장입니다.
AI systems consist of architecture, data, and training methods. Optimizers fit solidly in the third group. Adam is the current crowd favorite because it "just works". LION and Shampoo are two alternatives that have been gaining adoption. Having an implementation in Pytorch from Meta is a solid stamp of approval.
엔지니어링 및 리소스 관련 소식 / Engineering & Resources
자세히 알아보기: TPU v5에서 Jax로 SDXL 실행하기 / Deep dive: Running SDXL in Jax on TPU v5 (18 minute read)
SDXL은 최첨단 이미지 생성 모델입니다. 강력하지만 속도가 느립니다. 구글과 허깅페이스는 구글의 연구 언어인 Jax의 새로운 TPU 칩에서 얼마나 빠른 속도를 구현할 수 있는지 보여줍니다. tpu sdxl jax
SDXL is a state of the art image generation model. It is powerful, but slow. Google and HuggingFace showcase just how fast it can be on the new TPU chips in Google's research language Jax.
말하기 전에 먼저 생각하세요: LLM에 토큰을 추가하면 추론이 향상됩니다 / Think before you speak: Adding a pause token to LLMs improves reasoning (20 minute read)
최근 ViT의 레지스터에 대한 연구에 따르면 [reg] 토큰을 추가하면 이미지 주의도 맵의 스파이크가 수정되는 것으로 나타났습니다. 이 연구에서는 학습 가능한 [pause] 토큰을 시퀀스에 추가하면 언어 모델 추론(디코더 전용, 최대 1B)이 18%까지 향상되는 것으로 나타났습니다. 이는 시퀀스를 생성하는 동안 사용할 중요한 전역 정보를 저장하기 위해 학습 가능하고 조작 가능한 벡터를 여러 개 추가하기 때문입니다. 일반적으로 토큰을 추가하면 파라미터가 130억 개 이상으로 확장되지만, 이것이 프론티어 모델 규모에서 얼마나 잘 작동하는지는 불분명합니다.
The recent work on registers for ViTs showed that adding a [reg] token fixes image attention map spikes. This work shows that adding a series of learnable [pause] tokens prepended to the sequence improves language model reasoning (decoder only, up to 1B) by as much as 18%. The intuition is that this adds a number of learnable and manipulatable vectors to store important global information to be used while generating the sequence. In general, adding tokens has scaled well past 13B parameters, but it's unclear how well this works at frontier model scale.
LLM의 지식 편집 / Knowledge Editing in LLMs (18 minute read)
LLM은 지식 조각으로 이루어진 크고 복잡한 퍼즐이라고 생각하면 됩니다. 이 논문에서는 이러한 퍼즐 조각 중 일부를 변경하려고 하면 전체 퍼즐이 엉망이 되거나 불분명해질 수 있는 상황을 살펴봅니다.
Think of LLMs like big, intricate puzzles with pieces of knowledge. This paper looks at what happens if we try to change some of those pieces - it could either mess up the whole puzzle or make it unclear.
그 외 소식 / Miscellaneous
Claude의 긴 컨텍스트 창을 위한 프롬프트 엔지니어링 / Prompt engineering for Claude's long context window (12 minute read)
클로드의 새로운 100,000 토큰 용량은 두 가지 기술을 사용하여 기술 문서 리콜을 개선합니다. 앤트로픽은 클로드와 함께 직접 실험해볼 수 있는 "앤트로픽 쿡북"을 출시했습니다. claude prompt-engineering prompt
Claude's new 100,000 token capacity improves technical document recall using two techniques. Anthropic has released the "Anthropic Cookbook" for hands-on experiments with Claude.
AI는 플랫폼의 변화인가? / Is AI A Platform Shift? (2 minute read)
플랫폼 전환은 애플리케이션 개발의 기본 계층을 변화시켜 기업의 지배력, 아키텍처, 비즈니스 모델에 영향을 미칩니다. 배포 방식을 바꾸고 가능성을 확장할 수 있는 잠재력을 고려할 때, AI는 기존 구조에 도전하고 새로운 패러다임을 도입하는 중대한 플랫폼 전환이 될 것입니다.
A platform shift alters the foundational layer of application development, influencing company dominance, architectures, and business models. Given its potential to change distribution and expand possibilities, AI is poised to become a significant platform shift, challenging existing structures and introducing new paradigms.
더 읽어보기 / Quick Links
이제 Bing Chat에서 DALL-E 3 AI 이미지 생성기를 사용할 수 있습니다 / You can now use the DALL-E 3 AI image generator inside Bing Chat (3 minute read)
Microsoft는 OpenAI의 DALL-E 3를 Bing Chat에 통합하여 사용자에게 향상된 이미지 생성 기능을 제공합니다. DALL-E 3는 보다 창의적이고 사실적인 이미지를 생성하여 즉각적인 이해력을 향상시킵니다. 또한 마이크로소프트는 윈도우의 페인트 코크리에이터와 같은 다른 제품에도 DALL-E 기술을 구현할 계획입니다. bing-chat
Microsoft has integrated OpenAI's DALL-E 3 into Bing Chat, offering users enhanced image generation. DALL-E 3 promises improved prompt understanding, generating more creative and photorealistic images. Additionally, Microsoft plans to implement DALL-E tech in other products, like the Paint Cocreator in Windows.
크레아 로고 일루전 / Krea Logo Illusions (Product)
로고를 놀라운 시각적 환상으로 바꿔보세요.
Turn your logos into amazing visual illusions.
세미폼 / Semiform (Product)
응답률을 높이고 사용자 만족도를 높이려면 양식을 AI 에이전트로 교체하세요.
Replace your forms with AI agents in order to get higher response rates and happier users.