파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다.
주요 뉴스 & 신규 출시 소식 / Headlines & Launches
컨텍스트 토큰을 10만개로 확장한 Anthropic / Anthropic scales to 100k context tokens (2 minute read)
최근 트렌드에 맞춰, Anthropic의 Claude 모델이 이제 훨씬 더 긴 컨텍스트에서 동작합니다. 이에 따라 회사의 전체 문서를 모델에 넣고 이를 기반으로 언어 모델이 동작하게 할 수 있습니다. 240페이지 분량의 코딩 문서를 Claude에 입력하면 코딩 질문에 대한 답을 구할 수 있는 예시를 제공합니다. 이 변경 사항에 대한 기술적 세부 사항은 공유되지 않습니다.
Following the trend, Anthropic’s Claude model can now operate over a dramatically longer context. This means your org can put full documents into the model and the language model will operate on them. They give an example of feeding 240 pages of coding docs into Claude and having it answer coding questions. The technical details of this change are not shared.
Stability AI, 텍스트를 애니메이션으로 변환하는 SDK 공개 / Stability AI text to animation (2 minute read)
Stability AI에서는 사용자가 Stable Diffusion 모델을 사용하여 애니메이션을 만들 수 있는 SDK를 출시하였습니다. 이러한 애니메이션은 무조건 생성하거나, 이미지에 조건부로 생성하거나, 동영상에 조건부로 생성할 수 있습니다. 결과물은 사랑스럽고, 연산 비용이 다소 많이 들지만 매우 독특한 스타일을 가지고 있습니다.
SDK released to allow users to create animations using stable diffusion models. You can generate these animations unconditionally, conditioned in an image, or conditioned on a video. The results are lovely, are somewhat computationally expensive, and have a very distinctive style.
Google, 바드 업데이트 / Bard Updates (5 minute read)
생성형 AI로 구동되는 협업 도구인 Google의 Bard가 더욱 다양하게 활용될 예정입니다. Bard는 대규모 언어 모델 PaLM 2를 적용하여 수학 및 코딩 능력이 향상되었습니다. 현재 구글은 180여 개국에서 일본어와 한국어로 바드를 제공하고 있으며, 곧 40개 언어가 추가될 예정입니다. 이 플랫폼은 곧 이미지 프롬프트를 포함한 더 많은 시각적 응답을 지원하고 Google 렌즈 기능을 통합할 예정입니다. 또한 개발자는 정확한 출처 인용, 어두운 테마, '내보내기' 버튼, Google 앱 및 서비스는 물론 Adobe Firefly와 같은 타사 플랫폼과의 더 많은 통합을 기대할 수 있습니다.
Google's Bard, a collaborative tool powered by generative AI, is set to become even more versatile. Since its launch, Bard has been enhanced with the PaLM 2 large language model, improving its math and coding skills. Now, Google is making Bard available in over 180 countries and in Japanese and Korean, with 40 languages expected soon. The platform will soon support more visual responses, including image prompts, and incorporate Google Lens capabilities. Developers can also look forward to precise source citations, a dark theme, an "export" button, and more integration with Google's apps and services, as well as third-party platforms like Adobe Firefly.
연구 & 혁신 관련 소식 / Research & Innovation
VideoChat: 동영상을 더 잘 이해하기 위한 새로운 시스템 / VideoChat: A New System for Understanding Videos Better (GitHub Repo)
이 저장소는 비디오와 언어를 이해하는 인공 지능 기술을 결합하여 비디오를 이해하는 시스템인 VideoChat을 소개합니다. 연구원들은 또한 자세한 설명과 대화가 포함된 대규모 비디오 세트를 만들어 비디오의 이벤트 순서와 인과 관계를 더 잘 이해할 수 있도록 시스템을 학습시켰습니다.
This repo introduces VideoChat, a system that makes sense of videos by combining artificial intelligence techniques for understanding videos and language. The researchers also created a large set of videos with detailed descriptions and conversations to help train the system to be better at understanding the sequence of events and cause-effect relationships in videos.
EVA (GitHub Repo)
EVA는 딥러닝 모델을 사용하여 정형 데이터(표, 특징 벡터) 및 비정형 데이터(동영상, 팟캐스트, PDF 등) 모두에서 작동하는 데이터베이스 애플리케이션을 지원하기 위해 설계되었습니다.
EVA is designed for supporting database applications that operate on both structured (tables, feature vectors) and unstructured data (videos, podcasts, PDFs, etc.) using deep learning models.
허깅페이스의 채팅 UI / HuggingFace Chat UI (GitHub Repo)
허깅페이스는 ChatGPT의 경쟁자인 HuggingChat 앱을 구동하는 코드베이스를 오픈소스화했습니다.
HuggingFace has open sourced the codebase powering the HuggingChat app, a competitor to ChatGPT.
엔지니어링 및 리소스 관련 소식 / Engineering & Resources
Text-to-3D 심층 분석: 생성형 AI의 새로운 개척지 / An In-Depth Look at Text-to-3D: The New Frontier in Generative AI (28 minute read)
이 논문은 글로 쓰여진 설명을 3D 모델로 변환하는 생성형 AI의 일부인 텍스트 3D 변환 분야에 대한 포괄적인 서베이 논문입니다. 다양한 유형의 3D 데이터, 기반 기술, 최근 작품에서 어떻게 결합되는지, 아바타 제작 및 장면 생성 등 다양한 애플리케이션에서 Text-to-3D가 어떻게 사용되는지 소개합니다.
This paper is a comprehensive survey of the emerging field of text-to-3D, a part of generative AI that turns written descriptions into 3D models. It introduces different types of 3D data, foundational technologies, and how they're combined in recent works, as well as how text-to-3D is used in various applications like creating avatars and generating scenes.
AI와 스케치를 사용하여 더 나은 비디오 콘텐츠 만들기 / Creating Better Video Content Using AI and Sketches (5 minute read)
이 논문에서는 스케치와 텍스트를 기반으로 인공지능(AI)을 사용하여 비디오 콘텐츠를 제작하는 새로운 방법을 설명합니다. 텍스트-투-비디오 제로와 컨트롤넷이라는 두 가지 기술을 결합한 이 방법은 다양한 실험을 통해 사용자가 의도한 것과 거의 일치하는 고품질의 일관된 동영상을 만들 수 있음을 보여줍니다.
This paper describes a new way to make video content using artificial intelligence (AI), based on sketches and text. The method, which combines two technologies called Text-to-Video Zero and ControlNet, can create high-quality, consistent videos that closely match what the user intended, as demonstrated by various experiments.
단일 이미지에서 확산 모델 기반의 3D 얼굴 재구성 / Diffusion-based 3D Facial Reconstruction from a Single Image (12 minute read)
이 논문에서는 성공적으로 이미지를 생성하는 확산 모델을 소개합니다. 이 모델을 사용하여 한 장의 이미지에서 3D 얼굴 특징을 재구성할 수 있습니다. 이 과정은 얼굴 텍스처 데이터 세트를 사용하고 다양한 조명 조건을 시뮬레이션한 다음 확산 모델을 사용하여 텍스처의 누락된 부분과 알 수 없는 반사 속성을 채워 보다 정확하고 일관된 3D 얼굴을 생성하는 과정을 포함합니다.
This paper introduces a method that uses diffusion models, which have been successful in creating images, to reconstruct 3D facial features from just one image. The process involves using a dataset of facial textures, simulating various lighting conditions, and then using the diffusion model to fill in missing parts of the texture and unknown reflective properties, resulting in a more accurate and consistent 3D face.
그 외 소식 / Miscellaneous
EU, 더 엄격한 AI 규칙 고려 중 / EU Considering Tougher AI Rules (2 minute read)
유럽 의원들은 목요일 긴급 투표를 통해 ChatGPT와 같은 인공지능 도구를 규제하는 새로운 규칙을 통과시키는 데 한 걸음 더 다가섰습니다. 많은 기대를 모으고 있는 유럽연합의 인공지능법은 안면 인식, 생체 인식 감시 및 기타 인공지능 애플리케이션의 사용에 관한 새로운 규칙이 포함된 기술을 규율하는 최초의 포괄적인 법률이 될 예정입니다.
European lawmakers came a step closer to passing new rules regulating artificial intelligence tools such as ChatGPT, following a crunch vote on Thursday. The European Union's highly anticipated AI Act is set to be the first comprehensive legislation governing the technology, with new rules around the use of facial recognition, biometric surveillance, and other AI applications.
AI는 새로운 맥킨지가 될 것인가? / Will AI Become The New McKinsey? (11 minute read)
이 글에서 테드 총(Ted Chong)은 경제에서 AI의 미래, 특히 노동력에 미칠 수 있는 잠재적인 부정적 영향에 대해 자세히 살펴봅니다.
In this article, Ted Chong dives into the question of AI’s future in the economy, specifically its potential negative impacts on the workforce.
2,500만 달러의 자금을 운영하는 AI 기반 VC 벨라 / AI-powered VC firm Vela emerges from stealth with $25M under management (5 minute read)
전 Google 수석 프로그램 매니저였던 이짓 일라무르는 혁신을 가속화하는 것을 목표로 하는 AI 기반 제품 주도형 벤처캐피털 회사인 벨라 파트너스(Vela Partners)를 설립했습니다. Vela의 접근 방식은 AI와 전문가 휴리스틱을 결합하여 트렌드를 파악하고, 기회를 포착하고, 투자에 대한 위협을 감지합니다. 이 회사는 기업가와 파트너를 지원하는 "게임과 같은" 터미널과 알고리즘 모델을 보관하는 공개 깃허브 리포지토리로 차별화합니다.
Former Google senior program manager, Yiğit Ihlamur, founded Vela Partners, an AI-powered, product-led VC firm aiming to accelerate innovation. Vela's approach blends AI and expert heuristics to identify trends, source opportunities, and detect threats to its investments. Despite issues of bias in AI, which have been flagged as potential problems in the VC space, Ihlamur maintains that understanding underlying behaviors in the venture market is key. The firm differentiates itself with a "game-like" terminal to aid entrepreneurs and partners, and a public GitHub repo housing its algorithmic models.
더 읽어보기 / Quick Links
메타, 광고주를 위한 생성형 AI 발표 / Meta Announces Generative AI For Advertisers (1 minute read)
메타는 오늘 광고주가 페이스북 또는 인스타그램 광고 시에 사용할 수 있는 AI 샌드박스를 발표했습니다. 이를 이용하여 텍스트 프롬프트와 이미지 자르기 등으로 대체 문구나 배경을 생성할 수 있습니다.
Meta today announced an AI Sandbox for advertisers to help them create alternative copies, background generation through text prompts and image cropping for Facebook or Instagram ads.
Metabob (Product Launch)
Metabob은 사용자가 코드에 숨어 있는 복잡한 문제를 자동으로 감지, 이해, 해결하도록 도와 코드 디버깅 속도를 높여주는 AI 코드 리뷰 도구입니다. 메타밥의 코드 컨텍스트 이해 능력은 탐지 기능을 더욱 강화합니다!
Metabob is an AI code review tool that speeds up code debugging by helping users automatically detect, understand, and solve complex problems hiding in their code. Metabob’s ability to understand code context supercharges its detection capabilities!
Microsoft 임원, 규제에 앞서 AI의 "의미 있는 피해"가 필요하다고 발언 / Microsoft Exec Says “Meaningful Harm” From AI Needed Before Regulation (2 minute read)
전 세계 의원들이 빠르게 발전하는 AI 기술을 어떻게 규제할지 고민하는 가운데, Microsoft의 수석 경제학자 마이클 슈바르츠는 오늘 세계경제포럼 성장 서밋 참석자들에게 "상상의 시나리오가 아니라 실제로 발생하는 의미 있는 피해를 확인하기 전까지는 AI를 규제해서는 안 된다"고 말했습니다.
As lawmakers worldwide attempt to understand how to regulate rapidly advancing AI technologies, Microsoft chief economist Michael Schwarz told attendees of the World Economic Forum Growth Summit today that "we shouldn't regulate AI until we see some meaningful harm that is actually happening, not imaginary scenarios."
Flowise (GitHub Repo)
드래그-앤-드롭 UI로 LangchainJS를 사용하여 맞춤형 LLM 플로우를 구축할 수 있습니다.
Drag & drop UI to build your customized LLM flow using LangchainJS.