파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다.
더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요!
주요 뉴스 & 신규 출시 소식 / Headlines & Launches
Stack Overflow, OverflowAI로 생성형 AI 세계로 뛰어들다 / Stack Overflow jumps into the generative AI world with OverflowAI (3 minute read)
스택 오버플로는 검색 기능을 향상시키고 개발자를 지원하기 위해 생성형 AI 기능을 플랫폼에 통합하고 있습니다. 오버플로AI는 8월에 알파 버전으로 출시될 예정입니다. 이 도구에는 Visual Studio Code 확장 프로그램과 Slack 통합이 포함됩니다.
Stack Overflow is integrating generative AI features into its platforms to enhance search capabilities and aid developers. OverflowAI will launch in alpha in August. The tools include a Visual Studio Code extension and Slack integration.
StackOverflow, OverflowAI 공개 (StackOverflow, Announcing OverflowAI)
a16z, 'AI 제품을 전세계에 판매하는 것은 여전히 너무 어렵다' / Selling AI Products Around The World Is Still Too Hard (5 minute read)
회사를 설립하는 것이 그 어느 때보다 쉬워졌지만, 전 세계적으로 제품을 판매하는 것은 여전히 매우 어렵습니다. a16z는 Merchant of Record 프로그램이 해결책이 될 수 있는 이유를 설명합니다.
Although building a company has never been easier, it is still very difficult to sell products globally. a16z explains why Merchant of Record programs might be the solution.
연구 & 혁신 관련 소식 / Research & Innovation
구글의 바드와 시각적 이해의 도전 / Google's Bard and the Challenge of Visual Understanding (GitHub Repo)
구글의 대화형 인공지능인 바드는 텍스트 외에도 시각적 입력을 처리할 수 있는 기능을 갖추고 있어 멀티모달 생성 모델에 새로운 가능성을 제시하고 있습니다. 하지만 13개의 다양한 시각적 시나리오를 대상으로 한 이번 연구에 따르면 바드는 시각적 이해에 어려움을 겪는 것으로 나타나 향후 AI 모델 개발에서 개선의 여지가 상당한 것으로 나타났습니다.
Google's conversational AI, Bard, now has the capability to process visual inputs in addition to text, creating new possibilities for multi-modal generative models. However, this study across 13 diverse visual scenarios reveals that Bard struggles with visual understanding, showing considerable room for improvement in future development of AI models.
텍스트 생성 인터페이스 / Text Generation Interface (GitHub Repo)
텍스트 생성 추론을 위한 Rust, Python 및 gRPC 서버. 허깅챗, 추론 API, 추론 엔드포인트를 구동하기 위해 허깅페이스의 프로덕션에서 사용됩니다. 최근 라이선스가 변경되어 더 이상 상업적으로 사용할 수 없습니다.
A Rust, Python, and gRPC server for text generation inference. Used in production at HuggingFace to power Hugging Chat, the Inference API, and Inference Endpoint. Recently changed license to no longer be commercially usable.
VOX2Vec: 자기 지도 학습을 통한 더 나은 의료 영상 / Better Medical Imaging Through Self-Supervised Learning (14 minute read)
이 연구에서는 복셀(3D 픽셀) 수준에서 CT 스캔과 같은 의료 이미지를 더 잘 이해하기 위해 자기 지도 학습을 사용하는 혁신적인 접근 방식인 vox2vec을 소개합니다. 연구 결과에 따르면 vox2vec은 이 분야의 다른 기술에 비해 더 적은 수의 학습 가능한 매개변수를 필요로 하는 더 효율적인 솔루션을 제공합니다.
The study introduces vox2vec, an innovative approach that uses self-supervised learning to better understand medical imagery like CT scans on a voxel (3D pixel) level. The results show that vox2vec excels compared to other techniques in the field, offering a more efficient solution that requires fewer trainable parameters.
엔지니어링 및 리소스 관련 소식 / Engineering & Resources
언어 모델, 언어 학습 기술 학습 / Language models learn skills to learn language (26 minute read)
사전 학습 시 언어 모델의 기능을 파악하기 위한 노력의 일환으로, 합성 데이터 작업을 설정하여 다양한 기술을 테스트한 다음 해당 기술을 알려주는 데 도움이 되는 데이터가 포함된 데이터셋을 큐레이션할 수 있습니다. 10억 개의 토큰으로 학습하는 경우 적절하게 큐레이션된 데이터 세트로 30억 개의 토큰으로 학습하는 것과 동일한 성능을 얻을 수 있습니다.
As part of the effort to figure out what language models do when pre-training, you can set up synthetic data tasks to test various skills and then curate data sets that contain data that helps inform those skills. If you train on 1 billion tokens, you can get the same performance as training on 3 billion tokens with a properly curated data set.
구글의 새로운 로봇 공학 혁신 / Google's new breakthrough in robotics (6 minute read)
보는 트랜스포머, 계획하는 트랜스포머, 제어하는 트랜스포머? 강력한 사전 학습 모델을 사용하여 로봇 성능의 다양한 측면을 개선하는 Google의 다음 로봇 공학 노력으로 트랜스포머가 계속해서 세상을 먹어 치우고 있는 것 같습니다.
Transformers used to see, Transformers used to plan, and Transformers used to control? It seems like Transformers are continuing to eat the world with this next iteration of robotics efforts from Google that use the powerful pre-trained models to improve various aspects of the robots performance.
Thinker: 시뮬레이션 환경에서 학습하는 AI / AI Can Now Learn from a Simulated Environment (18 minute read)
Thinker 알고리즘은 인공지능이 시뮬레이션 환경과 독립적으로 상호 작용하고 학습할 수 있는 고유한 방법을 도입하여 전략적 계획을 세우는 능력을 향상시킵니다. Sokoban 게임과 Atari 2600 벤치마크에서 테스트된 이 알고리즘은 최고 수준의 성능을 보여주며, AI의 강화 학습에 대한 새로운 접근 방식을 제공하고 계획이 의사 결정 프로세스에 통합되는 방식을 혁신적으로 개선합니다.
The Thinker algorithm introduces a unique method allowing artificial intelligence to independently interact with and learn from a simulated environment, improving their ability to make strategic plans. Tested in the game of Sokoban and Atari 2600 benchmark, the algorithm displays top-tier performance, offering a new approach for reinforcement learning in AI and revolutionizing how planning is integrated into the decision-making process.
그 외 소식 / Miscellaneous
맥킨지, '생성형 AI와 업무의 미래' 보고서 발간 / Generative AI And The Future Of Work (10 minute read)
인공지능이 특정 직종에서는 일자리를 늘리고 다른 직종에서는 성장을 저해하는 방법에 대한 맥킨지의 보고서입니다.
A report by McKinsey on how AI will fuel work in certain occupations and erode growth in others.
맥킨지(McKinsey), 생성형 AI와 미국의 미래 일자리 보고서(Generative AI and the future of work in America, 76p/영문/무료)
아무도 발견하지 못한 AI 교육 문제 / The AI Education Issue That Nobody Detected (6 minute read)
현재로서는 부정행위 탐지기가 효과적이지 않다는 것이 분명하기 때문에 AI 부정행위의 흐름을 막으려는 교사들은 AI 쓰기 탐지기가 아닌 다른 곳을 찾아야 할 것입니다.
Teachers who want to stem the tide of AI cheating will have to look somewhere besides AI writing detectors as it is clear at this point that detectors are not effective.
AI와 데이터 역할의 역설 / The Paradox Of AI And Data Roles (2 minute read)
토마스 퉁구츠는 AI가 일부 데이터 작업을 자동화하더라도 데이터 팀에게 훨씬 더 많은 것을 요구하는 이유를 설명합니다.
Tomasz Tunguz explains why, even though AI will automate some data work, it will also demand much more from data teams.
더 읽어보기 / Quick Links
Khoj (GitHub Repo)
디지털 두뇌를 위한 인공지능 개인 비서.
An AI personal assistant for your digital brain.
AI Logo Art (Product)
AI 로고 아트는 AI를 통해 로고를 멋진 예술 작품으로 바꿔줍니다.
AI logo art transforms your logos into stunning art with AI.
32k 컨텍스트를 갖는 Llama2 7B / Llama 2 7B 32k context length (6 minute read)
최근 2,000만 달러의 투자를 유치한 투게더 컴퓨팅은 위치 임베딩에 대한 선형 확장을 통해 최대 32,000개의 토큰까지 컨텍스트에서 작동하도록 Llama 2를 미세 조정했습니다. 이들은 여러 가지 흥미로운 벤치마크를 테스트했지만, 현대 언어 모델에서 '중간을 잊어버리는 것'은 여전히 큰 문제라고 경고했습니다.
Together compute, which recently raised $20 million, has fine-tuned Llama 2 with a linear extension on the positional embeddings to work up to 32k tokens in context. They tested on a number of interesting benchmarks, but cautioned that " forgetting the middle" is still very much a problem in modern day language models.