파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다.
더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요!
주요 뉴스 & 신규 출시 소식 / Headlines & Launches
ChatGPT 미세 조정 / Fine-tune ChatGPT (4 minute read)
이제 사용자 지정 데이터에 대해 gpt-3.5-turbo를 미세 조정할 수 있습니다. 결과 모델은 사용자의 것이며 다른 모델을 학습하는 데 데이터가 사용되지 않습니다. 이를 통해 비용을 획기적으로 절감하고 조향성을 개선하며 전반적인 성능을 향상시킬 수 있습니다. GPT-4 미세 조정은 올가을에 출시될 예정입니다.
You can now fine-tune gpt-3.5-turbo on custom data. The resulting model is yours and no data is used to train other models. This can dramatically drive down costs, improve steerability, and improve overall performance. GPT-4 fine-tuning is coming this fall.
(더 보기 OpenAI, GPT-3.5 Turbo의 미세 조정 기능 제공)
메타, 최초의 다국어 멀티모달 AI 번역 모델 출시 / Meta introduced the first multilingual multimodal AI translation model (4 minute read)
Meta의 SeamlessM4T는 약 100개의 입력 언어와 35개의 출력 언어 번역을 지원합니다.
Meta’s SeamlessM4T supports translation of nearly 100 input languages and 35 output languages.
(더 보기 SeamlessM4T: Meta AI에서 공개한, 번역을 위한 멀티모달에서의 파운데이션 모델 )
Excel, 파이썬 지원 / Python in Excel (12 minute read)
Excel은 세계 최고의 IDE이며 이제 Python으로 더욱 강력해졌습니다! Python 데이터 분석, 차트, 정리 등을 기본적으로 실행할 수 있습니다. Excel에서 변환기를 가장 먼저 작성하는 사람은 누구일까요?
Excel is the number one IDE in the world and now it’s getting supercharged with Python! Natively run Python data analysis, charts, cleaning, and more. Who will be the first to write a transformer in Excel?
(더 보기 엑셀에 파이썬 도입 )
연구 & 혁신 관련 소식 / Research & Innovation
Whisper API (GitHub Repo)
이 오픈소스 프로젝트는 미세 조정된 Whisper 자동 음성 인식 모델을 사용하여 음성-텍스트 변환을 위한 자체 호스팅 가능한 API를 제공합니다.
This open-source project provides a self-hostable API for speech-to-text transcription using a fine-tuned Whisper Automatic Speech Recognition model.
SynJax: 구조 확률 분포를 위한 Jax / Jax for structures probability distributions (GitHub Repo)
SynJax에는 트리, 시퀀스, 세그먼트, 정렬 등과 같은 개체에 대한 확률 도구가 있습니다! 여러 가지 유용한 유틸리티를 갖춘 딥마인드의 매우 멋진 도구입니다.
SynJax has tools for probability over objects like trees, sequences, segmentations, alignments, and more! Very cool tool from DeepMind with a number of useful utilities.
(광고) TLDR을 통해 최고의 AI 인재 채용하기 / Hire top AI talent through TLDR (TLDR Job Listings)
최고의 AI 인재를 채용하고 싶으신가요? TLDR AI에 채용 공고를 등록하고 50만 명 이상의 AI 연구원, ML 엔지니어 및 대기업과 최고의 VC 지원을 받는 스타트업의 기타 기술 인재에게 다가가세요. 자세히 알아보기.
Want to hire top AI talent? List your open jobs in TLDR AI and reach an audience of over half a million AI researchers, ML engineers and other technical talent from big tech companies and top VC-backed startups. Learn more.
엔지니어링 및 리소스 관련 소식 / Engineering & Resources
CFINet: 작은 물건에 대한 물체 감지 개선하기 / Making Object Detection Better for Small Items (16 minute read)
현재의 방법은 물체를 감지하는 데는 훌륭하지만, 작은 물체를 감지하는 데는 종종 문제가 있습니다. CFINet은 이러한 작은 물체 문제를 해결하기 위해 특별히 설계되었습니다. 단계별 접근 방식을 사용하여 먼저 관심 영역을 찾은 다음 작은 물체를 더 잘 인식할 수 있도록 기능을 모방하는 데 중점을 둡니다.
While current methods are great at detecting objects, they often have problems spotting small items. CFINet is designed specifically for these small object challenges. It uses a step-by-step approach to first find good areas of interest and then focuses on mimicking features to better recognize the small items.
IDEFICS: 최첨단 시각/언어 모델의 공개 복제 / Open replication of state-of-the-art vision/language models (28 minute read)
허깅페이스는 IDEFICS(이미지 인식 디코더가 강화된 플라밍고와 인터리브 크로스 어텐션, Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS)라는 멋진 약어를 출시했습니다. IDEFICS는 본질적으로 텍스트와 이미지를 인터리빙하여 시각적 질문 답변과 추론을 가능하게 하는 Flamingo의 복제 모델입니다. Llama v1을 기반으로 구축되었으며 8B 및 70B 변형이 있습니다.
HuggingFace has released IDEFICS, which is quite the acronym (Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS). IDEFICS is essentially a replication of Flamingo, which is a text and image model that interleaves the two and allows for visual question answering and reasoning. It is built on Llama v1 and has 8B and 70B variants.
DReg-NeRF: 3D 장면 이해도 향상 / Improving 3D Scene Understanding (2 minute read)
신경 방사 필드(NeRF; Neural Radiance Fields)는 컴퓨터 비전 분야에서 뜨거운 주제이지만, 여러 NeRF를 함께 결합하는 것은 여전히 어려운 과제입니다. 이 문제를 해결하기 위해 이 팀은 NeRF에서 특징을 추출하는 새로운 방법인 DReg-NeRF를 개발했습니다. 이 기술은 고급 기술을 사용하여 사람의 입력이나 특별한 마커 없이도 서로 다른 3D 장면이 서로 어떻게 연관되어 있는지 이해합니다.
While Neural Radiance Fields (NeRF) are a hot topic in computer vision, combining multiple NeRFs together is still a challenge. To tackle this, this team developed DReg-NeRF, a new method that pulls out features from NeRF. It uses advanced techniques to understand how different 3D scenes relate to each other without needing any human input or special markers.
그 외 소식 / Miscellaneous
2년간의 인공지능 예측 / 2 years of AI predictions (12 minute read)
다양한 결과에 대한 예측을 하는 여러 그룹이 있습니다. 이 그룹은 여러 벤치마크에서 벤치마크 진행 상황을 예측해 왔습니다. 이 그룹은 이 예측 작업에서 가장 우수한 성과를 거둔 그룹에 대해 논의하는 보고서를 발표했습니다. 실제 결과는 최첨단 AI 모델을 통해 도출되었습니다.
There are several groups that make predictions for various outcomes. This group has been predicting benchmark progress on a number of benchmarks. They have released a report that discusses which groups performed the best on this prediction task. The actual results were from state-of-the-art AI models.
AI 보안 / Securing AI (8 minute read)
AI에 대한 위협은 눈에 띄게 증가하고 있으며 내재된 보안 문제는 이전에는 볼 수 없었던 복잡성을 지니고 있습니다. 모든 신기술이 그러하듯, 우리는 이 기술이 어떻게 무기화될 것인지에 대해 고민해야 합니다.
The rush to AI is palpable and the inherent security challenges are of a complexity never seen before. As with every new technology we need to think about how it's going to be weaponized WHILE it is hockey-sticking.
더 읽어보기 / Quick Links
Sum It Up (Product)
Sum It Up은 텍스트, 기사 또는 노래를 위한 무료 오픈소스 AI 요약기입니다.
Sum It Up is a free and open-source AI summarizer for any text, article, or song.
(광고) CodiumAI: IDE 내에서 사소하지 않은 테스트를 제안하는 AI 도구 / CodiumAI: An AI tool tool that suggests non-trivial tests inside your IDE (Sponsor)
코드, 문서 문자열, 코멘트를 분석하고 사용자와 상호 작용하여 코딩할 때 테스트를 제안하는 도구입니다. 사용자는 이를 수락하고 커밋하기만 하면 됩니다. JetBrains 또는 VS Code용 CodiumAI 받기
By analyzing your code, docstring, and comments, and by interacting with you, TestGPT suggests tests as you code. All you have to do is accept and commit them. Get CodiumAI for JetBrains or VS Code
AI 스타트업: 소프트웨어가 아닌 업무를 판매하세요 / AI startups: Sell work, not software (4 minute read)
LLM은 스타트업에게 사용자 생산성을 목표로 하는 소프트웨어 판매에서 실제 작업 결과물 자체를 판매하는 것으로 패러다임 전환을 제공합니다. 기업은 생산성을 점진적으로 개선하는 데 그치지 않고 전문화된 업무(예: 로펌을 위한 수요 패키지 생성)를 자동화함으로써 이를 활용할 수 있습니다. 이러한 접근 방식은 아웃소싱 솔루션과 경쟁하여 잠재적으로 더 높은 일관성과 가치를 제공하는 동시에 인적 자본을 더 가치 있는 업무에 재할당할 수 있습니다.
LLMs offer a paradigm shift for startups from selling software aimed at user productivity to selling the actual work product itself. Companies can capitalize on this by automating specialized tasks (like creating a demand package for law firms) rather than just improving productivity incrementally. This approach competes with outsourced solutions, potentially offering more consistency and value, while reallocating human capital to higher-value tasks.