[TLDR] 오늘의 AI 뉴스, 2023-10-17: AGI가 이미 존재하나요❓, 표 형식의 800B 토큰 데이터셋 📚, 페어링된 데이터가 없는 멀티모달 학습 👯

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터 의 승인을 받아 AI 소식을 DeepL로 번역 하여 전합니다. :star_struck:
더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! :robot:
TLDR-AI 뉴스 레터 썸네일


:rocket: 주요 뉴스 & 신규 출시 소식 / Headlines & Launches

TabLiB: 800B 표 형식 토큰 데이터셋 / TabLiB 800B tabular token dataset (2 minute read)

커뮤니티가 표 형식의 데이터를 더 잘 이해할 수 있는 대규모 데이터 모델을 구축하도록 장려하기 위한 표 형식의 토큰 데이터 세트입니다. 6억 2,700만 개의 테이블과 8,670억 개의 컨텍스트 정보 토큰으로 구성된 공개적으로 사용 가능한 가장 큰 표 형식의 데이터 세트입니다. TabLiB는 허깅 페이스에서 사용할 수 있습니다.

Dataset of tabular tokens to encourage the community to build Large Data Models that better understand tabular data. It is the largest publicly available tabular dataset - a compilation of 627 million tables together with 867 billion tokens of contextual information. TabLiB is available on Hugging Face.

향상된 ROCm 지원 / Improved ROCm support (2 minute read)

AMD는 AI 프로젝트를 위한 더 많은 트레이닝 옵션을 위해 RDNA GPU(RX 7900 포함) 및 Pytorch에 대한 지원을 개선했습니다. rocm

AMD has improved support for its RDNA GPUs (including the RX 7900) and Pytorch for more training options for AI projects.

나노트로닉스: 조립식 부품과 AI로 수백 개의 칩 공장을 건설하는 것을 목표로 하는 스타트업 / Startup Aims to Build Hundreds of Chip Factories with Prefab Parts and AI (6 minute read)

나노트로닉스는 뉴욕에 본사를 둔 산업용 AI 회사로, 조립식 부품으로 모듈식으로 조립하고 확장할 수 있는 AI 지원 칩 공장을 구축하고자 합니다. 나노트로닉스의 큐브팹 시스템은 AI를 사용하여 일반적으로 실험실에서 필요로 하는 전문성을 없애고 반도체 전문가가 아닌 사람도 시설에서 일할 수 있도록 합니다. 각 시설을 운영하는 데 약 30명의 인력만 필요합니다. 각 시설의 대량은 평평하게 포장하여 운송 컨테이너에 넣을 수 있습니다.

Nanotronics is a New York-based industrial AI company that wants to build an AI-enabled chip factory that can be assembled and expanded modularly with prefab pieces. Its Cubefabs system uses AI to take away the need for the specialization normally needed in a lab and allow people who are not semiconductor experts to work at the facilities. Each facility will need only about 30 people to operate. The bulk of each facility can be flat-packed and put in a shipping container.

:brain: 연구 & 혁신 관련 소식 / Research & Innovation

향상된 지구 관측 / Enhanced Earth Observation (GitHub Repo)

이 연구에서는 디지털 표면 모델(DSM) 데이터와 서로 다른 시기의 항공 이미지를 결합하여 2D 관점을 넘어 변화 감지를 개선하는 새로운 방법을 소개합니다.

This study introduces a new method that combines digital surface model (DSM) data and aerial images from different times to improve change detection beyond just 2D perspectives.

MosaicFusion: 사전학습 없이 새로운 이미지를 만드는 도구 / MosaicFusion: A Tool to Make New Images without Training (GitHub Repo)

모자이크퓨전은 사전 학습 없이도 많은 오브젝트로 새로운 그림을 만들 수 있는 마법 도구와도 같습니다. 먼저 그림을 만든 다음 각 개체의 위치를 표시하는 마스크를 생성하는 두 단계로 이루어집니다.

MosaicFusion is like a magic tool that can create new pictures with lots of objects without needing any prior learning. It does this in two steps: first, it makes the picture, and then it creates a mask to show where each object is.

Libgen에서 txt로 변환 / Libgen to txt (GitHub Repo)

Libgen은 많은 폐쇄형 모델에 사용되는 데이터 세트일 가능성이 높습니다. 이 데이터 세트의 상업적 사용에 대한 적법성에 대해서는 논의 중이지만, 연구자들은 언어 모델 학습을 위한 데이터 품질을 더 잘 이해하기 위해 여전히 이 데이터셋을 사용하고 있습니다.

Libgen is likely a dataset in many closed models. While the legality of this dataset for commercial use is under debate, researchers are still using it to better understand data quality for language model training.

:man_technologist: 엔지니어링 및 리소스 관련 소식 / Engineering & Resources

Ex-MCR: 페어링된 데이터가 없는 멀티모달 학습 / Multimodal Learning without Paired Data (GitHub Repo)

이 연구는 쌍을 이루는 데이터 없이도 여러 모달리티에 대한 통합된 대조 표현을 효율적으로 학습하는 새로운 방법인 Ex-MCR을 소개합니다. 기존의 다중 모달 대조 표현을 정렬함으로써 Ex-MCR은 시청각 검색 및 3D 객체 분류와 같은 작업에서 최고의 성능을 달성합니다.

The research introduces Ex-MCR, a novel method that efficiently learns unified contrastive representations for multiple modalities without needing paired data. By aligning existing Multi-modal Contrastive Representations, Ex-MCR achieves top performance in tasks like audio-visual retrieval and 3D object classification.

SupFusion: LiDAR 카메라 감지 강화하기 / Boosting LiDAR-Camera Detection (14 minute read)

이 논문의 저자들은 자동차나 보행자와 같은 사물을 감지할 때 LiDAR와 카메라 시스템이 함께 더 잘 작동하도록 하기 위해 SupFusion이라는 새로운 기술을 개발했습니다.

The authors of this paper have created a new technique called SupFusion to make LiDAR and camera systems work together better for detecting things like cars or pedestrians.

6DRepNet360: 고급 얼굴(머리) 포즈 추정 / Advanced Head Pose Estimation (16 minute read)

사람의 고개가 돌아가는 방향을 파악하는 것은 많은 기술 응용 분야에서 중요합니다. 이 연구진은 어떤 각도에서든 머리 위치를 추정할 수 있는 새로운 방법을 개발했습니다.

Figuring out the direction someone's head is turned is important for lots of tech applications. These researchers have developed a new way to estimate head positions from any angle.

:gift: 그 외 소식 / Miscellaneous

AI 개발을 대하는 메타의 독특한 접근 방식이 월스트리트를 의문에 빠지게 합니다 / Meta’s Unique Approach To Developing AI Puzzles Wall Street (5 minute read)

월스트리트 투자자들은 AI에 대한 Meta의 오픈소스 접근 방식을 평가하고 이해하는 데 어려움을 겪고 있지만, 기술 업계의 많은 사람들은 Llama를 Linux와 유사하게 포지셔닝하는 것이 현명한 플레이라고 생각합니다.

Although Wall Street investors have a hard time valuing and understanding Meta’s open-source approach to AI, many in the tech industry believe that positioning Llama similarly to Linux as a smart play.

AGI(일반 인공지능)은 이미 여기에 있습니다 / Artificial General Intelligence Is Already Here (11 minute read)

오늘날의 AI 모델은 완벽하지는 않지만, 궁극적으로 인공 일반 지능의 첫 번째 진정한 사례로 인정받을 가능성이 여전히 높습니다.

Although today’s AI models aren’t perfect, there is still a strong chance that they will be eventually recognized as the first true examples of artificial general intelligence.

COLM: 언어 모델링을 위한 새로운 컨퍼런스 / New conference for language modeling (3 minute read)

언어 모델링에 대한 관심이 급격히 증가하고 있습니다. 기존의 많은 ML 컨퍼런스는 논문으로 넘쳐나고 있습니다. 저명한 과학자들이 주최하는 이 새로운 컨퍼런스는 논문 발표를 위한 훌륭한 선택지가 될 것입니다.

With the dramatic increase in interest in language modeling. Many existing ML conferences have been inundated with papers. This new venue, organized by many prominent scientists, will be a great option for publications.

:zap: 더 읽어보기 / Quick Links

ChatGPT-AutoExpert: Behind the scenes (GitHub Repo)

이 저장소에서는 ChatGPT에 사용되는 시스템 메시지와 이러한 메시지가 사용자 지정 지침에 어떤 영향을 미칠 수 있는지 살펴봅니다.

This repository looks at the system messages used for ChatGPT and how they might influence custom instructions.

저성장과 인플레이션에서 벗어나는 길, AI / AI Is The Way Out Of Low Growth And Inflation (4 minute read)

생성형 인공지능은 세계 경제 생산성을 높이고 새로운 부를 창출할 준비가 되어 있지만, 대량 실직으로 인한 불평등 심화에 주의해야 합니다.

Generative artificial intelligence is poised to boost global economic productivity and create new wealth, but we need to be careful of widening inequality due to mass job displacement.

Cal.ai(제품 출시) / Cal.ai (Product Launch)

오픈소스 AI 캘린더 스케줄링.

Open source AI calendar scheduling.