안녕하세요
국내 최대 오프라인 인공지능 커뮤니티 모두의연구소입니다.
보통 이미지를 찾기 위해서 검색할 때 텍스트를 이용해서 많이 찾죠. 하지만 이미지를 구체적으로 설명하기에는 텍스트 기반 검색은 한정될수 밖에 없습니다. 이런 문제점을 해결하기 위해 구글 리서치에서 이미지와 텍스트 샘플을 결합해서 검색 대상에 맞게 이미지를 검색하는 시스템에 대해서 고안해왔죠. 그러나 이 방식도 쿼리 이미지, 설명, 대상 이미지라는 대량의 라벨링 데이터가 필요하다보니 완벽하진 않습니다. Pic2Word는 제로샷으로 구성된 이미지 검색을 위한 사진을 단어로 매핑하는 데이터셋을 공개했습니다. 해당 데이터셋을 사용하면 삼중 데이터 필요없이 다양한 이미지-텍스트 검색이 가능해진다고 하니 아래 링크에서 자세히 확인해보세요!
Pic2Word: Mapping pictures to words for zero-shot composed image retrieval
현재 LLM은 Transformer의 디코더로 이루어진 아키텍쳐들을 많이 활용하고 있습니다. 그리고 현재 LLaMA, Vicuna등 많은 오픈소스 LLM이 등장했지만 몇몇 모델들은 디코더로 이루어진 모델들이 성능이 좋지만 구글이 도입했던 Flan-T5모델과 같은 LLM을 이기지 못하는 경우가 많았죠. 그래서 이번 연구는 오픈소스 LLM인 Vicuna 모델을 Flanmini라는 명령어 데이터셋 콜렉션으로 파인튜닝을 진행했고 해당 모델의 이름을 Flacuna로 지었다고 해요! LLM 모델의 다양한 시도가 돋보이는 논문이라 가져와봤습니다!
Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN Fine-Tuning
LLM의 가장 큰 고민거리는 시퀀스 길이를 확장시키는 것인데요! 기존 방법들은 계산 복잡성이나 모델 표현성 때문에 최대 시퀀스 길이가 제한됩니다. LongNet은 짧은 시퀀스에서도 성능 저하없이 시퀀스 길이를 10억개 이상의 토큰으로 확장할 수 있게 만들었다고 합니다! LongNet은 attention 메커니즘을 수정해서 만들었기에 가능했다고 하는데요. 시퀀스 길이가 늘어나는 연구는 추후에 우리가 LLM을 활용할 때 토큰을 무한정으로 받을 수 있다면 더 많은 연구가 될거라고 생각합니다! 아래 링크에서 자세한 논문 내용을 확인해보세요!
LongNet: Scaling Transformers to 1,000,000,000 Tokens
AI학교 아이펠 ‘쏘카 캠퍼스’에서 데이터 AI 엔지니어로 함께 성장해요!
아이펠 캠퍼스 - 모두의연구소가 만든 AI학교 아이펠 (aiffel.io )