[2023/08/28 ~ 09/03] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

  • 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

소개

이번 주에 선택된 논문들의 주제를 살펴보면 주로 언어 모델 및 벡터 검색, 그래프 기반의 딥러닝, 이상치 탐지 등에 집중하고 있는 것으로 보입니다. 특히, 'Large Language and Speech Model', 'Vector Search with OpenAI Embeddings', 'Factuality Detection in LLMs' 등의 논문들은 언어 모델에 대한 연구를, 'Graph of Thoughts', 'AnomalyGPT' 등의 논문들은 딥러닝을 활용한 데이터 분석 및 이상치 탐지에 대한 주제를 다루고 있습니다.

이러한 논문들의 선택은 최근 자연어 처리 및 이상치 탐지 등의 주제가 연구자들 사이에서 높은 관심을 받고 있음을 보여주는 것 같습니다. 언어 모델은 기계 학습, 특히 자연어 처리 분야에서 중요한 요소로 자리 잡고 있으며, 이를 효과적으로 활용하기 위한 다양한 접근법과 기술이 개발되고 있습니다. 이상치 탐지는 이러한 언어 모델이나 딥러닝 알고리즘을 통해 일반적인 패턴에서 벗어난 데이터를 탐지하는 분야로, 이는 보안, 유해 컨텐츠 필터링, 시스템 오류 탐지 등 다양한 영역에서 중요한 역할을 하고 있습니다.

따라서 이번 주에 선택된 논문들은 현대 AI 기술의 중요한 동향과 핵심 이슈를 반영하고 있음을 볼 수 있습니다. 기계 학습과 딥러닝의 끊임없는 발전에 따라, 이러한 분야의 연구가 계속해서 활발해질 것으로 예상됩니다.

LLaSM: 대규모 언어 및 음성 모델 / LLaSM: Large Language and Speech Model

논문 소개

  • 음성 및 언어 교육을 지원하는 교차 모달 대화 능력으로 학습된 대규모 언어 및 음성 모델을 제안하여 AI 시스템과 보다 자연스러운 상호 작용을 가능하게 합니다. multimodal

    Proposes a large language and speech model trained with cross-modal conversational abilities that supports speech-and-language instruction enabling more natural interactions with AI systems.

논문 초록

논문 링크

더 읽어보기

https://twitter.com/_akhaliq/status/1697081112164475304

SAM-Med2D / SAM-Med2D

논문 소개

  • 의료용 2D 이미지에 세그먼트 애니띵 모델(SAM)을 적용하고, 460만 개의 이미지와 1970만 개의 마스크를 수집하여 다양한 모달리티와 객체로 대규모 의료 이미지 분할 데이터셋을 구축하며, 데이터셋에서 샘을 미세 조정하고 다양한 모달리티, 해부학적 구조 및 기관에 대한 의료 이미지 분할을 평가합니다. sam segment-anything

    Applies segment anything models (SAM) to medical 2d images; collects 4.6m images and 19.7m masks to construct a large-scale medical image segmentation dataset with different modalities and objects; sam is fine-tuned on the dataset and evaluated on medical image segmentation across various modalities, anatomical structures, and organs.

논문 초록

  • 세그먼트 애니씽 모델(SAM)은 자연스러운 이미지 분할을 위한 최첨단 연구 발전으로, 점이나 경계 상자 같은 입력 프롬프트를 통해 인상적인 결과를 얻을 수 있습니다. 그러나 우리의 평가와 최근 연구에 따르면 사전 학습된 SAM을 의료 이미지 분할에 직접 적용하면 만족할 만한 성능을 얻지 못합니다. 이러한 한계는 주로 자연 이미지와 의료 이미지 사이의 상당한 영역 격차에서 비롯됩니다. 이러한 간극을 메우기 위해 의료용 2D 이미지에 SAM을 적용한 가장 포괄적인 연구인 SAM-Med2D를 소개합니다. 구체적으로, 먼저 공공 및 민간 데이터세트에서 약 460만 개의 이미지와 1970만 개의 마스크를 수집하고 큐레이팅하여 다양한 모달리티와 오브젝트를 아우르는 대규모 의료 이미지 분할 데이터세트를 구축합니다. 그런 다음 이 데이터셋에 SAM을 종합적으로 미세 조정하여 SAM-Med2D로 변환합니다. 바운딩 박스나 포인트 프롬프트만을 대화형 분할 방식으로 채택한 이전 방법과 달리, 바운딩 박스, 포인트, 마스크를 포함하는 보다 포괄적인 프롬프트를 통해 의료 영상 분할에 SAM을 적용합니다. 또한 원본 SAM의 인코더와 디코더를 미세 조정하여 우수한 성능의 SAM-Med2D를 얻음으로써 지금까지 가장 포괄적인 미세 조정 전략으로 이어졌습니다. 마지막으로 다양한 모달리티, 해부학적 구조 및 장기에 걸쳐 의료 영상 분할에서 SAM-Med2D의 성능을 조사하기 위해 종합적인 평가 및 분석을 수행했습니다. 동시에 MICCAI 2023 챌린지의 9개 데이터셋에 대해 SAM-Med2D의 일반화 기능을 검증했습니다. 전반적으로 우리의 접근 방식은 SAM에 비해 훨씬 우수한 성능과 일반화 기능을 보여주었습니다.

    The Segment Anything Model (SAM) represents a state-of-the-art research advancement in natural image segmentation, achieving impressive results with input prompts such as points and bounding boxes. However, our evaluation and recent research indicate that directly applying the pretrained SAM to medical image segmentation does not yield satisfactory performance. This limitation primarily arises from significant domain gap between natural images and medical images. To bridge this gap, we introduce SAM-Med2D, the most comprehensive studies on applying SAM to medical 2D images. Specifically, we first collect and curate approximately 4.6M images and 19.7M masks from public and private datasets, constructing a large-scale medical image segmentation dataset encompassing various modalities and objects. Then, we comprehensively fine-tune SAM on this dataset and turn it into SAM-Med2D. Unlike previous methods that only adopt bounding box or point prompts as interactive segmentation approach, we adapt SAM to medical image segmentation through more comprehensive prompts involving bounding boxes, points, and masks. We additionally fine-tune the encoder and decoder of the original SAM to obtain a well-performed SAM-Med2D, leading to the most comprehensive fine-tuning strategies to date. Finally, we conducted a comprehensive evaluation and analysis to investigate the performance of SAM-Med2D in medical image segmentation across various modalities, anatomical structures, and organs. Concurrently, we validated the generalization capability of SAM-Med2D on 9 datasets from MICCAI 2023 challenge. Overall, our approach demonstrated significantly superior performance and generalization capability compared to SAM.

논문 링크

더 읽어보기

https://twitter.com/omarsar0/status/1698014448856773102

OpenAI 임베딩을 사용한 벡터 검색: 루씬만 있으면 됩니다 / Vector Search with OpenAI Embeddings: Lucene Is All You Need

논문 소개

  • "비용 편익 분석 결과, 이러한 애플리케이션은 이미 널리 배포된 기존 인프라에 상당한 투자를 받았기 때문에 검색을 위한 최신 'AI 스택'에 전용 벡터 스토어를 도입할 설득력 있는 이유는 없는 것으로 보입니다." vector-database embedding openai

    Suggests that “from a cost–benefit analysis, there does not appear to be a compelling reason to introduce a dedicated vector store into a modern “ai stack” for search since such applications have already received substantial investments in existing, widely deployed infrastructure.”

논문 초록

  • 저희는 인기 있는 MS MARCO 합격 순위 테스트 컬렉션에서 Lucene을 사용하여 OpenAI 임베딩을 통한 벡터 검색의 재현 가능한 엔드투엔드 데모를 제공합니다. 이 작업의 주요 목표는 검색에 적용된 심층 신경망의 최근 발전을 활용하기 위해 전용 벡터 저장소가 필요하다는 일반적인 이야기에 도전하는 것입니다. 그와는 정반대로, 우리는 Lucene의 계층적 탐색 가능 소세계 네트워크(HNSW) 인덱스가 표준 이중 인코더 아키텍처에서 벡터 검색 기능을 제공하는 데 충분하다는 것을 보여줍니다. 이는 단순한 비용 편익 분석으로 볼 때, 이러한 애플리케이션은 이미 널리 배포된 기존 인프라에 상당한 투자를 받았기 때문에 검색을 위한 최신 'AI 스택'에 전용 벡터 저장소를 도입해야 할 설득력 있는 이유가 없는 것으로 보입니다.

    We provide a reproducible, end-to-end demonstration of vector search with OpenAI embeddings using Lucene on the popular MS MARCO passage ranking test collection. The main goal of our work is to challenge the prevailing narrative that a dedicated vector store is necessary to take advantage of recent advances in deep neural networks as applied to search. Quite the contrary, we show that hierarchical navigable small-world network (HNSW) indexes in Lucene are adequate to provide vector search capabilities in a standard bi-encoder architecture. This suggests that, from a simple cost-benefit analysis, there does not appear to be a compelling reason to introduce a dedicated vector store into a modern "AI stack" for search, since such applications have already received substantial investments in existing, widely deployed infrastructure.

논문 링크

더 읽어보기

https://twitter.com/omarsar0/status/1696879909950361867

생각의 그래프: 대규모 언어 모델로 정교한 문제 해결하기 / Graph of Thoughts: Solving Elaborate Problems with Large Language Models

논문 소개

  • 임의의 '생각'을 결합하고 피드백 루프를 사용하여 강화할 수 있으며, 모델 업데이트 없이 '네트워크 추론'을 통해 llm 기능을 강화하는 것이 핵심 아이디어로, 현재 널리 사용되는 생각의 사슬과 생각의 나무를 일반화한 것으로 볼 수 있습니다. algorithm-of-thought

    Presents a prompting approach that models text generated by llms as an arbitrary graph; it enables combining arbitrary "thoughts" and enhancing them using feedback loops; the core idea is to enhance the llm capabilities through "network reasoning" and without any model updates; this could be seen as a generalization of the now popular chain-of-thought and tree-of-thought.

논문 초록

  • 생각의 그래프(GoT)는 생각의 연쇄 또는 생각의 나무(ToT)와 같은 패러다임이 제공하는 것 이상으로 대규모 언어 모델(LLM)의 프롬프트 기능을 발전시키는 프레임워크입니다. GoT의 핵심 아이디어이자 주요 장점은 LLM에서 생성된 정보를 임의의 그래프로 모델링할 수 있다는 것인데, 여기서 정보 단위('LLM 생각')는 정점이고 에지는 이러한 정점 간의 의존성에 해당합니다. 이 접근 방식을 사용하면 임의의 LLM 사고를 시너지 효과를 내는 결과로 결합하거나, 전체 사고 네트워크의 본질을 추출하거나, 피드백 루프를 사용하여 사고를 향상시킬 수 있습니다. 예를 들어, GoT는 ToT에 비해 분류 품질을 62% 향상시키는 동시에 비용을 31% 이상 절감하는 등 다양한 작업에서 최첨단 기술에 비해 이점을 제공한다는 것을 보여줍니다. 또한 GoT는 새로운 사고 전환을 통해 확장이 가능하므로 새로운 프롬프트 체계를 주도하는 데 사용할 수 있습니다. 이 작업을 통해 LLM 추론은 복잡한 네트워크를 형성하는 인간의 사고 또는 반복과 같은 두뇌 메커니즘에 더 가까워졌습니다.

    We introduce Graph of Thoughts (GoT): a framework that advances prompting capabilities in large language models (LLMs) beyond those offered by paradigms such as Chain-of-Thought or Tree of Thoughts (ToT). The key idea and primary advantage of GoT is the ability to model the information generated by an LLM as an arbitrary graph, where units of information ("LLM thoughts") are vertices, and edges correspond to dependencies between these vertices. This approach enables combining arbitrary LLM thoughts into synergistic outcomes, distilling the essence of whole networks of thoughts, or enhancing thoughts using feedback loops. We illustrate that GoT offers advantages over state of the art on different tasks, for example increasing the quality of sorting by 62% over ToT, while simultaneously reducing costs by >31%. We ensure that GoT is extensible with new thought transformations and thus can be used to spearhead new prompting schemes. This work brings the LLM reasoning closer to human thinking or brain mechanisms such as recurrence, both of which form complex networks.

논문 링크

더 읽어보기

https://twitter.com/omarsar0/status/1697245998828204200

MVDream: 3D 세대를 위한 멀티뷰 확산 / MVDream: Multi-view Diffusion for 3D Generation

논문 소개

  • 텍스트 프롬프트가 주어지면 기하학적으로 일관된 멀티뷰 이미지를 생성할 수 있는 멀티뷰 디퓨젼 모델로, 사전 학습된 디퓨젼 모델과 3D 에셋에서 렌더링된 멀티뷰 데이터셋을 활용하여 2D 확산의 일반화 가능성과 3D 데이터의 일관성을 이끌어냅니다. multiview-diffusion diffusion text-to-3d

    A multi-view diffusion model that can generate geometrically consistent multi-view images given a text prompt; it leverages pre-trained diffusion models and a multi-view dataset rendered from 3d assets; this leads to generalizability of 2d diffusion and consistency of 3d data.

논문 초록

  • 유니티는 주어진 텍스트 프롬프트에서 기하학적으로 일관된 멀티뷰 이미지를 생성할 수 있는 멀티뷰 디퓨젼 모델인 MVDream을 제안합니다. 대규모 웹 데이터셋에서 사전 학습된 이미지 디퓨젼 모델과 3D 에셋에서 렌더링된 멀티뷰 데이터셋을 활용하여 2D 확산의 일반화 가능성과 3D 데이터의 일관성을 모두 달성할 수 있는 멀티뷰 디퓨젼 모델을 제안합니다. 따라서 이러한 모델은 스코어 증류 샘플링을 통해 3D 생성을 위한 멀티뷰 프리뷰로 적용될 수 있으며, 3D 일관성 문제를 해결함으로써 기존 2D 리프팅 방법의 안정성을 크게 향상시킵니다. 마지막으로, 멀티뷰 디퓨젼 모델은 피사체의 신원을 학습한 후 일관성을 유지할 수 있는 개인화된 3D 생성, 즉 드림부스3D 애플리케이션을 위해 몇 개의 샷 설정으로 미세 조정할 수 있음을 보여줍니다.

    We propose MVDream, a multi-view diffusion model that is able to generate geometrically consistent multi-view images from a given text prompt. By leveraging image diffusion models pre-trained on large-scale web datasets and a multi-view dataset rendered from 3D assets, the resulting multi-view diffusion model can achieve both the generalizability of 2D diffusion and the consistency of 3D data. Such a model can thus be applied as a multi-view prior for 3D generation via Score Distillation Sampling, where it greatly improves the stability of existing 2D-lifting methods by solving the 3D consistency problem. Finally, we show that the multi-view diffusion model can also be fine-tuned under a few shot setting for personalized 3D generation, i.e. DreamBooth3D application, where the consistency can be maintained after learning the subject identity.

논문 링크

더 읽어보기

https://twitter.com/_akhaliq/status/1697521847963619462

누가: 학술 문서를 위한 신경 광학 이해 / Nougat: Neural Optical Understanding for Academic Documents

논문 소개

  • 학술 문서의 신경광학적 이해를 위한 접근 방식을 제안하며, 학술용 PDF에서 텍스트, 수식, 표를 추출하는 기능, 즉 PDF를 라텍스/마크다운으로 변환하는 기능을 지원합니다. easy-ocr

    Proposes an approach for neural optical understanding of academic documents; it supports the ability to extract text, equations, and tables from academic pdfs, i.e., convert pdfs into latex/markdown.

논문 초록

  • 과학 지식은 주로 책과 과학 저널에 저장되며, 종종 PDF 형식으로 저장됩니다. 그러나 PDF 형식은 특히 수학적 표현의 경우 의미 정보가 손실되는 문제가 있습니다. 본 논문에서는 과학 문서를 마크업 언어로 처리하기 위해 광학 문자 인식(OCR) 작업을 수행하는 시각적 변환기 모델인 Nougat(학술 문서를 위한 신경 광학 이해)를 제안하고, 새로운 과학 문서 데이터셋에 대한 모델의 효과를 입증합니다. 제안된 접근 방식은 사람이 읽을 수 있는 문서와 기계가 읽을 수 있는 텍스트 사이의 격차를 해소함으로써 디지털 시대에 과학 지식의 접근성을 향상시킬 수 있는 유망한 솔루션을 제공합니다. 과학 텍스트 인식에 대한 향후 작업을 가속화하기 위해 모델과 코드를 공개합니다.

    Scientific knowledge is predominantly stored in books and scientific journals, often in the form of PDFs. However, the PDF format leads to a loss of semantic information, particularly for mathematical expressions. We propose Nougat (Neural Optical Understanding for Academic Documents), a Visual Transformer model that performs an Optical Character Recognition (OCR) task for processing scientific documents into a markup language, and demonstrate the effectiveness of our model on a new dataset of scientific documents. The proposed approach offers a promising solution to enhance the accessibility of scientific knowledge in the digital age, by bridging the gap between human-readable documents and machine-readable text. We release the models and code to accelerate future work on scientific text recognition.

논문 링크

더 읽어보기

https://twitter.com/lukas_blecher/status/1696101110853910716

FacTool: 생성형 AI의 사실성 감지 - 멀티태스크 및 멀티도메인 시나리오를 위한 툴 증강 프레임워크 / FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios

논문 소개

  • LLM에서 생성된 텍스트의 사실 오류를 감지하기 위해 factool이라는 도구를 제안하고, 사실 오류를 더 잘 감지하기 위해 필요한 구성 요소와 llms와 통합할 수 있는 도구의 종류를 소개합니다. factool llm facet

    Proposes a tool called factool to detect factual errors in texts generated by llms; shows the necessary components needed and the types of tools to integrate with llms for better detecting factual errors.

논문 초록

  • 사전 학습된 생성 모델의 등장으로 고품질 텍스트 합성이 용이해졌지만, 생성된 텍스트에서 사실 오류를 식별하는 데 어려움을 겪기도 했습니다. 특히 (1) 이제 더 넓은 범위의 작업이 생성 모델에 의해 처리될 때 사실 오류가 포함될 위험이 증가하고 있습니다. (2) 생성된 텍스트가 길고 개별 사실에 대해 명확하게 정의된 세분성이 부족한 경향이 있습니다. (3) 사실 확인 과정에서 사용할 수 있는 명시적인 증거가 부족합니다. 이러한 문제를 염두에 두고 본 논문에서는 대규모 언어 모델(예: ChatGPT)에서 생성된 텍스트의 사실 오류를 탐지하기 위한 작업 및 도메인에 구애받지 않는 프레임워크인 FacTool을 제안합니다. 네 가지 작업(지식 기반 QA, 코드 생성, 수학적 추론, 과학 문헌 검토)에 대한 실험을 통해 제안한 방법의 효율성을 보여줍니다. ChatGPT 플러그인 인터페이스와 관련된 FacTool의 코드는 GitHub - GAIR-NLP/factool: FacTool: Factuality Detection in Generative AI 에서 공개합니다.

    The emergence of generative pre-trained models has facilitated the synthesis of high-quality text, but it has also posed challenges in identifying factual errors in the generated text. In particular: (1) A wider range of tasks now face an increasing risk of containing factual errors when handled by generative models. (2) Generated texts tend to be lengthy and lack a clearly defined granularity for individual facts. (3) There is a scarcity of explicit evidence available during the process of fact checking. With the above challenges in mind, in this paper, we propose FacTool, a task and domain agnostic framework for detecting factual errors of texts generated by large language models (e.g., ChatGPT). Experiments on four different tasks (knowledge-based QA, code generation, mathematical reasoning, and scientific literature review) show the efficacy of the proposed method. We release the code of FacTool associated with ChatGPT plugin interface at GitHub - GAIR-NLP/factool: FacTool: Factuality Detection in Generative AI .

논문 링크

더 읽어보기

https://twitter.com/omarsar0/status/1697642048587694370

AnomalyGPT: 대규모 비전 언어 모델을 사용한 산업 이상 징후 감지 / AnomalyGPT: Detecting Industrial Anomalies using Large Vision-Language Models

논문 소개

  • 대규모 비전 언어 모델에 기반한 산업용 이상 징후 감지 접근 방식으로, 이상 이미지와 텍스트 설명을 시뮬레이션하여 학습 데이터를 생성하고, 이미지 디코더와 프롬프트 학습자를 사용하여 이상 징후를 감지하며, 적은 수의 샷으로 컨텍스트 내 학습 기능을 보여주고 최첨단 성능 벤치마크 데이터셋을 달성합니다. gpt anomaly-detection multimodal

    An approach for industrial anomaly detection based on large vision-language models; it simulates anomalous images and textual descriptions to generate training data; employs an image decoder and prompt learner to detect anomalies; it shows few-shot in-context learning capabilities and achieves state-of-the-art performance benchmark datasets.

논문 초록

  • MiniGPT-4 및 LLaVA와 같은 대규모 비전 언어 모델(LVLM)은 이미지 이해 능력을 입증하고 다양한 시각 작업에서 놀라운 성능을 달성했습니다. 하지만 광범위한 학습 데이터 세트로 인해 일반적인 물체를 인식하는 능력은 뛰어나지만, 특정 도메인 지식이 부족하고 물체 내의 국소화된 세부 사항에 대한 이해가 약해 산업 이상 감지(IAD) 작업에서 효율성이 떨어집니다. 반면, 대부분의 기존 IAD 방법은 이상점수만 제공하고 정상 샘플과 비정상 샘플을 구분하기 위해 임계값을 수동으로 설정해야 하므로 실제 구현에 제약이 있습니다. 이 논문에서는 IAD 문제를 해결하기 위해 LVLM을 활용하는 방법을 살펴보고, LVLM에 기반한 새로운 IAD 접근 방식인 AnomalyGPT를 제안합니다. 비정상적인 이미지를 시뮬레이션하고 각 이미지에 해당하는 텍스트 설명을 생성하여 학습 데이터를 생성합니다. 또한 이미지 디코더를 사용하여 세분화된 시맨틱을 제공하고 프롬프트 임베딩을 사용하여 LVLM을 미세 조정할 수 있는 프롬프트 학습자를 설계합니다. AnomalyGPT는 수동 임계값 조정이 필요 없으므로 이상 징후 유무와 위치를 직접 평가할 수 있습니다. 또한 AnomalyGPT는 멀티턴 대화를 지원하며 인상적인 몇 번의 샷으로 상황에 맞는 학습 기능을 보여줍니다. 단 한 번의 정상 샷만으로 AnomalyGPT는 MVTec-AD 데이터셋에서 86.1%의 정확도, 94.1%의 이미지 수준 AUC, 95.3%의 픽셀 수준 AUC를 기록하며 최첨단 성능을 달성했습니다. 코드는 GitHub - CASIA-IVA-Lab/AnomalyGPT: The first LVLM based IAD method! 에서 확인할 수 있습니다.

    Large Vision-Language Models (LVLMs) such as MiniGPT-4 and LLaVA have demonstrated the capability of understanding images and achieved remarkable performance in various visual tasks. Despite their strong abilities in recognizing common objects due to extensive training datasets, they lack specific domain knowledge and have a weaker understanding of localized details within objects, which hinders their effectiveness in the Industrial Anomaly Detection (IAD) task. On the other hand, most existing IAD methods only provide anomaly scores and necessitate the manual setting of thresholds to distinguish between normal and abnormal samples, which restricts their practical implementation. In this paper, we explore the utilization of LVLM to address the IAD problem and propose AnomalyGPT, a novel IAD approach based on LVLM. We generate training data by simulating anomalous images and producing corresponding textual descriptions for each image. We also employ an image decoder to provide fine-grained semantic and design a prompt learner to fine-tune the LVLM using prompt embeddings. Our AnomalyGPT eliminates the need for manual threshold adjustments, thus directly assesses the presence and locations of anomalies. Additionally, AnomalyGPT supports multi-turn dialogues and exhibits impressive few-shot in-context learning capabilities. With only one normal shot, AnomalyGPT achieves the state-of-the-art performance with an accuracy of 86.1%, an image-level AUC of 94.1%, and a pixel-level AUC of 95.3% on the MVTec-AD dataset. Code is available at GitHub - CASIA-IVA-Lab/AnomalyGPT: The first LVLM based IAD method!.

논문 링크

더 읽어보기

https://twitter.com/shinmura0/status/1697091364633317707

페이스체인: 신원을 보존하는 초상화 생성을 위한 놀이터 / FaceChain: A Playground for Identity-Preserving Portrait Generation

논문 소개

  • 맞춤형 이미지 생성 모델과 얼굴 관련 지각 이해 모델을 결합하여 사실적인 개인화 초상화를 생성하는 개인화 초상화 생성 프레임워크로, 몇 장의 초상화 이미지를 입력으로 사용합니다.

    A personalized portrait generation framework combining customized image-generation models and face-related perceptual understanding models to generate truthful personalized portraits; it works with a handful of portrait images as input.

논문 초록

  • 최근 개인화된 이미지 생성의 발전으로 인물 이미지 모음에서 신원 정보를 학습하는 사전 학습된 텍스트-이미지 모델의 흥미로운 기능이 공개되었습니다. 그러나 기존 솔루션은 사실적인 디테일을 생성하는 데 취약할 수 있으며, 일반적으로 (i) 생성된 얼굴은 고유한 특성을 나타내며, 얼굴 모양과 얼굴 특징 위치가 입력의 주요 특징과 유사하지 않을 수 있고, (ii) 합성된 얼굴에 뒤틀리거나 흐리거나 손상된 영역이 포함될 수 있는 등의 여러 결함을 가지고 있습니다. 이 논문에서는 앞서 언급한 문제를 해결하고 소수의 인물 이미지만으로 사실적인 개인화 초상화를 생성하기 위해 일련의 맞춤형 이미지 생성 모델과 풍부한 얼굴 관련 지각 이해 모델(\eg, 얼굴 감지, 심층 얼굴 임베딩 추출, 얼굴 속성 인식)을 결합하는 개인화 초상화 생성 프레임워크인 FaceChain을 소개합니다. 구체적으로, 생성 절차에 여러 개의 SOTA 얼굴 모델을 주입하여 이전 솔루션(예: DreamBooth ~\cite{ruiz2023dreambooth} , InstantBooth ~\cite{shi2023instantbooth} 또는 기타 LoRA 전용 접근 방식 ~\cite{hu2021lora}와 비교됩니다. 페이스체인 개발을 통해 저희는 얼굴/인간 중심 AIGC 연구 및 응용 개발을 가속화할 수 있는 몇 가지 잠재적인 방향을 확인했습니다. 저희는 다양한 스타일과 개인화된 요구를 수용하기 위해 쉽게 조정할 수 있는 플러그형 구성 요소로 구성된 프레임워크로 FaceChain을 설계했습니다. 커뮤니티의 급증하는 요구를 충족시킬 수 있도록 성장할 수 있기를 바랍니다. 페이스체인은 Apache-2.0 라이선스에 따라 \url{GitHub - modelscope/facechain: FaceChain is a deep-learning toolchain for generating your Digital-Twin.}에서 오픈소스입니다.

    Recent advancement in personalized image generation have unveiled the intriguing capability of pre-trained text-to-image models on learning identity information from a collection of portrait images. However, existing solutions can be vulnerable in producing truthful details, and usually suffer from several defects such as (i) The generated face exhibit its own unique characteristics, \ie facial shape and facial feature positioning may not resemble key characteristics of the input, and (ii) The synthesized face may contain warped, blurred or corrupted regions. In this paper, we present FaceChain, a personalized portrait generation framework that combines a series of customized image-generation model and a rich set of face-related perceptual understanding models (\eg, face detection, deep face embedding extraction, and facial attribute recognition), to tackle aforementioned challenges and to generate truthful personalized portraits, with only a handful of portrait images as input. Concretely, we inject several SOTA face models into the generation procedure, achieving a more efficient label-tagging, data-processing, and model post-processing compared to previous solutions, such as DreamBooth ~\cite{ruiz2023dreambooth} , InstantBooth ~\cite{shi2023instantbooth} , or other LoRA-only approaches ~\cite{hu2021lora} . Through the development of FaceChain, we have identified several potential directions to accelerate development of Face/Human-Centric AIGC research and application. We have designed FaceChain as a framework comprised of pluggable components that can be easily adjusted to accommodate different styles and personalized needs. We hope it can grow to serve the burgeoning needs from the communities. FaceChain is open-sourced under Apache-2.0 license at \url{GitHub - modelscope/facechain: FaceChain is a deep-learning toolchain for generating your Digital-Twin.}.

논문 링크

Qwen-VL: 다재다능한 기능을 갖춘 프론티어 대형 비전 언어 모델 / Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities

논문 소개

  • 이미지 캡션, 질문 답변, 시각적 로컬라이제이션 및 유연한 상호 작용과 같은 작업에서 강력한 성능을 보여주는 대규모 비전 언어 모델 세트를 소개합니다. qwen-vl multimodal

    Introduces a set of large-scale vision-language models demonstrating strong performance in tasks like image captioning, question answering, visual localization, and flexible interaction.

논문 초록

  • 텍스트와 이미지를 모두 인식하고 이해하도록 설계된 대규모 비전 언어 모델 세트인 Qwen-VL 시리즈를 소개합니다. Qwen-VL과 Qwen-VL-Chat으로 구성된 이 모델은 이미지 캡션, 질문 답변, 시각적 로컬라이제이션, 유연한 상호 작용과 같은 작업에서 놀라운 성능을 보여줍니다. 이 평가는 제로 샷 캡션, 시각적 또는 문서 시각적 질문에 대한 답변, 접지 등 광범위한 작업을 포함합니다. Qwen-VL이 기존의 대형 비전 언어 모델(LVLM)보다 뛰어난 성능을 발휘함을 입증합니다. 멀티모달 인공지능을 발전시키는 데 기여하는 아키텍처, 학습, 기능 및 성능을 소개합니다. 코드, 데모 및 모델은 GitHub - QwenLM/Qwen-VL: The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud. 에서 확인할 수 있습니다.

    We introduce the Qwen-VL series, a set of large-scale vision-language models designed to perceive and understand both text and images. Comprising Qwen-VL and Qwen-VL-Chat, these models exhibit remarkable performance in tasks like image captioning, question answering, visual localization, and flexible interaction. The evaluation covers a wide range of tasks including zero-shot captioning, visual or document visual question answering, and grounding. We demonstrate the Qwen-VL outperforms existing Large Vision Language Models (LVLMs). We present their architecture, training, capabilities, and performance, highlighting their contributions to advancing multimodal artificial intelligence. Code, demo and models are available at GitHub - QwenLM/Qwen-VL: The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud..

논문 링크

더 읽어보기

https://twitter.com/arankomatsuzaki/status/1695964537671893306

원문