CBInsights에서 공개한 오픈소스 AI 개발 시장 지도 (The open-source AI development market map)

지난 10월 13일, CBInsights에서 AI 개발에 필요한 오픈소스 기업들을 15개 카테고리, 70개 이상으로 정리하여 공개했습니다.

:warning:주의:warning:: 아래 시장 지도에는 상장/비상장 기업 및 최근 엑싯한 기업들도 포함되어 있으며, 각 분야의 모든 기업들이 표시된 것은 아닙니다

Note: Our map includes public, private, and recently exited companies. This market map is not exhaustive of the space.

오픈소스 AI 개발 시장 지도(Market Map)

CBInsights에서 공개한 오픈소스 AI 개발 시장 지도 (The open-source AI development market map)

세부 분야별 투자 규모 및 횟수 비교 (Market comparisons)

total equity funding comparison

equity deal count comparison

분야별 시장 설명 (Market descriptions)

생성형AI - 이미지 모델 개발 분야 / Generative AI — image model developers

생성형 AI - 이미지 모델 개발 분야는 시각적 콘텐츠를 처음부터 제작할 수 있는 파운데이션 모델과 API를 제공합니다. 이러한 모델들은은 방대한 양의 데이터를 학습하여 학습 데이터에 존재하는 패턴과 구조를 모방한 고품질 이미지와 동영상을 생성할 수 있습니다. 생성적 적대 신경망(GAN) 및 디퓨전 모델(Diffusion Model)과 같은 모델들을 사용하여 이미지 스타일, 콘텐츠, 표정 등의 출력 속성을 원하는대로 변경할 수 있습니다.

The generative AI — image model developers market offers foundation models and APIs for the production of visual content from scratch. These models learn from vast amounts of training data and can generate high-quality images and videos that mimic patterns and structures present in the training set. Models like generative adversarial networks (GANs) and diffusion models allow users to tailor output attributes, such as image style, content, and facial expressions, as they see fit.

2023년 누적(YTD) 투자 유치액: 100억 달러, 2건

최근 1년간 직원 수 변화: -5%

Equity funding 2023 YTD: $10B|2 deals
Headcount 1-year change: -5%

주요 기업 / Featured companies:

생성형 AI - 대형 언어 모델 개발 분야 / Generative AI — large language model developers

생성형 AI - 대형 언어 모델 개발 분야는 기업이 콘텐츠의 생성, 요약, 분류, 챗봇, 감성 분류 등과 같은 자연어 처리 애플리케이션을 구축할 수 있는 파운데이션 모델과 API를 제공합니다. 기업은 방대한 양의 텍스트로 사전 학습된 대규모 언어 모델(LLM)을 특정 사용 사례에 맞춰 미세조정(fine-tune)하고 맞춤 변경(customize)할 수 있습니다.

The generative AI — large language model developers market offers foundation models and APIs that enable enterprises to build natural language processing applications such as content creation, summarization, classification, chatbots, sentiment analysis, and more. Enterprises can fine-tune and customize these large-scale language models — pre-trained on vast amounts of text — for their specific use cases.

2023년 누적(YTD) 투자 유치액: 153억 달러, 20건

최근 1년간 직원 수 변화: -5%

Equity funding 2023 YTD: $15.3B|20 deals
Headcount 1-year change: -5%

주요 기업 / Featured companies:

머신러닝 학습 데이터 선별 분야 / Machine learning training data curation

머신러닝 학습 데이터 선별(curation) 분야는 AI 알고리즘 학습 과정에서 데이터 품질 관리를 위한 솔루션을 제공합니다. 이러한 솔루션은 기업들이 모델 학습에 가장 적합한 세부 데이터(subsets of data) 선택, 데이터셋의 편향성(bias) 선별, 라벨링 오류 식별과 같은 주요 작업들을 완수할 수 있도록 지원합니다.궁극적으로 이러한 솔루션은 저품질의 데이터가 AI 성능에 미치는 다운스트림 영향을 최소화하도록 합니다.

​​The machine learning training data curation market offers solutions to support data quality control in the AI algorithm training process. These solutions help organizations complete key tasks, such as selecting the best subsets of data for training models, triaging datasets for bias, and identifying labeling errors. Ultimately, these solutions help minimize the downstream effects of poor-quality data on AI performance.

2023년 누적(YTD) 투자 유치액: 200만 달러, 1건

최근 1년간 직원 수 변화: +43%

Equity funding 2023 YTD: $2M|1 deal
Headcount 1-year change: +43%

주요 기업 / Featured companies:

합성 학습 데이터 - 미디어 분야 / Synthetic training data — media

합성 학습 데이터 - 미디어 분야는 AI 알고리즘 학습을 위한 사실적인 영상 및 이미지 데이터를 제작하는 플랫폼을 제공합니다. 합성(synthetic) 데이터는 현실 세계의 영상 및 이미지 데이터가 드물거나 구하기 어려운 경우에 특히 유용합니다. 예를 들어, 악천후에서 자율주행 차량의 주행 학습을 위해 합성 데이터를 사용할 수 있습니다. 이러한 도구들을 사용하여 기업이 AI 애플리케이션을 구축할 때 개인정보(privacy) 및 규제(regulatory) 관련 문제를 해결할 수 있도록 합니다.

The synthetic training data — media market provides platforms that fabricate realistic videos and images for training AI algorithms. Synthetic data is particularly useful in cases where real video and imaging data might be sparse or hard to obtain. For example, this data can be used to help train autonomous vehicles to navigate severe weather conditions. These tools also help organizations address privacy and regulatory concerns while building AI applications.

2023년 누적(YTD) 투자 유치액: N/A, 2건

최근 1년간 직원 수 변화: +10%

Equity funding 2023 YTD: N/A|2 deals
Headcount 1-year change: +10%

주요 기업 / Featured companies:

합성 학습 데이터 - 표 및 텍스트 분야 / Synthetic training data — tabular and text

합성 학습 데이터 - 표 및 텍스트 분야는 환자의 건강 기록이나 고객의 구매 내역 같은 데이터셋의 주요 패턴을 식별하여 원본의 주요 속성을 유지하는 새로운 익명 데이터셋을 생성하는데 중점을 둡니다. 합성 데이터의 익명성은 안전하고 규정을 준수할 수 있게 합니다. 합성 데이터 시장은 GDPR 및 CCPA와 같은 규정을 준수하는 고품질의 데이터에 대한 수요 증가에 힘입어 성장 중입니다. 또한, 합성 데이터를 사용하면 시간이 많이 소요되는 익명화(anonymization), 라벨링(labeling), 마스킹(masking) 기법 등을 사용하지 않아도 됩니다.

The synthetic training data — tabular and text market focuses on identifying key patterns in datasets — such as patient health records or customer purchase histories — to generate new, anonymous datasets that retain the key properties of the originals. The anonymity of synthetic data enables secure and compliant collaboration. The market is driven by the increasing demand for high-quality data that is compliant with regulations such as the GDPR and the CCPA. The use of synthetic data also eliminates the need for time-consuming anonymization, labeling, and masking techniques.

2023년 누적(YTD) 투자 유치액: 1.1천만 달러, 3건

최근 1년간 직원 수 변화: +7%

Equity funding 2023 YTD: $11M|3 deals
Headcount 1-year change: +7%

주요 기업 / Featured companies:

벡터 데이터베이스 분야 / Vector databases

벡터 데이터베이스 분야는 고차원의 벡터 형태의 데이터에 최적화된 데이터베이스를 제공하는데 중점을 두고 있습니다. 벡터는 각 데이터 하나하나를 다차원 공간에서 수학적으로 표현한 것으로, 이러한 데이터베이스는 대규모 벡터를 효율적으로 저장하고, 관리하고, 질의할 수 있도록 설계되었습니다. 벡터 데이터베이스는 머신러닝, 자연어 처리, 추천 시스템, 유사도 검색 등의 다양한 애플리케이션들을 지원합니다.

The vector databases market focuses on providing databases optimized for high-dimensional, vector-based data. These databases are designed to efficiently store, manage, and query large volumes of vectors — i.e., mathematical representations of data points in multidimensional space. Vector databases cater to a wide range of applications, including machine learning, natural language processing, recommendation systems, and similarity search.

2023년 누적(YTD) 투자 유치액: 1.76억 달러, 5건

최근 1년간 직원 수 변화: +68%

Equity funding 2023 YTD: $176M|5 deals
Headcount 1-year change: +68%

주요 기업 / Featured companies:

특징 저장소 및 관리 분야 / Feature stores & management

특징(feature) 저장소 및 관리 분야는 기업들에게 특징(feature) 및 관련 메타 데이터를 한 곳에서 공유할 수 있게 하여, AI 팀들이 특징을 공유하고 정의 일관성(definition consistency)을 유지할 수 있도록 합니다. 이러한 도구들은 특징에 대한 쉬운 접근, 재사용 및 규정 준수 확인을 위한 추적을 할 수 있습니다. 또한, 특징 저장소는 전달받은 원시(raw) 데이터를 AI 알고리즘이 사용할 수 있도록 특징으로 실시간 변환합니다.

The feature stores & management market provides enterprises with a central repository for features and related metadata, enabling AI teams to share features and ensure definition consistency. These tools enable easy access, reuse, and tracking for compliance purposes. Feature stores also transform incoming raw data into usable features that are made available to AI algorithms in real time.

2023년 누적(YTD) 투자 유치액: 없음

최근 1년간 직원 수 변화: +6%

Equity funding 2023 YTD: No deals
Headcount 1-year change: +6%

주요 기업 / Featured companies:

버전 관리 및 실험 추적 분야 / Version control & experiment tracking

버전 관리 및 실험 추적 분야는 머신러닝 실험을 수천여번 반복할 때, 각 실험을 추적, 기록, 비교하여 협업할 수 있는 도구를 제공합니다. AI 팀은 학습 데이터, 소스코드 및 모델 매개변수 등에 변경 사항들을 기록할 수 있을 뿐만 아니라, ML 관련 모든 메타데이터를 추적할 수 있습니다. 일부 공급업체는 주로 데이터의 버전 관리(예. AI 실험에 사용한 데이터의 변경 사항 추적)에 중점을 두는 한편, 다른 곳들은 종단간(end-to-end) 실험 관리 기능을 제공합니다. 실험 관리 도구는 AI 연구를 재현 가능하게 만들어줍니다 - 이러한 재현 가능성은 감사(audit) 및 설명(explain)이 가능한 모델을 만드는데 필요합니다.

The version control & experiment tracking market provides tools that allow AI teams to collaborate by automatically tracking, logging, and comparing thousands of iterations of ML experiments. Teams can keep records of changes made to training data, source code, and model parameters as well as track all ML-related metadata. Some vendors focus primarily on data version control (i.e., tracking changes made to data used in AI experiments), while others provide end-to-end experiment management. Experiment management tools make AI research reproducible — which is necessary for the creation of auditable and explainable models.

2023년 누적(YTD) 투자 유치액: 5천만 달러, 1건

최근 1년간 직원 수 변화: +6%

Equity funding 2023 YTD: $50M|1 deal
Headcount 1-year change: +6%

주요 기업 / Featured companies:

연합 학습 플랫폼 / Federated learning platforms

연합 학습 플랫폼 분야는 여러개의 분산된 장치 또는 데이터 소스로부터 모델 학습을 가능하게 합니다. 기업들은 연합 학습을 활용하여 민감한 데이터를 중앙 집중화하지 않으면서 AI 모델을 개발할 수 있습니다. 이러한 접근 방식은 기업이 강력한 보안 및 규정 준수 표준을 유지하여 데이터 유출 및 개인정보 침해 위험을 완화하는데 도움이 됩니다. 이러한 플랫폼은 의료나 금융과 같은 다양한 분야에서 사용하고 있습니다.

The federated learning platforms market enables model training across multiple decentralized devices or data sources. Companies can harness federated learning to develop AI models collaboratively without centralizing sensitive data. This approach helps organizations maintain robust security and compliance standards in order to mitigate the risk of data breaches and privacy violations. These platforms are being used in various sectors, such as healthcare and finance.

2023년 누적(YTD) 투자 유치액: 3.1천만 달러, 3건

최근 1년간 직원 수 변화: +51%

Equity funding 2023 YTD: $31M|3 deals
Headcount 1-year change: +51%

주요 기업 / Featured companies:

AI 개발 플랫폼 분야 / AI development platforms

AI 개발 플랫폼 분야는 사내 AI 프로젝트를 개발 및 출시하려는 기업들을 위한 원스톱 상점과 같은 역할을 하는 솔루션을 제공합니다. 이 분야의 공급업체는 데이터의 준비, 학습, 검증부터 모델의 배포와 지속적 모니터링까지에 이르는 AI 라이프사이클의 모든 측면을 단일 플랫폼을 통해 관리하여 종단간(end-to-end) 모델 개발을 할 수 있도록 합니다. 일부 공급 업체는 '드래그-앤-드롭' 인터페이스 또는 '플러그-앤-플레이' 솔루션을 제공하여 AI에 대한 깊은 이해 없이도 AI 프로젝트를 수행할 수 있도록 합니다.

The AI development platforms market offers solutions that serve as one-stop shops for enterprises that want to develop and launch in-house AI projects. Vendors in this space enable organizations to manage all aspects of the AI lifecycle — from data preparation, training, and validation to model deployment and continuous monitoring — through a single platform in order to facilitate end-to-end model development. Some vendors offer “drag-and-drop” interfaces or “plug-and-play” solutions that enable teams without in-depth AI expertise to build AI projects.

2023년 누적(YTD) 투자 유치액: 8.37억 달러, 11건

최근 1년간 직원 수 변화: +21%

Equity funding 2023 YTD: $837M|11 deals
Headcount 1-year change: +21%

주요 기업 Featured companies:

대규모 언어모델(LLM) 애플리케이션 개발 분야 / Large language model (LLM) application development

대규모 언어 모델(LLM) 애플리케이션 개발 분야는 특정 작업 및 산업에 맞춰 사전 학습된 언어 모델을 커스터마이징하고 정재하는 도구를 포함하고 있습니다. 미세조정(fine-tuning)은 모델의 가중치(weight)를 변경(adjust)하거나 작업에 특화된 데이터를 사용하여 특정 애플리케이션에 더 정확하고 적합하게 만드는 것을 포함합니다. 이 분야의 기업들은 GPT-3 또는 오픈소스 모델과 같은 대규모 언어 모델을 미세조정할 수 있는 서비스와 도구들을 제공합니다.

The large language model (LLM) application development market includes tools for customizing and refining pre-trained language models for specific tasks and industries. Fine-tuning involves adjusting the weights of a model or training the model on task-specific data to make it more accurate and adaptable for particular applications. Companies in this market offer services and tools to fine-tune large language models like GPT-3 or open-source models.

2023년 누적(YTD) 투자 유치액: 3.14억 달러, 11건

최근 1년간 직원 수 변화: +36%

Equity funding 2023 YTD: $314M|11 deals
Headcount 1-year change: +36%

주요 기업 / Featured companies:

알고리즘 감사 및 위험 관리 분야 / Algorithmic auditing & risk management

알고리즘 감사 및 위험 관리 분야는 알고리즘의 의사결정과 관련한 위험을 평가하고 완화하기 위한 솔루션을 제공합니다. 기업에서는 이러한 도구들로 알고리즘의 공정성(fairness), 투명성(transparency) 및 규제 준수(regulatory compliance) 여부를 보장할 수 있습니다. 이 분야의 공급업체들은 데이터 감사(audit), 모델 검증, 메타데이터 추적 및 배포 후 모니터링(post-production monitoring) 등의 다각적 접근 방식으로 AI의 위험성을 낮추고 있습니다.

The algorithmic auditing & risk management market provides solutions for evaluating and mitigating risks associated with algorithmic decision-making. These tools enable organizations to ensure algorithmic fairness, transparency, and regulatory compliance. Vendors in this space take a multifaceted approach to derisking AI, which includes data auditing, model validation, metadata tracking, and post-production monitoring.

2023년 누적(YTD) 투자 유치액: 백만 달러, 2건

최근 1년간 직원 수 변화: +22%

Equity funding 2023 YTD: $1M|2 deals
Headcount 1-year change: +22%

주요 기업 / Featured companies:

모델 배포 및 서빙 분야 / Model deployment & serving

모델 배포 및 서비스 분야는 학습된 머신러닝 모델을 상용(production)에 적용하여 데이터 과학 팀과 DevOps 팀 간의 격차를 해소합니다. 공급업체들은 클라우드나 온-프레미스(on-premise) 환경에서 AI 모델을 배포하는데 사용하는 서버리스(serverless) 기술 및 k8s 등에서 머신러닝 배포를 위한 도구들을 제공합니다. 대부분의 배포 도구 공급업체들은 지속적인 모델 모니터링 및 거버넌스 도구를 제공합니다.

The model deployment & serving market bridges the gap between data science and DevOps teams by taking trained machine learning models and putting them into production. Vendors offer tools for machine learning deployment on Kubernetes as well as serverless technology that can be used to deploy AI in cloud and on-prem environments. Most deployment vendors provide continuous model monitoring and governance tools.

2023년 누적(YTD) 투자 유치액: 2.9천만 달러, 2건

최근 1년간 직원 수 변화: -7%

Equity funding 2023 YTD: $29M|2 deals
Headcount 1-year change: -7%

주요 기업 / Featured companies:

모델 검증 및 모니터링 분야 / Model validation & monitoring

모델 검증 및 모니터링 분야는 AI 모델 성능의 지속적 모니터링 및 모델 동작에 대한 실시간 가시성(visibility)을 제공하는 솔루션을 공급합니다. 이러한 솔루션들은 예측의 이상치(outlier), 잠재적 편향성(bias), 의심스러운 적대적 공격(adversarial attack) 등을 추적합니다. 모델이 학습한 데이터와 현실 세계의 데이터가 크게 다를 경우, 시간이 지남에 따라 AI 모델 성능이 저하되기 때문에 이러한 솔루션들의 수요가 증가하고 있습니다.

The model validation & monitoring market provides solutions that continuously monitor the performance of AI models and provide real-time visibility into model behavior. These solutions track outliers in predictions, potentially biased outcomes, and suspected adversarial attacks. Demand for these solutions is driven by the fact that AI model performance can degrade over time if it continuously encounters real-world data that varies significantly from its training data.

2023년 누적(YTD) 투자 유치액: 2천만 달러, 3건

최근 1년간 직원 수 변화: +13%

Equity funding 2023 YTD: $20M|3 deals
Headcount 1-year change: +13%

주요 기업 / Featured companies:

하드웨어 인식 AI 최적화 분야 / Hardware-aware AI optimization

하드웨어 인식 AI 최적화 분야는 기업들이 GPU나 CPU와 같은 가용한 하드웨어에 맞춰 AI 알고리즘과 모델을 최적화하는 솔루션을 제공합니다. 이러한 솔루션들은 기업들이 신경망을 압축하여 엣지 장치(edge device)나 온-프레미스(on-premise) 서버에서 실행할 수 있도록 합니다. 최적화 도구를 사용하여 기업이 신속하게 AI를 배포하고, 예측 지연 시간을 줄이고, 모델 성능을 향상시킬 수 있습니다.

The hardware-aware AI optimization market provides software solutions that optimize AI algorithms and models to run efficiently on available hardware, such as GPUs and CPUs. These solutions also allow enterprises to compress neural networks to run on edge devices or on-prem servers. With optimization tools, businesses can speed up AI deployments, reduce prediction latency, and improve model performance.

2023년 누적(YTD) 투자 유치액: 없음

최근 1년간 직원 수 변화: +22%

Equity funding 2023 YTD: No deals
Headcount 1-year change: +22%

주요 기업 / Featured companies:

원문