대규모 언어 모델(LLM)을 위한 데이터셋들에 대한 종합적인 연구
|
|
0
|
270
|
9월 26, 2024
|
MAmmoTH2: Web에서 고품질의 Instruction Dataset 수집을 위한 연구
|
|
0
|
118
|
9월 16, 2024
|
HuggingFace, SQL 기반 데이터셋 질의 기능 추가 (feat. DuckDB WASM)
|
|
0
|
97
|
9월 15, 2024
|
Sapiens: 🧑🤝🧑 인간 비전 모델을 위한 파운데이션 모델 (feat. Meta Reality Labs)
|
|
1
|
279
|
8월 27, 2024
|
이미지 맥락화를 위한 5 Pillar 프레임워크 및 5Pils 데이터셋
|
|
0
|
60
|
8월 24, 2024
|
SkyScript-100M: 짧은 드라마의 대본 및 촬영 스크립트 데이터셋
|
|
0
|
133
|
8월 21, 2024
|
MMTrail: 언어 및 음악 설명이 포함된 멀티모달 트레일러 비디오 데이터셋
|
|
0
|
61
|
8월 6, 2024
|
SAM2: 이미지와 비디오 모두에 적용 가능한 Segment Anything Model (feat. Meta)
|
|
0
|
749
|
7월 30, 2024
|
MINT-1T: 1T Token 규모의 Multimodal Dataset (feat. MLFoundations)
|
|
0
|
182
|
7월 25, 2024
|
VLMs are blind: 시각-언어 모델이 실패하는 (인간에게는 쉬운) 시각적 작업들에 대한 연구 (feat. BlindTest)
|
|
0
|
617
|
7월 13, 2024
|
NVIDIA, Nemotron-4의 더 큰 버전인 Nemotron-4-340B 공개 (& Nemotron-3 및 Nemotron-4 시리즈 정리)
|
|
0
|
698
|
6월 16, 2024
|
Cohere, Wikipedia 기반 300개 이상의 다국어 임베딩 데이터셋 wikipedia-2023-11-embed-multilingual-v3 공개
|
|
0
|
303
|
6월 7, 2024
|
OpenBMB, VQA(Visual QA) 데이터셋 RLAIF-V 공개
|
|
0
|
283
|
6월 6, 2024
|
MMLU-Pro, LLM 성능 평가를 위한 벤치마크인 MMLU의 개선된 버전
|
|
0
|
868
|
5월 21, 2024
|
distilabel: AI를 활용한 합성 데이터 생성 및 피드백 프레임워크
|
|
0
|
412
|
4월 29, 2024
|
[GN] 2024년 AI 스타트업을 위한 데이터 수집 전략
|
|
0
|
403
|
4월 29, 2024
|
AutoCrawler: Web Crawler 생성을 위한 Web Agent
|
|
0
|
628
|
4월 29, 2024
|
OpenToM: 사람의 정신 상태를 이해하는 이론적 마음(Theory-of-Mind) 평가를 위한 벤치마크
|
|
0
|
250
|
2월 22, 2024
|
Gemini의 추론 능력: 멀티모달 LLM의 '상식'에 대해 알아보기
|
|
0
|
517
|
1월 12, 2024
|
[GN] Open Empathic - AI에 공감과 감성 지능을 탑재하는 것을 목표로 하는 오픈소스
|
|
0
|
404
|
11월 3, 2023
|
[GN] TabLib - 867B Tabluar Token 데이터셋
|
|
0
|
202
|
10월 20, 2023
|
[GN] 데이터는 여전히 해자(Moat)일까?
|
|
0
|
247
|
10월 17, 2023
|
[GN] AI2 Dolma: 언어모델을 위한 3T 토큰 오픈 코퍼스
|
|
1
|
365
|
8월 25, 2023
|
[GN] OpenOrca - 데이터셋 & 인스트럭션 튜닝된 언어모델 오픈소스
|
|
2
|
1552
|
7월 4, 2023
|
MultiLegalPile: 689GB 분량의 다국어 법률 말뭉치(corpus):file_cabinet:
|
|
0
|
247
|
6월 8, 2023
|
[GN] RedPajama - LLaMA 데이터셋을 재작성하는 오픈소스 프로젝트
|
|
0
|
1601
|
4월 19, 2023
|