주제에 dataset 태그가 달렸습니다

글	댓글	조회수	활동
Reasoning Gym: 절차적 추론(procedural resoning) 데이터셋 생성기 읽을거리&정보공유 dataset , llm-reasoning , reasoning-dataset , reasoning-gym	0	286	4월 2, 2025
General Reasoning: 누구나 접근할 수 있는 오픈소스 추론 데이터 플랫폼 읽을거리&정보공유 dataset , chain-of-thought , data-platform , reasoning-dataset , general-reasoning	0	343	2월 25, 2025
SELECT: 이미지 인식을 위한 대규모 데이터 큐레이션 전략 벤치마크에 대한 연구 읽을거리&정보공유 dataset , benchmark , data-curation , select , imagenet-plus-plus , image-classification , out-of-distribution	0	195	11월 7, 2024
DocLayout-YOLO: 다양한 합성 데이터 및 전역-로컬 적응 인식을 통한 문서 레이아웃 분석 향상 읽을거리&정보공유 dataset , docllm , doclayout-yolo , docsynth-300k , mesh-candidate-bsestfit , gl-crm , docstructbench , d4la , doclaynet	5	997	10월 23, 2024
ToolGen: 도구 검색 및 호출을 위한 대규모 언어 모델 통합 시스템 읽을거리&정보공유 dataset , llm-agent , llm-tool-usage , tool-for-llm , toolgen , toolbench	0	292	10월 14, 2024
대규모 언어 모델(LLM)을 위한 데이터셋들에 대한 종합적인 연구 읽을거리&정보공유 llm , dataset , paper , survey-paper , llm-datasets , dataset-survey	0	959	9월 26, 2024
MAmmoTH2: Web에서 고품질의 Instruction Dataset 수집을 위한 연구 읽을거리&정보공유 dataset , mammoth2 , instruction-dataset , web-scale , common-crawl	0	158	9월 16, 2024
HuggingFace, SQL 기반 데이터셋 질의 기능 추가 (feat. DuckDB WASM) 읽을거리&정보공유 dataset , huggingface , wasm , huggingface-datasets , duckdb , duckdb-wasm	0	135	9월 15, 2024
Sapiens: 🧑‍🤝‍🧑 인간 비전 모델을 위한 파운데이션 모델 (feat. Meta Reality Labs) 읽을거리&정보공유 meta , dataset , meta-ai , foundation-model , sapiens , meta-reality-labs , human-vision-model , humans-300m-dataset	1	499	8월 27, 2024
이미지 맥락화를 위한 5 Pillar 프레임워크 및 5Pils 데이터셋 읽을거리&정보공유 dataset , multimodal-dataset , 5-pillar-framework , 5pils-dataset , visual-misinformation	0	72	8월 24, 2024
SkyScript-100M: 짧은 드라마의 대본 및 촬영 스크립트 데이터셋 읽을거리&정보공유 dataset , text-to-video , skyscript-100m , skyscript , script-dataset , skyreels	0	225	8월 21, 2024
MMTrail: 언어 및 음악 설명이 포함된 멀티모달 트레일러 비디오 데이터셋 읽을거리&정보공유 dataset , multimodal-dataset , video-dataset , mmtrail , video-text-dataset	0	78	8월 6, 2024
SAM2: 이미지와 비디오 모두에 적용 가능한 Segment Anything Model (feat. Meta) 읽을거리&정보공유 meta , dataset , sam , segment-anything , meta-ai , apache-20-license , sam-2 , segment-anything-video , sa-v-dataset , video-dataset	0	1398	7월 30, 2024
MINT-1T: 1T Token 규모의 Multimodal Dataset (feat. MLFoundations) 읽을거리&정보공유 pdf , arxiv , dataset , multimodal , opensource , multimodal-dataset , mint-1t , obelics	0	257	7월 25, 2024
VLMs are blind: 시각-언어 모델이 실패하는 (인간에게는 쉬운) 시각적 작업들에 대한 연구 (feat. BlindTest) 읽을거리&정보공유 dataset , multimodal , vision-language , paper , large-vision-language-model , benchmark , blindtest	0	1078	7월 13, 2024
NVIDIA, Nemotron-4의 더 큰 버전인 Nemotron-4-340B 공개 (& Nemotron-3 및 Nemotron-4 시리즈 정리) 읽을거리&정보공유 nvidia , dataset , synthetic-data , nvidia-nemo , nemotron-3 , nemotron-4 , nemotron-4-340b , nemotron-4-15b , nemotron-3-8b , nvidia-nemo-aligner , helpsteer2-dataset	0	967	6월 16, 2024
Cohere, Wikipedia 기반 300개 이상의 다국어 임베딩 데이터셋 wikipedia-2023-11-embed-multilingual-v3 공개 읽을거리&정보공유 dataset , embedding , cohere , cohere-embed , multilingual , wikipedia , wikimedia	0	404	6월 7, 2024
OpenBMB, VQA(Visual QA) 데이터셋 RLAIF-V 공개 읽을거리&정보공유 dataset , multimodal , multimodal-dataset , vqa-dataset , openbmb , rlaif-v , omnilmm	0	344	6월 6, 2024
MMLU-Pro, LLM 성능 평가를 위한 벤치마크인 MMLU의 개선된 버전 읽을거리&정보공유 dataset , llm-evaluation , benchmark , mmlu , mmlu-pro , llm-benchmark	0	2220	5월 21, 2024
distilabel: AI를 활용한 합성 데이터 생성 및 피드백 프레임워크 읽을거리&정보공유 tool , dataset , opensource , llm-framework , synthetic-data , distilabel , data-framework	0	515	4월 29, 2024
[GN] 2024년 AI 스타트업을 위한 데이터 수집 전략 읽을거리&정보공유 geeknews , dataset , ai-startup	0	419	4월 29, 2024
AutoCrawler: Web Crawler 생성을 위한 Web Agent 읽을거리&정보공유 tool , dataset , crawler , automation-tool , autocrawler , web-crawler , tool-for-llm , agent , web-agent , opensource , apache-20-license	0	835	4월 29, 2024
OpenToM: 사람의 정신 상태를 이해하는 이론적 마음(Theory-of-Mind) 평가를 위한 벤치마크 읽을거리&정보공유 dataset , llm-evaluation , benchmark , theory-of-mind , opentom , n-tom-benchmark	0	288	2월 22, 2024
Gemini의 추론 능력: 멀티모달 LLM의 '상식'에 대해 알아보기 읽을거리&정보공유 dataset , multimodal , llama2 , llm-reasoning , gpt-4v , gemini , multimodal-reasoning , commonsense-dataset , visual-dataset	0	598	1월 12, 2024
[GN] Open Empathic - AI에 공감과 감성 지능을 탑재하는 것을 목표로 하는 오픈소스 읽을거리&정보공유 geeknews , open-assistant , dataset , laion , open-empathic-project , empathic-dataset , emotion-dataset , emotional-intelligence	0	414	11월 3, 2023
[GN] TabLib - 867B Tabluar Token 데이터셋 읽을거리&정보공유 geeknews , dataset , tablib , tabular-dataset	0	206	10월 20, 2023
[GN] 데이터는 여전히 해자(Moat)일까? 읽을거리&정보공유 geeknews , llm , dataset , moat , data	0	259	10월 17, 2023
[GN] AI2 Dolma: 언어모델을 위한 3T 토큰 오픈 코퍼스 읽을거리&정보공유 geeknews , dataset , ai2-dolma , corpus , allen-ai , dolma-dataset	1	386	8월 25, 2023
[GN] OpenOrca - 데이터셋 & 인스트럭션 튜닝된 언어모델 오픈소스 읽을거리&정보공유 geeknews , llm , dataset , openorca , openorca-llama , openorca-falcon , openorca-mpt , flanv2	2	1625	7월 4, 2023
MultiLegalPile: 689GB 분량의 다국어 법률 말뭉치(corpus):file_cabinet: 읽을거리&정보공유 nlp , dataset , multilegalpile , legal-dataset	0	264	6월 8, 2023

Reasoning Gym: 절차적 추론(procedural resoning) 데이터셋 생성기

읽을거리&정보공유

0

286

4월 2, 2025

General Reasoning: 누구나 접근할 수 있는 오픈소스 추론 데이터 플랫폼

읽을거리&정보공유

dataset , chain-of-thought , data-platform , reasoning-dataset , general-reasoning

0

343

2월 25, 2025

SELECT: 이미지 인식을 위한 대규모 데이터 큐레이션 전략 벤치마크에 대한 연구

읽을거리&정보공유

dataset , benchmark , data-curation , select , imagenet-plus-plus , image-classification , out-of-distribution

0

195

11월 7, 2024

DocLayout-YOLO: 다양한 합성 데이터 및 전역-로컬 적응 인식을 통한 문서 레이아웃 분석 향상

읽을거리&정보공유

dataset , docllm , doclayout-yolo , docsynth-300k , mesh-candidate-bsestfit , gl-crm , docstructbench , d4la , doclaynet

5

997

10월 23, 2024

ToolGen: 도구 검색 및 호출을 위한 대규모 언어 모델 통합 시스템

읽을거리&정보공유

dataset , llm-agent , llm-tool-usage , tool-for-llm , toolgen , toolbench

0

292

10월 14, 2024

대규모 언어 모델(LLM)을 위한 데이터셋들에 대한 종합적인 연구

읽을거리&정보공유

llm , dataset , paper , survey-paper , llm-datasets , dataset-survey

0

959

9월 26, 2024

MAmmoTH2: Web에서 고품질의 Instruction Dataset 수집을 위한 연구

읽을거리&정보공유

dataset , mammoth2 , instruction-dataset , web-scale , common-crawl

0

158

9월 16, 2024

HuggingFace, SQL 기반 데이터셋 질의 기능 추가 (feat. DuckDB WASM)

읽을거리&정보공유

dataset , huggingface , wasm , huggingface-datasets , duckdb , duckdb-wasm

0

135

9월 15, 2024

Sapiens: 🧑‍🤝‍🧑 인간 비전 모델을 위한 파운데이션 모델 (feat. Meta Reality Labs)

읽을거리&정보공유

meta , dataset , meta-ai , foundation-model , sapiens , meta-reality-labs , human-vision-model , humans-300m-dataset

1

499

8월 27, 2024

이미지 맥락화를 위한 5 Pillar 프레임워크 및 5Pils 데이터셋

읽을거리&정보공유

dataset , multimodal-dataset , 5-pillar-framework , 5pils-dataset , visual-misinformation

0

72

8월 24, 2024

SkyScript-100M: 짧은 드라마의 대본 및 촬영 스크립트 데이터셋

읽을거리&정보공유

dataset , text-to-video , skyscript-100m , skyscript , script-dataset , skyreels

0

225

8월 21, 2024

MMTrail: 언어 및 음악 설명이 포함된 멀티모달 트레일러 비디오 데이터셋

읽을거리&정보공유

dataset , multimodal-dataset , video-dataset , mmtrail , video-text-dataset

0

78

8월 6, 2024

SAM2: 이미지와 비디오 모두에 적용 가능한 Segment Anything Model (feat. Meta)

읽을거리&정보공유

meta , dataset , sam , segment-anything , meta-ai , apache-20-license , sam-2 , segment-anything-video , sa-v-dataset , video-dataset

0

1398

7월 30, 2024

MINT-1T: 1T Token 규모의 Multimodal Dataset (feat. MLFoundations)

읽을거리&정보공유

pdf , arxiv , dataset , multimodal , opensource , multimodal-dataset , mint-1t , obelics

0

257

7월 25, 2024

VLMs are blind: 시각-언어 모델이 실패하는 (인간에게는 쉬운) 시각적 작업들에 대한 연구 (feat. BlindTest)

읽을거리&정보공유

dataset , multimodal , vision-language , paper , large-vision-language-model , benchmark , blindtest

0

1078

7월 13, 2024

NVIDIA, Nemotron-4의 더 큰 버전인 Nemotron-4-340B 공개 (& Nemotron-3 및 Nemotron-4 시리즈 정리)

읽을거리&정보공유

nvidia , dataset , synthetic-data , nvidia-nemo , nemotron-3 , nemotron-4 , nemotron-4-340b , nemotron-4-15b , nemotron-3-8b , nvidia-nemo-aligner , helpsteer2-dataset

0

967

6월 16, 2024

Cohere, Wikipedia 기반 300개 이상의 다국어 임베딩 데이터셋 wikipedia-2023-11-embed-multilingual-v3 공개

읽을거리&정보공유

dataset , embedding , cohere , cohere-embed , multilingual , wikipedia , wikimedia

0

404

6월 7, 2024

OpenBMB, VQA(Visual QA) 데이터셋 RLAIF-V 공개

읽을거리&정보공유

dataset , multimodal , multimodal-dataset , vqa-dataset , openbmb , rlaif-v , omnilmm