Microsoft, Phi-3 모델들을 개선한 Phi-3.5 모델 시리즈 공개 (+ Phi-3.5-MoE-instruct)
|
|
0
|
847
|
8월 22, 2024
|
[2024/07/08 ~ 07/14] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
|
|
0
|
524
|
7월 14, 2024
|
NVIDIA H100 & TensorRT-LLM으로 Mixtral 8x7B 모델 고성능 달성하기 (feat. NVIDIA 블로그 글)
|
|
0
|
244
|
7월 10, 2024
|
MoA(Mixture-of-Agents, 에이전트 혼합 기법), LLM 성능을 향상시키기 위한 새로운 기법
|
|
0
|
1365
|
6월 21, 2024
|
DeepSeek-V2: 강력하고 경제적이며 효율적인 전문가 혼합(MoE) 언어모델
|
|
0
|
694
|
5월 15, 2024
|
[GN⁺] Mistral AI, 새로운 오픈 모델 Mixtral 8x22B 공개
|
|
0
|
395
|
4월 19, 2024
|
MoD(Mixture-of-Depths): Transformer 기반 언어 모델 연산 최적화를 위한 접근법, 그리고 MoDE(MoD+MoE)
|
|
0
|
2483
|
4월 7, 2024
|
Jamba: AI21이 공개한 Mamba 기반의 MoE 공개 모델 (OpenLLM)
|
|
0
|
1384
|
3월 29, 2024
|
Qwen1.5-MoE: 2.7B 규모의 활성화된 매개변수로 7B 규모의 모델과 유사한 성능을 보이는 Qwen의 새로운 MoE 모델
|
|
0
|
429
|
3월 29, 2024
|
[GN⁺] 구글의 차세대 모델: Gemini 1.5
|
|
0
|
500
|
2월 16, 2024
|
MoE-LLaVA: 대규모 Vision-Language 모델을 위한 전문가 혼합 기법 적용 (Mixture of Experts for Large Vision-Language Models)
|
|
0
|
1171
|
2월 6, 2024
|
[2024/01/01 ~ 01/07] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
|
|
0
|
741
|
1월 8, 2024
|
HyperRouter: HyperNetwork를 통한 효율적인 학습 및 추론을 위한 희소 전문가 혼합 모델(SMoE)
|
|
0
|
231
|
12월 15, 2023
|
[TLDR] 오늘의 AI 뉴스, 2023-09-18: Adobe의 생성형 AI Firefly, 일반 사용 가능 👋, AI 저작권 문제 관련 설문조사 📃, AI 보안 🔐
|
|
1
|
314
|
12월 31, 2023
|
[TLDR] 오늘의 AI 뉴스, 2023-09-15: Microsoft 오픈소스 EvoDiff 🌐, RAG 기반 LLM 앱 구축 가이드 🤖, 가짜 유명인 이미지를 발견하기 위한 데이터셋 💃
|
|
1
|
490
|
12월 31, 2023
|
[TLDR] 오늘의 AI 뉴스, 2023-08-07: 알리바바의 오픈소스 AI 모델 💻, TPU 제조업체, 칩 회사 설립 💾, 제로-샷 이미지 분류 🖼️
|
|
1
|
273
|
12월 31, 2023
|
[TLDR] 오늘의 AI 뉴스, 2023-07-10: 구글의 병원 내 의료 AI 🏥, 알리바바의 이미지 생성기 🖼️, 크리스토퍼 놀란은 어떻게 AI를 사랑하는 방법을 배웠을까 ❤️
|
|
1
|
542
|
12월 31, 2023
|