주제에 safety 태그가 달렸습니다

글	조회수	활동
Teaching Claude Why: 행동이 아닌 "이유"를 가르치는 정렬 학습 (feat. Anthropic) 읽을거리&정보공유 llm , rlhf , anthropic , paper , safety , agent , alignment	208	5월 12, 2026
Anthropic이 제시하는, 신뢰할 수 있는 AI 에이전트 구축을 위한 실천 원칙: 에이전트의 4가지 구성 요소와 다층 방어 전략 (feat. Anthropic) 읽을거리&정보공유 anthropic , prompt-injection , safety , agent , mcp , research , trustworthy-ai	815	4월 13, 2026
LLM 내부의 감정 개념과 기능적 감정: Claude Sonnet 4.5의 감정 표상이 협박, 보상 해킹, 아부에 미치는 인과적 영향 (feat. Anthropic) 읽을거리&정보공유 llm , anthropic , paper , safety , interpretability , alignment , emotion	247	4월 13, 2026
생성형 AI의 구성 요소 (The Building Blocks of Generative AI) 읽을거리&정보공유 generative , genai , vector-db , fine-tuning , foundation-model , tech-stack , labeling , safety	1846	7월 29, 2023