Academic Research Skills: Claude Code 환경에서 학술 연구와 논문 작성을 돕는 스킬 모음

Academic Research Skills 소개

Academic Research Skills(이하 ARS)는 Claude Code 위에서 동작하는 학술 연구·집필·동료 평가용 스킬 모음입니다. 저자(吳政宜, Cheng-I Wu)는 ARS를 "research → write → review → revise → finalize" 한 줄로 소개하며, 연구 질문 정의부터 출판물 생성까지를 10단계 파이프라인으로 묶어 운영합니다.

ARS는 AI is your copilot, not the pilot 라는 입장을 강하게 명시한 프로젝트입니다. 저자는 "This tool won't write your paper for you. It handles the grunt work — hunting down references, formatting citations, verifying data, checking logical consistency — so you can focus on the parts that actually require your brain: defining the question, choosing the method, interpreting what the data means, and writing the sentence after 'I argue that.'" 라고 도구의 역할을 분명히 선언합니다. ARS는 단순한 humanizer 가 아니라, Style Calibration이 사용자의 과거 글에서 문체를 학습하고 Writing Quality Check가 기계 생성된 듯한 패턴을 잡아내는 식으로 품질(quality) 을 목표로 한다는 점을 함께 강조합니다.

이러한 휴먼 인 더 루프(human-in-the-loop) 접근은 단순한 설계 취향이 아니라 최근 연구 결과를 근거로 채택된 결정입니다. Lu et al.이 Nature 651:914-919에 보고한 The AI Scientist(ICLR 2025 workshop에서 점수 6.33/10, workshop 평균 4.87)가 보여 준 자율 AI 연구의 실패 모드(구현 버그, 결과 환각, shortcut 의존, 방법론 조작, citation hallucination 등)와, Zhao et al.이 arXiv·bioRxiv·SSRN·PMC의 1억 1천만 개 인용을 감사해 추정한 2025년 한 해 약 146,932건의 환각된 인용 사례가 그 배경입니다.

Academic Research Skills의 네 가지 축

ARS는 deep-research, academic-paper, academic-paper-reviewer, academic-pipeline 네 개의 큰 축으로 묶입니다. 각 축이 다시 여러 에이전트를 거느리며, 사용자의 한국어/영어 자연어 요청에 맞춰 어느 축이 활성화될지가 결정됩니다.

심층 연구 (Deep Research) — 13개 에이전트

연구 질문 정의·문헌 조사·합성 보고를 담당하는 단계입니다. 7가지 모드(full / quick / systematic-review / socratic / fact-check / lit-review / review)를 통해 "AI 고등교육에 미치는 영향을 조사해 줘", "X에 대해 PRISMA 기반 systematic review를 돌려 줘" 같은 다양한 요청을 받아냅니다.

  • Socratic Mentor: 연구자의 의도가 탐색적(exploratory) 인지 목표 지향적(goal-oriented) 인지를 3턴마다 분류하고, 탐색 모드에서는 자동 요약 권유를 꺼서 조기 수렴(premature closure) 을 막습니다. v3.0에서 추가된 Intent Detection Layer와 Dialogue Health Indicator가 이를 담당합니다.
  • PRISMA 기반 systematic reviewSemantic Scholar API 검증: 인용 후보를 Levenshtein 유사도 0.70 이상으로 매칭해 환각된 참고문헌을 1차로 차단합니다.
  • Devil's Advocate: 자체 논제에 대해 다중 라운드 반박을 수행하되, v3.0의 Concession Threshold Protocol 에 따라 반박 점수 1–5점 중 4점 이상에서만 양보가 허용됩니다.

논문 작성 (Academic Paper) — 12개 에이전트

10가지 모드(full / plan / outline-only / revision / revision-coach / abstract-only / lit-review / format-convert / citation-check / disclosure)로 초안 작성부터 reviewer comment 대응까지를 다룹니다.

  • Style Calibration: 사용자가 제공한 과거 글의 문체를 학습해 새 초안의 어휘·문장 길이·연결어 패턴을 맞춥니다.
  • Writing Quality Check: LLM 특유의 정형화된 표현·hedging·번역체를 탐지해 기계 생성 흔적 을 줄입니다.
  • Anti-Leakage Protocol: README가 명시하듯, 출처가 없는 내용을 그럴듯하게 채우는 대신 [MATERIAL GAP] 마커로 남겨 사용자가 직접 메우게 합니다.
  • VLM Figure Verification: 시각언어모델로 생성된 figure를 10항목 APA 체크리스트(축 라벨, 단위, 범례, 캡션 일치 등)에 따라 최대 2회 자가 수정합니다.
  • LaTeX hardening: APA 7.0 apa7 클래스, IEEE, Chicago 템플릿을 지원하며 tectonic으로 PDF를 빌드합니다.

동료 평가 (Academic Paper Reviewer) — 7개 에이전트

EIC(Editor-in-Chief) + 분야 적응형 3 reviewer(방법론·도메인·교차분야) + Devil's Advocate 구성으로 0–100점 품질 루브릭을 매깁니다. 점수 매핑은 ≥80 Accept, 65–79 Minor Revision, 50–64 Major Revision, <50 Reject입니다.

  • Concession Threshold Protocol: 비평을 사용자가 강하게 반박했다고 해서 reviewer가 곧장 입장을 거두지 않도록, 반박 강도 점수 1–5점을 매기고 4점 이상에서만 양보합니다. 연속 양보·전체 양보율·frame-lock 감지가 함께 작동합니다.
  • Read-Only Constraint: reviewer는 새로운 주장을 만들지 않고 원고에 있는 주장만 검증합니다.
  • R&R Traceability Matrix(Schema 11): 저자의 Author's Claim 과 reviewer의 Verified? 컬럼을 1:1로 추적해, 재심사 시 "이 응답이 실제로 반영됐는지"를 기계가 확인합니다.
  • Calibration 모드: 사용자가 제공한 gold-label 세트에 대해 reviewer 자신의 FNR(미검출률)과 FPR(오검출률)을 측정합니다.

학술 파이프라인 (Academic Pipeline) — 10단계 오케스트레이터

위 세 축을 묶어 연구 → 작성 → 평가 → 수정 → 출판을 한 흐름으로 진행시키는 단일 진실 공급원입니다. 본 게시물 상단의 다이어그램이 이 흐름을 요약합니다.

  • Adaptive Checkpoint: 모든 단계는 사용자 확인 체크포인트로 끝납니다. 단계별 결정 사항(예: Stage 3에서 "Accept / Minor / Major / Reject" 선택)을 사람이 명시적으로 확정해야 다음으로 넘어갑니다.
  • Stage 2.5 Integrity Gate: 7가지 AI 실패 모드(M1 implementation bug, M2 hallucinated citation, M3 hallucinated experimental result, M4 shortcut reliance, M5 bug reframed as insight, M6 methodology fabrication, M7 early frame-lock)를 차례로 점검합니다. 어느 하나라도 SUSPECTED면 fix + 재검증(최대 3회). 자세한 정의는 저장소의 academic-pipeline/references/ai_research_failure_modes.md 에 정리되어 있습니다.
  • Stage 4.5 Final Integrity Gate: 동일한 7-mode를 zero-tolerance로 다시 돌립니다. SUSPECTED는 CLEAR 또는 사용자 Override 처리되어야 통과합니다.
  • Material Passport: Schema 9 형식의 단일 메타데이터 컨테이너로, 사용자 보유 문헌(literature_corpus[]), 데이터 출처, 재현성 lockfile(repro_lock)을 모두 들고 다닙니다. v3.6.5부터는 bibliography_agentliterature_strategist_agent가 이 corpus를 우선 소비하는 corpus-first, search-fills-gap 흐름을 따릅니다.

Academic Research Skills의 데이터 접근 단계 분리

v3.3.2부터 ARS의 모든 스킬은 data_access_level 메타데이터(raw / redacted / verified_only)를 선언하고, scripts/check_data_access_level.py 가 CI에서 이를 강제합니다. 패턴은 Anthropic이 2026년에 공개한 automated-w2s-researcher 의 ground truth isolation 패턴에서 차용했고, 세부 규약은 저장소의 shared/ground_truth_isolation_pattern.md 에 정리되어 있습니다.

  • raw: 1차 자료(웹, PDF, 사용자 입력)를 직접 다룬다. deep-research가 여기에 속합니다.
  • redacted: 정제된 산출물만 본다. academic-paper가 해당합니다.
  • verified_only: Stage 2.5 / 4.5 무결성 게이트 이후의 자료만 본다. academic-paper-revieweracademic-pipeline이 해당합니다.

이 분리는 런타임에 강제되는 권한 시스템이 아니라 선언적 어노테이션 임을 ARS는 분명히 합니다. 실제 강제 지점은 사용자가 직접 확인하는 두 무결성 게이트입니다.

Academic Research Skills의 인용 환각 차단(v3.7.x – v3.8)

v3.7.1은 모든 인용에 trust-chain frontmatter 를 부여해 출처를 추적 가능하게 만들었고, v3.7.3은 세 계층의 citation locator anchor(저자가 L3 라 부르는 claim-faithfulness gap 용)를 도입했습니다. v3.8은 옵션으로 켜는 ARS_CLAIM_AUDIT=1 감사 패스를 추가해, 인용된 출처에서 실제로 주장이 뒷받침되는지를 LLM-as-judge 방식으로 점검합니다. v3.8 사양은 저장소의 docs/design/2026-05-15-issue-103-claim-alignment-audit-spec.md 에 상세히 정의되어 있습니다.

다섯 가지 HIGH-WARN 클래스(claim-not-supported, negative-constraint-violation, fabricated-reference, anchorless, constraint-violation-uncited)는 Stage 5 formatter의 terminal hard gate (REFUSE rules 6–10)에서 출력 자체를 차단합니다. 보정(calibration)은 동봉된 20-tuple gold set으로 수행하며, FNR<0.15 + FPR<0.10 임계를 통과해야 ramp-on이 허용됩니다.

Academic Research Skills의 설치 및 사용법

ARS는 Claude Code 플러그인 인터페이스(v3.7.0+)에서 한 줄로 설치할 수 있습니다.

/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills

설치가 끝나면 /ars-plan 으로 Socratic 대화를 거쳐 논문 구조를 잡거나, /ars-lit-review "your topic" 으로 단발 문헌 조사를 돌려 볼 수 있습니다. 사전 요구 사항으로는 최신 Claude Code, ANTHROPIC_API_KEY, 그리고 DOCX/PDF 출력이 필요한 경우 선택적으로 Pandoc과 tectonic + Source Han Serif TC가 필요합니다. ARS는 15,000 단어 분량 논문 기준 전체 파이프라인 비용을 약 $4–6로 추정합니다. 모드별 토큰 예산과 권장 Claude Code 설정은 저장소의 docs/PERFORMANCE.md 에 정리되어 있습니다.

Codex CLI 사용자는 자매 배포본인 Imbad0202/academic-research-skills-codex 를 사용할 수 있습니다. 동일한 워크플로우 내용을 Codex 네이티브 패키징(단일 $academic-research-suite 스킬 + ars-* alias)으로 묶은 형태입니다. 실험 수행이 필요한 연구라면 ARS의 자매 도구인 Imbad0202/experiment-agent 를 Stage 1과 Stage 2 사이에 끼워 코드 실험·인간 연구·통계 해석까지 통합할 수 있습니다.

전체 파이프라인이 실제로 만든 산출물(최종 논문 PDF, 무결성 보고서, peer review 보고서, 저자 응답서, post-publication audit 보고서)은 저장소의 examples/showcase/ 에서 확인할 수 있습니다. Stage 2.5 무결성 보고서가 잡아낸 15건의 가짜 참고문헌 + 3건의 통계 오류, 그리고 publication 이후 독립 감사에서 추가로 발견된 21/68건의 누락 사례까지 기록되어 있어, 도구가 실제 환경에서 무엇을 잡고 무엇을 놓치는지를 사용자가 직접 점검해 볼 수 있습니다.

Academic Research Skills의 라이선스

Academic Research Skills는 CC BY-NC 4.0 라이선스로 공개되어 있습니다. 출처 표기 조건을 만족하면 자유롭게 복제·수정·재배포가 가능하지만, 상업적 용도로는 사용할 수 없는 비상업적(non-commercial) 라이선스라는 점에 주의가 필요합니다. 사내 도구 또는 상용 서비스에 통합할 계획이 있다면 LICENSE 파일과 CC BY-NC 4.0 원문 조건을 먼저 검토해 보시는 것을 권합니다.

:github: Academic Research Skills 프로젝트 GitHub 저장소

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: