[GN⁺] arXiv, 이제 HTML 형식으로 논문 제공

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

과학 연구에 대한 공평한 접근

  • arXiv는 모든 사용자가 장애를 가진 사람들을 포함하여 과학 연구에 공평하게 접근할 수 있도록 노력 중임.
  • 2023년 12월 18일부터 TeX/LaTeX으로 제출된 모든 논문에 대해 HTML 형식 버전을 생성하고 있음(12월 1일 이후 제출된 논문 + HTML 변환이 성공한 경우에 한함).

HTML 형식의 추가

arXiv HTML 형식의 추가

  • HTML은 PDF를 대체하는 것이 아니라 arXiv 사용자들에게 제공되는 추가적인 형식임.
  • 제출자들은 제출 시 PDF와 마찬가지로 HTML 버전을 미리 볼 수 있는 기회를 가짐.
  • 논문의 초록 페이지에 접속하면 PDF 링크 바로 아래에서 HTML 논문을 볼 수 있는 링크를 확인할 수 있음.

장애를 가진 과학자들의 접근성 향상

  • 장애를 가진 과학자들이 연구에 접근하는 데 장벽을 겪고 있어 HTML 형식으로 된 논문을 제공하는 요청이 있었음.
  • HTML 형식의 논문은 스크린 리더와 같은 기술을 통해 더 쉽고 정확하게 읽힐 수 있어, 시각 장애, 저시력, 난독증 등을 가진 연구자들에게 도움이 됨.

HTML 변환의 실험적 단계

  • 현재 HTML 변환은 실험적 단계에 있으며, 더 정확한 변환을 위해 작업 중임.
  • 모든 논문이 정확하게 HTML로 변환되는 것은 아니지만, 접근성이 필요한 연구자들을 위해 가능한 빠르게 이 기능을 제공하고자 함.
  • HTML 변환이 실패한 제출물에 대해서는 제출을 막거나 보류하지 않지만, 저자들이 HTML 버전을 주의 깊게 검토하기를 바람.

HTML 프로젝트에 대한 감사

  • 과학을 모두에게 접근 가능하게 만드는 큰 발걸음인 실험적 HTML에 대해 감사의 말을 전함.
  • LaTeX Project, NIST의 LaTeXML 팀 등 arXiv의 HTML 논문 프로젝트 파일럿에 협력한 모든 이들에게 감사함.
  • arXivLabs 협력 프로젝트인 ar5iv에 익숙한 사용자라면, 이 HTML 제공이 그 영향력 있는 프로젝트를 완전히 "내부화"하는 것임.
  • 최종 목표는 arXiv의 전체 코퍼스를 백필하여 모든 논문에 HTML 버전을 제공하는 것이지만, 현재는 새 논문에 대해서만 이 기능을 제공함.
  • HTML 논문 프로젝트에 대한 버그 보고서를 작성해준 모든 arXiv 사용자들에게도 감사하며, 팀은 현재 버그 보고서를 분석 중이며 새해에 첫 번째 개선 작업을 할 예정임.

GN⁺의 의견

  • arXiv의 HTML 형식 제공은 연구 접근성을 향상시키는 중요한 진보로, 특히 장애를 가진 과학자들에게 큰 도움이 될 것임.
  • 이러한 변화는 과학 커뮤니티 내에서 기술적 장벽을 줄이고, 연구의 포용성을 높이는 데 기여할 것임.
  • 실험적 단계임에도 불구하고, arXiv가 이 기능을 서둘러 제공하기로 한 결정은 연구자들의 필요를 우선시하는 긍정적인 자세를 보여줌.

Hacker News 의견

  • 아티클에 HTML 예시가 링크되어 있지 않지만, 여기 임의의 링크가 있음: arXiv HTML 예시 링크. 다크 모드가 지원되는 것이 멋짐. 토글은 보이지 않지만 시스템 모드에 따라 렌더링됨. 모바일에서 arXiv 접근성이 크게 향상될 것으로 보임.
    • HTML이 연구와 학문을 위한 접근성과 협업을 지원하기 위해 발명된 지 30년이 지난 후, 백악관이 새로운 접근성 지침을 발표함. 이는 PDF가 아닌 HTML로 처음으로 공식적인 새 정책을 발표한 것임. 백악관 접근성 지침 링크
    • arXiv의 중요한 새로운 AI/ML 논문에 대해 정보를 얻고 싶다면, Emergent Mind를 확인해보길 바람. 이 사이트는 소셜 미디어에서 arXiv 논문 언급을 확인하고(해커뉴스, Reddit, X, YouTube, GitHub 등), 소셜 미디어 활동량과 논문 게시 시간을 기반으로 논문을 순위 매김함. 각 논문에 대해 GPT-4를 사용해 요약하고, 소셜 미디어 토론, 논문 참조, 관련 논문에 대한 링크를 제공함. 아직 새로운 사이트이며 많이 공유되지 않았음. 개선을 위한 피드백이나 요청을 환영함.
    • 사이드바에 HTML 링크가 없는 논문이 있다면, HTML로 렌더링되지 않는 이유를 어떻게 알아내고 수정할 수 있는지 궁금함.
    • 제출자들이 PDF 버전과 함께 자신들의 HTML 버전을 업로드할 수 있는 기회를 제공하는 것이 좋을 것 같음. 자동 변환 과정에만 의존하는 대신에 말이지.
      • HTML 버전의 논문에 문제가 있다고 연락이 오면, PDF의 변경이 HTML 생성에 영향을 미칠 것을 희망하는 것 외에는 수정할 방법이 없어 저자들이 좌절할 수 있음. PDF에서 포맷 문제를 직접 수정하는 것이 더 쉬움.
      • 논문의 대체 포맷에 대한 실험을 허용하는 것도 흥미로울 것임. 예를 들어, 논의 중인 프로그래밍 언어를 사용해볼 수 있는 샌드박스를 포함한 논문이나, 다변수 미적분에 대한 논문에서 어떤 함수의 3차원 플롯과 상호작용할 수 있음.
    • 웹에 항상 베팅하는 것은 매우 좋은 결정임.
    • 이 서비스를 위해 사용되는 도구는 arXiv-readability임. 몇 번의 클릭을 절약하기 위해 링크 제공.
    • PDF는 텍스트 문서를 렌더링하는 데 있어 HTML보다 훨씬 뛰어남. 그리고 차이는 상당함. 이것은 10년, 심지어 15-20년 전에도 가능했음. 이것이 이루어지지 않은 것은 단순한 관성이 아님. Latex와 PDF는 텍스트 렌더링이 훨씬 뛰어나고, 정적 포맷은 시간에 따라 고정된 상태를 잠그는 것이 뒤에 오는 사람들에게 유용함. HTML의 본질적으로 유동적인 성격과 달리 말이지. 그리고 다시 말하지만, 렌더링은 비교할 수 없으며, 그것은 의식적 또는 무의식적인 품질 신호를 전달함.
    • arXiv에서 PDF 형식의 논문 제공을 중단하지 않기를 바람. 컴퓨터에서도 PDF를 읽는 것을 선호함.
    • arXiv에서 큰 PDF(100MB 이상, 고해상도 이미지 생성에 중점을 둔 ML 논문에서 흔함)를 열 때, 로딩 바 외에는 아무것도 렌더링되지 않고 10초 이상의 상당한 로딩 시간이 있음. 이 지연의 원인이 무엇인지 궁금함. 네트워크 문제인가, 아니면 Chrome이 큰 PDF를 렌더링하는 데 정말 느린가? PDF는 렌더링을 시작하기 전에 완전히 다운로드되어야 하는가? 어쨌든 이 지연은 arXiv에 대한 유일한 불만이며, 문서 텍스트가 즉시 로드되는 점진적으로 렌더링되는 HTML 문서는 큰 개선이 될 것임.

원문

https://blog.arxiv.org/2023/12/21/accessibility-update-arxiv-now-offers-papers-in-html-format/

출처 / GeekNews