[GN⁺] macOSPilot - macOS를 위한 음성 + 비젼 CoPilot

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

[GN⁺] macOSPilot - macOS를 위한 음성+비젼 CoPilot

  • macOS의 모든 어플리케이션에서 사용가능한, 음성과 비젼을 이용한 AI 어시스턴트
  • 단축키를 누르고 음성으로 질문하면, 현재 컨텍스트 기반으로 음성 답변을 출력
    • 현재 윈도우의 스크린샷을 만들어서 OpenAI GPT Vision에게 보냄
    • 질문은 OpenAI Whisper API를 이용해서 받아쓰기 한후 텍스트로 함께 보내짐
    • 받아온 텍스트 답변을 OpenAI TTS를 이용해서 음성으로 변환하여 출력
  • NodeJS/Electron 으로 개발함
  • 기본 단축키는 Cmd + Shift + '

Hacker News 의견

  • "OSX" 대신 "macOS"라는 용어를 프롬프트에서 사용하는 것이 더 나은지, 아니면 초기에 선택한 것을 크게 고민하지 않았는지에 대한 질문.
    • 게시자는 비디오를 훑어보며 궁금증을 표함.
    • 관련 코드 링크 제공.
  • 응답으로 TTS 대신 스트리밍 텍스트 옵션을 추가할 것을 제안.
    • 음성 명령 대신 텍스트를 사용하는 것도 고려해볼 것.
    • 비슷한 종류의 조수를 오랫동안 시도해본 경험을 공유하며, 디스코드에서 연락하자고 제안.
  • 리눅스 설정에 대한 유사한 스크립트를 작성했다고 언급.
    • XFCE 키보드 단축키와 연결.
    • 스크립트 사용 빈도가 낮다고 언급.
  • OpenAI API 사용 시 지출 한도를 설정할 것을 권장.
    • 텍스트 모델과 비전 모델의 비용 차이를 빠르게 알게 될 수 있음을 경고.
    • 가격이 비슷하다는 것을 확인하고 긍정적인 평가.
  • 프로젝트에 대한 긍정적인 반응.
    • 스크린샷이 혼란스러운 부분을 명확히 하는 데 도움이 될 것 같다고 언급.
    • 사용하지 않을 때 창을 숨길 수 있는 방법에 대한 질문.
  • 프로젝트를 "open"AI가 아닌 로컬 LLMs와 함께 작동하도록 만들 계획이 있는지 질문.
  • 터미널 자체에 통합하여 무언가를 구축하고 싶다는 의견.
    • 스크린샷을 피하고 터미널에서 직접 작업하는 것이 간단하다고 언급.
    • 터미널에서 AI에게 명령을 내리는 형식의 예시 코드 제공.
    • 바쁜 일상 속에서 시간을 내기 어렵다는 토로.
  • "macOSpilot이 NodeJS/Electron을 사용한다"는 정보에 대한 부정적인 반응.
  • 디지털 오디오 워크스테이션 Ableton Live와 함께 사용해본 경험 공유.
    • 매우 유용하고 시간을 절약해줄 것 같다는 긍정적인 평가.
    • 상호작용 비디오 링크 제공.
    • 부정적인 댓글에 대한 의문 제기.
  • ls 명령의 결과를 기다리는 동안 생산성에 대한 상상을 공유.

소개 영상

원문

출처 / GeekNews