요즘 Open AI API로 LLaVA 파인튜닝에 사용할 데이터셋을 구축하고 있습니다. 그런데 이미지 개수가 7200개가 넘는지라 크레딧 비용이 90달러 이상 소요될 것으로 예상되어 더 싸게 이용할 수 있는 방법을 알아보는 중입니다.
Open AI에서 제공하는 batch API도 이용해봤지만, 업로드할 파일의 크기에 제한이 있어서 이걸로는 진행이 어렵더라고요.
그래서 마침 구글 클라우드 기간이 아직 남아있는게 있고, 크레딧도 충분해서 이걸 사용해보면 되지 않을까 생각이드네요. 혹시 구글 API도 Open AI API처럼 사용이 가능한지요?
예를들어 이건 로컬 경로에서 이미지를 가져오고 이에 관한 시스템 프롬프트와 텍스트 프롬프트로 명령을 내릴 수 있는 Open AI API 방식 중 하나인데, 혹시 구글 API도 이런 스타일로 API를 불러와서 사용 가능한지가 궁금한 것입니다.
{
'model': 'gpt-4o',
'messages': [
{'role': 'system', 'content': system_role},
{'role': 'user', 'content': [
{'type': 'text', 'text': f"{prompt}"},
{'type': 'image_url', 'image_url': {'url': f'data:image/png;base64, {image}'}},
]}
],
'max_tokens': 100,
}
아래 답변은 OpenAI의 GPT-4-Turbo 모델로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.
안녕하세요! Open AI API와 유사한 방식으로 구글 API를 사용하고자 하는 상황에 대해 문의하셨군요. 데이터셋 구축 과정에서 발생하는 비용 문제를 해결하기 위해 구글 클라우드의 자원을 활용하는 방안을 모색 중이신 것으로 이해했습니다. 구체적으로는 로컬 경로에서 이미지를 가져와 시스템 및 텍스트 프롬프트를 통해 명령을 내릴 수 있는 API 사용 방법에 대한 궁금증을 가지고 계신 것 같습니다.
구글 클라우드 플랫폼(GCP)은 다양한 API를 제공하며, 이 중에서도 Google Cloud Vision API는 이미지 분석을 위한 강력한 도구입니다. Cloud Vision API를 사용하면 이미지 내 객체 탐지, 얼굴 인식, 텍스트 추출 등 다양한 이미지 분석 기능을 활용할 수 있습니다. 또한, 사용자가 직접 이미지를 업로드하거나 이미지 URL을 통해 분석을 요청할 수 있으므로, Open AI API와 유사한 방식으로 사용이 가능합니다.
아래는 Python을 사용하여 Google Cloud Vision API를 호출하는 간단한 예시 코드입니다. 이 코드는 로컬에 저장된 이미지를 Cloud Vision API에 전송하고, 분석 결과를 받아오는 과정을 보여줍니다. 사용하기 전에 Google Cloud 프로젝트를 설정하고, API 사용 설정 및 인증 정보를 구성해야 합니다.
from google.cloud import vision
import io
def analyze_image(image_path):
"""로컬 이미지 파일을 분석하여 라벨을 반환합니다."""
client = vision.ImageAnnotatorClient()
with io.open(image_path, 'rb') as image_file:
content = image_file.read()
image = vision.Image(content=content)
response = client.label_detection(image=image)
labels = response.label_annotations
print('Labels:')
for label in labels:
print(label.description)
if __name__ == '__main__':
image_path = 'path/to/your/image.jpg'
analyze_image(image_path)
이 코드를 실행하기 전에 Google Cloud SDK를 설치하고, google-cloud-vision 라이브러리를 설치해야 합니다. 라이브러리 설치는 다음과 같이 할 수 있습니다.
pip install --upgrade google-cloud-vision
Google Cloud Vision API에 대한 더 자세한 정보와 설정 방법은 공식 문서를 참조하시기 바랍니다. 공식 문서는 다음 링크에서 확인할 수 있습니다: Google Cloud Vision API 문서
제공된 정보가 부족하거나 추가적인 질문이 있으시면, 언제든지 추가 문의를 남겨주세요. 제 답변이 정확하지 않을 수도 있으니, 공식 문서를 통해 최신 정보를 확인하는 것이 좋습니다. 도움이 되었기를 바랍니다!
아래 답변은 Anthropic의 Claude-3 Opus 모델로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.
안녕하세요, 구글 API를 Open AI API와 유사하게 사용할 수 있는지에 대해 질문해 주셔서 감사합니다. 현재 Open AI API를 사용하여 LLaVA 파인튜닝에 필요한 데이터셋을 구축 중이시고, 7200개 이상의 이미지를 처리하는데 비용 부담이 크시다고 하셨습니다. 그래서 구글 클라우드 크레딧을 이용해 보려고 하시는 것으로 이해했습니다.
구글에서도 Open AI API와 유사한 방식으로 이미지와 텍스트를 함께 입력하여 모델을 호출할 수 있는 API를 제공하고 있습니다. 바로 Google Cloud Vision API입니다.
Vision API를 사용하면 이미지 분석, 얼굴 감지, 텍스트 추출(OCR), 유해 콘텐츠 감지 등 다양한 기능을 사용할 수 있습니다. 로컬 경로의 이미지 파일이나 URL, 바이너리 데이터 등 다양한 형식으로 이미지를 전달할 수 있고, REST API와 클라이언트 라이브러리(Python, Java, Node.js 등)를 통해 Vision API를 호출할 수 있습니다.
예를 들어 Python으로 Vision API의 텍스트 감지 기능을 호출하는 코드는 다음과 같습니다:
from google.cloud import vision
client = vision.ImageAnnotatorClient()
# 로컬 이미지 파일 경로
image_path = '/path/to/image.jpg'
# 이미지 읽기
with open(image_path, 'rb') as image_file:
content = image_file.read()
# Vision API 호출
image = vision.Image(content=content)
response = client.text_detection(image=image)
texts = response.text_annotations
# 감지된 텍스트 출력
print(texts[0].description)
위 코드에서는 로컬 이미지 파일을 읽어서 바이너리 데이터로 Vision API에 전달합니다. 그리고 감지된 텍스트를 출력합니다.
Vision API 사용을 위해서는 Google Cloud 프로젝트 생성, Vision API 사용 설정, 서비스 계정 키 생성 등의 사전 작업이 필요합니다. 자세한 내용은 아래 문서를 참고해 보시기 바랍니다.