Tech & Development
Claude 3 API 활용: Vision (시각적 질문 응답) - Python
Claude 3 API 활용: Vision (시각적 질문 응답) - Python
2024.03.12인공지능 기술이 빠르게 발전하면서 이미지 처리 분야에서의 경쟁도 치열해지고 있습니다. 특히, 최신 AI 모델들은 객체 탐지, 광학 문자 인식(OCR), 이미지 추론 등 다양한 작업을 통해 일상생활과 산업 전반에 혁신을 가져오고 있습니다. 이러한 기술 진보의 흐름 속에서, 최근 공개된 Claude 3 API는 특히 주목할 만한 기능을 제공합니다. 2024년 3월 4일에 발표된 Claude 3는 Vision 기능을 포함하고 있어, 이미지 처리 분야에서 기존의 GPT-4와 같은 모델과의 성능 비교가 가능합니다. 이번 글에서는 Claude 3의 Vision 기능을 활용한 이미지 처리 작업의 효율성과 성능을 직접 알아보도록 하겠습니다. 기본 설정 Claude 3 API를 활용하기 전에 필요한 기본 설정 과정을 살..
Claude 3 API: Python 기본 가이드
Claude 3 API: Python 기본 가이드
2024.03.11Claude API 사용을 위한 환경 설정, 필수 라이브러리 설치, 그리고 첫 API 요청 전송 과정에 대해 안내드립니다. 본 가이드는 Python SDK를 중심으로 설명하되, TypeScript SDK와 직접 HTTP 통합도 지원함을 알려드립니다. 자세한 정보는 클라이언트 SDK 및 API 참조 문서에서 확인 가능합니다. 사전 준비 사항 Claude API 접근 방법과 API 키 생성은 이전에 작성된 가이드를 참고하세요. Claude에 대한 API 접근이 가능한 계정 API 키 (계정 설정을 통해 사용 가능) Python 3.7.1 이상 버전 설치 Claude API 활용 가이드: 기본 설정 최근 인공지능 기술의 발전은 그야말로 눈부신 속도로 진행되고 있습니다. 특히 이미지 처리 분야에서는 다양한 AI..
Claude 3 API 활용 가이드: 기본 설정
Claude 3 API 활용 가이드: 기본 설정
2024.03.11본 가이드에서는 Claude API의 기본 설정과 사용 방법에 초점을 맞추어, 개발자분들이 Claude 3 API를 어떻게 시작하고 활용할 수 있는지에 대한 구체적인 안내를 제공하고자 합니다. Claude API를 통해 이미지 처리, 자연어 처리 등 다양한 작업을 수행하는 방법을 단계별로 설명하며, API 키 생성부터 모델 선택, 실제 요청 전송까지의 과정을 자세히 다룰 예정입니다. Build with Claude Claude API를 사용하고자 한다면 console.anthropic.com에서 계정을 생성할 수 있습니다. 이 콘솔은 API 키를 생성하고, 팀에 사용자를 추가하며, 결제를 설정하고, Workbench에서 Claude를 실험할 수 있는 곳입니다. Claude API에 접근하는 과정은 간단하..
Google 젬마 (Gemma): 사용 가이드
Google 젬마 (Gemma): 사용 가이드
2024.02.232월 21일 (현지시간) 구글은 오픈 모델 "Gemma"를 공개했습니다. Gemma는 Gemini 모델을 개발하기 위해 활용된 기초 연구와 기술을 바탕으로 제작되었으며, 구글이 AI를 모두에게 유익하게 만들기 위한 지속적인 노력의 일환으로 보입니다. Gemma의 핵심 기능 이번에 공개된 Gemma 모델은 두 가지 버전, Gemma 2B와 Gemma 7B로 제공됩니다. 각 모델은 사전 훈련된(pre-trained) 상태와 지시 조정(instruction-tuned) 상태로 제공되며, 이는 개발자들이 자신의 필요에 따라 경량 애플리케이션부터 계산량이 많은 작업까지 다양한 목적으로 최적의 모델을 선택할 수 있도록 합니다. 구글은 이를 통해 개발자들이 쉽게 접근할 수 있으며, 상업적 사용과 배포를 허용함으로써 ..
GPTs Action 기능 활용: 이메일 발송
GPTs Action 기능 활용: 이메일 발송
2024.02.03이전에 GPT를 개인화하는 방법에 대해 이야기했었습니다. 오늘은 그 과정에 Action 기능을 추가하여 GPT의 기능을 더욱 확장하는 방법을 소개하려 합니다. Action을 통해 GPT가 외부 API와 상호 작용할 수 있게 되어, 데이터베이스 연동, 이메일 처리, 쇼핑 어시스턴트 기능 등을 구현할 수 있게 됩니다. 이는 개발자에게 GPT의 기능을 보다 유연하게 활용할 수 있는 능력을 제공합니다. 아래 예제는 Zapier를 이용합니다. Zapier는 다양한 앱과 서비스를 연결하여 자동화를 구현할 수 있는 웹 기반 툴입니다. 이를 통해 개발자는 코드를 직접 작성하지 않고도 GPT와 외부 API 간의 상호 작용을 설정할 수 있습니다. 예를 들어, GPT에서 생성된 데이터를 기반으로 이메일을 보내거나, 데이터베..
Google Gemini API 사용하기 - Python (2) : 사용법과 실습
Google Gemini API 사용하기 - Python (2) : 사용법과 실습
2023.12.18Google DeepMind가 개발한 'Gemini'는 멀티모달을 위해 설계된 AI 모델의 집합체입니다. Vertex AI Gemini API를 통해, 사용자는 Gemini Pro Vision와 Gemini Pro 모델에 접근할 수 있게 되었습니다. 이 두 모델은 각각 다양한 멀티미디어 데이터와 자연어 처리 기능을 지원합니다. Gemini Pro: 자연어 처리 작업, 다중턴 텍스트 및 코드 채팅, 그리고 코드 생성과 같은 작업을 처리하는 데에 최적화되어 있습니다. Gemini Pro Vision: 멀티모달 프롬프트를 지원합니다. 사용자는 텍스트, 이미지, 비디오를 포함한 프롬프트 요청을 할 수 있으며, 텍스트나 코드 형태의 응답을 받을 수 있습니다. Gemini API의 모델 정보에 대한 자세한 사양은 ..
Google Gemini API 사용하기 - Python (1) : 사전준비
Google Gemini API 사용하기 - Python (1) : 사전준비
2023.12.152023년 12월 6일, Google은 Gemini(제미나이)라는 Large Multimodal Model을 세상에 공개했습니다. 이 모델은 텍스트, 이미지, 오디오에 이르기까지 광범위하게 다양한 형태의 데이터 처리를 가능하게 합니다. 물론 발표 이후 시연 영상 편집 논란과 실제 사용자들 사이에서는 GPT-4와의 비교를 통해 기대에 못 미치는 것으로 평가되는 경우도 있었습니다. 구글의 제미나이(Gemini) 살펴보기: 우리 생활에 가져올 변화 구글이 현지시간 6일, GPT-4를 능가하는 새로운 AI 모델인 '제미나이(Gemini 또는 제미니)'를 발표했습니다. 이번 발표는 당초 내년 초로 예상되었던 출시 일정을 앞당겨 깜짝 발표를 했습니다. '제미 yunwoong.tistory.com 12월 13일 Go..
OpenAI Assistants API: 시작하기 (Python)
OpenAI Assistants API: 시작하기 (Python)
2023.12.07OpenAI의 API를 활용하는 개발자 수가 200만 명을 넘어섰습니다. 이제 새로운 기술이 형성되고 활용되는 방식에 중대한 변화가 일어나고 있음이 분명해졌습니다. 지난 2023년 11월 6일에 있었던 OpenAI의 첫 개발자 컨퍼런스인 DevDay는 AI의 발전과 도구들에 대한 최신 정보를 소개하는 자리였습니다. 이 중에서도 특히 주목할 만한 것은 지능적이고 반응적인 AI 어시스턴트를 구축할 수 있는 OpenAI Assistants API였습니다. 이 API는 현재 AI 기술을 적용하고 이해하는 방식에 있어 중요한 역할을 하고 있으며, 개발자들에게 새로운 가능성을 열어주고 있습니다. 경험이 풍부한 개발자든, 이제 막 시작한 초보 개발자든, 오늘날의 기술 환경에서 OpenAI Assistants API를..
GPT-4V(ision)를 이용한 이미지 기반 추론 - (Python)
GPT-4V(ision)를 이용한 이미지 기반 추론 - (Python)
2023.12.03이미지 기반 추론은 이미지 내의 객체나 요소들을 기반으로 논리적인 결론이나 추정을 도출하는 과정입니다. GPT-4V를 활용하면, 이미지 내의 정보를 분석하여 구체적인 추론을 수행할 수 있습니다. #1. 필수 패키지 설치 및 준비 GPT-4V를 활용한 이미지 인식 프로젝트를 시작하기 전에, 필요한 Python 패키지들을 설치하고 준비하는 과정이 필요합니다. 1) 패키지 설치 먼저, 필요한 Python 라이브러리를 설치해야 합니다. 이를 위해 Python의 패키지 관리자인 pip를 사용합니다. 다음 명령어를 통해 필요한 패키지들을 설치할 수 있습니다. pip install openai requests pillow matplotlib 이 명령어는 OpenAI의 API를 사용하기 위한 openai, 웹에서 이미..
GPT-4V(ision)를 이용한 얼굴 인식(Face Recognition) - (Python)
GPT-4V(ision)를 이용한 얼굴 인식(Face Recognition) - (Python)
2023.11.27얼굴 인식(Face Recognition)은 이미지 내의 인물을 식별하고 구별하는 기술입니다. GPT-4V를 활용하면, 다양한 이미지에서 특정 인물을 식별하고 관련 정보를 추출하는 것이 가능해집니다. #1. 필수 패키지 설치 및 준비 GPT-4V를 활용한 이미지 인식 프로젝트를 시작하기 전에, 필요한 Python 패키지들을 설치하고 준비하는 과정이 필요합니다. 1) 패키지 설치 먼저, 필요한 Python 라이브러리를 설치해야 합니다. 이를 위해 Python의 패키지 관리자인 pip를 사용합니다. 다음 명령어를 통해 필요한 패키지들을 설치할 수 있습니다. pip install openai requests pillow matplotlib 이 명령어는 OpenAI의 API를 사용하기 위한 openai, 웹에서..
GPT-4V(ision)를 이용한 OCR - (Python)
GPT-4V(ision)를 이용한 OCR - (Python)
2023.11.26이번 글에서는 GPT-4V를 활용한 OCR에 대해 알아보겠습니다. OCR (Optical Character Recognition)은 이미지에서 텍스트를 추출하고 인식하는 기술입니다. 이 기술은 문서 스캔, 명함 인식, 자동 번호판 인식 등 다양한 분야에서 활용됩니다. GPT-4V를 이용하면, 이미지 내의 텍스트를 효과적으로 추출하고 처리할 수 있습니다. #1. 필수 패키지 설치 및 준비 GPT-4V를 활용한 이미지 인식 프로젝트를 시작하기 전에, 필요한 Python 패키지들을 설치하고 준비하는 과정이 필요합니다. 1) 패키지 설치 먼저, 필요한 Python 라이브러리를 설치해야 합니다. 이를 위해 Python의 패키지 관리자인 pip를 사용합니다. 다음 명령어를 통해 필요한 패키지들을 설치할 수 있습니다..
GPT-4V(ision)를 이용한 객체 탐지(Object Detection) - (Python)
GPT-4V(ision)를 이용한 객체 탐지(Object Detection) - (Python)
2023.11.26이번 글에서는 GPT-4V를 활용하여 객체 탐지(Object Detection)에 대해 알아보겠습니다. 객체 탐지(Object Detection)는 이미지 내 특정 객체를 식별하고, 그 위치를 정확하게 파악하는 과정을 말하며 이미지 분류(Classification)와 위치 파악(Localization)을 동시에 수행하는 이미지 인식 기술입니다. 이미지 분류(Classification)는 이미지 내의 객체가 무엇인지 식별하고 위치 파악(Localization)은 그 객체가 이미지 내 어디 곳에 위치해 있는지를 나타냅니다. #1. 필수 패키지 설치 및 준비 GPT-4V를 활용한 이미지 인식 프로젝트를 시작하기 전에, 필요한 Python 패키지들을 설치하고 준비하는 과정이 필요합니다. 1) 패키지 설치 먼저,..