본문 바로가기
ChatGPT

Visual ChatGPT 완벽분석 : 생성AI의 특이점이 온다

by DesignerAllan 2023. 3. 15.
반응형

OpenAI에서 새롭게 발표한 Visual ChatGPT, 어떤 기능을 가지고 있으며 어떻게 사용할까요?

 

안녕하세요 Allan입니다.

 

이번 포스팅 주제는 3/14일자로 OpenAI에서 깃헙에 배포한 Visual ChatGPT입니다.

 

web상에서 바로 이용할 수 있는 ChatGPT와는 다르게
오픈소스로 깃헙에 배포되어서 접근성이 어려워 져
쉽게 접근하지 못하는 분들이 많은 것 같습니다.

 

그래서 이번 포스팅에서는 Visual ChatGPT에 대해 알아보고,

설치 후 사용까지 하는 방법을 알려드리도록 하겠습니다.

 

 

 

Ⅰ. Visual ChatGPT 알아보기

 

Visual ChatGPT:
Talking, Drawing and Editing with Visual Foundation Models

(출처 : https://arxiv.org/abs/2303.04671)

 

 

 

1. Visual ChatGPT란?

 

깃헙 공식 문서에 보면 Visual ChatGPT에 대해서 다음과 같이 말하고 있습니다.

Visual ChatGPT connects ChatGPT and a series of Visual Foundation Models to enable sending and receiving images during chatting.

 

해석해보면,

Visual ChatGPT는 ChatGPT를 일련의 VFM과 연결하여 채팅 중에 이미지를 주고받을 수 있게 하는 것이라고 합니다.

 

VFM이란 직역하면 "시각적 기반 모델"로 Stable Diffusion과 Dalle, Mid Journey 같이 시각적 요소를 기반으로 한 생성AI 모델을 말합니다.

 

즉, 기존의 ChatGPT가 텍스트 기반 모델이기 때문에 이미지(시각적 요소)로 소통할 수 없다는 한계가 있었다면,

 

Visual ChatGPT는 기존의 ChatGPT의 장점을 가지고 VFM과 연결하여
이미지를 이용한 소통도 가능하게 한다는 것입니다.

 

ChatGPT의 장점과 SD, MJ, Dalle등의 장점이 섞인 모델이라고 볼 수 있겠습니다.

 

 

 

2. Visual ChatGPT의 원리

 

공식문서에 올라온 Visual ChatGPT의 원리를 설명한 이미지 입니다.

출처 : https://github.com/microsoft/visual-chatgpt

저는 전공자가 아닌지라 자세한 내용은 이해하지 못하겠습니다만

ChatGPT와 VFM을 이용하여 output이 나온다는 것 정도만 이해하겠습니다..

 

혹시나 궁금해 하실 분들이 있어 올립니다.

 

 

 

3. Visual ChatGPT의 기능

 

먼저 깃헙에 올라와 있는 GIF를 보여드리겠습니다.

출처 : https://github.com/microsoft/visual-chatgpt

보시는 것처럼 ChatGPT처럼 대화도 가능하며
SD, MJ등와 같이 이미지를 생성할 수도 있으며

이미지를 수신할 수도 있습니다.

 

그럼 공식문서에 나온 Visual ChatGPT의 기능에 대해서 보겠습니다.

  1. sending and receiving not only languages but also images
  2. providing complex visual questions or visual editing instructions that require the collaboration of multiple AI models with multi-steps.
  3. providing feedback and asking for corrected results.

 

해석해 보자면 다음과 같습니다.

  1. 언어 뿐만 아니라 이미지도 송수신 할 수 있습니다.
  2. 많은 단계와 다양한 AI모델과 협업을 요구하는 복잡한 시각적 질문 혹은 지침을 제공합니다.
  3. 피드백을 제공하고 수정된 결과를 요청합니다.

이렇게 보면 Visual ChatGPT를 단순히 SD, MJ, DallE와 같이 이미지 생성 AI로써 활용하는 것이 아니라
좀 더 비즈니스적으로 특화되었다는 느낌이 듭니다.

 

생각해보면 접근이 용이한 ChatGPT와는 다르게
깃헙에 배포한 것도 그러한 이유때문이 아닌가 생각이 듭니다.

 

(지극히 개인적인 의견입니다.)

 

마이크로소프트에서 말하길

아직 완벽한 수준까지 올라오지는 못했다고 합니다.

(그래서 ChatGPT처럼 못쓰게 한건가??)

 

그럼 이제 설치해 보고 함께 사용해 보겠습니다.

 

반응형

 

Ⅱ. Visual ChatGPT 설치하기

로컬로도 설치할 수 있지만

GPU를 꽤 많이 잡아먹는 관계로 코랩으로 설치하는 방법에 대해서 알려드리겠습니다.

 

1. 먼저 아래 깃헙링크로 들어가 주세요.

https://github.com/microsoft/visual-chatgpt

 

GitHub - microsoft/visual-chatgpt: Official repo for the paper: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundat

Official repo for the paper: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models - GitHub - microsoft/visual-chatgpt: Official repo for the paper: Visual ChatGPT: Talking, Dr...

github.com

 

위의 사이트에 들어가시면 다음과 같은 화면을 볼 수 있습니다.

 

2. 여기서 빨간 네모박스 안의 Open in Colab을 클릭해 줍니다.

깃헙

버튼을 누르시면 코랩 페이지로 이동하게 됩니다.

 

3. 코랩 화면으로 들어오셨다면 좌측 상단의 'Drive로 복사'버튼을 클릭하여
코랩 파일을 드라이브로 저장해 줍니다.

 

4. 상단의 런타임 > 런타임 유형 변경 > 하드웨어 가속기 > GPU 로 설정해 줍니다.

 

5. 코드 순서대로 좌측 맨 끝에 있는 플레이 버튼을 클릭해 줍니다.

실행이 완료되었다는 창이 뜨면 다음 코드를 실행해 줍니다.

(시간이 꽤 걸릴 수 있습니다.)

플레이 버튼

 

6. 순서대로 플레이 버튼을 눌러 실행하다 보면 중간에 API키를 입력하는 곳이 보입니다.

모자이크 된 부분에 OpenAI에서 발급받은 API key를 입력해 줍니다.

API 키 입력

(OpenAI API발급 방법은 검색 부탁 드립니다! 글이 길어질 것 같아 알려드리지 못하는 점 죄송합니다 ㅠ)

 

7. 이어서 실행하다 마지막 코드가 완료되면 다음과 같이 링크 하나가 생성됩니다.

링크

이렇게 설치를 완료하였습니다.

 

실행을 위해 링크에 들어가 보도록 하겠습니다.

 

 

 

Ⅲ. Visual ChatGPT 직접 해보기

링크로 들어가시면 채팅창처럼 보이는 페이지가 나옵니다.

 

우측 하단의 업로드 버튼으로 이미지를 업로드 할 수 있습니다.

 

저는 파이썬 로고를 보여주고 어떤 로고냐고 물어보았습니다.

역시 파이썬 로고라고 답해 주는 것을 볼 수 있습니다.

 

즉, 수신받은 이미지를 해석할 수 있다는 것입니다.

 

그럼 이미지 생성도 가능한지 보도록 하겠습니다.

 

서울의 밤 이미지를 생성해 달라고 요청해 보았습니다.

 

이미지 생성

이미지 생성도 잘 되는 것을 볼 수 있습니다.

 

 

 

Ⅳ. 총평

저도 직접 더 많이 사용해 보고
많은 사용자들의 Visual ChatGPT에 대한 인사이트가 나와봐야 알겠지만

아직까지는 VFM과 ChatGPT를 연결시켰다는 점에서 오는 장점을 잘 모르겠습니다.

 

그것보다 좀 느립니다. (ChatGPT에 비하면 많이 느리네요)

 

아직 ChatGPT만큼 퀄리티 있는 텍스트를 생성하지도 못하는 것 같고
SD나 DallE, MJ만큼 퀄리티 있는 이미지를 생성하지도 못하는 것 같습니다.

 

하지만 VFM과 ChatGPT를 한번에 이용할 수 있다는 것은 정말 큰 변화라고 생각합니다.

 

이미지를 생성하기만 할 수 있는 여타 생성AI와는 다르게
이미지를 해석할 수 있고, 소통을 통해 이미지를 생성할 수 있다는 점은 

생성AI 업계에 큰 변화를 불러 일으킬 것이라고 생각됩니다.

 

아직 완벽하진 않지만 한번씩 이용해 보시는 것을 추천드립니다.

정말 빠르게 성장하는 AI시장에서 하루라도 빨리 경험해 보는 것은

아주 큰 도움이 될 테니까요.

 

함께 읽으면 좋은 글

GPT-4 : 기능/가격/유료/ChatGPT와의 차이점

 

GPT-4 : 기능/가격/유료/ChatGPT와의 차이점

ChatGPT의 업그레이드 버전인 GPT-4, 기능부터 GPT3.5와의 차이점까지 이해하기 쉽게 소개해드리겠습니다. 안녕하세요 Allan입니다. 3/15일자로 ChatGPT의 업그레이드 버전인 GPT-4가 출시되었습니다. Visual

ai-designer-allan.tistory.com

 

반응형