티스토리 뷰

챗GPT의 최신 이미지 모델은 한글 텍스트 렌더링 정확도 99%를 달성했습니다. 처음 이 수치를 접했을 때 솔직히 반신반의했는데, 실제로 쓰고 나서야 그 의미를 실감했습니다. 어떤 AI가 사진을 더 잘 다루는가는 기능 하나가 아니라 생성, 분석, 활용성 세 관점을 함께 봐야 답이 나옵니다. 직접 써보고 밤을 새운 경험까지 담아 정리했습니다.



이미지 생성: 한글 배너 하나 만들다가 밤을 새운 이유

일반적으로 어떤 AI 챗봇이든 이미지 생성 기능은 비슷비슷할 거라고 생각하는 분들도 있는데, 저는 그 믿음이 완전히 깨지는 경험을 했습니다. 온라인 쇼핑몰을 막 열었을 때, 상품 배너 이미지를 AI로 만들어보기로 했습니다. 제품명과 가격, 특징을 넣어달라고 요청했더니 디자인은 그럴듯하게 나왔는데 한글이 죄다 뭉개져 있었습니다. '가격'이 '가겪'처럼 출력되는 식이었죠. 몇 번을 다시 생성해도 결과는 같았고, 결국 포토샵으로 글자를 일일이 얹느라 밤을 꼬박 새웠습니다.

나중에 알게 된 사실인데, 이게 단순한 버그가 아니라 모델 자체의 구조적 차이에서 비롯된 문제였습니다. 챗GPT의 최신 이미지 모델은 'Native Thinking'이라는 추론 방식을 씁니다. Native Thinking이란 프롬프트를 받은 즉시 이미지를 뽑아내는 게 아니라, 내용을 이해하고 레이아웃을 먼저 설계한 뒤 생성하는 방식입니다. 쉽게 말해 그림을 그리기 전에 한 번 '생각'을 하는 과정이 추가된 것입니다. 덕분에 인포그래픽이나 제품 목업처럼 정확한 구성이 필요한 작업에서 확연히 다른 결과가 나옵니다.

이 구조 덕분에 한글을 포함한 다국어 텍스트 렌더링 정확도가 약 99%에 이릅니다(출처: 이랜서 블로그). 작은 글씨나 UI 요소까지 흐트러짐 없이 구현되니, 마케팅 상세페이지처럼 글자가 많이 들어가는 이미지 작업에서는 사실상 챗GPT가 유일한 선택지에 가까웠습니다. 그 사실을 한 번 밤새고 나서야 알게 됐다는 게 조금 억울하긴 합니다.

반면 제미나이는 다른 강점을 갖고 있습니다. 이미지를 한 번에 네 장 생성해 선택지를 넓혀주고, 무료 사용자에게 더 넉넉한 일일 생성 할당량을 제공합니다. 대량의 썸네일을 빠르게 뽑거나 단순한 일러스트를 여럿 만들어야 할 때는 제미나이 쪽이 비용 면에서 훨씬 유리합니다. 정교함이 필요하면 챗GPT, 속도와 물량이 필요하면 제미나이라는 구도가 꽤 명확합니다.

  • 챗GPT: Native Thinking 기반 레이아웃 설계, 한글 텍스트 렌더링 정확도 약 99%, 정교한 인포그래픽·UI 이미지에 강점
  • 제미나이: 한 번에 4장 생성, 무료 할당량 넉넉, 대량 썸네일·단순 일러스트 작업에 가성비 우위
  • 클로드: 이미지 직접 생성 기능 미제공, 텍스트·분석·코딩에 집중된 서비스
요약: 한글 텍스트가 들어간 이미지가 필요하다면 챗GPT, 빠르고 저렴하게 대량 생성이 목적이라면 제미나이가 확실히 유리합니다.

이미지 분석: '잘 읽는 것'보다 '어디로 연결되는가'가 더 중요했습니다

회의 자료를 만들 때 저는 경쟁사 제품 사진이나 시장 통계 차트를 AI에 올려 분석시키는 일이 많았습니다. 처음 쓰던 챗봇은 이미지 속 내용을 정말 잘 읽어줬습니다. 그런데 문제는 그다음이었습니다. 분석 결과를 복사해서 구글 문서에 붙여넣고, 다시 프레젠테이션으로 옮기고, 표로 정리하는 반복 작업이 생각보다 시간을 꽤 잡아먹었던 겁니다.

그러다 제미나이로 바꿨더니 신세계가 열렸습니다. 제미나이는 멀티모달(multimodal) 설계를 기본으로 채택한 서비스입니다. 멀티모달이란 텍스트, 이미지, 오디오, 비디오처럼 서로 다른 형식의 정보를 하나의 모델이 동시에 이해하고 처리하는 방식을 뜻합니다. 그냥 이미지 업로드가 되는 것과는 차원이 다른 이야기입니다.

실제로 이미지를 분석한 뒤 "이 내용을 문서로 정리해줘"라고 하면 구글 워크스페이스 안에서 바로 문서화가 됩니다. Gmail, 드라이브, 문서 앱과 긴밀하게 연동되어 있어서, 복사-붙여넣기 왕복이 아예 사라졌습니다. 시각 자료 분석 후 다음 단계로 자연스럽게 넘어가는 흐름이 만들어지는 거죠. 사진을 '분석하는 능력'만 보던 제가, '분석한 다음 어디로 연결되는가'까지 고려하게 된 계기였습니다.

수치로도 뒷받침됩니다. 시각 자료 이해력을 측정하는 벤치마크인 MMMU-Pro에서 제미나이는 높은 점수를 기록했습니다. MMMU-Pro란 다양한 분야의 이미지와 텍스트가 혼합된 문제를 AI가 얼마나 잘 이해하고 추론하는지 평가하는 멀티모달 전문 테스트입니다(출처: NordVPN 블로그). 차트, 다이어그램, 스크린샷 분석처럼 업무에서 자주 마주치는 작업이 이 벤치마크와 직결됩니다.

챗GPT 역시 이미지 분석 능력은 우수합니다. 특히 사진 하나를 놓고 여러 질문을 이어가는 다중 대화, 즉 멀티턴(multi-turn) 방식의 심층 해석에서 자연스러운 흐름을 유지하는 데 강점이 있습니다. 단순히 이미지를 읽어내는 것을 넘어, 그 이미지를 주제로 깊이 있는 대화를 이어가야 하는 상황이라면 챗GPT 쪽이 더 잘 맞는 편입니다.

요약: 이미지 분석 후 문서화·생태계 연동이 필요하면 제미나이, 사진을 주제로 깊은 대화를 이어가는 멀티턴 분석에는 챗GPT가 강합니다.

요금과 활용성: 기능보다 작업 흐름 전체로 봐야 합니다

두 서비스 모두 개인 유료 플랜은 월 20달러 안팎으로 비슷합니다. 그런데 실제로 써보면 같은 가격이라도 체감 효율이 꽤 다릅니다. 챗GPT는 무료 사용자의 이미지 생성 횟수가 빠르게 소진되기 때문에, 이미지 작업을 자주 하려면 Plus 요금제가 사실상 필요합니다. 제미나이는 무료 상태에서도 일일 생성 기회가 넉넉한 편이라, 가볍게 시작해보려는 사람에게 진입 장벽이 낮습니다.

API를 통해 대량으로 처리하는 경우라면 격차가 더 벌어집니다. 입력·출력 토큰 단가 모두 제미나이가 저렴해서, 배치 처리나 프로덕션 파이프라인에 붙일 때는 비용 차이가 상당히 누적됩니다. 예산 민감도가 높은 팀이라면 이 부분을 간과하기 쉽지 않습니다.

활용성 측면에서는 챗GPT가 제공하는 커스텀 GPTs와 GPT 스토어, 그리고 구글 드라이브·깃허브·드롭박스 같은 서드파티 커넥터 연동이 강점입니다. 창작 글쓰기, 브레인스토밍, 이미지 생성을 하나의 흐름으로 엮어 쓰기에 좋습니다. 제미나이는 구글 워크스페이스와의 통합이 핵심 경쟁력으로, 시각 자료 분석 결과를 문서나 슬라이드로 직결하는 업무에 특화되어 있습니다.

한 가지 공통으로 짚어야 할 부분은 콘텐츠 정책입니다. 두 서비스 모두 실제 인물의 얼굴 재현, 저작권이 강한 캐릭터의 과도한 모방, 폭력적·선정적 콘텐츠 생성은 차단하거나 제한합니다. 상업적 이용 전에는 각 서비스의 가이드라인을 반드시 확인해야 합니다. 제가 직접 써봤는데, 특정 브랜드 로고와 유사한 이미지를 요청했을 때 자동으로 거절되는 경험을 했습니다. 당연한 조치지만, 미리 알고 대비하는 게 낫습니다.

결국 많은 사람들이 두 AI를 용도에 따라 나눠 쓰는 방식을 택하고 있습니다. 텍스트 정교함이 필요한 이미지 생성에는 챗GPT를, 시각 자료 분석과 문서 연동에는 제미나이를 병행하는 식입니다. AI 챗봇은 기능 하나가 아니라 작업 흐름 전체로 봐야 한다는 걸, 직접 쓰면서 깨달은 가장 중요한 교훈이었습니다.

요약: 무료·대량 이미지 작업에는 제미나이가 비용 면에서 유리하고, 창작 워크플로우 확장에는 챗GPT가 어울립니다. 두 서비스를 병행하는 것이 가장 현실적인 접근입니다.

클로드·그록은 왜 비교에서 빠지지 않아야 하는가

챗GPT와 제미나이가 이미지 기능에서 가장 많이 비교되다 보니, 클로드와 그록은 상대적으로 묻히는 경향이 있습니다. 그런데 일반적으로 이미지 기능 비교에서 클로드는 제외해도 된다고 알려져 있지만, 저는 실제 작업 맥락에서는 꼭 그렇지 않다고 생각합니다.

클로드는 이미지를 직접 생성하는 기능은 갖추고 있지 않습니다. 하지만 업로드한 이미지의 내용을 설명하고 분석하는 기능은 있습니다. 강점은 그 분석 결과를 글로 풀어내는 방식에 있습니다. 자연스러운 추론과 글쓰기 능력이 결합되어, 이미지 속 정보를 정리하거나 보고서 형태로 요약할 때 결과물의 품질이 상당합니다. 이미지를 '생성'하는 용도보다는 시각 자료를 '해석해서 글로 남기는' 용도에 가깝습니다.

그록(Grok)은 실시간 정보 접근에 집중된 서비스입니다. 웹 인터페이스에서 이미지 업로드는 가능하지만, 파일·이미지 분석 기능이 전면에 강조되는 편은 아닙니다. 무료 사용자에게는 일일 분석 횟수 제한도 있습니다. 반면 지금 이 순간의 시장 동향이나 최신 뉴스와 이미지 분석을 결합해야 할 때는 그록만의 차별점이 드러납니다.

솔직히 이건 예상 밖이었습니다. 처음엔 이미지 기능 = 챗GPT 혹은 제미나이라는 이분법으로만 생각했는데, 작업 성격에 따라 클로드와 그록이 더 잘 맞는 상황이 분명히 존재했습니다. 어떤 AI가 '더 좋은가'가 아니라 '어떤 상황에 더 맞는가'를 따져야 한다는 결론에 이르는 데 이 두 서비스가 큰 역할을 했습니다.

요약: 클로드는 이미지 분석 후 글쓰기·요약에, 그록은 실시간 정보와 이미지를 연결하는 작업에 각각 특화된 쓸모가 있습니다.

자주 묻는 질문

Q. 챗GPT로 이미지 만들 때 한글이 깨지는 게 정상인가요?

A. 최신 이미지 모델 기준으로는 정상이 아닙니다. 일반적으로 AI 이미지 생성에서 한글이 깨지는 건 당연하다고 알려져 있지만, 챗GPT의 최신 모델은 Native Thinking 방식을 통해 한글 렌더링 정확도 약 99%를 달성했습니다. 다만 무료 플랜에서 사용 가능한 모델과 유료 플랜의 최신 모델이 다를 수 있으니, 어떤 버전을 쓰고 있는지 먼저 확인해보는 것이 좋습니다.


Q. 제미나이가 이미지 분석도 잘 하나요, 아니면 생성만 잘 하나요?

A. 제미나이는 생성보다 분석 쪽에서 더 두드러진 강점을 보입니다. 멀티모달 설계를 기본으로 탑재해 차트, 다이어그램, 스크린샷 같은 시각 자료를 해석하는 능력이 뛰어나고, 구글 워크스페이스와 연동되어 분석 결과를 문서나 슬라이드로 바로 이어갈 수 있다는 점이 실무에서 특히 유용합니다. 이미지를 만드는 것보다 '읽고 연결하는' 용도라면 제미나이가 강력한 선택지입니다.


Q. 챗GPT와 제미나이 중 하나만 써야 한다면 뭘 골라야 하나요?

A. 주된 작업이 무엇인지에 따라 답이 달라집니다. 글자가 들어간 마케팅 이미지나 정교한 인포그래픽을 만드는 일이 많다면 챗GPT가 낫습니다. 반면 회의 자료나 시각 자료를 분석해 문서로 정리하는 일이 주를 이룬다면 제미나이가 훨씬 효율적입니다. 비용이 민감하다면 무료 구간이 넉넉한 제미나이부터 시작해보는 것도 좋은 방법입니다.


Q. AI로 만든 이미지를 상업적으로 써도 되나요?

A. 서비스마다 정책이 다르기 때문에 반드시 각 서비스의 이용약관과 콘텐츠 정책을 먼저 확인해야 합니다. 공통적으로 실제 인물의 얼굴 재현, 저작권이 강한 캐릭터나 브랜드 로고의 모방은 제한되거나 차단됩니다. 일반적인 상업 이미지는 허용되는 경우가 많지만, 유료 플랜 사용 여부에 따라 조건이 달라질 수 있으므로 사전 확인은 필수입니다.


결론

쇼핑몰 배너 하나 만들다가 밤을 새우고, 회의 자료 작업 흐름을 바꾸면서 얻은 결론은 단순합니다. 더 좋은 AI가 아니라 나에게 맞는 AI를 찾는 것이 핵심입니다. 텍스트가 들어간 이미지를 정교하게 만들어야 한다면 챗GPT, 시각 자료를 분석해서 문서로 연결하는 작업이 많다면 제미나이가 분명히 더 잘 맞습니다. 클로드는 이미지를 해석해서 글로 남기는 작업에, 그록은 실시간 정보와 이미지를 연결해야 할 때 각각 의미 있는 선택지가 됩니다.

가장 현명한 출발점은 같은 이미지를 여러 AI에 직접 넣어보는 것입니다. 대부분의 서비스가 무료 체험을 제공하니, 제 경험처럼 하룻밤을 낭비하기 전에 먼저 비교해보는 게 낫습니다. AI 챗봇은 기능 하나가 아니라 작업 흐름 전체로 봐야 한다는 것, 그게 직접 쓰면서 배운 가장 값진 교훈이었습니다.

참고: 이랜서 블로그 — GPT Images 2.0 활용 노하우 총정리 / 블로그테크니쿠스 — ChatGPT Images 2.0 공개 / Zapier — Gemini vs. ChatGPT [2026] / NordVPN — Gemini vs ChatGPT 비교 / NxCode — Gemini 3.1 Pro vs GPT-5.4 비교 (2026) / 클리앙 — AI 서비스 4대 천왕 비교