이 모델을 사용하는 인공지능 검색 엔진 서비스에 대한 내용은 Gemini(앱) 문서 참고하십시오.
Gemini
_Ge_neralized _M_ultimodal _In_tell_i_gence Network |
|
<colbgcolor=#51a2ca><colcolor=#fff> 개발사 | 구글 딥마인드 |
출시일 |
Gemini 1.0
2023년
12월 6일Gemini 1.5
2024년
2월 15일
|
기능 | 멀티모달 모델 [1] |
하드웨어 | TPU v4, v5e |
언어 | 영어, 한국어 등[2] |
사용처 | Gemini 앱[3][4], Google Cloud Platform[5], 최신 구글 픽셀 기기[6][N], 최신 삼성 갤럭시 기기[N][9] |
라이선스 | Proprietary SW |
링크 |
[clearfix]
1. 개요
Gemini(Generalized Multimodal Intelligence Network, 이하 제미나이)는 구글과 딥마인드가 개발한 멀티모달(LMM) 생성형 인공지능 모델이다. 텍스트뿐만 아니라 오디오, 이미지, 비디오와 같은 다양한 입출력을 지원한다. 이를 구글에서는 MMLU(Massive Multitask Language Understanding, 대규모 멀티태스킹 언어 이해) 분야 벤치마크를 기반해서 멀티모달 성능을 평가하며 소개하고 있다.
2. 역사
2023년 5월 10일, Google I/O 2023에서 Gemini 1.0 모델이 처음 공개되었다.2023년 9월경, 일부 기업을 상대로 테스트가 시작되었다.
2023년 12월 6일 울트라, 프로, 나노로 구성된 세 가지 제미나이 모델을 전격 공개했다. 울트라는 2024년 Gemini Advanced로 적용되었으며 프로의 경우 Gemini 앱(구 바드)에 바로 적용되었다. 사이즈가 작은 나노의 경우 픽셀 등에 탑재되는 온디바이스 인공지능 전용 모델이다. #
2023년 12월 13일부터 Google AI Studio나 Google Cloud Vertex AI를 통해 다른 애플리케이션에서 모델 구동이 가능해졌다.
2024년 1월 18일 공개된 갤럭시 S24 시리즈에 일부 기능이 탑재되었다. 나노형 모델이 온디바이스로 내장되었다. #
2024년 2월 15일, Gemini 1.5가 공개되었다. #
3. 특징
- 여러가지 입출력 형식의 인공지능 모델들을 각각 따로 만들어 합치는 다른 멀티모달 생성형 AI들과 달리 바닥부터 멀티모달로 만들어졌다. 따라서 멀티모달 쪽에서 특히 우수한 성능을 보인다.
3.1. Gemini 1.0
- Gemini 1.0 모델들 중에서 가장 매개변수가 많은 Gemini 1.0 Ultra의 경우 모델에 사용된 매개변수는 GPT-4(5,000억~1조개)를 뛰어넘는 것으로 알려졌지만, 아직까지 자세한 수치는 밝혀지지 않았다.
- 구글에 따르면 최상위 모델인 Gemini 1.0 Ultra가 대규모 다중작업 언어 이해(MMLU)에서 90%의 정답률을 기록했다. 이는 OpenAI의 GPT-4 86.4%는 물론 인간 전문가 점수인 89.8%를 넘는 수준이다.최초로 인간을 뛰어넘은 AI가 나왔다는 것이다. # [11]
3.2. Gemini 1.5
- Gemini 1.0 모델에 비해 훨씬 더 많은 양의 컨텍스트를 정확하게 처리한다.
- 멀티모달 기능이 대폭 강화되었다. 시연 영상에서는 44분짜리 무성영화를 입력한 후 원하는 장면을 그리기만 하면 정확하게 찾아내는 모습을 보였다.
- Google에서는 Gemini 1.5 프로 모델이 Gemini 1.0 프로 모델에 비해 87% 더 향상된 성능을 가지고 있다고 주장하고 있다.
- NIAH 평가에서 99%[12]의 정확도를 보였다.
- Gemini 1.0에 비해 속도가 조금 느린 경향이 있다.
- Google I/O 2024에서 속도가 더 빨라진 Gemini 1.5 Flash 모델이 공개되었다.
- 구글 AI 스튜디오 및 Gemini Advanced 요금제에서 사용이 가능하다.
3.3. Gemini 2.0
- 2024년 12월 12일에 실험버전이 공개되었다.
4. 공개 후 평가
4.1. 긍정적 평가
- 빠른 답변 속도: Gemini의 네이밍인 Bard가 가졌었던 장점인 빠른 답변 속도가 그대로 이어졌다. 여전히 3가지의 답안을 제공하고, 각각 답안이 순서대로 특성이 다르다고 한다. 첫번째는 정보 기반, 두번째는 분석 및 통찰, 세번째는 창의적인 답변을 기반으로 하듯이 Microsoft Copilot이 상황에 따라서 각각 정확, 균형, 창의를 골라야 되는 것과 다르게 한가지의 질문을 하면 빠른 속도로 3개의 유형의 답변을 받을 수 있다.[13]
- 문학적 능력 : 이런 능력이 정량화된 비교가 가능한 것은 아니지만, 다른 AI들과 비교할 시 영어 한정해선 소설을 쓰거나, 표현을 하는 능력이 굉장히 우수하다는 평을 받고 있다. # Gemini 1.5 이상에서는 번역의 성능도 매우 뛰어나다.
- 큰 범위의 토큰 : Gemini 1.5 Pro에서는 2024년 5월 기준 2백만 토큰 컨텍스트를 지원하여 2시간 이상의 동영상 길이 혹은 PDF 파일을 업로드하여 넓은 컨텍스트에서도 동작한다. 특히 모래 사장에서 바늘 찾기를 해외에서는 Needle In A Haystack(NIAH)이라 부르는데 Gemini는 이 NIAH 문제를 통과했다고 구글측에서 공개하였다. 문서 [14]. 이런 이점은 다른 거대 모델과 비교할 때 Gemini의 주요 특징으로 부각된다.
4.2. 부정적 평가
해당 부정적 평가에 대한 기준은 한국어를 기준으로 서술되어있습니다.- 떨어지는 융통성: Gemini Pro가 탑재된 AI 챗봇 바드는 질문에 정확한 답을 하지 못하거나 논란이 되는 주제에 대해 답을 회피한다는 지적이 나왔다. 비즈니스 인사이더에 따르면 Gemini Pro가 탑재된 바드는 올해 오스카 시상식에서 누가 남우주연상을 받았는지 묻자 버벅거리고, 논란이 되는 주제에 대해선 답변을 피했다. 이스라엘과 팔레스타인 무장정파 하마스의 전쟁을 업데이트 해달라고 하자 "최신 정보를 얻으려면 구글 검색을 사용해 보라"며 답을 피했다. #
- 높은 검열: 뉴스 요약에도 약점이 있었다. 이스라엘 전쟁에 대한 업데이트 요약을 요청하자, 제미나이 프로는 잠재적으로 논란이 될 수 있는 뉴스 주제에 대한 의견을 피하고 대신 사용자들에게 직접 구글에서 찾아보라고 말하기도 했다. 우크라이나 전쟁의 경우 요약된 정보를 제공하는 경우도 있었지만, 한달 이상 오래된 정보를 제공했다. #
- 낮은 수준의 다국어에 대한 논리력: 또한 영어 이외의 언어에 대한 논리적인 이해 능력도 낮다는 의견이 나오고 있는 상황이다. SF 작가인 찰리 스트로스는 프랑스어로 여섯글자 단어를 표현해 달라고 요청하자, 다섯글자로 된 ‘amour’를 출력했다. 이어 같은 요청을 반복해도 일곱글자 단어를 내놓았다. #
- 잦은 오류: 실제 사용해보면 종종 영어 문장에다가 일본어나 러시아어 단어가 섞여 나온다거나, 3가지 다른 답변을 제시하는데 그 3가지가 다 같은 내용으로 나온다거나, 아주 약간만 다르다거나 하는 경우가 종종 보인다. 추후 개선을 기다려봐야 할 문제.
5. 논란 및 사건사고
5.1. 시연 영상 조작 논란
- 6분짜리 데모 영상에서 매우 빠른 실시간 응답이 보여진 반면, 실제로는 빨리감기, 스틸샷 등을 통해 성능이 과장되었던 것으로 드러났다. # 구글은 CNBC에게 자사는 시연 영상을 편집한 것을 인정했으며 단지 Gemini의 상호작용에 대한 이해를 쉽게 만들기 위한 것이라고 해명했다.
5.2. PC주의 논란
1820년대 독일 커플을 그려달라고 하자 흑인, 아메리카 원주민 등을 함께 그린 모습.
이용자가 질문을 입력하면 이 질문을 자체적으로 재해석해 과도하게 PC주의적인 출력값을 내놓는다는 게 출시 후 여러 이용자들 사이에서 확인 되었다. 구체적으로는 '중세 유럽 왕족들에 관한 이미지를 생성해줘' 같은 질문을 입력할 경우 여기에 자체적으로 중세 유럽 왕족을 백인이 아니라 흑인으로 묘사하는 이미지를 생성하는 식. 당연히 이 같은 사실이 확인되자 정치적 논란이 발생했고 추후 개발 총책임자(director)인 Jack Krawczyk의 트위터에서 PC주의를 맹목적으로 추종하는 내용의 트윗들이 다수 발견되어 논란은 더더욱 걷잡을 수 없을 만큼 커졌다.
이 외에도 역사적 사실의 왜곡[15], 역사적인 백인 위인들의 흑인화[16], 백인 남성의 긍정적 이미지 생성 요청에 대한 거부[17] 등등의 이상 행동을 보이더니 심지어는 백인 남성 미술가들의 화풍을 본딴 이미지의 생성을 거부까지 한다. '1940년대 미국인들의 삶을 묘사하는 그림들을 노먼 록웰 스타일로 생성해줘'라고 입력했을 때 나온 대답이 굉장히 기가 막힌데, '록웰은 당시 미국인들의 삶을 미화함으로써 당시의 인종, 성별, 사회 계급 등의 현실을 생략하거나 심각하지 않은 것처럼 치부한 작가이며 그런 스타일의 이미지를 생성하는 건 유해한 고정관념을 강화할 수 있기에 비윤리적이므로 생성할 수 없습니다.'란 답변이 나왔다. 참고로 노먼 록웰이 당시 서민들의 생활상을 주로 그려왔던 것은 사실이나 과장없이 담백한 사실주의에 가까운 화풍이 특징인데다 당시 기준으론 이례적으로 흑인 아이를 주 인물로 하여 그린 작품도 있어 인종차별주의자와는 거리가 먼 인물이다. 즉, 역사적으로 인종차별에 반대하는 입장에 섰던 백인들에게마저 굉장히 적대적인 스탠스를 취하고 있는 셈.
결국 일반 이용자들 뿐만 아니라 공공연히 대안 우파 성향을 보여온 기업인인 일론 머스크[18]까지 사회 각계각층으로부터 비난이 쇄도하자 구글 최고경영자인 선다 피차이는 아래와 같은 성명을 발표하고 Gemini의 이미지 생성 기능을 해당 현상이 해결될 때까지 중단 시키기로 결정하였다.
||<tablebordercolor=#a1c5d6,#fff><#a1c5d6,#fff>||Gemini의 답변들 중 일부가 그 편향성으로 인해 이용자들을 불쾌하게 했다는 걸 잘 알고 있다. 용납할 수 없는 일이며 명백히 우리 측 과실이다. 이후 사태를 해결하기 위해 일련의 대응 조치들을 이어나갈 계획이다. 이 조치들에는 구조적 변화, 제품 가이드라인의 갱신, 제품 출시 절차의 개선, 여러 상황에도 안정적인 결과를 내는 평가 절차(robust evals)와 레드티밍[19], 그리고 기술 추천 등이 포함될 것이다.
I know that some of its responses have offended our users and shown bias — to be clear, that's completely unacceptable and we got it wrong. We'll be driving a clear set of actions, including structural changes, updated product guidelines, improved launch processes, robust evals and red-teaming, and technical recommendations.
선다 피차이 | 해당 인터뷰 기사
I know that some of its responses have offended our users and shown bias — to be clear, that's completely unacceptable and we got it wrong. We'll be driving a clear set of actions, including structural changes, updated product guidelines, improved launch processes, robust evals and red-teaming, and technical recommendations.
선다 피차이 | 해당 인터뷰 기사
일각에서는 구글이 그토록 자랑해왔던 제미나이의 쿼리 처리 능력이 오히려 부작용의 원인이 된 것이 아니냐는 지적이 나온다. 정보 습득량이 많아질수록 정확도는 오히려 떨어지는 '과적합 현상(Overfitting Problem)으로 인해 AI 관련 업계가 골머리를 앓고 있는데 Gemini 역시 흑인에 대한 인종차별처럼 이미 역사적으로 '악하다'고 평가가 끝난 사상은 문제 없이 걸러낼 수 있어도 PC주의 같이 현재진행형으로 영향력을 발휘하며 사상에 대한 평가에 결론이 나지 않은 이념에 대한 정보들은 걸러내지 못 하다 보니 모델 자체가 오염된 것이 아니냐는 것.
5.3. 데이터 무단 학습 벌금 부과 사건
2024년 3월 20일, 프랑스 정부에서 구글에 2억 5천만 유로(약 3500억 원)의 벌금을 부과했다. 프랑스 언론들이 구글을 규제 기관에 고소한 결과 이러한 막대한 벌금이 부과된 것인데, 그 사유는 구글이 Gemini를 학습시킬 때 자신들의 콘텐츠를 사용했지만 이를 알리지 않았다는 것이다.구글 측은 벌금이 혐의에 비해 너무 과하다는 입장을 밝혔지만 별도의 이의 없이 벌금을 납부했다.
6. 탑재 기기
7. 기타
- Google Pixel 8은 Gemini Nano 모델을 온디바이스로 탑재하고 있다. 구글이 개발한 NPU가 압도적인 전성비를 보인 덕분이다.
- Google Colaboratory와도 연동된다.
8. 관련 문서
[1]
GPT와 같은 텍스트 기반의
언어 모델과는 달리 처음부터 멀티모달로 개발되었다.
[2]
1.5 버전 기준 한국어도 평균적인 원어민 이상의 지식을 갖추었고, 아메리카 원주민 언어 수준의 소수 언어도 번역이 가능하다.
[3]
Bard가 Gemini로 리브랜딩 되었다.
[4]
앞으로 더 다양한 구글 플랫폼이 적용될 예정이다.
[5]
Vertex AI의 멀티모달 및 SDK
[6]
Google Pixel 8 시리즈 이상
[N]
나노 모델
[N]
[9]
자세한 내용은
삼성 가우스 문서의
지원 기기 문단 참고
[10]
Google Search, Google Books, Google Scholar 등.
[11]
다만 일각에서는 이 측정 결과가 과장되었을 가능성이 있다고 주장하고 있다. 하정우 네이버클라우드 AI이노베이션 센터장은 "구글이 공개한 제미나이 MMLU 성능에서 GPT-4는 5-샷(문제 해결 예시 5개를 모델에 제시하고 문제를 푸는 방식)을 기준으로 한 반면 제미나이는 연쇄적 사고(CoT)로 (문제 풀이를 32번 반복하는) 'CoT@32'를 진행했기 때문에 공정한 비교가 아니다"라면서 제미나이 프로 버전은 GPT-3.5나 GPT-4 사이 수준으로 보인다고 말했다.
[12]
구글 측 주장
[13]
물론 매개변수의 차이로 원래보다는 확실히 느린편이다.
[14]
백만개 토큰 내에서 99% 시간 동안 포함된 텍스트를 발견
[15]
바이킹에 관한 이미지 생성을 요청했더니 흑인이나 아시아인들이 출력되질 않나 교황에 대한 이미지를 요청했더니 흑인이나 여성으로 묘사되는 등. 참고로 교황은 지금까지 한 명의 예외도 없이 전부 백인 남성이었다.
[16]
미국의 국부인 조지 워싱턴의 이미지를 생성했더니 전부 흑인이 되어 나왔다.
[17]
'강한 백인 남성의 이미지를 생성해줘'라고 입력했더니 '인종과 체형에 관한 유해한 고정관념을 강화시킬 수 있기에 생성할 수 없습니다'라고 거부했다. 반면 '강한 흑인 남성의 이미지를 생성해줘'라고 입력했더니 정상 작동했다.
[18]
'구글 Gemini는 극도로 인종차별적이고 성차별적'이라고 비판하였다.
[19]
조직적인 화이트 해킹을 시도하는 사내 조직을 말한다.
[20]
구글 한국 법인에서는 공식적으로 영어식 발음인 '제미나이'로 표기한다.