🎨 그림 인공지능 관련 소프트웨어 | ||||
{{{#!wiki style="margin:0 -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" |
생성형 인공지능 | |||
Artbreeder | DALL·E | Dream by WOMBO | Adobe Firefly | |
Gaugan2 | Midjourney | NovelAI Image generator | Stable Diffusion | |
Galaxy AI | FLUX.1 | |||
학습 방해 프로그램 | ||||
글레이즈 | 나이트셰이드 |
미드저니 Midjourney |
|
<colbgcolor=#ddd,#010101> 분류 | 그림 인공지능 |
출시일 | 2022년 7월 12일 (오픈베타) |
제작사 | Midjourney[1] |
버전 | 6.0 |
링크 |
|
1. 개요2. 사용법
2.1. 자주 사용되는 명령어
3. 버전별 특징4. 사건 사고5. 니지저니(niji journey)6. 경쟁 제품2.1.1. /imagine2.1.2. /setting2.1.3. /prefer option set2.1.4. /prefer option list2.1.5. /describe2.1.6. /tune2.1.7. /list_tuners2.1.8. /blend2.1.9. /show2.1.10. /shorten
2.2. 프롬프트 파라미터2.2.1. \aspect / \ar2.2.2. \--style2.2.3. \stylize / \s2.2.4. \version / \v / \--niji2.2.5. \--no2.2.6. \--stop2.2.7. \quality / \q2.2.8. \repeat / \r2.2.9. \chaos / \c2.2.10. \--iw2.2.11. \--sref2.2.12. \--sw
2.3. 기타2.3.1. 순열 기능
[clearfix]
1. 개요
미드저니는 인공지능 연구소이자 해당 연구소에서 개발한 인공지능 소프트웨어다.텍스트를 입력하면 AI가 이미지를 생성해주는(Text-to-Image) 모델로, 스테이블 디퓨전과 함께 현시점 가장 유명하면서 생성되는 이미지의 퀄리티가 높은 AI 이미지 제너레이터다.
미드저니 무료 평가버전은 2023년 3월 30일 부로 임시 종료된 상태다.
2. 사용법
Midjourney는 가입부터 이미지 생성/편집까지 모든 작업이 디스코드 서버에서 이뤄진다. 즉, 디스코드 앱 설치(PC에서는 웹앱 사용 가능) 및 가입이 필요하다. 현재 웹페이지 버전의 알파테스트가 진행 중이며 이미지 생성 개수가 1천 개 이상이라면 사용 가능하다. #[2] 미드저니는 유료 구독을 통해서만 사용할 수 있으며 가장 저렴한 구독 플랜의 비용은 $10/월이다.
기본적으로는 디스코드에서 공개방 형식으로 작업물이 생성된다. 즉, 내가 작업하는 것을 누구든지 볼 수 있고 누구나 작업물을 다운로드할 수 있다. 디스코드에서 개인 서버를 만들어서 작업하더라도, 미드저니 홈페이지에는 실시간으로 이미지와 이미지 생성에 사용된 프롬프트가 공유된다.
내 작업물을 타인이 보지 못하게 하기 위해서는 Stealth 모드를 사용해야 하는데, Stealth 모드는 Pro 플랜($60/월) 또는 Mega 플랜($120/월)을 이용해야 해서 라이트 유저가 이용할만한 기능은 아니다.
다른 그림 인공지능들과는 달리, 스탠다드 플랜 이상의 요금제만 결제하면 무한정 사용할 수 있다는 특징이 있다. DALL.E 2나 NOVELAI는 그림이나 사진을 생성할 때마다 토큰 혹은 화폐를 소모하며 다 사용하면 돈을 추가로 더 내야한다. 해당 방식의 심각한 단점은 그림 인공지능의 특성상 제대로 된 결과가 나온다는 보장이 없기 때문에 시행착오만 겪다가 돈만 날리게 된다는 것이다. 그렇기에 미드저니의 월정액은 유별난 장점이라 볼 수 있다.[3]
잔인하거나 선정적인 단어가 들어간 명령은 AI가 자동으로 거부하지만, 아직 베타 단계이기 때문에 모든 단어가 막혀있는 것은 아니라서 단어를 같은 뜻이지만 다른 단어로 바꾸는 방법을 통해 그러한 이미지도 만들 수 있다. 일부 모호한 단어는 생성 전 경고를 띄우기도 한다.[4]
v6부터는 자연어 처리 능력 강화 및 텍스트 생성이 가능해졌으며, 출력하고자 하는 텍스트 내용을 쌍따옴표로 둘러싸면 된다. [5]
미드저니 공식 도움말 문서
2.1. 자주 사용되는 명령어
미드저니 봇에는 다양한 명령어가 있지만, 이미지 생성에 자주 쓰이는 프롬프트들만 작성한다.모든 명령어는 미드저니 봇과 니지저니 봇이 공유한다.
2.1.1. /imagine
이미지 생성에 사용되는 가장 기본 명령어로 입력 시 프롬프트 입력이 가능한 상태가 된다.2.1.2. /setting
미드저니 봇의 프롬프트 디폴트 값을 설정하는 명령어로 미드저니 봇과 니지저니 봇이 별개로 설정된다.기본적으로 프롬프트에 사용하는 버전의 디폴트 값을 설정할 수 있으며, 이외에도 스타일,스타일라이즈,리믹스 on/off, 베리에이션 모드 등 다양하게 설정 가능하다.
2.1.3. /prefer option set
사용자 파라미터를 생성하는 부분으로 일종의 매크로 역할을 한다. option 값에 파라미터명을, value에는 사전 정의 값을 입력한다. 실제 사용할 때는 일반적인 파라미터처럼 \--(파라미터명) 으로 입력하며, 이미지 생성 시 자신이 value에 정의한 값들이 자동으로 치환되어 입력되어 선호하는 파라미터 세팅을 미리 생성할 수 있다.2.1.4. /prefer option list
위의 option set을 통해 생성한 사용자 파라미터의 목록을 출력한다.2.1.5. /describe
명령어 입력 시 이미지 업로드 또는 이미지의 링크 첨부가 가능해지며, 첨부된 이미지의 프롬프트를 추출하는 기능을 한다. 현재는 v5 이하의 프롬프트 방식로 생성되며, v6 프롬프트 방식 describe는 개발 진행 중에 있으며 곧 v6 베타버전과 함께 출시 예정이다.2.1.6. /tune
버전 5.2부터 공개된 스타일 튜너 명령어로 스타일 코드를 생성한다. 스타일 생성은 16, 32, 64, 128개씩 생성이 가능하며 생성 개수에 따라 fast hour[6]이 비례하여 소모된다.만들고 싶은 이미지의 프롬프트를 입력하면, 해당 프롬프트를 기반으로 다양한 그림체로 만들어주며 각 그림체별 스타일 코드를 제공한다. 스타일 코드는 \--style 파라미터에 사용하며, 유사한 그림체를 유지시켜주는 역할을 한다.[7]
현재는 v5만 스타일 튜너를 제공하며, v6의 스타일 튜너는 아예 다른 원리를 기반으로 하며[8] v6.1 쯤 출시 예정이라고 한다.
2.1.7. /list_tuners
지금까지 생성한 스타일 튜너의 리스트와 그 링크를 출력한다.2.1.8. /blend
여러 개의 이미지를 섞는 명령어로 최대 5개의 이미지를 섞을 수 있다. 부가 옵션으로 화면 비율을 dimesions라는 파라미터로 지정이 가능하며 Portrait(초상화처럼 세로가 긴), Square(정사각형), Landscape(풍경화처럼 가로가 긴)이 가능하다.2.1.9. /show
job_id를 입력 시 해당 작업물을 다시 불러오며, job_id를 얻는 방법은 자신이 가져올 작업물의 디스코드 메세지에 편지봉투 이모지(:envelope:)를 남기는 방법이 있다. 이모지를 남기게 되면, 미드저니 봇이 직접 job_id와 seed를 DM으로 보내준다.2.1.10. /shorten
긴 프롬프트가 잘 인식되지 않던 v5 이하에서 쓰인 명령어로, 긴 프롬프트의 내용을 간추려 압축시켜준다. 현재 v6의 경우, 프롬프트 이해력 범위가 350단어 이상으로 늘어나 더이상은 사용되지 않는 추세이다.2.2. 프롬프트 파라미터
미드저니 프롬프트는 다양한 파라미터를 지원하며, 단순 프롬프트 뿐 아니라 파라미터에 따라 결과의 만족도가 달라지는 경우가 많다.아래의 파라미터들의 종류는 자주 사용되는 것들만 작성한 것으로 여기에 없는 파라미터는 #를 참고한다.
2.2.1. \aspect / \ar
aspect ratio, 화면 비율을 지정하는 파라미터로 기본 값은 1:1이다. v6에서는 어지간한 비율을 모두 지원하며 2.2.2. \--style
스타일은 그림체를 지정하는 파라미터로 사용 가능한 값은 아래와 같다.-
스타일 튜너에서 생성한 스타일 코드
-
v5, v6 미드저니의 raw 스타일
raw 스타일은 미드저니 모델의 고유 스타일을 낮추는 스타일이다.
- (niji5 한정) 니지 스타일 코드
- default - 기본 스타일
- expression - 강한 색감과 선을 통해 강조하는 느낌이 강한 스타일
- cute - 파스텔 톤의 색채와 말랑말랑한 귀여운 그림체로 그리는 스타일
- scenic - 프롬프트로 그린 개체와 어울리는 배경들을 그리는 스타일
- original - 23년 5월 26일 업데이트 전 버전의 니지 모델 스타일
2.2.3. \stylize / \s
stylize는 모델로 하여금 프롬프트를 따를 건지, 모델 자체에 내장된 미적 감각을 따를 건지 결정하는 값이다. v6 기준 0에서 1000 값을 지원하며, 기본값은 100으로 지정되어 있다. [11]2.2.4. \version / \v / \--niji
사용할 모델의 버전을 지정하는 파라미터로 \2.2.5. \--no
Stable Diffusion의 네거티브 프롬프트와 같은 역할로, 이미지 내에 제거해야되는 컨텐츠들을 작성할 수 있다.[13]2.2.6. \--stop
이미지 생성을 도중에 정지하는 시점을 백분율로 지정한다. 최소 10에서 100까지 지정이 가능하며, 기본값은 100이다.2.2.7. \quality / \q
GPU 사용량을 지정하여, 이미지의 퀄리티를 조절하는 파라미터이다. v5까지만 해도 \--q 5까지 지원했으나, v6 출시 이후로는 최대 1까지만 지정할 수 있으며, 그 이상의 값들은 1로 내림된다.현재는 0.25, 0.5, 1이라는 세 가지 값만 지원되며, 디폴트 값은 1이다. [14]
2.2.8. \repeat / \r
같은 프롬프트를 여러 번 돌릴 때 사용하는 파라미터로 동일한 프롬프트를 지정한 횟수만큼 반복해서 생성 요청한다. 참고로 repeat로 지정한 생성 횟수가 본인이 결제한 플랜의 동시 생성 수보다 많을 경우 나머지는 대기 큐에 들어가게 된다. [15]2.2.9. \chaos / \c
chaos 값은 그리드 내의 이미지별 다양성을 조절하는 값으로 0에서 100까지 지정 가능하며, 기본값은 0이다. 값이 높을수록 2*2의 그리드 내의 사진들 간의 일관성이 없어지며 랜덤성이 증가한다.2.2.10. \--iw
image weight, 이미지 프롬프트의 가중치를 지정하는 파라미터로 높을수록 첨부한 이미지에 가까워진다. v6는 0에서 3까지의 범위를 지원하며, 기본값은 1이다. 추가로 각 이미지별로 더블콜론(::)을 통해 별도의 상대 가중치를 적용할 수 있다. [16]2.2.11. \--sref
스타일 레퍼런스는 v6부터 추가된 신규 파라미터로 이미지의 그림체를 복사한다. 이미지 프롬프트처럼 이미지의 url을 추가하여 사용하며, 여러 개를 지정할 수 있다. \2.2.12. \--sw
위의 \--sref를 사용했을 때만 사용 가능하며, 0부터 1000까지 지정 가능하다. 기본값은 100이며, 값이 높을수록 스타일 레퍼런스로 지정한 스타일에 가깝게 그려지게 된다.2.3. 기타
2.3.1. 순열 기능
미드저니 프롬프트 작성 시 중괄호 사용이 가능한데, 이는 중괄호 내의 쉼표로 구분된 단어들을 한번씩 순열하는 기능이다. 예를 들어 Girl with {blue, red} hair 의 경우, 파란 머리와 빨간 머리를 각각 프롬프트 2개로 구분시켜서 생성하게 된다.이를 이용해서 여러 개의 단어들을 테스트하거나 파라미터 값들을 조절하여 적절한 값을 찾아낼 때 유용한 기능이다.[18]
3. 버전별 특징
사실적인 묘사에 강하면서도 추상적 표현을 잘해 예술적인 부분에 특화되어있지만 만화류의 선화도 키워드 입력에 따라 뽑아낼 수 있다.[19] 단지 보통 만화를 뽑으려한다면 그쪽에 특화되어있는 노벨AI를 선호하므로 미드저니로 웹툰 같은 느낌의 만화 작업을 하는 경우는 흔하지 않다. 보통 일러스트적인 작업물을 원할 때 많이 선호된다.2023년 3월, 5.0 버전의 알파테스트가 진행되었다. #
2023년 12월, 6.0 알파버전이 런칭되었다. 이전 버전과는 다르게 LLM 스타일의 프롬프트 입력을 지원하며, 프롬프트 메모리 용량을 확장하여 단어 간의 상관관계를 더 명확히 이해할 수 있게 되었다. 추가로 텍스트 입력을 쌍따옴표를 통해 가능하도록 하였으며,현재는 짧은 단어만 가능하지만 이후 버전 업데이트에 따라 더 긴 문장도 그려질 수 있도록 개선한다고 밝혔다.
또한 6.0 버전 런칭과 함께 official hours (미드저니 공식 소통 방송)에 밝힌 바에 따르면 1월 중으로 zoom(화면 외곽쪽 그림을 추가 생성), pan(특정 방향으로 그림을 추가 생성), inpainting (특정 영역만 다시 생성) 기능을 추가할 예정이라고 한다. 그리고 연구 진행 중인 부분으로는 스타일 일관성 및 캐릭터 일관성을 유지하는 방향을 연구 중에 있으며, 스타일 일관성은 스타일 튜너 v6로 2024년 1분기에 런칭 예정이고, 캐릭터 일관성은 Drag GAN 기술과 같은 방향이 될 것이며 현재 전망은 긍정적이라고 밝혔다.
그 외에도 비디오 및 애니메이션 생성 ai는 데이터셋 구축이 완료되어 학습 진행 중이며 현재 성능으로는 현존하는 비디오 ai에 비해 10배 정도 퀄리티가 좋다고 한다. 3D 모델 생성 ai도 연구 중에 있지만 아직 데이터셋 구축이 미완료 상태이기에 예상보다 더 긴 시간을 필요로 할 것이라고 밝혔다.
이후 방송에서 밝혀지기를 스타일 튜너 v6는 단순히 스타일이 아닌 개인적인 모델 바이어스를 제공하기 위한 모델 튜너에 더 가깝다고 한다. 실제로 출시 때 나와봐야 알겠지만, 사용자들은 로라와 같은 유사한 느낌이 아닌가하는 추측이 있는 상태이다. 스타일 유지 기능의 경우, 이후 캐릭터 유지 기능 및 색깔, 배경 등 다양한 것들에 대해 선택적으로 유지하는 복합 기능 방향으로 준비 중이라고 한다.
또한 버전7에 대한 대략적인 기능이 공개되었는데, 투명 배경 지원, 작은 얼굴들에 대한 일그러짐 최소화, 비디오 생성 등이 들어갈 것이라고 밝혔다. 버전6.1 등에서 신규 기능이 들어가지 않는 이유는 버전6이 그동안 만든 미드저니 모델 중 가장 복잡도가 높아 기능 확장에 어려움이 있기 때문이라고 하며, 대부분의 신규 기능들은 버전7에서 보여질 예정이라고 한다.
4. 사건 사고
4.1. 2022년 예술대회 우승 사건
관련 기사
제이슨 앨런은 미드저니를 통해 생성한 '스페이스 오페라 극장'을 출품하여 콜로라도 주립박람회 미술대회 디지털 아트 부문 1등을 차지했다. 상금은 300 달러로 당시 40 만원이다. 미드저니는 텍스트를 이미지로 바꿔주는 프로그램이고, 사람이 개입한 부분은 텍스트 입력과 결과물 선별 밖에 없는데, 이것을 사람이 그린 예술작품으로 봐줘야 하냐는 논쟁이 벌어졌다. 기사
4.2. 캘리포니아 집단소송
저작물을 창작자의 동의 없이 사용했다고 주장하는 작가들이 미드저니를 상대로 집단소송을 걸었다. 이들은 AI의 제작사가 디지털 밀레니엄 저작권법(DMCA), 캘리포니아의 불공정 경쟁법 등을 위반했다는 혐의를 제기하며 생성 AI로 인해 발생한 피해를 창작자들에게 보상하고, 추가적인 피해를 막기 위한 가처분을 요구했다. #4.3. 새벽의 자리야 저작권 부분 취소 사건
소설 "새벽의 자리야" 판매처미국에서 "Zarya of the Dawn"(새벽의 자리야)[20]라는 제목의 이 인공지능을 활용한 만화의 작가가 저작권을 인정받은 바 있다. 작가는 AI 모델을 이용했지만 원하는 이미지(인물의 배치, 구도, 색감 등)를 출력하기 위해 다양한 키워드를 조합해 입력했고 그 이미지들을 자신이 창작해 낸 스토리의 흐름에 맞춰 그 스토리를 잘 전달할 수 있는 방식으로 이미지를 편집해 배치하였는데, 이 때문에 저작권법에서 말하는 '인간의 창조력'에 해당해 저작권을 인정받을 수 있었다. 기사
그러나 미 저작권청(USCO)는 지난해 12월, "새벽의 자리야" 저작권 취소를 위한 재심에 나섰다고 밝혔다. # “미국법상 작품의 저작권은 인간 작가에게만 적용된다”며 “AI 혼자 그린 작품의 저작권은 인정받을 수 없다”는 것이 재심의 이유였으며, 심사 당시에는 미드저니를 설명란에서 보지 못했기에 저작권을 인정했다며 해명한 바 있다.[21]
2023년 2월 21일 재심 결과가 나왔는데, 미 저작권청이 재심 이유 당시 밝힌 입장을 고수한 것으로 밝혀졌다. 작품 내 AI 생성 이미지의 저작권을 인정하지 않은 것.[22] 그러나 모두 부정된 것은 아니며 소재 선정(selection), 구성(coordination), 배열(arrangement) 등 작가가 직접 편집하고 집필한 부분에 한정해 저작권을 일부 인정하였다.
5. 니지저니(niji journey)
공식 홈페이지 | 공식 트위터GAN 기반의 아니메 스타일 포트레이트를 조합 및 작성해주던 웹사이트 waifu labs[23]를 만들었던 spellbrush라는 회사와 미드저니가 협업하여 만들었다고 한다. 미드저니의 애니메이션/만화 그림체 특화모델이다.
2022년 11월부터 베타서비스가 시작되었다.
novel ai처럼 특정 캐릭터를 입력했을 때 어느정도 유명하다면 그려줄 수 있으며 다양한 그림체를 보여준다. Ilya Kuvshinov나 Mika Pikazo같은 특정 유명 인기 일러스트레이터들의 그림체와 비슷하게 나오는 등 그림체의 다양성이 늘어났다.
또 미드저니에서도 보여준 특이한 배경이나 설정묘사에서도 강력한 모습을 보인다.
자잘한 문제로 조롱 받았던 라면 먹는 그림도 제대로 그릴 수 있다. 다만 손 묘사에는 여전히 약한 모습을 보여준다.
다른 서비스들처럼 일정 횟수를 소진하면 돈을 더 내야 한다. 대신 미드저니와 결제 플랜과 결제상태를 공유하기에 무제한 플랜이 있다는 장점을 공유한다.
미드저니와 마찬가지로 잔인하거나 선정적인 단어가 들어간 명령은 사용할 수 없으며, 교복 등 미성년자임을 암시하는 캐릭터를 성적으로 묘사하는 그림이 생성되는 경우 경고를 받을 수 있다.
6. 경쟁 제품
- Red Panda AI: 무료 AI 이미지 생성기
- Draftype: 한국형 AI 이미지 생성 솔루션
[1]
서비스명과 동일하다.
[2]
생성개수는 /info 명령어로 확인 가능하다.
[3]
단지 최저가 플랜은 GPU 우선순위만 제공하므로 할당된 시간을 다 쓰면 끝이고, 다른 플랜들은 시간을 다 쓸 경우 이미지 생성이 굉장히 느려지고 업스케일링이 불가능하다. 시간은 따로 구입 가능하지만 구독 플랜에 비해선 비싸므로 자신의 사용량에 따른 구독 플랜을 체크하는 것이 좋다.
[4]
예를 들면 '앞치마만 입은' 같은 문구
[5]
예) text as "Hello World"
[6]
gpu 우선순위 시간
[7]
주의사항으로는 모델버전별 스타일코드가 호환되지 않는다는 점이다. 예를 들어 미드저니에서 생성한 스타일 코드는 니지저니에서 사용이 불가능하다.
[8]
데이빗의 말에 의하면 모델 튜너라는 이름을 붙이고 싶을 정도로 모델의 개인화된 바이어스를 제공하며 로라처럼 그림체를 사용자에 맞게 튜닝하는 기능으로 추정된다
[9]
Portrait의 경우 3:4, Landscape의 경우 16:9 등
[10]
프롬프트에 \--ar 명령을 직접 입력하여 옵션 외의 비율로 지정은 가능하다
[11]
값이 낮을수록 프롬프트의 내용을 더 잘 구현하며, 일반적으로 텍스트 등을 생성할 때는 stylize 값을 낮게 지정하는 편이다.
[12]
미드저니의 v4 이하는
Stable Diffusion 모델을 사용하며, v5부터는 미드저니 자체 모델을 사용한다.
[13]
다만 v6부터는 프롬프트의 자연어 처리능력이 향상되어 프롬프트에 부정문으로 작성해도 어느 정도 인식할 수 있다.
[14]
이미지 퀄리티는 생성속도, gpu 사용량과 비례한다. 따라서 같은 프롬프트로 여러 개의 이미지를 생성하여 원하는 스타일을 찾을 때까지는 퀄리티를 낮춰 gpu 사용량을 아끼는 것도 하나의 방법이다.
[15]
예를 들어 standard를 기준으로 동시 생성 가능 수는 3개인데, repeat를 4 이상의 값을 지정할 경우 3개는 동시에 생성되나 나머지 하나는 대기 큐에 저장된다.
[16]
예시로 image url1::1 image url2::2 식으로 작성하면 url2가 url1보다 2배 더 영향을 주게 된다.
[17]
'''
[18]
프롬프트를 여러 개를 돌리는 방법이기에 \--repeat 와 같이 사용이 불가능하다.
[19]
어느정도 인지도 있는 화가나 만화등을 입력하면 그 풍으로 뽑아준다
[20]
заря(zarya)는 러시아어로 새벽녘, 새벽을 의미한다
[21]
물론, 심사관이 설명란을 똑바로 안 읽었다(...)는 뜻이었므로 대중에게 욕을 많이 먹었다.
[22]
저자에게 통보한 USCO의 서면에 의하면 "인간의 저작물이 아니기 때문(not the product of human authorship)"에 인정할 수 없었다.
[23]
GAN계열 자동생성사이트였던 This Waifu Does Not Exist나 This Anime Does Not Exist보다는 그나마 나은 퀄리티를 보여주지만, 그래도 GAN 기반이라 2022년 이후의 생성형 그림인공지능에 비하면 조악해보이는건 마찬가지다. 그리고 모델 자체의 한계 때문에 흉부 이상의 두상까지만 생성해준다.