||<table bordercolor=black><table width=100%><bgcolor=white>
x86
CPU
마이크로아키텍처 ||
}}}}}}}}} ||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); color: #fff;" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px; color: #000;"dark-style="color: #fff;" |
<rowcolor=white> 등장 시기 |
패밀리 넘버 (10진법/16진법) |
설계 기반 | 이름 | 공정 노드 |
고성능 지향 마이크로아키텍처 목록 | |||||
1996년 3월 | - | K5 | K5 | AMD 0.5 ~ 0.35 μm | |
1997년 4월 | 05 / 05h | K6 | K6 | AMD 0.35 ~ 0.18 μm | |
1999년 6월 | 06 / 06h | K7 | K7-Athlon | AMD 0.25 ~ 0.13 μm | |
2003년 4월 | 15 / 0Fh | K8-Hammer | AMD 0.13 μm ~ 65 nm | ||
2007년 9월 | 16 / 10h | K10 | AMD 65 ~ 45 nm | ||
2008년 6월 | 17 / 11h | K8 + K10 Hybrid | AMD 65 nm | ||
2011년 6월 | 18 / 12h | K10 Llano | Common Platform Alliance SOI 32 nm | ||
2011년 10월 | 21 / 15h | Bulldozer | Bulldozer | Common Platform Alliance SOI 32 nm | |
2012년 8월 | 21 / 15h | Piledriver | Common Platform Alliance SOI 32 nm | ||
2014년 1월 | 21 / 15h | Steamroller | Common Platform Alliance 28 nm | ||
2015년 6월 | 21 / 15h | Excavator | Common Platform Alliance 28 nm | ||
2017년 3월 | 23 / 17h | Zen | Zen | GlobalFoundries 14 nm | |
2018년 4월 | 23 / 17h | Zen+ | GlobalFoundries 12 nm | ||
2018년 6월 | 24 / 18h | Hygon Dhyana | GlobalFoundries 14 nm | ||
2019년 7월 | 23 / 17h | Zen 2 | TSMC 7 nm | ||
2020년 11월 | 25 / 19h | Zen 3 | TSMC 7 nm | ||
2022년 2월 | 25 / 19h | Zen 3+ | TSMC 6 nm | ||
2022년 9월 | 25 / 19h | Zen 4 | TSMC 5 ~ 4 nm | ||
2024년 7월 | 26 / 1Ah | Zen 5 | TSMC 4 ~ 3 nm | ||
미정 | 불명 | Zen 6 | 미정 | ||
고효율 지향 마이크로아키텍처 목록 | |||||
2011년 1월 | 20 / 14h | Bobcat | Bobcat | TSMC 40 nm | |
2013년 5월 | 22 / 16h | Jaguar | Jaguar | TSMC 28 nm | |
2014년 6월 | 22 / 16h | Puma | Common Platform Alliance 28 nm |
1. 개요
2019년 7월 7일에 출시된 AMD ZEN 마이크로아키텍처 시리즈의 3번째 마이크로아키텍처. 코드네임은 Matisse( 마티스), Renoir, Castle Peak, Van Gogh, Mendocino, Dragon Crest, Grey Hawk, River Hawk, Rome. TSMC N7 HPC로 제조되었으며, X570 칩셋 또한 같이 출시되었다.2. 공개된 정보
- TSMC 7nm ArFi[1] HPC[2] 공정을 사용, ( 출처) 이전 세대 ZEN 대비 다이 면적을 반으로 줄이며 동일 클럭 기준 전력 소모량은 50% 낮고, 동일 전력 기준 성능은 25% 높다고 주장한다. AMD의 라이젠 3세대 정책은 고성능 고클럭의 이중 성능으로 알려져 있으며 여기에 TSMC의 7 nm 공정을 더해서 13%의 추가 성능 향상을 기대할 수 있다고 한다.[3][4]
- PCIe 4.0을 정식으로 지원하는 최초의 데스크톱 프로세서다. 그래서 기존 보드에서도 제한적으로 지원될 가능성이 있었다. 공식적으로는 품질 보증 문제 때문에 금지한다고 했으나, 일부 베타 펌웨어로 사용 가능하며 보드 제조사 차원에서 지원 리스트를 공개했다. B450 보드에서 일부 정상 작동을 확인한 사례도 있다.
- AM4 플랫폼은 프로몬트리 칩셋을 ASUS 산하 ASmedia에사 OEM으로 떼왔으나 이번 X570 칩셋은 CPU의 I/O 다이를 그대로 활용했다. 나머지 하위 메인보드 칩셋은 여전히 ASmedia OEM이다. 출시 전 ASRock이나 GIGABYTE 등에서 엄청난 라인의 X570 보드라인이 유출되기도 했다. PCIe 4.0 NVMe M.2가 사용하는 레인 업링크 다운링크 대역폭이 확 늘어서 칩셋 TDP가 11W로 상승하여 대부분의 X570 라인 보드들이 전용 쿨링팬을 장착하는 등 쿨링 솔루션을 장착한 모습을 보여줬다. PCIe 4.0 도입으로 인한 신호 간섭을 방지하기 위해 메인보드의 가격이 급상승할 것이라는 예측이 많았고 실제로 그랬다. 고단수 PCB의 필요라던가.
- 메모리 컨트롤러를 포함한 GF제 12nm I/O 칩셋과 8개의 코어가 한 세트를 이루는 7nm 칩렛으로 분리 제조하는 구조를 갖는다. 즉 과거의 메인보드에 탑재되던 노스 브릿지 측을 SoC에서 떼낸 구조가 되며 이 사이는 인피니티 패브릭으로 체결된다. 이는 TSMC 7nm ArFi의 멀티 패터닝으로 인한 제조 비용 증가 및 수율 문제 때문이며, CPU 소켓 외부(메모리, PCIe 슬롯들)와 통신하는 I/O 파트는 미세 공정으로 인한 크기 감소 이득을 거의 누릴 수 없기 때문에 값싼 12nm 공정으로 분리하고, CPU 코어 등 중요 파트만 7nm 칩렛에 넣어서 최소 사이즈로 싸게 양산하려는 전략이다. 그래서 그런지 19년 4월에 칩렛 사이즈가 88mm2에 불과하며 수율 70%를 넘겼다는 주장이 나왔다. 출시 직후에는 수율이 85%라는 기사도 나왔다.
-
부동소수점 연산 파이프 레인이 128-bit에서 256-bit로 늘어나 스루풋이 두 배가 되었다. 브로드웰 대비
AVX2 처리의 스루풋이 좁다는 전 세대의 약점을 극복한 셈.
덕분에 분기예측이나 프리페칭 등의 프론트 엔드 부분 개선으로 정수 워크로드 정확도가 높아져 실제 성능 향상을 체감할 수 있을것으로 기대된다. Op 캐시 용량도 늘어 이전 대비 2배의 로드/스토어를 제공한다.
다만 AVX-512는 아직까지 지원하지 않지만 애초에 전문가용 프로그램에서나 좀 이용하며 라이젠 시리즈가 진짜 전문가 대상은 아니기 때문에 현시점에선 크게 중요하지 않았다. 그러나 인텔도 제온이나 코어-X 라인에서만 지원하던 AVX-512를 일반 코어 라인에서 지원을 확대하고 해당 명령어를 지원하는 프로그램들이 늘자 젠 4 부터는 AVX-512를 지원하게 된다. 단 젠4는 젠 1 시절 AVX2 지원처럼 AVX-512를 256-bit 두싸이클로 나눠서 연산하는 반쪽짜리 지원을 하게된다. - 인피니티 패브릭의 버스 대역폭이 256-bit에서 512-bit로 확장되었다. 단 스레드리퍼와 에픽은 배선 밀집도/전력 문제로 인해 128/256bit로 총 384bit의 대역폭을 가진다.[5]
- 메모리로 전송하는 데이터를 암호화하여 스펙터와 멜트다운 이슈를 아키텍처 단계에서 봉쇄한다. 이전 세대는 마이크로코드 패치로 해결.
- L3 캐시 메모리가 2배로 늘어 1칩렛당 32MB(16MB x 2의 공유캐시)를 지원한다. L3 캐시가 늘어나면 고용량 데이터 처리에 있어서 캐시 레이턴시를 낮출 수 있는 이점이 있다.
- 칩렛당 8코어 최대 2개까지 설치될만한 다이 공간의 여유가 있어서 12코어/16코어 등의 상위 모델이 나올지 모른다는 추측이 있었다가 컴퓨텍스와 E3에서 각각 12코어와 16코어 모델이 발표되었다.
- X570과 X470 및 하위 라인업에서 동등한 성능을 보장한다. X370 이하 라인업에 대한 발언은 없지만, 전원부만 받쳐준다면 실사용에 큰 무리는 없을 것으로 예상된다. 따라서 PCIe 4.0을 지원하는 GPU나 SSD 등을 사용할 것이 아닌 이상 굳이 고가로 발매될 것이 분명한 X570 보드를 구입할 필요가 없다는 말. 물론 오버클럭 시에는 얘기가 달라지므로 원한다면 전원부를 보고 판단하자.[6] 발매 후 3950X를 B450 보드는 물론 가장 저렴한 모델인 A320 보드에서 작동시키는 등 여러 테스트가 올라왔으며 결론은 오버클럭을 하지 않으면 잘 작동한다는 것이었다.
2.1. 주요 변경점
- GlobalFoundries 12LP → TSMC N7 (공정 미세화)
- 일반 소비자용 라인업 증설
- 코어와 I/O가 별도의 실리콘 다이로 분리, 서버용(sIOD)은 GF 14LPP 공정, 일반 소비자용(cIOD)은 GF 12LP 공정으로 제조
- 단, APU인 Renoir는 코어와 I/O가 분리되지 않은 모놀리식 실리콘 다이로 제조
- 클럭당 성능 15% 향상
- 클럭 9% 증가
- 실 성능 10~20% 증가
- PCIe 4.0 지원, 단, APU인 Renoir는 여전히 PCIe 3.0 지원
- 코어 레벨 (Zen 대비)
- 프론트 엔드
- 프리페처 개선
- 분기 예측 개선
- L1 명령어 캐시 메모리
- 용량이 64 KB → 32 KB로 감소
- associativity가 4-way → 8-way로 증가
- 마이크로옵 캐시가 2048 → 4096 엔트리로 확장 (2배)
- 백 엔드
- 디스패치 대역폭 확장
- 재정렬 버퍼(Reorder Buffer, ROB)가 192 → 224 엔트리로 확장
- 정수 연산 스케쥴러가 4×14 엔트리 → 4×16 엔트리로 확장
- 정수 메모리 스케쥴러가 2×14 엔트리 → 1×28 엔트리로 통합
- 정수 레지스터 파일이 168 엔트리 → 180 엔트리로 확장
- 주소 생성 유닛(AGU)이 2개 → 3개로 확장 (스토어 전용 유닛 추가)
- 부동소수점 스케쥴러가 32 엔트리 → 36 엔트리로 확장
- AVX 스루풋이 128-bit → 256-bit로 2배 증가
- 메모리 서브시스템
- 로드 및 스토어 장치 (Load-Store Unit, LSU)
- 스토어 큐가 44 → 48 엔트리로 확장
- L2 DTLB가 1536 → 2048 엔트리로 확장
- 기타
- 새로운 명령어 추가 (WBNOINVD, CLWB, RDPID)
- 실리콘 단계에서 멜트다운/스펙터 차단
- 프로세서 레벨
- 캐시 메모리
- CCX당 L3 캐시 메모리 용량이 8 MB → 16 MB로 2배 증가된 대신, 레이턴시가 35사이클 → 39사이클로 지연됨
- 인피니티 패브릭 2
- PCIe 4.0 도입으로 링크의 대역폭이 32 바이트/사이클 → 64 바이트/사이클로 향상
- 링크당 전송 속도가 10.6 GT/s → 25 GT/s로 2.3배 향상
- 지원 메모리 비트레이트 증가 (DDR4 2933 → 3200 Mbps)
- 기존의 분기 예측기에 TAGE[TAGE]의 추가 탑재로 분기 예측 능력이 크게 향상
- BTB 크기 증가
- L0: 8 엔트리 → 16 엔트리로 증가 (2배) (4→8 forward + 4→8 backward)
- L1: 256 엔트리 → 512 엔트리로 증가 (2배)
- L2: 4096 엔트리 → 7168 엔트리로 증가 (1.6배)
- 단, APU인 Renoir는 CCX당 4 MB 그대로 유지
3. 상세
3.1. Castle Peak
자세한 내용은 AMD RYZEN 3000 시리즈 문서의
Castle Peak
부분을
참고하십시오.3.2. Matisse
자세한 내용은 AMD RYZEN 3000 시리즈 문서의
Matisse
부분을
참고하십시오.3.3. Renoir
자세한 내용은 AMD RYZEN 4000 시리즈 문서의
Renoir
부분을
참고하십시오.3.4. Lucienne
자세한 내용은 AMD RYZEN 5000 시리즈 문서의
Lucienne
부분을
참고하십시오.3.5. Mendocino
자세한 내용은 AMD RYZEN 7000 시리즈 문서의
Mendocino
부분을
참고하십시오.3.6. Grey Hawk
자세한 내용은 AMD RYZEN Embedded 시리즈 문서의
Grey Hawk
부분을
참고하십시오.3.7. Rome
코드네임은 로마이다.- 2019년 8월 7일 출시
- 칩셋 통합
- 3세대 라이젠과 마찬가지로 코어와 I/O가 별도의 다이로 분리된 구조
- CCD는 TSMC 7 nm 공정, sIOD는 GF 14 nm 공정으로 제조
- LGA 4094핀 타입의 SP3 소켓, 최대 2소켓까지 지원
- 2CCX 구조의 1CCD 8개가 MCM으로 결합되어 최대 64코어 128스레드를 지원
- 최대 64×512 KB의 L2 캐시 메모리와 16×16 MB의 L3 (공유) 캐시 메모리
- NUMA 지연 시간 감소
- 128개의 PCI-Express 4.0 레인 지원
- 최대 3200 Mbps ECC 메모리 비트레이트, 최대 8개의 메모리 채널, 채널당 2개의 DIMM을 지원해 총 16개의 메모리 뱅크를 지원
- CPU 1개당 최대 4 TB 메모리 지원
- 소켓 당 순간 최고 TFLOPs 4배 증가
- 소켓 당 성능 2배 증가
4. 공개 전 소문
자세한 내용은 AMD ZEN 2 마이크로아키텍처/공개 전 루머 문서 참고하십시오.5. 기타
5.1. 젠블리드 취약점발견
자세한 내용은 보안 취약점 문서의
Zenbleed 취약점
부분을
참고하십시오.
[1]
액침 불화 아르곤, 엑시머 레이저를 통한 멀티 패터닝.
[2]
하이 퍼포먼스 셀, 고클럭 고성능 지향.
[3]
글로벌 파운드리가 7nm급 및 그 이하 공정 개발 자체를 무기한 연기(사실상 포기)함에 따라 전량 TSMC의 공정을 사용하게 되었다. 정황상 GF가 7nm를 포기 안 했더라도 TSMC 7nm과 병행했을 확률이 크긴 했다.
[4]
인텔이 과거에 기획한 10nm보다는 떨어지는 공정이다. 이런 공정을 수년 전부터 양산 예정이었던 과거 인텔의 압도적인 공정기술력 우위를 볼 수 있다. 문제는 인텔 10nm는 원래 계획보다 몇 년이 지난 2019년 이후에도 대량 양산에 실패했다는 것. 결국 2018년 5월에 조용히 몇몇 제품만 출시하였고 그 제품들조차도 오히려 22nm 수준으로 퇴보했다는 악평을 듣고 있으며, 그 때문에 최근에 유출된 로드맵상 2021년까지도 14+++++nm 공정에 의존할 거라는
루머까지 나오는 상황이라 AMD에게도 기회가 온 것이다. 하지만 인텔의 캐논레이크는 비완성 10nm 공정이었고, 아이스레이크는 10nm 공정으로 출시했지만 낮은 성능탓에 14nm 코멧레이크 모바일 프로세서를 출시했다. 결국 제대로 된 10nm 프로세서는 2021년 타이거레이크에서 선보였고, 데스크톱 프로세서에서는 2021년 상반기까지 14nm 공정을 유지해오다가 하반기에 이르러서 12세대 엘더레이크에 와서야 10nm 공정의 INTEL 7을 도입한 CPU를 출시했다.
[5]
정확히는 IFOP. 인피니티 패브릭도 여러 가지 규격이 있다.
[6]
기존 X470 보드의 경우 제조사별로 약간의 차이는 있으나 보급형이 9-10페이즈, 플래그십 제품이 최대 12페이즈 이상의 전원부를 가졌다면 X570의 경우 보통이 12페이즈에 플래그십에 근접하면 16페이즈의 빠방한 전원부를 자랑하고 있다. 당연히 칩셋의 고성능화와 체급부터 서버용 CPU에 준하는 RYZEN 9 라인업의 출시, 오버클럭 마진 향상에 의한 수요 예측 등으로 제조사들이 전원부를 때려박듯이 넣은 것. X570 보드의 가격이 전 라인업 대비 평균 100달러 가량 인상된 것도 나름 이유가 있었던 셈이다. 물론 그걸 감안해도 너무 비싸다는 것이 중론이긴 하다. 안정적인 고성능 시스템을 원한다면 고가의 제품이라도 눈감고 구입하는게 좋다. 3800X 이상의 제품은 순정 상태의 TDP도 105W인데 오버클럭까지 시도한다면 전원부가 부실한 메인보드는 말 그대로 터져버린다.
[TAGE]
TAgged GEometric history length branch prediction