1. 개요
인텔에서 출시했던 병렬 연산용 마이크로프로세서.
2. 상세
GPGPU와 비슷하게 병렬 연산을 위해 디자인된 마이크로프로세서이며, x86 계열로는 시대를 앞서간 무시무시한 코어 수[1], 그리고 4-way SMT와 더불어 높지 않은 클럭을 가지고 있다. 멀티코어를 활용한 병렬 연산에 최적화된 x86 프로세서이다.스트림 프로세서 갯수만 수 백개가 넘는 그래픽카드에 비하면, 고작 코어 72개[2]에 불과한 제온 파이는 병렬 연산에서 엄청 후달리는 듯 하지만, 애초에 코어 세는 단위가 다르기 때문에 저런 비교는 숫자놀음 신세를 벗어나기 힘들어서 의미가 없다. 일례로 지포스 RTX 2080 Ti는 4352의 CUDA 코어를 가지고 있지만, 6 GPC, 34 TPC, 68 SM이기도 하다. 그러니깐 같은 제온 파이 4세대 vs 지포스 RTX 2080 Ti라도 뭘 기준으로 비교하느냐에 따라 72 vs 6, 34, 68, 4352로 숫자가 완전히 달라진다. 애초에 양측의 설계 사상부터가 다르기 때문에 어떤 기준으로 어떻게 비교하던 동등 비교가 성립하기 힘들다.
초기엔 HPC 분야에서 선전했다.[3] 제온 파이가 그래픽카드와 비교했을 때 가지고 있는 장점이라면, 기본이 x86 CPU라 그래픽카드가 대처하지 못하는 복잡한 연산이 가능하며, CUDA를 플랫폼으로 삼느라 굉장히 어려운 병렬 프로그래밍 난이도를 가진 그래픽카드와 비교했을 때 파이는 프로그래밍 난이도도 낮을 뿐더러 OpenMP를 플랫폼으로 삼아 범용성도 높다. 인텔 개발자 포럼으로 대표되는 인텔의 빵빵한 개발자 지원도 한 몫 한다.
그러나 눈부시게 발전하는 엔비디아 테슬라, 쿼드로 프로세서들의 병렬 컴퓨팅 성능, 꼭 맞는 기계학습 트렌드, 그리고 받쳐주고 있는 CUDA 개발 환경 때문에 시장에 밀리면서 결국 인텔이 제온 파이 제품군을 포기했다. # IEEE 배밀도 부동소수점 연산이 대세이던 시절에는 잘 나갔으나 기계학습이 대세로 바뀌면서 16비트, 8비트 정수 연산을 대량으로 취급하는 쪽으로 바뀌면서 엔비디아가 독주하게 됐다. 오히려 새옹지마인지 제온 파이 덕분에 망신살 뻗었던 AMD는 라데온 인스팅트 MI50을 내놓는 등 여전히 살아있는 편이다. 세월이 흐르면서 x86도 발전과 성능 경쟁을 거듭하며, 병렬 연산 성능 역시 이제는 소비자용 하이엔드라 할 수 있는 13900K나 7950X에도 밀린다는 결과도 나오고 있다.
하지만 그 유산은 일부 남아 AVX-512로 이어졌다. # 그리고 제온 파이를 포기한 것이지 GPGPU 등의 고성능 컴퓨팅 자체를 포기한 것은 아니다. 라자 코두리와 짐 켈러를 데려간 것도 이 때문이라고 #[4].
제온 파이 코프로세서라는 PCI express x16 슬롯에 연결하는 방식이 있지만, 이를 뜯어보면 제온 파이 CPU를 분리할 수 있다고 한다. 스카이레이크-SP/캐스케이드 레이크-SP에 사용되는 것과 유사한 LGA 3647 소켓을 사용하며, 같은 칩셋을 사용함에도 불구하고 제온 스케일러블은 LGA3647-0, 제온 파이는 LGA3647-1로 세부 형식이 달라서 메인보드가 서로 호환되지 않는다.
3. 배경: 라라비(Larrabee) 프로젝트
인텔은 벡터 연산 능력을 강화시킨 펜티엄 P54C 코어를 대량으로 집적시켜서 x86 아키텍처를 사용하는 외장형 그래픽 카드를 개발하려고 했다. 기존의 인텔 GMA와는 별개로 개발되었으나 개발 지연과 성능 부족으로 2009년 12월에 일반 소비자용 그래픽 카드로 내놓지 않기로 결정했으며, 2010년 5월 완전히 취소되었다. 인텔은 이 프로젝트의 유산 중 대량으로 코어를 집적시키는 부분을 살려서 GPGPU와 경쟁하는 고성능 연산 분야로 진출하기로 한다. 라라비(Larrabee) 프로젝트의 결과물은 제온 파이 프로토타입인 Knights Ferry로 공개되었으나, 시장에 출시된 것은 아니고 일부 수퍼컴퓨터 센터에만 납품되었다. 살아남은 제온 파이에서는 화면 출력이나 게임 가속이 없다. 제온 파이 카드를 쿨러만 보면 그래픽 카드 같아 보이기는 하나, 잘 보면 모니터 케이블을 연결할 곳이 없다. 심지어 나이츠 랜딩 세대(2세대, 라라비부터 따지면 3세대)부터는 CPU 소켓에 꼽아서 그냥 CPU처럼 쓸 수도 있는 제품도 출시된다.4. 세대
4.1. Knights Ferry
제온 파이 프로토타입. 라라비 프로젝트의 유산이었으며 45nm 공정으로 제조되었다.4.2. Knights Corner
1세대 제온 파이.인텔 내부에서는 라라비 2세대로 불리고 있다.
DVI 출력을 위한 젠더가 달린 것으로 보아 그래픽관련 기술이 내장되었을 것으로 추정된다.
4.3. Knights Landing
2세대 제온 파이. 인텔 14nm 공정으로 생산된다. 이전까지는 부팅하는 데 호스트 CPU가 필요하던 구조였지만, Knights Landing부터 독립적으로 부팅이 가능한 LGA3647 버전도 출시되었다. 프로세서 안에 최초로 마이크론의 HMC(Hybrid Memory Cube)를 사용한 16GB MCD RAM을 탑재하고 있다. Fabric이 통합된 제품은 제품명 뒤에 F가 붙으며, TDP가 15W 늘어나고 프로세서에 별도의 Fabric 전용 케이블이 생긴다. 가격은 $1881~$3368.Knights Landing 마이크로아키텍처는 Silvermont 마이크로아키텍처 기반으로 개선된 아키텍처로, 기존 Knights Corner와 비교해 벡터와 스칼라 연산 성능 모두 크게 향상돼, 기존 제품의 3배의 스칼라 성능과, AVX-512 지원, NVIDIA의 테슬라 K80과 비교해 생명과학 분야에서 최대 5배, 시각화 분야에서 최대 5.2배, 금융 분야에서 최대 2.7배가 상승되었다. 또한 기존의 인텔 CPU의 ISA를 레거시 수준에서 지원해 일반 프로세서로 컴파일 된 명령어도 처리가 가능해졌다.
솔더링이 아닌 서멀 그리스가 사용되었다. 이전 세대 제온 파이들도 모두 솔더링이 아니다.
4.4. Knights Mill
3세대 제온 파이. 10nm 공정으로 나이트 힐(knights Hill)이라는 코드명이 예정이었으나 공정 지연으로 14 nm 공정에서 생산되었다. 메모리는 DDR4-2400을 사용한다.흥미로운 점은 배정밀도 연산은 나이츠 랜딩의 절반이지만 단정밀도 연산은 두배이며 Variable precision(가변 정밀도) 연산은 네배 정도의 성능을 자랑한다. 이런 특징으로 인해 인공 지능 연산 등에서 더 유리할 것으로 예상된다. 메모리 채널은 6채널 DDR4를 지원하며 통합 메모리 구조를 가져 메모리와 CPU가 하나의 패키지로 판매된다고 한다. DDR4의 경우 최대 384GB까지 지원하지만 메모리 대역폭이 부족할 경우를 대비해 16GB의 MCDRAM을 지원한다고 한다. 하지만 최근 인공지능 관련 라이브러리, API의 경우 대부분 엔비디아의 GPU에서만 작동하거나 최적화 되어 있기에 딥 러닝 부분에서 표준화는 시간이 필요할 것으로 추측된다.
참고(ANANDTECH)
5. 사용 모델
5.1. 22 nm 마이크로프로세서
5.1.1. Knights Corner
||<|2><table align=center><rowbgcolor=#00a495><rowcolor=white> 모델명 ||<-3> CPU ||<|2> TDP||<|2> 기타 ||
<rowcolor=white> 코어 (스레드) |
기본 주파수 (터보 주파수) |
L3 캐시 | |||
서버/워크스테이션 | |||||
Xeon Phi 7120A | 61(244) | 1.24(1.33) GHz | 30.5 MB | 300 W | 2014년 2분기 |
Xeon Phi 7120D | 270 W | 2014년 1분기 | |||
Xeon Phi 7120P | 300 W | 2013년 2분기 | |||
Xeon Phi 7120X | |||||
Xeon Phi 5120D | 60(240) | 1.05 GHz | 30 MB | 245 W | |
Xeon Phi 5110P | 225 W | 2012년 4분기 | |||
Xeon Phi 3120A | 57(228) | 1.10 GHz | 28.5 MB | 300 W | 2013년 2분기 |
Xeon Phi 3120P |
5.2. 14 nm 마이크로프로세서
5.2.1. Knights Landing
||<|2><table align=center><rowbgcolor=#00a495><rowcolor=white> 모델명 ||<-3> CPU ||<|2> TDP ||<|2> 기타 ||
<rowcolor=white> 코어 (스레드) |
기본 주파수 (터보 주파수) |
L2 캐시 | |||
서버/워크스테이션 | |||||
Xeon Phi 7290F | 72(288) | 1.50(1.70) GHz | 36 MB | 260 W | 2016년 4분기 |
Xeon Phi 7290 | 245 W | ||||
Xeon Phi 7250F | 68(272) | 1.40(1.60) GHz | 34 MB | 230 W | |
Xeon Phi 7250 | 215 W | 2016년 2분기 | |||
Xeon Phi 7230F | 64(256) | 1.30(1.50) GHz | 32 MB | 230 W | 2016년 4분기 |
Xeon Phi 7230 | 215 W | 2016년 2분기 | |||
Xeon Phi 7210F | 230W | 2016년 4분기 | |||
Xeon Phi 7210 | 215 W | 2016년 2분기 |
5.2.2. Knights Mill
||<|2><table align=center><rowbgcolor=#00a495><rowcolor=white> 모델명 ||<-3> CPU ||<|2> TDP ||<|2> 기타 ||
<rowcolor=white> 코어 (스레드) |
기본 주파수 (터보 주파수) |
L3 캐시 | |||
서버/워크스테이션 | |||||
Xeon Phi 7295 | 72(288) | 1.50(1.60) GHz | 36 MB | 320 W | 2017년 4분기 |
Xeon Phi 7285 | 68(272) | 1.30(1.40) GHz | 34 MB | 250 W | |
Xeon Phi 7235 | 64(256) | 32 MB |