본문 바로가기
electronic

20nm 공정의 Maxwell의 투입을 앞당기는 nVIDIA

by @Crash@ 2013. 7. 31.
(전략)

20nm 공정의 빠른 개발로 인해 'Maxwell'의 투입이 앞당겨져

올해 3월에 개최 된 GTC 2013에서 nVIDIA는 GPU 로드맵으로 2014년 Maxwell 다음에 Volta라는 코어를 각각 준비하고 있다는 것을 밝혔다. 2014년에는 Maxwell을 투입 할 예정이지만, 이것이 비교적 앞당겨 질 것으로 전망되고 있다. 그 이유는 공정과 관련되어 있다.



GTC 2013에 공개된 GPU 로드맵. 세로축은 DP GFLOPS per Watt. 즉 배정도 연산 성능을 끌어 올리는 것이다. 절대 성능이 아니라 소비 전력 당 성능임에 주의

nVIDIA는 Maxwell 세대에 TSMC(Taiwan Semiconductor Manufacturing Company Limited)의 20nm 공정의 사용을 예정하고 있다. 현실적으로 현재의 28nm 세대에서 더 이상 성능 개선은 어렵고, 소비 전력 절감에 관해서도 대기시의 소비 전력은 둘째치고, 최대 동작시의 소비 전력 절감은 상당히 어렵다. 이것은 또한 현재의 트랜지스터를 사용하는 한 무리다.

TSMC는 28nm 세대에 HP(High Performance) / HPM(High Performance for Mobile Application) / HPL(Low Power with High-K metal Gate) / LP(Low Power)의 4가지 과정을 제공하고, Kepler 세대는 이 중 가장 고성능인 HP 공정을 사용하고 있었다.

예를 들어 이것을 HPM 또는 HPL 같이 '늘어나는 누설 전류 / 동작시 전류가 적은 공정'으로 대체하면 소비 전력 당 성능은 올라가지만, 그 대신 절대 동작 주파수는 낮아지게 된다.

따라서 동일한 성능을 내려고 한다면 쉐이더 수(쿠다 코어)를 더 늘리지 않으면 앞뒤가 맞지 않으며 이것은 다이 사이즈의 대형화가 필연적이게 된다. 그러면 비용이 상승되어 이번에는 성능 / 가격 비율이 악화된다. 상품으로서의 가치를 생각하면, 역시 28nm로 지속하는 것 보다 20nm로 빨리 전환하는 것이 현명하다는 판단은 당연하다.

그 20nm 공정을 TSMC는 1종류 밖에 제공하지 않는다. 미세화가 너무 진행되어 버려서 공정의 여러가지 변수가 너무 많아져서 초고속 용이나 저전력 용 등으로 만들어 나눌 수 없다는 것이지만, TSMC에 따르면 이 20nm 공정은 28nm 공정에 비해 '30% 빠르고, 1.9배 회로 밀도에서 25% 소비 전력이 적다'고 설명하고 있다. 우선 '어떤 28nm 공정과 비교한 것인가'가 명확하지 않기 때문에, 이것도 발표한 그대로 받아들이는 것은 옳지 않다.

20nm 공정(CLN20SOC)은 지난해 로드맵에서는 2013년에 양산이 들어간다고 말했었다.



TSMC의 로드맵. 이것은 2012년 10월경에 공개했던 자료

이것에 이어서 배선은 20nm 공정을 유지하면서 트랜지스터만 FinFET 3차원 구조로 한 것을 16nm 공정(CLN16FF)으로 2014년에 양산할 예정에 있었다. 그런데 올해 상반기에 이 로드맵이 크게 앞당겨졌다.

TSMC는 20nm 공정을 자사의 Fab12 Phase 6 파운드리에서 제조 시작 예정이었으나, 이 외에도 Fab14 Phase 5 파운드리도 2개월 앞당겨 가동을 시작하는 모양으로, 이 결과로 공정 자체에 문제가 없으면 2013년에 양산이 시작된다고 볼 수 있다.

양산이라는 것은 즉 칩의 제조를 개시한다는 의미로써 양산을 시작한다는 것은 완성된 칩을 출하할 수 있다는 의미이다. 최근 첨단 공정의 경우, 제조 개시부터 완성까지 몇 개월(물건에 따라 다르지만 2~3개월이 소요)이 걸리기 때문에 이것은 큰 변화이다.

이 20nm 공정을 사용하는 벤더(nVIDIA 뿐만 아니라 AMD와 Qualcomm도 해당)는 당초에 2014년 초에 샘플 제품을 완성시켜, 동작 검증 후에 제조가 시작되므로, 2014년 2분기 즈음에 최초 제품을 출하한다는 예정이었다.

그런데 이 '20nm 공정이 거의 1분기 정도 출하가 앞당겨 지는 것이 가능하다' 라고 하는 것보다 1분기 앞당겨지지 않으면 경쟁에서 져 버리는 사태에 빠졌다.

AMD와 nVIDIA가 2013년 하반기 신제품 투입을 취소 한 이유 중 하나는 물론 28nm 세대에서 더 이상 공정을 열심히 개선해도 성능이 오르지 않는다는 이유도 있지만, 그것보다 20nm 세대가 앞당겨져서 예정되어 있던 여러가지 작업을 지금 시작하지 않으면 안된다는 이유가 더 큰 것으로 보인다.

------------------------------------------------------------
팹의 움직임으로 역산하는 'Maxwell'의 투입시기


20nm 세대의 동향이 어떻게 되는지에 대해서는 nVIDIA / AMD / Qualcomm과 마찬가지로 대규모의 사용자로써, 게다가 첨단 공정 개발에 대해 TSMC와 협력 체제를 구축하고 있는 '자일링스'의 동향을 보는 것이 알기 쉽다.

자일링스는 20nm 공정을 사용한 제품에 대해 테이프 아웃(설계 완료)를 2013년 2분기에 했으며, 이에 이어서 16nm FinFET 공정을 이용한 테스트 칩도 2013년 중에 출시할 예정이다.

GPU는 자일링스가 제공하는 FPGA와는 또 다른 문제가 있다. FPGA의 경우 회로 규모는 거대하지만 회로 자체는 간단하다. 하지만 GPU는 회로 자체가 매우 복잡하고 다양한 편이다. 하지만 자일링스와 별로 다르지 않는 일정, 설계 및 시험 제작을 하고 있는 것은 확실하다. 아니면 처음 물량에서 제품을 낼 수 없기 때문이다.

여기에서 역산하면 Maxwell은 현재 테이프 아웃의 최종단계에 이르렀거나, 또는 테이프 아웃 되어있지 않으면 늦어버리고, 이에 맞추어 레퍼런스 카드 디자인도 구상에 들어가 있을 무렵일 것이다. 잘하면 9월 말에는 첫 번째 시제품이 완성되고, 거기에서 동작 확인을 거쳐 양산을 개시하면, 빠르면 2013년 말, 늦어도 2014년 2월경까지는 양산 칩이 완성된다는 계산이 된다. 그래서 로드맵에는 Maxwell의 투입시기를 2014년 1분기로 표시했다.

덧붙여서 이 Maxwell 구성이 현재 상태에서는 전혀 정보가 없기 때문에 로드맵에는 GeForce GTX 780과 동일한 스펙으로 작성했다. 사실 Maxwell 세대에서도 특히 처음에 나오는 GeForce GTX 880은 소비 전력 자체는 떨어지지만 성능 면에서는 그다지 큰 향상이 없을 것이라고 필자는 생각하고 있다. 20nm 공정에서 회로 밀도는 높아지지만 동작 주파수 자체는 별로 올라가지 않는다고 생각되기 때문이다.

20nm 공정의 이름이 CLN20SOC라는 점에서 알 수 있듯이 이 공정은 28HPM의 후속으로 간주하는 것이 가장 현실과 가까운데, 28HPM보다 30% 고속화하면서 28HP 정도라는 것은, 오히려 동작 주파수를 올리기보다 회로 밀도의 향상을 통해 회로 규모를 크게 하는 것이 성능을 향상시키기 쉽다.

GK110 코어는 551mm2의 다이 크기가 되고 있지만 이것이 고스란히 1.9배의 밀도가 되었다고 하면 다이 사이즈는 290mm2로써, 다이 크기가 294mm2였던 GK104와 동일한 정도의 비용으로 생산 할 수 있게 된다.



GK110(GeForce GTX TITAN)의 다이 크기는 551mm2

실제로 GK110 그대로라면 다소 낭비가 많고 모든 회로를 균일하게 1.9배의 밀도로 만들 수 있는 것도 아니기 때문에, 쉐이더 구성을 GeForce GTX 780급, 300mm2 이하의 다이 크기에 담아 약간의 주파수를 올리는 정도일 것이다. 그래도 비용 면에서는 꽤 저렴해지고 소비 전력도 GeForce GTX 780보다 낮아질 것으로 보인다.

단지 이것은 PC용이며 GPGPU용으로는 GM100이 될지 GM110이 될지 모르겠지만, 완전한 기능을 가진 제품을 별도로 만들 것이라고 생각한다. 하지만 그것이 2014년이 될지 2015년이 될지는 판단하기 어려운 부분이다.

nVIDIA는 여전히 빅 다이 노선(거대한 다이 하나로 성능을 올리는 방법)을 포기하지 않았기 때문에 이것의 개발은 첫 번째 코어(GM104?) 이후가 될 것으로 보인다. 첫 번째 코어에서 빅 다이를 제조했는데 문제가 있다면 재검토 시간이 너무 오래 걸리기 때문이다.

------------------------------------------------------------
독자적인 Stacked DRAM을 채택하는 'Volta'


Maxwell 다음에는 Volta를 예정하고 있다. 그러나 Volta는 더 알 수 없다. Volta는 현재의 HMC(Hybrid Memory Cube)를 사용할 예정이 없고, 독자적인 Stacked DRAM을 사용한다고 하고 있다. 이것은 가장 빠른 GDDR5의 7Gbps 제품을 이미 사용해 버려서 앞으로는 속도 향상이 매우 어려우므로 Volta 세대에서는 GDDR을 버리고 독자적인 규격을 채택했다는 것이다.



Maxwell 이후에 투입이 예정된 Volta

구조적으로는 HMC와 비슷하며 아래와 같이 여러 DRAM 칩을 수직으로 적층하여 하단에 I / F한다는 구조다. 이 DRAM 칩끼리 I / F로 연결하는 것이 TSV(Through Silicon Via: 실리콘 관통 비아)라는 것으로, 현재 파운드리 각 사와 독립 반도체 메이커가 실현을 앞두고 있다.



Volta의 독자적인 Stacked DRAM 구조

시제품 수준의 다양한 제품에 매우 한정된 용도로는 실사용도 되고 있는데, 현재 양산 수준에 이르지 않았고 또한 비용 면에서도 상당히 비쌀 것으로 예상되고 있다.

사실 가격은 계란과 닭의 관계에 있기 때문에, 어딘가가 양산에 들어 가지 않는 한 좀처럼 내리지 않는다. 반대로 말하면 누군가가 '얍'하고 시작하면 급격히 떨어질 가능성도 있는데, Volta가 독자적인 Stacked DRAM을 사용하는 전제로 개발이 진행되고 있는 관계로, 2014년은 어렵다고 볼 수 있다.

TSMC도 TSV의 실용화를 위한 개발을 진행하고 있지만 현재 TSV를 사용할 수 있는 시기를 명시하고 있지 않다. TSV 자체는 CoWoS(Chip on Wafer on Substrate)에서 사용할 수 있다고 발표하고 있지만, 이것은 위의 그림과 같이 여러 칩을 계속 쌓는 것이 아니고 하나의 칩과 실리콘으로 만들어진 보조 기판(Substrate) 사이만 TSV로 연결한다는 한정된 용도이기 때문이다.

TSMC는 학회 등에서 TSV의 실용화를 위한 다양한 연구 성과를 계속 발표하고 있지만, 아직 그 정도의 단계라는 의견도 있다. 2014년에 양산을 할 수 있는지 여부도 불투명하므로, 현실적으로는 2015년 이후가 될 것이다라는 것이 일반적인 견해다. 따라서 TSMC의 TSV 기술을 기반으로 하는 Volta의 Stacked DRAM의 등장시기도 2015년 이후가 될 것이다.

다행히 Maxwell의 경우 2014년에 제조 기술을 16nm FinFET로 개선 할 가능성이 높다. 16nm FinFET의 경우 배선층 자체는 20nm 공정의 것을 그대로 사용하여 트랜지스터만 FinFET로 대체하게 된다. 즉 회로 규모를 늘리면 다이 크기가 그대로 늘어나기 때문에 회로 밀도 자체는 변하지 않은 채, 동작 속도의 향상과 소비 전력의 감소를 기대할 수 있으므로 여기서 한층 더 성능을 개선 할 수 있다.

개인적으로는 앞서 언급 한 GM100 또는 GM110은 모르겠지만, GPGPU를 위한 다이는 20nm 세대를 건너 뛰고 16nm 공정 세대에 투입되는 것이 아닌가 하는 생각이 있다. 하지만 아쉽게도 이 부근은 아직 확실한 정보가 존재하지 않는다.

http://ascii.jp/elem/000/000/803/803929/

[ASCII.jp, Parkoz_prosh007님]


읽어 볼 만한 칼럼이네요.