AI 시스템의 막대한 전력 수요로 인해 반도체 생태계의 지속 가능성이 주목받고 있습니다. 칩 산업은 보다 효율적이고 저전력 반도체를 생산할 수 있어야 합니다. 그러나 대용량 언어 모델의 확산과 처리해야 할 데이터의 양이 전반적으로 증가함에 따라 처리 속도 향상에 대한 요구가 높아지고 있습니다. Gartner는 2026년까지 조직의 50%가 지속 가능성 기반 모니터링을 채택하여 하이브리드 클라우드 환경의 에너지 소비 및 탄소 배출량 지표를 관리할 것으로 추정합니다. 회사에 따르면 2027년까지 데이터 센터의 40%가 전력 제한을 받을 가능성이 있다는 점을 고려하면 이는 필요합니다.
반도체는 올바르게 설계되면 지속 가능성에 도움이 될 수 있습니다. 최대 성능을 위해 설계된 AI/ML 칩의 경우에도 희소 알고리즘을 사용하여 계산을 더 빠르게 수행할 수 있다면 마찬가지입니다. 그 결과 에너지 소비량이 전반적으로 감소합니다. 이것이 바로 맞춤형 가속기가 작동하는 곳입니다. 이는 종종 함께 작동하는 범용 프로세서에 비해 상당한 개선을 제공할 수 있습니다.
AI의 성장하는 발자국
컴퓨팅은 어디에서나 이루어지고 있으며 모든 작업의 효율성이 향상되어야 합니다. 스마트 도시, 스마트 인프라, 스마트 교통은 스마트 기술 없이는 불가능하며, AI를 통해 이러한 기술이 점점 더 활성화되고 있습니다. AI가 더욱 확고해짐에 따라 반도체 생태계는 AI가 자원에 미치는 영향을 최소화하려고 노력하고 있습니다.
오늘날의 데이터 센터는 이미 엄청난 양의 전력을 소비하고 있습니다. 전 세계적으로 매년 460테라와트시(TWh)의 전기가 필요합니다. 이는 독일이 생산하는 전체 에너지량과 맞먹는다. 보스턴 컨설팅 그룹(Boston Consulting Group)에 따르면 미국의 데이터센터 전력 소비량은 2022년 미국 전체 전력 소비량(~130TWh)의 2.5%였으며, 2030년까지 3배인 7.5%(~390TWh)가 될 것으로 예상됩니다. 이는 미국 내 약 4천만 가구, 즉 미국 전체 가구의 거의 3분의 1에 해당하는 전력량입니다.
Arm 인프라 그룹의 하드웨어 에코시스템 이사인 임란 유수프(Imran Yusuf)는 "AI는 지난 세기에 창출된 모든 혁신적인 혁신을 능가할 잠재력을 가지고 있습니다."라고 말했습니다. "그러나 AI 컴퓨팅의 전력 수요는 상당하며, 기업이 AI 역량을 구축하려고 서두르면 자체 지속 가능성 목표를 초과할 위험이 있습니다. 미래의 AI 모델은 계속해서 더 크고 더 스마트해지면서 더 많은 컴퓨팅에 대한 필요성이 높아질 것입니다. 간단히 말해, 전력 수요와 AI 혁명의 필요성 사이의 균형을 맞추려면 대규모 데이터 센터와 AI의 전력 요구 사항을 줄이는 방법을 찾아야 합니다. AI 컴퓨팅 시스템."
다른 사람들도 동의합니다. Siemens EDA의 마케팅 이사인 Neil Hand는 "설계 효율성이 향상되는 것이 중요합니다."라고 말했습니다. "모든 알고리즘을 볼 수 있습니다. 효율성에는 순서가 있습니다. 전력 관점에서 가장 비효율적인 접근 방식은 범용 프로세서에서 원시 코드를 실행하고 작동하도록 하는 것입니다. 그리고 CPU 위에 마시멜로를 토스트하는 것입니다. 아주 따뜻해지려고."
NVIDIA Grace Blackwell GPU 기반 서버 랙에는 120kW가 필요합니다. 그러나 Ansys 이사인 Rich Goldman에 따르면 이전 세대보다 1000배 더 많은 성능을 발휘합니다. 이는 전력 단위당 계산량이 500배 더 많은 것과 같습니다. "CPU로 데이터 센터를 구축하고 많은 컴퓨팅을 수행하려는 경우 CPU를 최신 GPU로 교체하고 동일한 컴퓨팅 성능에 대해 전력을 낮출 수 있습니다. 우리는 여전히 엄청난 전력 문제를 안고 있을 것입니다. AI를 사용하면 더 많은 컴퓨팅 작업을 수행할 수 있기 때문에 도움이 될 것입니다."
Hand는 AI를 위해 특수 제작된 Grace Blackwell 유형의 특수 하드웨어를 개발의 다음 단계로 보고 있지만 여전히 범용 칩이기 때문에 훨씬 더 많은 일을 할 수 있다고 덧붙였습니다. 그는 광범위한 분류를 분류하고 작업할 수 있는 보다 효율적인 AI 칩을 구축하는 것이 가능하다고 말했습니다.
Hand는 "이것이 바로 NVIDIA가 하는 일이고 Google과 많은 클라우드 제공업체가 하는 일입니다"라고 말했습니다. "칩을 보다 효율적으로 생산하고 그에 따른 지속 가능성과 관련된 모든 것을 가능하게 하기 위해 우리가 할 수 있는 효율성 수준이 있습니다. 그런 다음 완전히 훈련된 AI 모델을 사용하는 새로운 기술로 한 단계 더 나아갈 수 있습니다. 이를 하드웨어로 변환하는 것이 가장 효율적일 것이며 전력의 일부만 사용하게 될 것입니다. 그러면 AI가 가속화됨에 따라 문제에 직면하게 됩니다. Intel과 Qualcomm의 모바일 CPU에 대한 최근 발표에서 이를 확인할 수 있으며 Apple은 몇 세대에 걸쳐 이를 수행해 왔습니다. 칩에 원하는 신경망이 무엇이든 상관없이 그 연속체가 있을 것입니다."
Quadric의 최고 마케팅 책임자인 Steve Roddy도 이에 동의했습니다. "AI/ML 모델의 폭발적인 증가를 주도하는 힘은 그 범위가 엄청납니다. 생성적 AI 물결은 개인과 기업의 업무 방식을 변화시키고 있으며 아마도 전 세계 수백만 개의 일자리에 영향을 미칠 수 있습니다. 반도체/EDA/IP 생태계는 합리적으로 곡선을 구부릴 수 없습니다. 매년 수천억 달러의 투자를 통해 추진되고 있는 대규모 AI 모델의 발전은 반도체 및 IP 산업이 GenAI 모델을 하루에 실행하는 데 소요되는 에너지 소비량을 근본적으로 줄이는 방법을 보여주는 데 도움이 될 수 있습니다. -오늘의 추론 사용."
GenAI 추론의 가장 큰 지속 가능성 과제는 모드를 저전력 소비 정수 양자화 형식으로 변환하는 것입니다. "GenAI 모델을 만드는 데이터 과학 팀은 부동 소수점 형식으로 게시한 참조 모델이 정수 형식으로 변환된 동일한 모델에 비해 추론당 에너지를 10배 소비한다는 사실을 인식하지 못하는 것 같습니다(32b 부동 소수점 곱셈 누산과 8배 누산 비교). x 8 또는 4 x 8 정수 MAC)"라고 Roddy는 말했습니다. "추론이 데이터 센터에서 발생하든 장치에서 발생하든 저전력 정수 형식으로의 변환을 통해 에너지 절감과 지속 가능성에 따른 이점이 상당합니다. 새로운 GenAI 모델을 만드는 데이터 과학자는 임베디드가 아닌 수학자이기 때문에 오늘날 이러한 격차가 존재합니다. 엔지니어들."
기술 발전
디자인 팀이 하드웨어로 전환할 시기라고 결정하면 AI 알고리즘이 매우 빠르게 발전하더라도 어느 정도 안정성이 있을 것이라고 Hand는 말했습니다. "우리가 TPU, NPU, XPU의 진화에 들어갔을 때와 약간 비슷합니다. 일반적으로 핵심 빌딩 블록이 더 정기적으로 변경되었기 때문에 한동안 실행 가능하지 않았습니다. 그러나 지난 몇 년 동안 이러한 핵심 기능은 이제 더 에너지 효율적인 하드웨어를 만들 수 있게 되었습니다. 상황이 안정화되기 시작하면 항상 새로운 하드웨어가 필요한 훨씬 더 강력한 알고리즘이 있을 것입니다. 데이터 센터는 막대한 에너지를 소비하기 때문에 항상 우리가 말하는 것보다 더 많이 사용하게 될 것입니다. 그러나 그것이 무엇을 상쇄합니까? 그것이 생산성 관점에서 볼 때 전체적인 질문입니다. 하지만 그 중 많은 부분은 복잡한 AI 칩이든, 어떤 종류의 칩이든 EDA 측면은 거의 동일합니다.
또 다른 고려 사항은 데이터 센터에 충분한 전력을 생성하는 방법입니다. 전력이 충분하지 않은 곳에 이러한 데이터 센터를 어떻게 배치합니까? 골드만은 "과잉 전력이 있는 곳에서 데이터 센터를 더 자주 보게 될 것이며, 전력이 과잉인 국가는 데이터 센터 허브가 될 것"이라고 말했다. "그들은 거기에 데이터 센터를 찾은 다음 그 전력에서 얻은 지식을 출력할 것입니다."
그것은 새롭고 참신한 힘의 원천을 동반할 것입니다. "우리는 개별 데이터 센터에 전력을 공급하는 미니 원자력 발전소에 대한 이야기를 들었습니다. 그리고 유정 위에 발전소를 설치하여 현재 공기 중으로 나가고 공기를 오염시키는 메탄을 태우고 전력을 생산할 수 있다는 이야기를 들었습니다. 골드만은 "데이터 센터를 운영하는 데 필요한 것"이라고 말했다. "우리는 이러한 데이터 센터에 전력을 공급하기 위해 이와 같은 새로운 것을 얻어야 합니다."
AI 지속 가능성 논의의 핵심은 데이터 센터 효율성입니다. 여기서는 데이터를 이동하는 데 필요한 전력과 해당 데이터가 실제로 이동해야 하는 거리 사이에 지속적인 갈등이 있습니다. "우리는 사람들이 칩렛으로 매우 큰 프로세서를 구축하는 것을 보고 있으며 그 중 일부는 버스를 통해 연결된 두 개의 칩으로 동일한 시스템을 구축할 수 있다는 것을 알고 있지만 그 사이에 데이터를 이동하는 데 많은 비용이 들기 때문입니다. "라고 Rambus의 동료이자 저명한 발명가인 Steven Woo는 설명했습니다. "더 많이 모을수록 데이터가 이동해야 하는 거리가 줄어들고 데이터를 이동하는 데 소비되는 전력이 줄어듭니다. 하지만 문제는 전력 밀도가 올라간다는 것입니다. 더 많은 전력을 공급해야 하고 더 많은 전력을 공급해야 합니다. 그럼, 줄다리기는 어떻게 하면 칩을 서로 멀리 두지 않음으로써 전력을 절약할 수 있습니까? 하지만 이제는 그 볼륨에 더 많은 전력을 공급해야 합니다. 이를 식혀야 합니다. 이것이 바로 시스템 수준 설계자가 직면하고 있는 줄다리기입니다."
데이터 센터 수준에서는 서버의 고급 냉각 기술 사용이 증가하고 있습니다. Woo는 "더 많은 사람들이 냉각판을 포함한 액체 냉각에 대해 이야기하고 있습니다."라고 말했습니다. "구글은 이런 일을 해왔고, 엔비디아는 그레이스 블랙웰을 위해 이에 대해 이야기해왔습니다. 그것은 오늘날 일부 슈퍼컴퓨터가 사용하는 기술이며, 외국의 기술도 아니고 새로운 기술도 아닙니다. 우리가 그것을 눈으로 보는 것은 시간문제일 뿐입니다. 가까운 미래에는 공냉식 시스템이 일부 있을 것입니다. 그러나 2단계 냉각 유형 시스템을 갖춘 일종의 펌핑 액체를 채택하는 시스템이 더 많아질 것입니다."
이 접근 방식의 마지막에는 침수 냉각이 있습니다. "이것은 조만간 실행 가능한 데이터 센터 서버 냉각 솔루션이 아닐 수도 있지만 파이프로 연결된 액체의 활주로가 부족해지면 그럴 수도 있습니다"라고 그는 덧붙였습니다. "액체 등으로 열을 관리할 수 있게 되면 칩이 통과하는 온도 범위를 제한할 수 있습니다. 즉, 열 순환을 하면 극한의 온도에 도달하지 않을 수 있다는 의미입니다. 좋습니다. , 그러면 이 더 큰 범위에 걸쳐 열팽창 및 수축이 없고 기타 신뢰성 관련 오류 중 일부가 약간 완화되기 때문입니다."
빅 데이터 분석은 데이터 센터 사용을 기반으로 칩 설계 추세를 파악함으로써 지속 가능성에도 중요한 역할을 합니다. Synopsys의 저명한 건축가인 Adam Cron은 "전체적인 힘의 흐름이 있습니다."라고 말했습니다. "문제는 다이 레벨에 있습니다. 그런 다음 보드, 랙, 팜이 있고 전송 라인으로 다시 돌아갑니다. 그리고 데이터 센터 관리자가 보고 싶어하는 것은 배를 너무 많이 흔들지 마세요. 여기에서 많은 것을 원한다면 저기로 내려가야 할 수도 있고, 그 반대일 수도 있기 때문입니다."
이상적으로는 모든 곳에서 전력이 감소합니다. 크론은 "데이터 센터는 전 세계 전력의 1~2%를 사용하고 있으며 이 모든 전력을 사용하기 위한 노력을 기울이고 있습니다"라고 말했습니다.
수율, 제조 가능성 링크
지속 가능한 반도체를 만들기 위한 노력과 수율 및 제조 가능성 사이에는 흥미로운 연관성이 있다고 Siemens의 Hand는 지적했습니다. "이 칩은 점점 커지고 있습니다. 따라서 수율은 더 큰 문제가 됩니다. 수율로 더 많은 작업을 수행할수록 지속 가능성이 향상됩니다. 죽은 다이는 자원 낭비이기 때문입니다. 좋은 다이는 항상 더 나은 것입니다. EDA 반도체 생태계에서는 수율을 높이기 위해 많은 작업을 하고 있습니다. 아이러니하게도 일부 상용 팹 솔루션은 더 나은 수율을 얻기 위해 AI를 사용합니다. AI의 지속 가능성 비용과 AI의 지속 가능성 기회 일반적으로 말하면 순 긍정적입니다. 그러나 원시 데이터를 찾기가 어렵기 때문에 이를 어떻게 측정할 수 있습니까? 이러한 모델을 훈련하는 데 비용이 많이 듭니다. 그렇다면 어떻게 통찰력을 측정할 수 있을까요? 자동화를 더욱 개선할 수 있는 기회가 있다고 생각합니다. 여기에 AI 기술을 활용할 수 있습니다. EDA가 EDA 작업을 수행하는 것일 뿐입니다."
열 분석 및 노화도 AI 데이터 센터 지속 가능성에 영향을 미칠 것입니다. 물론 이것은 AI에만 국한된 것은 아닙니다. 이는 모든 칩에 적용됩니다.”라고 Hand는 말했습니다. “다이 레벨, 하위 다이 레벨에서 열이 무엇인지 이해하기 시작하면 그 의미를 이해할 수 있습니다. 이제 3D 스택을 함께 배치하여 안정적으로 만들 수 있습니까? 그들의 소멸을 가속화하지 않을 만큼 충분한 전력 수준에서 이러한 것들을 실행할 수 있습니까? 이러한 기능을 통해 우리는 더욱 발전할 수 있습니다. 또한 디지털 트윈의 정의를 확장하고 여기에 포함된 내용을 확장하기 시작하면 시스템 수준의 영향을 확인할 수 있습니다. AI와 지속 가능성에만 국한된 것은 아니지만 현재 과도한 엔지니어링이 이루어지고 있기 때문에 효율성이 크게 향상되기 시작하는 곳입니다. 그 안에 얼마나 많은 폐기물이 들어있나요? 보다 일관된 제품 수준 및 문제 수준 설계를 시작하면 거기에도 이점이 있습니다. 특히 AI로 다시 가져와 진정한 다중 도메인 종합 디지털 트윈을 얻으려면 AI가 필요합니다. 왜냐하면 AI가 사용자를 위해 도메인 간 분석을 수행하고 대리 모델 추출 및 자동 충실도 적응을 수행하기 때문입니다. 그런 것들은 다 있을 거예요. AI가 더 많이 필요할수록 더 많은 AI를 사용하게 됩니다."
결론
지속 가능성은 새로운 주제는 아니지만 항상 향후 논의의 주제였습니다. 더 이상 그렇지 않습니다.
Arm의 Yusuf는 "하드웨어 및 소프트웨어 공급업체는 컴퓨팅 확장성과 지속 가능성이 현실과 충돌할 수 있다는 점을 수년 동안 이해해 왔지만 업계가 생태계 기능을 활용한다면 반드시 그럴 필요는 없습니다."라고 말했습니다. "예를 들어 AI/ML 사용 사례를 위한 효율적인 맞춤형 실리콘 솔루션을 지원하는 데 전념하는 반도체 산업 전반의 선도 기업 생태계인 Arm Total Design을 예로 들 수 있습니다. 따라서 파트너에게 Arm Neoverse Compute Subsystems에 대한 우선적인 액세스 권한을 제공합니다. (CSS), 사전 통합된 IP 및 EDA 도구, 설계 서비스, 파운드리 지원 및 상용 소프트웨어 지원은 또한 AI 시대가 공존해야 한다는 것을 이해하는 동시에 협업, 유연성 및 혁신을 촉진하는 새로운 사고 방식을 나타냅니다. 글로벌 지속가능성 목표를 가지고 있습니다."
달라진 점은 지속 가능성이 "있으면 좋은 것"에서 "꼭 있어야 하는 것"으로 바뀌었다는 것입니다. 인텔은 업계 리더의 관점에서 높은 환경 비용 없이 AI를 사용하기 위한 7가지 팁을 만들었습니다. 또한 인텔은 AI가 디자인에 구현되는 방식을 의도적으로 고려하는 것이 지속 가능성 목표를 달성하는 데 핵심이라고 믿습니다. 의도적으로 AI 이니셔티브를 실행하는 사람들은 최적화된 워크로드의 이점을 얻을 수 있으며(자세한 내용은 여기 참조), AI 이니셔티브의 영향을 극대화하고 탄소 배출량을 최소화하려면 프로젝트 설계 및 IT 관리에 대한 사전 예방적 접근 방식이 중요합니다(자세한 내용은 여기 참조). 사용 사례).
근본적으로 AI가 지속 가능성에 미치는 영향을 줄이는 것은 기술 자체에 달려 있습니다. Quadric의 Roddy는 반도체 생태계가 "정밀도가 낮은 데이터 형식 사용의 필요성에 대한 일반적인 인식을 높이고 수학과 임베디드 엔지니어 사이의 격차를 해소하기 위해 보다 자동화된 도구를 구축함으로써" 도움이 될 수 있다고 말했습니다.




