기계 학습의 증가하는 전력 요구 억제

소식

홈페이지홈페이지 / 소식 / 기계 학습의 증가하는 전력 요구 억제

Sep 07, 2023

기계 학습의 증가하는 전력 요구 억제

대형 기계의 에너지 요구 사항에 대한 우려가 커지면서

에 의해

대규모 기계 학습 모델의 에너지 요구 사항에 대한 우려가 커지는 가운데, MIT Lincoln Laboratory와 Northeastern University의 최근 연구에서는 모델 훈련 및 추론에 사용되는 전력 제한 GPU를 비롯한 여러 다른 기술을 통해 절약할 수 있는 방법을 조사했습니다. AI 에너지 사용량을 줄이는 기술 및 방법.

새로운 연구에서는 또한 새로운 AI 논문이 '에너지 선언문'으로 결론을 내릴 것을 요구합니다(머신러닝 연구 분야의 논문에서 '윤리적 함의' 선언문에 대한 최근 추세와 유사).

이 작업의 주요 제안은 전력 제한(모델을 훈련하는 GPU에 사용 가능한 전력을 제한)이 특히 MLM(Masked Language Modeling)과 BERT 및 그 파생물과 같은 프레임워크에 대해 가치 있는 에너지 절약 이점을 제공한다는 것입니다.

전력 사용량 측면에서 기본 250W 설정(검은색 선)의 비율로 작동하는 세 가지 언어 모델링 네트워크. 전력 소비를 제한해도 훈련 효율성이나 정확도가 1:1로 제한되지 않으며 대규모로 눈에 띄는 전력 절감 효과를 제공합니다. 출처: https://arxiv.org/pdf/2205.09646.pdf

하이퍼스케일 데이터세트와 수십억 또는 수조 개의 매개변수가 포함된 새로운 모델로 인해 최근 몇 년간 주목을 받은 대규모 모델의 경우 훈련 시간과 에너지 사용량 간의 균형을 통해 유사한 절감 효과를 얻을 수 있습니다.

전력 제약 하에서 대규모로 더욱 강력한 NLP 모델을 훈련합니다. 150W 한도 하에서 평균 상대 시간은 파란색으로 표시되고, 150W에 대한 평균 상대 에너지 소비량은 주황색으로 표시됩니다.

이러한 대규모 배포의 경우 연구원들은 전력 사용률을 150W로 제한하면 기본 최대값인 250W에 비해 에너지 사용량이 평균 13.7% 감소하고 훈련 시간이 상대적으로 작은 6.8% 증가한다는 사실을 발견했습니다.

또한 연구원들은 지난 몇 년 동안 모델 훈련 비용이 증가했다는 헤드라인에도 불구하고 훈련된 모델을 실제로 사용하는 데 드는 에너지 비용이 훨씬 더 높다는 점에 주목합니다*.

'BERT를 사용한 언어 모델링의 경우 전력 상한을 통한 에너지 이득은 훈련보다 추론을 수행할 때 눈에 띄게 더 큽니다. 이것이 다른 AI 애플리케이션에도 일관된다면 연구 및 산업을 위한 추론 애플리케이션을 제공하는 대규모 또는 클라우드 컴퓨팅 플랫폼의 에너지 소비 측면에서 상당한 영향을 미칠 수 있습니다.'

또한 아마도 가장 논란의 여지가 있는 이 논문에서는 냉각 비용을 절약하기 위해 기계 학습 모델의 주요 교육을 연중 추운 달과 야간으로 이관할 것을 제안합니다.

위는 저자의 데이터 센터에 있는 2020년 매일의 PUE 통계로, 여름철에 눈에 띄고 지속적인 급증/고원이 나타났습니다. 아래에서는 내부 GPU 냉각 하드웨어와 주변 데이터 센터 냉각이 모두 작동 가능한 온도를 유지하기 위해 고군분투하면서 에너지 소비가 한낮으로 증가하면서 일주일 동안 동일한 위치에 대한 PUE의 시간당 평균 변화를 보여줍니다.

저자는 다음과 같이 말합니다.

'분명히 과도한 NLP 워크로드는 일반적으로 겨울에 실행되는 것보다 여름에 훨씬 덜 효율적입니다. 계절적 변화가 크다는 점을 감안할 때 계산상 비용이 많이 드는 실험을 더 시원한 달에 맞춰 수행하면 탄소 배출량을 크게 줄일 수 있습니다.'

또한 이 논문은 모델 아키텍처 및 작업 흐름의 가지치기 및 최적화를 통해 가능한 새로운 에너지 절약 가능성을 인정합니다. 하지만 저자는 이 방법에 대한 추가 개발을 다른 계획에 맡깁니다.

마지막으로, 저자는 기계 학습 분야의 새로운 과학 논문이 연구에서 수행된 작업의 에너지 사용량과 작업에서 제안된 이니셔티브 채택에 따른 잠재적 에너지 영향을 선언하는 성명으로 마무리하도록 권장하거나 제한할 것을 제안합니다. .

이 논문은 자체 연구의 에너지 영향을 예시로 설명합니다.