머신러닝 프로젝트에서 데이터가 여전히 가장 큰 과제로 남아 있는 이유

소식

홈페이지홈페이지 / 소식 / 머신러닝 프로젝트에서 데이터가 여전히 가장 큰 과제로 남아 있는 이유

Nov 04, 2023

머신러닝 프로젝트에서 데이터가 여전히 가장 큰 과제로 남아 있는 이유

7월 11~12일에 샌프란시스코에서 최고 경영진과 함께 리더들이 어떤지 들어보세요.

7월 11~12일 샌프란시스코에서 최고 경영진과 함께 리더들이 성공을 위해 AI 투자를 통합하고 최적화하는 방법을 들어보세요. 더 알아보기

품질 데이터는 기업 인공지능(AI) 성공의 핵심입니다. 따라서 이는 애플리케이션과 운영에 기계 학습(ML)을 적용하려는 기업의 주요 과제로 남아 있습니다.

Appen의 최신 AI 현황 보고서에 따르면 업계는 기업이 데이터 소싱 및 준비에 대한 장벽을 극복할 수 있도록 지원하는 데 있어 인상적인 발전을 이루었습니다. 그러나 조직 구조 및 회사 정책을 포함하여 다양한 수준에서 수행해야 할 작업이 여전히 많습니다.

엔터프라이즈 AI 수명주기는 데이터 소싱, 데이터 준비, 모델 테스트 및 배포, 모델 평가의 네 단계로 나눌 수 있습니다.

컴퓨팅 및 ML 도구의 발전은 다양한 ML 모델 교육 및 테스트와 같은 작업을 자동화하고 가속화하는 데 도움이 되었습니다. 클라우드 컴퓨팅 플랫폼을 사용하면 크기와 구조가 서로 다른 수십 가지 모델을 동시에 훈련하고 테스트할 수 있습니다. 그러나 기계 학습 모델의 수와 크기가 증가함에 따라 더 많은 교육 데이터가 필요합니다.

트랜스폼 2023

7월 11~12일 샌프란시스코에서 최고 경영진이 성공을 위해 AI 투자를 통합하고 최적화하고 일반적인 함정을 피한 방법을 공유합니다.

불행하게도 훈련 데이터를 얻고 주석을 달려면 여전히 상당한 수작업이 필요하며 대부분 애플리케이션에 따라 다릅니다. Appen의 보고서에 따르면 "특정 사용 사례에 대한 충분한 데이터 부족, 더 많은 양의 데이터가 필요한 새로운 기계 학습 기술 또는 팀이 필요한 데이터를 쉽고 효율적으로 얻을 수 있는 올바른 프로세스를 갖추고 있지 않습니다."

Appen의 최고 제품 책임자인 Sujatha Sagiraju는 VentureBeat에 "정확한 모델 성능을 위해서는 고품질 교육 데이터가 필요하며 대규모의 포괄적인 데이터 세트는 비용이 많이 듭니다."라고 말했습니다. "그러나 귀중한 AI 데이터는 프로젝트가 파일럿에서 프로덕션으로 진행될 가능성을 높일 수 있으므로 비용이 필요하다는 점에 유의하는 것이 중요합니다."

ML 팀은 사전 레이블이 지정된 데이터 세트로 시작할 수 있지만 결국에는 노력을 확장하기 위해 자체 사용자 지정 데이터를 수집하고 레이블을 지정해야 합니다. 적용 분야에 따라 라벨링 작업은 매우 비용이 많이 들고 노동 집약적일 수 있습니다.

많은 경우 기업은 충분한 데이터를 보유하고 있지만 품질 문제를 처리할 수 없습니다. 편향되거나, 라벨이 잘못 지정되거나, 일관성이 없거나 불완전한 데이터는 ML 모델의 품질을 저하시켜 결과적으로 AI 이니셔티브의 ROI에 해를 끼칩니다.

Sagiraju는 "잘못된 데이터로 ML 모델을 훈련하면 모델 예측이 부정확해집니다."라고 말했습니다. "AI가 실제 시나리오에서 잘 작동하도록 하려면 팀의 훈련 키트에 고품질 데이터 세트, 합성 데이터 및 인간 참여형 평가가 혼합되어 있어야 합니다."

Appen에 따르면 비즈니스 리더는 기술 직원보다 데이터 소싱 및 준비를 AI 이니셔티브의 주요 과제로 고려할 가능성이 훨씬 적습니다. Appen 보고서에 따르면 "AI 라이프사이클에 대한 데이터 구현에서 가장 큰 병목 현상을 이해하는 데 있어서 기술 전문가와 비즈니스 리더 사이에는 여전히 격차가 있습니다. 이로 인해 조직 내 우선 순위와 예산이 불일치하게 됩니다."라고 합니다.

Sagiraju는 "우리가 알고 있는 것은 AI 이니셔티브의 가장 큰 병목 현상 중 일부가 기술 자원과 경영진의 동의 부족에 있다는 것입니다."라고 말했습니다. "이러한 범주를 살펴보면 데이터 과학자, 머신러닝 엔지니어, 소프트웨어 개발자 및 임원이 서로 다른 영역에 분산되어 있다는 것을 알 수 있으므로 다양한 팀 간의 우선 순위 충돌로 인해 조정된 전략이 부족하다는 것을 상상하기 어렵지 않습니다. 조직 내에서요."

AI 이니셔티브에 참여하는 사람과 역할이 다양하기 때문에 이러한 조정을 달성하기가 어렵습니다. 데이터를 관리하는 개발자부터 현장 문제를 다루는 데이터 과학자, 전략적 비즈니스 결정을 내리는 임원까지 모두가 염두에 두고 있는 목표가 다르므로 우선순위와 예산도 다릅니다.