데이터 라벨링과 AI 혁명(2023)

블로그

홈페이지홈페이지 / 블로그 / 데이터 라벨링과 AI 혁명(2023)

Oct 30, 2023

데이터 라벨링과 AI 혁명(2023)

데이터 라벨링이란 무엇입니까? 기계 학습 알고리즘에 데이터 라벨링이 사용됩니다.

데이터 라벨링이란 무엇입니까?

데이터 라벨링은 기계 학습 알고리즘에 사용되어 개체를 올바르게 식별하고 이해합니다. 얼굴 인식, 자율 주행, 공중 드론, 로봇 공학 등은 모두 ML이 필수적인 것으로 입증된 영역입니다. 시각적(사진 및 영화), 청각 및 텍스트 데이터는 이제 데이터 수집 및 라벨링에 사용되는 기본 범주입니다. AI 시스템의 효율성을 결정하는 두 가지 주요 요소는 다음과 같습니다.

가장 간단한 형태의 데이터 라벨링은 다양한 자동차의 예를 제공하여 시스템이 차량을 인식하도록 교육하여 각 자동차의 공유 특성을 학습하고 라벨이 지정되지 않은 사진에서 자동차를 올바르게 식별할 수 있도록 합니다.

데이터 라벨링은 어떻게 작동하나요?

머신 러닝(ML)과 딥 러닝은 일반적으로 안정적인 학습 패턴을 위한 기반을 제공하기 위해 막대한 양의 데이터가 필요합니다. 의도한 결과를 얻으려면 훈련 시스템을 위해 수집한 데이터에 라벨을 붙여야 합니다.

결과 알고리즘을 신뢰할 수 있으려면 특징 인식에 사용되는 레이블은 설명적이고 식별 가능하며 고유해야 합니다. 레이블이 잘 지정된 데이터 세트는 ML 모델이 예측의 정확성을 확인하고 방법을 개선하는 데 활용할 수 있는 검증 가능성을 제공합니다.

정확성과 정밀도는 최고 수준의 알고리즘의 특징입니다. 정확한 데이터세트는 원본 데이터에서 특정 라벨을 직접 검색할 수 있는 데이터세트입니다. 데이터 과학에서 품질은 데이터 세트가 전반적으로 사실인 정도로 정의됩니다.

승리의 열쇠

패턴을 인식하거나 자율적으로 기능할 수 있는 시스템이나 기계에는 고품질의 풍부한 데이터 형태로 광범위한 교육이 필요합니다. Martell이 근무하는 CDAO는 국방부의 AI 및 데이터 분석 사용을 가속화하고 확대하기 위해 2021년 12월에 설립되었습니다. 공동AI센터, 국방디지털서비스, 아드바나, 최고데이터책임자(CDO) 직위를 수개월간 통합한 끝에 마침내 6월부터 사무실이 완전 가동되기 시작했다.

오랫동안 군대는 더 나은 판단을 더 신속하게 내리고 이전에는 접근할 수 없었던 영역을 군인, 선원 또는 인간이 감히 탐색할 수 없는 조사에 개방하기 위해 인공 지능에 관심을 가져왔습니다.

미국 회계감사원(GAO)의 연구에 따르면 2021년 초 현재 국방부는 685개 이상의 AI 프로젝트를 진행하고 있습니다. 이러한 프로그램 중 일부에는 중요한 군사 시스템이 포함되었습니다. 지난달 미 공군은 5년 9천만 달러 계약의 일환으로 유인-무인 팀 구성을 포함한 전술적 자율성에 대한 연구를 주도하기 위해 하워드 대학교를 선택했습니다.

데이터 중심 방법에는 단점이 있습니다. 특히, 팀에 현금이 부족하고 기존 데이터 세트를 사용하여 사람이 처리하는 라벨링을 완전히 피하려는 경우 모델 중심 전략이 유일한 선택입니다. 한편, 라벨링 옵션에는 두 가지가 있습니다. 내부에서 수행하는 것은 매우 비용이 많이 들고 시간이 많이 소요될 수 있으며, 아웃소싱하는 경우에는 때때로 도박이 될 수 있으며 일반적으로 비용이 많이 듭니다. 합성 라벨링은 ML을 위한 가짜 데이터를 생성하는 또 다른 접근 방식이지만 리소스 집약적이므로 많은 소규모 기업에서는 접근할 수 없습니다. 따라서 많은 그룹에서는 데이터 중심 전략이 필요한 노력을 들일 가치가 없다고 결론을 내리지만 실제로는 더 많은 정보를 얻을 필요가 있습니다.

데이터 중심 전략은 효과적이지만 데이터 작업에 노력을 기울이는 경우에만 가능합니다. 좋은 소식은 크라우드소싱 기술 덕분에 데이터 라벨링에 비용이 많이 들거나 몇 달이 걸릴 필요가 없다는 것입니다. 그러나 문제는 그러한 절차가 성공하기 위해 진화했다는 사실은 고사하고 더 많은 사람들이 이를 인식할 필요가 있다는 것입니다. 연구에 따르면 이러한 단점에도 불구하고 ML 실무자의 80% 이상이 사내 경로를 선택합니다. 그리고 최근 여론 조사에 따르면 이 의사들은 다른 의사들보다 ​​이 기술을 선호하기 때문에 이 기술을 활용하지 않는 것으로 나타났습니다. 그들은 더 나은 것을 모르기 때문에 그것을 사용합니다.