데이터 라벨링이란 무엇입니까?  (정의, 예)

소식

홈페이지홈페이지 / 소식 / 데이터 라벨링이란 무엇입니까? (정의, 예)

Oct 26, 2023

데이터 라벨링이란 무엇입니까? (정의, 예)

데이터 라벨링은 원시 데이터 항목을 식별하여 제공하는 관행을 말합니다.

데이터 라벨링은 기계 학습 모델이 해당 데이터를 사용할 수 있도록 원시 데이터 항목을 식별하여 의미를 부여하는 방식을 의미합니다. 원시 데이터가 동물 사진이라고 가정해 보겠습니다. 이 경우 새, 말, 토끼를 포함하여 모델에 대한 다양한 동물 모두에 라벨을 지정하고 싶을 것입니다. 적절한 레이블이 없으면 기계 학습 모델은 그림에 어떤 데이터 유형이 있는지 알 수 없습니다.

데이터 라벨링은 기계 학습 모델을 훈련하거나 사용하기 전에 필수적인 단계입니다. 이는 컴퓨터 비전, 자연어 처리(NLP), 이미지 및 음성 인식 등 다양한 응용 분야에 사용됩니다.

Sara A. Metwali의 추가 내용 데이터 검증이란 무엇입니까?

기계 학습 알고리즘에는 감독 및 비지도라는 두 가지 주요 범주가 있습니다.

지도형 기계 학습 알고리즘에서는 알고리즘에 레이블이 지정된 데이터를 제공하여 학습한 다음 학습한 내용을 새 데이터에 적용해야 합니다. 레이블이 지정된 데이터가 정확할수록 알고리즘 결과가 더 좋아집니다. 대부분의 경우 데이터 레이블 지정은 알고리즘이 학습할 레이블이 없는 데이터에 대해 몇 가지 결정을 내리는 사람(종종 "레이블러"라고 함)으로 시작됩니다.

알고리즘이 나무를 식별하기를 원한다고 가정해 보겠습니다. 모델을 학습시키기 위해 라벨러는 먼저 그림을 제시하고 이미지에 나무가 포함되어 있는지 여부를 나타내는 "true" 또는 "false"로 대답해야 합니다. 그런 다음 알고리즘은 이러한 결정을 사용하여 그림 패턴을 식별하고 나무가 무엇인지 학습한 다음 이를 사용하여 향후 이미지에 나무가 있는지 예측합니다.

좋은 기계 학습 모델을 개발하려면 데이터 라벨링이 필수적이므로 기업과 개발자는 이를 매우 심각하게 받아들입니다. 그러나 데이터 라벨링은 시간이 많이 걸릴 수 있으므로 일부 회사에서는 도구나 서비스를 사용하여 프로세스를 아웃소싱하거나 자동화할 수 있습니다.

데이터에 레이블을 지정하기 위해 다양한 접근 방식을 사용할 수 있습니다. 이러한 접근 방식 간의 결정은 데이터 크기, 프로젝트 범위 및 완료에 필요한 시간에 따라 달라집니다. 다양한 라벨링 방법을 분류하는 한 가지 방법은 사람이나 컴퓨터가 라벨링하는지 여부입니다. 인간이 라벨링을 수행하는 경우 세 가지 형태 중 하나를 취할 수 있습니다.

이 접근 방식은 데이터 레이블 지정 작업을 수행할 수 있는 전문 데이터 과학자가 많은 대기업에서 사용됩니다. 내부 라벨링은 외부 계약자나 공급업체에 데이터를 전송하지 않고 내부에서 수행되므로 아웃소싱보다 더 안전하고 정확합니다. 이 접근 방식은 아웃소싱 에이전트를 신뢰할 수 없는 경우 데이터가 유출되거나 오용되지 않도록 보호합니다.

이 옵션은 회사가 감당할 수 있는 것보다 더 많은 리소스가 필요한 대규모, 고급 프로젝트에 적합한 방법이 될 수 있습니다. 즉, 비용과 시간이 많이 소요될 수 있는 프리랜서 워크플로를 관리해야 합니다. 이러한 경우 회사는 작업을 제 시간에 완료하기 위해 동시에 작업할 여러 팀을 고용하기 때문입니다. 작업의 흐름과 품질을 유지하려면 모든 팀이 결과를 전달할 때 유사한 접근 방식을 사용해야 합니다. 그렇지 않으면 결과를 동일한 형식으로 표시하는 데 더 많은 노력이 필요합니다.

이 접근 방식에서는 회사나 개발자가 서비스를 사용하여 데이터에 신속하고 저렴한 비용으로 레이블을 지정합니다. 가장 유명한 크라우드소싱 플랫폼 중 하나는 기본적으로 CAPTCHA를 생성하고 사용자에게 데이터에 라벨을 지정하도록 요청하는 reCAPTCHA입니다. 그런 다음 프로그램은 여러 사용자의 결과를 비교하고 레이블이 지정된 데이터를 생성합니다.

그러나 라벨링을 자동화하고 컴퓨터를 사용하여 이를 수행하려면 두 가지 방법 중 하나를 사용할 수 있습니다.

이 접근 방식에서는 원본 데이터를 사용하여 합성 데이터를 생성하여 라벨링 프로세스의 품질을 향상시킵니다. 이 접근 방식은 프로그래밍 방식의 레이블 지정보다 더 나은 결과를 가져오지만 더 많은 데이터를 생성하려면 더 많은 성능이 필요하기 때문에 상당한 컴퓨팅 성능이 필요합니다. 이 접근 방식은 회사가 합리적인 시간 내에 엄청난 양의 데이터를 처리하고 생성할 수 있는 슈퍼컴퓨터나 컴퓨터에 액세스할 수 있는 경우 좋은 선택입니다.

컴퓨팅 성능을 절약하기 위해 이 접근 방식은 더 많은 데이터를 생성하는 대신 스크립트를 사용하여 레이블 지정 프로세스를 수행합니다. 그러나 프로그래밍 방식 라벨링에는 라벨링 품질을 보장하기 위해 사람의 주석이 필요한 경우가 많습니다.