클린랩 오픈

소식

홈페이지홈페이지 / 소식 / 클린랩 오픈

Oct 27, 2023

클린랩 오픈

레이블이 지정된 데이터는 지도 머신러닝 모델을 훈련하는 데 필수적이지만

레이블이 지정된 데이터는 지도형 기계 학습 모델을 교육하는 데 필수적이지만 데이터 주석자가 저지른 실수는 모델의 정확성에 영향을 미칠 수 있습니다. 보다 신뢰할 수 있는 합의 레이블을 설정하기 위해 주석 오류를 줄이기 위해 데이터 포인트당 여러 주석을 수집하는 것이 일반적이지만 이 접근 방식은 비용이 많이 들 수 있습니다. 최소한의 데이터 레이블 지정으로 ML 모델을 최적화하려면 레이블 지정이 필요한 새 데이터 또는 다시 확인해야 하는 현재 레이블을 결정하는 것이 중요합니다.

최근 발표된 능동 학습 방법인 ActiveLab은 이러한 의사 결정 프로세스를 돕기 위해 오픈 소스 도구로 제공되었습니다. ActiveLab은 제한된 주석 예산을 준수하면서 ML 모델의 최대 개선을 달성하기 위해 레이블링 또는 재레이블링이 필요한 데이터를 식별하는 데 도움을 줍니다. ActiveLab을 사용하여 생성된 훈련 데이터 세트는 고정된 수의 주석으로 작업할 때 다른 능동 학습 기술에 비해 우수한 ML 모델을 생성했습니다.

ActiveLab은 이전에 레이블이 지정된 데이터 포인트에 대한 추가 주석을 얻는 것이 더 유리한지 아니면 레이블이 지정되지 않은 풀에서 완전히 새로운 인스턴스에 레이블을 지정하는 것이 더 유리한지를 결정하는 중요한 질문을 다룹니다. 이 질문에 대한 응답은 현재 주석에 대한 신뢰도에 따라 달라집니다. 신뢰할 수 없는 주석자의 주석이 하나만 있거나 결과가 상충되는 두 개의 주석이 있는 경우 레이블 재지정을 통해 다른 의견을 얻는 것이 중요합니다. 이 프로세스는 레이블이 지정되지 않은 풀의 새 데이터 포인트에 레이블을 지정하는 것만으로는 레이블이 잘못 지정된 데이터로 모델을 교육할 때 발생하는 부정적인 결과를 해결할 수 없을 때 특히 중요합니다.

연구원들은 500개의 레이블이 지정된 예제로 구성된 초기 훈련 세트로 시작하여 여러 라운드에 대한 분류 모델을 훈련하고 각 반복 후 테스트 정확도를 표시했습니다. 100개의 예시에 대한 추가 주석이 각 라운드에서 수집되었으며, 이 500개 세트 또는 처음에 라벨이 지정되지 않은 1,500개의 예시로 구성된 별도의 풀에서 선택되었습니다. 다음에 어떤 데이터에 레이블을 지정/재지정할지 결정하기 위해 다양한 능동 학습 방법이 사용되었습니다. Random Selection은 레이블이 없는 데이터를 먼저 우선시하는 Good Random과 널리 사용되는 모델 기반 능동 학습 방법인 Entropy 및 Uncertainty와 비교되었습니다. ActiveLab도 사용되었습니다. 이는 모델 예측을 사용하여 예제가 지금까지 받은 주석 수와 동의 여부, 훈련된 주석에 비해 전반적으로 각 주석자가 얼마나 신뢰할 수 있는지를 고려하면서 각 예제에 대해 다른 레이블이 얼마나 유익한지를 추정합니다. 모델. 이 방법 개발에 관한 연구원의 논문에 자세히 설명된 대로 다른 모델 및 이미지 분류 데이터 세트에서도 유사한 결과가 발견되었습니다.

확인해 보세요종이그리고Github. 이 연구에 대한 모든 공로는 이 프로젝트의 연구원에게 돌아갑니다. 또한, 가입하는 것을 잊지 마세요15,000개가 넘는 ML SubReddit,디스코드 채널, 그리고이메일 뉴스레터에서는 최신 AI 연구 뉴스, 멋진 AI 프로젝트 등을 공유합니다.

Niharika는 Marktechpost의 기술 컨설팅 인턴입니다. 그녀는 학부 3학년이며 현재 Kharagpur에 있는 Indian Institute of Technology(IIT)에서 B.Tech 과정을 밟고 있습니다. 그녀는 기계 학습, 데이터 과학 및 AI에 깊은 관심을 갖고 있으며 이 분야의 최신 개발에 대한 열렬한 독자를 갖고 있는 매우 열정적인 개인입니다.

종이 Github. 15,000개가 넘는 ML SubReddit Discord 채널 이메일 뉴스레터