얼마나 개방적인가

소식

홈페이지홈페이지 / 소식 / 얼마나 개방적인가

Nov 01, 2023

얼마나 개방적인가

7월 11~12일에 샌프란시스코에서 최고 경영진과 함께 리더들이 어떤지 들어보세요.

7월 11~12일 샌프란시스코에서 최고 경영진과 함께 리더들이 성공을 위해 AI 투자를 통합하고 최적화하는 방법을 들어보세요. 더 알아보기

데이터 라벨링은 머신러닝의 가장 기본적인 측면 중 하나입니다. 이는 또한 조직이 데이터를 정확하게 분류하고 잠재적인 편견을 줄이는 데 어려움을 겪는 영역이기도 합니다.

데이터 라벨링 기술을 사용하면 기계 학습 모델을 훈련하는 데 사용되는 데이터 세트를 먼저 분석하고 데이터의 실제 내용에 대한 카테고리와 정의를 제공하는 라벨을 부여합니다. 데이터 라벨링은 기계 학습 프로세스의 중요한 구성 요소이지만 최근 여러 연구에 따르면 일관성이 매우 떨어지는 것으로 입증되었습니다. 정확한 데이터 라벨링에 대한 필요성으로 인해 데이터 라벨링 공급업체의 분주한 시장이 활성화되었습니다.

가장 인기 있는 데이터 라벨링 기술 중에는 샌프란시스코에 본사를 둔 스타트업 Heartex가 지원하는 오픈 소스 Label Studio가 있습니다. 오늘 출시되는 새로운 Label Studio 1.6 업데이트는 사용자에게 비디오 내의 데이터를 더 잘 분석하고 레이블을 지정하는 데 도움이 되는 새로운 기능을 제공합니다.

Heartex의 공동 창립자이자 CEO인 Michael Malyuk에 따르면, 인공 지능(AI)을 사용하는 대부분의 기업이 직면한 과제는 좋은 데이터를 확보하는 것입니다.

트랜스폼 2023

7월 11~12일 샌프란시스코에서 최고 경영진이 성공을 위해 AI 투자를 통합하고 최적화하고 일반적인 함정을 피한 방법을 공유합니다.

"우리는 라벨링을 데이터 세트 개발의 더 넓은 범주로 생각하며 Label Studio는 궁극적으로 모든 종류의 데이터 세트 개발을 수행할 수 있게 해주는 솔루션입니다."라고 Malyuk은 말했습니다.

Label Studio 1.6 릴리스에는 비디오 플레이어 기능이 주요 새로운 기능으로 포함되어 있지만 Malyuk은 이 기술이 텍스트, 오디오, 시계열 및 비디오를 포함한 모든 유형의 데이터에 유용하다고 강조했습니다.

모든 유형의 데이터에 대한 레이블 지정 접근 방식의 가장 큰 문제 중 하나는 실제로 데이터 레이블에 사용되는 범주를 정의하는 것입니다.

"어떤 사람들은 사물의 이름을 한 가지 방식으로 지정할 수 있고, 어떤 사람들은 사물의 이름을 다르게 지정할 수 있지만 본질적으로 같은 의미입니다."라고 Malyuk은 말했습니다.

그는 Label Studio가 사용자가 텍스트, 오디오 또는 이미지 파일 등의 데이터를 설명하기 위해 선택할 수 있는 레이블에 대한 분류법을 제공한다고 설명했습니다. 동일한 조직에 있는 두 명 이상의 사람이 동일한 데이터에 다르게 레이블을 지정하는 경우 Label Studio 시스템은 충돌을 식별하여 분석하고 해결할 수 있습니다. Label Studio는 수동 충돌 해결 시스템과 자동화된 접근 방식을 모두 제공합니다.

데이터 라벨링 프로세스에는 사람이 라벨을 지정하거나 라벨이 정확한지 확인하는 수동 작업이 포함될 수 있습니다.

프로세스를 자동화하는 데는 여러 가지 접근 방식이 있으며, 스타트업 Lightly AI는 Label Studio와 통합할 수 있는 자체 감독 기계 학습 모델을 사용하고 있습니다. 그런 다음 데이터 라벨링을 사용하여 데이터와 그 관계를 식별하는 대신 벡터 데이터베이스를 사용하여 데이터를 수학으로 변환하는 공급업체가 있습니다.

Malyuk은 벡터 데이터베이스가 용도가 있으며 유사성 검색과 같은 작업을 수행하는 데 효과적일 수 있다고 말했습니다. 그의 관점에서 문제는 벡터 접근 방식이 오디오 및 비디오와 같은 구조화되지 않은 데이터 유형에는 효과적이지 않다는 것입니다. 그는 벡터 데이터베이스가 공통 개체에 대한 식별 유형을 활용할 수 있다고 지적했습니다.

Malyuk은 "상식에서 조금 다른 것으로 벗어나기 시작하자마자 수동 라벨링 없이는 매우 복잡해질 것"이라고 말했습니다.

AI의 편견은 업계의 많은 사람들이 맞서 싸우기 위해 노력하고 있는 지속적인 과제입니다. 머신러닝의 근간에는 실제 데이터가 있으며, 데이터에 라벨을 붙이는 방식도 잠재적으로 편향으로 이어질 수 있습니다. 편견은 의도적일 수도 있고 상황에 따른 것일 수도 있습니다.

Malyuk은 "아침 커피를 마시기 전과 커피를 마신 후 다시 매우 주관적인 데이터 세트에 라벨을 붙이면 매우 다른 답변을 얻을 수 있습니다"라고 말했습니다.