단일 세포의 희귀 세포 유형 주석을 위한 확장 가능한 희소 신경망 프레임워크

소식

홈페이지홈페이지 / 소식 / 단일 세포의 희귀 세포 유형 주석을 위한 확장 가능한 희소 신경망 프레임워크

May 03, 2023

단일 세포의 희귀 세포 유형 주석을 위한 확장 가능한 희소 신경망 프레임워크

커뮤니케이션 생물학 볼륨

커뮤니케이션 생물학 6권, 기사 번호: 545(2023) 이 기사 인용

1368 액세스

15 알트메트릭

측정항목 세부정보

자동 세포 유형 주석 방법은 빠르고 정확한 장점으로 인해 단일 세포 RNA 시퀀싱(scRNA-seq) 분석에 점점 더 많이 사용되고 있습니다. 그러나 현재 방법은 종종 scRNA-seq 데이터 세트의 불균형을 설명하지 못하고 더 작은 모집단의 정보를 무시하여 심각한 생물학적 분석 오류를 초래합니다. 여기서는 자동 주석 작업을 위한 적응형 가중치 샘플링 및 드롭아웃 기술을 통합한 통합 희소 신경망 프레임워크인 scBalance를 소개합니다. 다양한 규모와 불균형 정도를 지닌 20개의 scRNA-seq 데이터 세트를 사용하여 scBalance가 데이터 세트 내 및 데이터 세트 간 주석 작업 모두에서 현재 방법보다 성능이 우수하다는 것을 보여줍니다. 또한, scBalance는 기관지폐포 세포 환경에서 볼 수 있듯이 백만 수준의 데이터세트에서 희귀한 세포 유형을 식별하는 데 있어 인상적인 확장성을 보여줍니다. scBalance는 또한 일반적으로 사용되는 도구보다 훨씬 빠르고 사용자 친화적인 형식으로 제공되므로 Python 기반 플랫폼에서 scRNA-seq 분석을 위한 탁월한 도구입니다.

Tang et al.에 의해 단일 세포 RNA 서열 분석(scRNA-seq)이 처음 확립된 이후. 20091년에 이 기술은 다양한 생물학 연구 분야의 과학자들 사이에서 급속도로 인기를 얻었습니다. 샘플의 평균 유전자 발현 수준만 측정하는 전통적인 대량 RNA 시퀀싱과 비교할 때, scRNA-seq는 세포별 수준에서 전사체를 프로파일링하는 강력한 방법을 제공합니다. 따라서 개별 세포를 분석하고 세포 이질성에 대한 보다 유익한 통찰력을 제공할 수 있습니다. scRNA-seq 기술의 개발은 암 연구2,3, 코로나19 분석4,5, 발달 생물학 연구6 등 여러 생물학 연구 분야에서 널리 사용되었습니다. 이러한 연구에서 세포 집단을 발견하고 식별하는 것은 가장 중요한 것 중 하나입니다. 작업.

일반적으로 세포 유형 주석에는 (1) 세포를 서로 다른 하위 그룹으로 클러스터링하고 (2) 이전에 알려진 마커 유전자를 기반으로 수동으로 각 그룹을 특정 유형으로 라벨링하는 두 단계가 포함됩니다. Seurat7 및 Scanpy8과 같은 고전적인 기계 학습 기반 방법과 scDHA9 및 CLEAR10과 같은 새로 발표된 딥 러닝 기반 방법을 포함하여 다양한 비지도 기계 학습 알고리즘이 개발되었습니다. 그러나 이러한 방법은 시간이 많이 걸리고 부담스러울 수 있습니다. 마커 유전자에 대한 지식이 너무 많지 않은 사람들의 경우 이 접근 방식은 예상보다 훨씬 더 많은 시간이 소요될 수 있습니다. 대조적으로, 자동 셀 유형 주석 방법은 수동 라벨링 프로세스를 겪지 않습니다. 비지도 방법과 달리 자동 세포 유형 식별 도구는 주로 지도 학습 프레임워크를 기반으로 설계되었습니다. 빠르고 정확한 기능을 활용하여 단일 세포 실험에서 세포 유형을 식별하는 주요 도구가 되고 있습니다. 잘 주석이 달린 scRNA-seq 아틀라스의 전례 없는 붐과 Human Cell Atlas 프로젝트11,12의 급속한 홍보로 인해 자동 주석 도구는 그 어느 때보다 더 광범위한 전망에 직면해 있습니다. 현재까지 32개의 자동 주석 도구가 개발되어 게시되었습니다13. 예를 들어, SingleCellNet14는 Random-Forest 분류기를 활용하여 플랫폼 간 및 종 간 주석 작업을 해결합니다. ACTINN15는 배치 효과를 극복하기 위해 간단한 인공 신경망을 구현합니다.

최근 몇 년 동안 수많은 도구가 확립되었지만 대부분의 도구는 희귀한 세포 유형의 존재로 인해 전체 인구를 식별하지 못하는 경우가 많습니다. 세포 구성의 관점에서 볼 때, scRNA-seq 데이터 세트는 항상 불균형하며, 공통 세포 유형과 희귀 세포 유형이 있습니다. 희귀 모집단은 단일 세포 데이터 세트에서 작은 비율의 세포입니다. 예를 들어, 수지상 세포는 일반적으로 말초 혈액 단핵 세포(PBMC)의 1~5%를 차지하며, 특히 대규모 데이터 세트에서는 더욱 그렇습니다. 자동 주석 도구를 훈련할 때 분류자는 지속적으로 정보를 학습할 수 없으므로 쿼리 데이터 세트에서 이러한 셀 유형을 식별하기가 어렵습니다. 그러나 이러한 희귀 집단은 특히 질병 연구에서 매우 중요할 수 있습니다18. 최근 일부 클러스터 감지 방법에서 이 점을 발견했지만 세포 집단 불균형에 초점을 맞춘 분류 방법은 거의 없습니다. 한편, 우리는 또한 기존 방법에 두 가지 주요 결함이 있음을 발견했습니다. (1) 확장성이 부족합니다. 최근 scRNA-seq 실험 플랫폼을 통해 백만 수준의 세포를 조사할 수 있습니다21,22. 특히, 가장 최근의 코로나19 PBMC 아틀라스 중 하나는 150만 개의 세포에 도달했습니다17. 따라서 계산 속도 제한으로 인해 자동 주석 패키지는 백만 수준 데이터세트에 대해 확장성이 떨어집니다. 더욱이, 대규모 참조 데이터 세트는 분류기 훈련에서 희귀 세포 유형을 학습하는 데 더 많은 어려움을 추가하므로 현재 소프트웨어에서 소수 그룹을 식별하기가 더 어려워집니다. 가장 최근에 발표된 논문에서는 훈련 규모를 600K 셀로 높였지만 출판된 도구는 백만 수준 셀 아틀라스에 대한 확장성을 성공적으로 보고하지 않았습니다. (2) 기존 도구의 호환성이 기대만큼 좋지 않습니다. 기존 Python 기반 도구 중 ACTINN15, scPretrain24, scCapNet25, MarkerCount26 등 대부분의 도구는 스크립트 기반입니다. Seurat와 Scanpy는 모두 표준 소프트웨어 저장소(예: PyPI)에서 다운로드할 수 있는 패키지라는 점을 고려할 때 서버에서 외부 Python 스크립트를 실행하면 사용자에게 추가적인 부담이 추가됩니다. 또한 일부 도구는 더 이상 유지 관리되지 않거나 사용할 수 없습니다. 이러한 모든 과제는 확장 가능한 방식으로 주요 세포 유형과 소수 세포 유형에 레이블을 지정하는 균형 잡힌 기능을 갖춘 새로운 주석 도구가 필요하게 만듭니다.