새로운 연구에서는 화석 이미지 데이터 세트(415,000개 이상의 이미지)와 심층 컨볼루셔널 신경망을 기반으로 자동 분류학적 식별을 제안합니다.

소식

홈페이지홈페이지 / 소식 / 새로운 연구에서는 화석 이미지 데이터 세트(415,000개 이상의 이미지)와 심층 컨볼루셔널 신경망을 기반으로 자동 분류학적 식별을 제안합니다.

Nov 21, 2023

새로운 연구에서는 화석 이미지 데이터 세트(415,000개 이상의 이미지)와 심층 컨볼루셔널 신경망을 기반으로 자동 분류학적 식별을 제안합니다.

고생물학은 생명의 역사를 이해하는 데 도움이 되는 흥미로운 분야입니다.

고생물학은 고대 생명체와 그 진화를 연구함으로써 지구 생명체의 역사를 이해하는 데 도움이 되는 흥미로운 분야입니다. 그러나 고생물학 연구의 주요 과제 중 하나는 노동 집약적이고 시간이 많이 소요되는 분류학 식별 프로세스이며, 이를 위해서는 특정 분류학 그룹에 대한 광범위한 지식과 경험이 필요합니다. 더욱이, 식별 결과는 연구자와 커뮤니티 전체에서 더욱 일관되어야 하는 경우가 많습니다.

딥러닝 기술은 화석의 분류학적 식별을 지원하는 유망한 솔루션으로 부상했습니다. 이러한 맥락에서 중국 연구팀은 최근 분류학적 식별 정확도를 향상시키기 위한 딥러닝의 잠재력을 탐구하는 기사를 발표했습니다.

이 논문의 주요 기여는 웹 크롤러와 수동 큐레이션을 사용하여 대규모의 포괄적인 화석 이미지 데이터 세트(FID)를 생성하고 검증하는 것입니다. 데이터세트에는 무척추동물, 척추동물, 식물, 미세화석, 미량화석 등 50가지 다양한 화석 분류군의 415,339개 이미지가 포함되어 있습니다. CNN(Convolutional Neural Network)을 사용하여 화석 이미지를 분류하고 높은 분류 정확도를 달성하여 자동화된 화석 식별 및 분류에 대한 FID의 잠재력을 입증했습니다. 또한 저자는 향후 사용 및 개발을 위해 FID를 공개적으로 제공했습니다.

이 연구에서는 FID(화석 이미지 데이터베이스)에서 화석을 식별하고 분류하기 위해 ImageNet에서 훈련된 모델을 사용하여 전이 학습의 사용을 실험적으로 조사합니다. 저자는 네트워크 계층의 절반을 특징 추출기로 동결하고 나머지 계층을 훈련하는 것이 최고의 성능을 발휘한다는 것을 발견했습니다. 데이터 증가 및 드롭아웃은 과적합을 방지하는 효과적인 방법이었고, 빈번한 학습 속도 감소와 큰 훈련 배치 크기는 더 빠른 수렴과 높은 정확도에 기여했습니다. 또한 이 연구에서는 불균형 데이터가 알고리즘에 미치는 영향을 조사하고 불균형 학습을 위한 샘플링 방법을 사용했습니다. 데이터 세트의 품질은 정확한 식별을 위해 중요했으며, 미세화석은 고품질 이미지의 가용성으로 인해 좋은 성능을 보인 반면, 보존 상태가 좋지 않고 샘플이 거의 없는 특정 화석은 성능이 좋지 않았습니다. 저자는 또한 특정 계통의 클래스 내 형태학적 다양성이 식별 특성을 추출하는 데 있어 DCNN 아키텍처의 어려움으로 인해 식별 정확도를 저해한다는 사실도 발견했습니다.

Inception-ResNet-v2 아키텍처는 전이 학습을 사용할 때 테스트 데이터세트에서 평균 0.90의 정확도를 달성했습니다. 미세화석과 척추동물 화석은 각각 0.95와 0.90으로 식별 정확도가 가장 높았습니다. 그러나 데이터세트에 형태가 다양하거나 샘플이 거의 없는 해면동물, 선태동물, 미량화석 등의 분류군은 식별 정확도가 0.80 미만이었습니다.

결론적으로, 딥러닝 기술, 특히 전이 학습은 화석 분류학적 식별의 정확성과 효율성을 향상시키는 데 유망한 결과를 보여주었습니다. FID(화석 이미지 데이터베이스)와 같은 대규모의 포괄적인 화석 이미지 데이터세트를 생성하고 검증하는 것은 높은 식별 정확도를 달성하는 데 중요합니다. 대중이 사용하고 개발할 수 있다는 점은 고생물학 분야를 발전시키는 데 도움이 됩니다. 그러나 딥 러닝 모델의 정확성은 데이터 세트의 품질과 다양성에 따라 달라지며, 특정 분류군은 클래스 내 형태적 다양성 또는 열악한 보존으로 인해 문제가 발생합니다. 이러한 문제를 극복하고 고생물학 연구의 정확성과 효율성을 향상하려면 딥 러닝 기술과 대규모 화석 이미지 데이터 세트에 대한 추가 연구 개발이 필요합니다.

더욱이, 고생물학의 딥러닝 기술은 잠재적으로 분류학적 식별을 넘어 분야를 변화시킬 수 있습니다. 이러한 기술을 사용하면 화석 분할 및 재구성, 화석 데이터를 다른 유형의 데이터와 통합, 대규모 화석 데이터세트에서 패턴 및 이상 징후 감지 등 화석 데이터에서 더 많은 정보를 추출할 수 있습니다. 이는 지구 생명의 역사에 대한 우리의 이해를 넓히고 흥미로운 발견과 발전의 길을 열어줍니다.