2020 Healthcare AI Datathon 참가 후기

2020.12.17

라인웍스는 지난 12월 11일부터 13일까지 싱가포르 국립대학(National University of Singapore)에서 주최한 SG Healthcare AI EXPO 2020에 중환자의학과 교수님들을 비롯하여 의료영상 딥러닝 전문가들 및 SQL 전문가들로 구성된 한국팀으로 참가하여 Top 10 finalists에 드는 성과를 거뒀습니다.

대회 소개

이번 대회는 국제대회 였고, 국가별로 팀을 구성하여 데이터와 주제를 정한 후 데이터톤에 임했습니다. 총 10개국에서 총 50개 팀이 참가하였으며 팀마다 참신한 주제와 기술을 접목하여 다양한 의료 문제에 도전했습니다.

이번 대회에서 흥미로웠던 점은 전자의무기록(Electronic Health Record, EHR) 데이터와 의료영상을 둘 다 사용할 수 있다는 점이었습니다. 대회에서 제시한 데이터를 간략히 소개하겠습니다.

  • EHR
    • MIMIC-IV: MIMIC-III보다 개선된 데이터구조와 새로운 데이터가 추가된 버전으로, Beth Israel Deaconess Medical Center의 2008년부터 2019년 까지 383,220명 환자의 중환자실 입원 69,619건
    • eICU-CRD: 미국내 여러 병원의 중환자실에서 수집한 데이터로, 2014년부터 2015년까지 입원한 입원 약 200,000건
  • 의료영상

도전한 문제

라인웍스는 47번 팀으로 참가하여 기계적 인공호흡 (Mechanical Ventilation, MV) 사용을 조기 예측하였습니다. 기계적 인공호흡은 환자의 호흡기능이 떨어져서 인위적으로 호흡 기능을 향상시키는 방법으로, 환자의 생명을 유지시키는데 매우 중요한 장비입니다(우리가 흔히 생각하는 인공호흡기로 생각하면 됩니다.). 어떤 환자에게 MV가 필요할 것인지 미리 파악한다면, 호흡 기능이 떨어지기 전에 미리 대비할 수 있을 뿐만 아니라 병원 차원에서 효율적으로 장비를 배정할 수 있습니다. 

아래 그림은 MV 조기 예측에 사용한 데이터 종류와 기간을 보여줍니다. 병원에 입원한 이후부터 MV 시작하기 24시간 전까지 EHR 데이터와 MV 시작하기 7일전부터 24시간 전까지의 흉부 X-ray를 훈련 데이터로 사용하였습니다. EHR 보다 흉부 X-ray를 사용한 기간이 짧은 이유는, MV 사용 시점에 가까운 데이터에 모델 학습에 도움이 되는 정보가 많을 것이라는 임상적 가정 때문입니다.

실험 방법과 성능

생체 신호, 혈액/요 검사, 신체 계측 등의 입원 중 변동을 잡아낼 수 있는 전처리를 하여 EHR 피처를 만들었고, 의료 영상을 256개 피처로 임베딩하여 EHR 피처와 합쳐서 사용했습니다. EHR만 단독으로 사용해도 AUROC 0.959 라는 높은 성능을 낼 수 있었고, 의료 영상과 함께 사용했을때 소폭 성능이 향상되는 것을 확인했습니다.

마치며

과거 데이터톤과 마찬가지로, 중환자의학과 교수님들께 MV를 사용하는 임상적 조건을 배울 수 있어서 좋았습니다. 무엇보다 Top 10 finalists에 드는 성과를 거두어 기뻤습니다. 내년에는 코로나 유행이 끝나서 오프라인으로 데이터톤이 열리길 바라면서, 라인웍스 3인의 참가 후기를 마지막으로 본 글을 마치겠습니다.

  • 박근우/SQL
    • 빠르게 내용을 파악하고 일을 정의하는 능력이 중요한 것임을 깨달았습니다. 새로운 팀에서 스스로의 능력을 확인할 수 있는 시간을 가진 것 같아 매우 유익했습니다.”
  • 송치오/머신러닝
    • 팀원들과 작업하며 의료 현장의 지식, 딥러닝 지식 등을 익히는데 많은 도움이 되었습니다. 또한 다른 참가팀의 작품 퀄리티도 높아 그들의 발표를 보는 것도 유익했습니다.”
  • 허신영/SQL, 머신러닝
    • 중환자실에서 실제로 필요한 니즈가 무엇인지 배우고, 개념 검증까지 만들어 볼수 있어서 재미있었습니다. 높은 성능이 나온만큼 의료현장에 적용할 수 있는 기회가 오면 좋겠습니다.”

Cinyoung Hur

Lead Data Engineer, Software Developer

Cinyoung Hur