banner

소식

Jul 30, 2023

eMERGE 네트워크에서 자연어 처리를 통한 계산 가능한 표현형의 이식성 평가

Scientific Reports 13권, 기사 번호: 1971(2023) 이 기사 인용

1055 액세스

6 알트메트릭

측정항목 세부정보

eMERGE(전자 의료 기록 및 유전체학) 네트워크는 전자 건강 기록(EHR)을 사용하여 기존 알고리즘의 성능을 향상시키기 위해 자연어 처리(NLP) 구성 요소를 추가한 휴대용 표현형 규칙 기반 알고리즘 배포의 타당성을 평가했습니다. eMERGE는 과학적 장점과 예측된 어려움을 바탕으로 NLP를 통해 강화할 6가지 기존 표현형을 선택했습니다. 성능, 휴대성 및 사용 편의성을 평가했습니다. 우리는 다음을 통해 얻은 교훈을 요약했습니다. (1) 과제; (2) 기존 증거 및/또는 eMERGE 경험을 기반으로 문제를 해결하기 위한 모범 사례; (3) 향후 연구 기회. NLP를 추가하면 하나의 알고리즘을 제외한 모든 알고리즘의 정밀도 및/또는 재현율이 향상되거나 동일해졌습니다. 이식성, 표현형 분석 작업 흐름/과정 및 기술이 주요 주제였습니다. NLP를 사용하면 개발 및 검증에 더 오랜 시간이 걸립니다. NLP 기술의 이식성 및 알고리즘 복제 가능성 외에도 성공을 보장하는 요소에는 개인 정보 보호, 기술 인프라 구축, 지적 재산권 계약 및 효율적인 커뮤니케이션이 포함됩니다. 워크플로 개선으로 의사소통이 향상되고 구현 시간이 단축됩니다. NLP 성능은 주로 임상 문서 이질성으로 인해 다양했습니다. 따라서 반구조화된 메모, 포괄적인 문서화 및 사용자 정의 옵션을 사용하는 것이 좋습니다. 향상된 표현형 알고리즘 성능을 통해 NLP 이식성이 가능하지만 로컬 사용자 정의를 지원하려면 알고리즘의 신중한 계획과 아키텍처가 필수적입니다.

대규모 전자 건강 기록(EHR) 데이터에서 완전하고 상세한 표현형 정보를 정확하게 추출하면 정밀 의학 연구의 효율성과 정확성이 향상됩니다. 그러나 구조화된 데이터만으로는 많은 조건을 완전히 식별하거나 설명하기에는 부족한 경우가 많습니다. 특히 일반적으로 속성에 대한 비용이 청구되지 않거나 미묘한 해석이 필요한 경우에는 더욱 그렇습니다1,2,3,4. 자연어 처리(NLP)와 기계 학습(ML)은 미묘한 EHR 서술5,6,7,8을 사용하여 심층적인 표현형 분석을 가능하게 할 것을 약속합니다.

MedLEE9, CLAMP10, cTAKES11 및 MetaMap12,13과 같은 정교한 NLP 파이프라인; 정규식(RegEx)과 논리를 결합한 더 간단한 규칙 기반 접근 방식입니다. 깊은 표현형 분석에 점점 더 활용되고 있습니다. 그러나 임상의가 사용하는 서로 다른 EHR 시스템과 이질적인 문서화 접근 방식을 고려할 때 광범위한 일반화 및 표현형 알고리즘 이식성을 달성하는 것은 어렵습니다15. 예를 들어, Sohn et al. 두 코호트 간의 천식 관련 임상 문서의 변화가 NLP 시스템 이식성에 어떻게 영향을 미치는지 보고했습니다16. 또한 문서 유형과 구조는 EHR마다 다르며 일부 사이트에는 다른 사이트보다 구조화되지 않은 데이터가 더 많습니다. 약어, 용어 및 기타 언어 사용도 현장, 임상의 및 시간에 따라 다릅니다. 예를 들어, Adekkanattu et al. 전문화된 심초음파 정보 추출 시스템17의 이식성을 평가하는 세 개의 다른 기관에서 다양한 개념을 문서화하는 데 사용되는 로컬 텍스트 형식과 어휘 용어의 이질성으로 인한 시스템 성능의 가변성을 보고했습니다.

생의학 NLP 커뮤니티는 텍스트의 의미론적 유사성 측정, 앙상블 NLP 시스템 배포, 포괄적인 용어 사전 사용, 텍스트를 FHIR(Fast Health Interoperability Resources) 및 관찰 의료 결과 파트너십(OMOP) 공통 데이터 모델(CDM)18. 특히, Liu et al.19는 NLP 시스템의 앙상블이 개별 시스템에 대한 일반적인 표현형 개념 인식과 환자별 표현형 개념 식별을 통해 이식성을 향상시킬 수 있음을 입증했습니다. 또한, Jiang et al. FHIR 표준을 활용하여 표현형 분석을 위한 구조화된 임상 데이터와 구조화되지 않은 임상 데이터를 모두 통합하는 확장 가능한 데이터 정규화 파이프라인을 개발했습니다. 마지막으로 Sharma et al. 표현형 개념을 추출하고 UMLS(Unified Medical Language System)를 사용하여 정규화하고 OMOP CDM21에 매핑하여 휴대용 NLP 시스템을 개발했습니다.

 2 h to run", in response to which the site extracted the Python code and deployed directly to the server with augmented memory and disk space. Filtering of notes was a prevalent performance related theme. Some NLP algorithms as deployed would process all clinical notes, which at some sites was not feasible because of the very large numbers of notes at those sites, which at least at 1 site, were over 1 million notes, even after filtering. To address this, sites applied filters either by pre-selecting patients for whom to process notes or narrowing down to the appropriate clinical note types to process. Pre-selection/filtering of patients was very broad, such as selecting all patients whom had any diagnosis code for, or related to, the given phenotype./p>

공유하다