Автоматическое извлечение побочных реакций на лекарства из электронных медицинских карт

Электронные медицинские карты пациентов содержат важную информацию. Применение методов обработки естественного языка к этим записям может быть эффективным средством извлечения информации, которая может улучшить принятие клинических решений, клиническую документацию и выставление счетов, прогнозирование заболеваний и обнаружение побочных реакций на лекарства. Побочные реакции на лекарства – серьезная проблема для здоровья, которая приводит к повторной госпитализации и даже смерти тысяч пациентов. Система автоматического обнаружения может выделять указанные реакции в документе, обобщать их и автоматически сообщать о них.

В этом контексте университетская больница Басурто и больница Галдакао "были заинтересованы в создании системы, которая будет использовать методы обработки естественного языка для анализа медицинских карт пациентов с целью автоматического выявления любых побочных эффектов," объясняет инженер Сара Сантисо, которая также имеет докторскую степень.D. в области компьютерных наук. После того, как больницы связались с группой IXA в UPV / EHU, несколько исследователей начали работать над созданием надежной модели, с помощью которой можно было бы извлекать побочные реакции на лекарства из электронных медицинских карт, написанных на испанском языке, на основе анализа клинических текстов.

К этому концу, "Мы не только использовали методы, основанные на традиционных алгоритмах машинного обучения, мы также исследовали методы глубокого обучения и пришли к выводу, что они лучше способны обнаруживать побочные реакции," объясняет Сантисо, один из авторов исследования. Машинное обучение и глубокое обучение имитируют способ обучения человеческого мозга, хотя для этого используются разные типы алгоритмов.

Трудности с поиском корпуса на испанском языке

Сантисо подчеркивает трудности, с которыми столкнулась команда, пытаясь найти достаточно большой корпус для работы: "Сначала мы начали с нескольких медицинских карт, потому что их трудно получить из-за проблем с конфиденциальностью; вы должны подписать соглашения о конфиденциальности, чтобы работать с ними," она объясняет. Исследовательская группа обнаружила, что "наличие большего корпуса помогает системе более эффективно изучать содержащиеся в нем примеры, тем самым приводя к лучшим результатам."

Благодаря этому исследованию, которое проводилось с записями о состоянии здоровья на испанском языке, "мы вносим свой вклад в сокращение разрыва между интеллектуальным анализом клинических текстов на английском и другими языками, на который приходится менее 5% всех статей, опубликованных в этой области. Действительно, получение клинической информации еще не полностью развито из-за (среди прочего) возможности получения информации из других больниц и на других языках," утверждает исследователь.

Хотя обработка естественного языка оказала неоценимую помощь в компьютерном обнаружении побочных реакций на лекарства, все еще есть возможности для улучшения: "На сегодняшний день системы, как правило, сосредоточены на обнаружении пар «лекарство-заболевание», находящихся в одном предложении. Однако медицинские записи содержат неявную информацию, которая может выявить лежащие в основе взаимосвязи (например, информация о предшествующих событиях может иметь значение для определения причин неблагоприятного события). Другими словами, в будущих исследованиях следует стремиться выявить как явно, так и неявно указанные взаимосвязи между предложениями." Более того, еще одна проблема, которая должна стать предметом будущих исследований, – это отсутствие электронных медицинских карт на испанском языке.