ВЕРИФИКАЦИЯ И ДОСТУПНОСТЬ ДАННЫХ ДЛЯ ОБУЧЕНИЯ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В МЕДИЦИНЕ

Гильманов Руслан Азаматович1, Ахметов Ильнур Вазирович2
1Уфимский государственный нефтяной технический университет, магистрант
2Уфимский государственный нефтяной технический университет, канд. физ.-мат. наук, доцент

Аннотация
В рамках данной работы рассмотрены основные проблемы, возникающие при получении доступа к медицинским данным для их использования в обучении нейронной сети.

Ключевые слова: , , , , , , , , , ,


Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Гильманов Р.А., Ахметов И.В. Верификация и доступность данных для обучения моделей искусственного интеллекта в медицине // Современные научные исследования и инновации. 2025. № 3 [Электронный ресурс]. URL: https://web.snauka.ru/issues/2025/03/103113 (дата обращения: 02.05.2025).

Использование нейронных сетей в медицинской сфере начинает набирать обороты, в частности, для диагностики различных заболеваний. Однако получение данных для обучения модели сталкивается с рядом проблем. Одна из первых и главных проблем при использовании медицинских данных для обучения модели – это вопрос, как правомерно использовать эти данные с соблюдением всех законов и актов.

В настоящий момент персональные данные регулируются следующими законами:

1.    Федеральный закон №152 «О персональных данных».

2.    Федеральный закон №242 «О биомедицинских клеточных продуктах».

3.    Федеральный закон №317 «О внесении изменений в отдельные законодательные акты РФ в целях обеспечения биологической безопасности».

Для сбора и обработки данных в медицине используются следующие законы:

1.    Федеральный закон № 323-ФЗ “Об основе охраны здоровья граждан в Российской Федерации” (от 21.11.2011).

2.    Федеральный закон № 86-ФЗ “О внесении изменений в отдельные законодательные акты Российской Федерации в части применения информационных технологий в области охраны здоровья” (от 29.05.2019).

3.    Постановление Правительства РФ № 1119 (от 01.11.2012) — регламентирует меры защиты персональных данных, их хранение и обработку на всех уровнях.

4.    Приказ Минздрава РФ № 956н (от 28.12.2020) — утверждает требования к ведению медицинской документации в электронной форме.

5.    Постановление Правительства РФ № 687 (от 26.06.2021) — устанавливает правила для работы Единой государственной информационной системы в сфере здравоохранения (ЕГИСЗ), где хранятся значимые данные о пациентах.

6.    ГОСТР 59921.5-2021 Системы искусственного интеллекта в клинической медицине: Требования к структуре и порядку применения набора данных для обучения и тестирования алгоритмов. Данный стандарт описывает все этапы подготовки данных для их использования в искусственном интеллекте [3]. На рисунке 1 представлена полная схема.

Рисунок 1. Процесс подготовки набора данных для обучения и тестирования

При использовании любых данных необходимо соблюдать перечисленные выше законы и стандарты, что может вызывать следующие сложности:

  • Необходимость наличия информированного согласия у пациента для передачи данных не только для работы врача, но и для исследований.
  • Ограничение доступа к данным из-за угрозы утечки персональных данных или несанкционированного доступа.
  • Ограничение доступа для различных целей (данные могут быть использованы только определенным кругом лиц для определенных целей без исключений).
  • Нежелание передачи данных владельцами Медицинских Информационных Систем (МИС) даже в обезличенном виде. Стоит сделать важное уточнение, что даже после обезличивания данных всё равно остается вероятность идентифицировать человека по каким-либо признакам, так как не все данные можно успешно обезличить. Например, нельзя обезличить ДНК человека, т.к. у каждого человека оно уникальное [1].

Исходя из опыта последних проектов в этой сфере, большинство данных были получены не с помощью обезличивания данных из МИС с соблюдением законов, а с помощью использования служебного положения, наличия контактов с врачами с необходимыми доступами, из закрытых источников, либо из открытых недостоверных источников(утечек), что делает законное получение данных для обучения достаточно сложной задачей. По отзывам создателей этих проектов, многие МИС были готовы предоставить обезличенные данные, но боятся штрафных санкций от регулирующих органов из-за неоднозначности законов.

Помимо юридических аспектов, могут возникать и другие проблемы получения данных для обучения модели:

1.    Относительная цифровизация медицины: многие данные еще не переведены в цифровой вид или представлены в виде неструктурированной информации [2].

2.    Проблема стандартизации: использование разных классификаций, терминологий и кодировок, разных единиц измерения.

3.    Отсутствует общий универсальный стандарт передачи медицинских данных: данные из одной МИС могут быть не прочитаны в другой. Также это может привести к проблеме фрагментации, когда данные разбросаны между разными учреждениями, отделами и системами. Еще в 2011 году Министерством здравоохранения и социального развития Российской Федерации была разработана концепция создания единой государственной информационной системы в сфере здравоохранения (ЕГИСЗ). Говоря проще, это идея объединения всех локальных информационных систем больниц в единую базу. Ее реализации до сих пор препятствует слабое техническое оснащение многих государственных медицинских центров. В связи с этим вопрос защиты и хранения медицинских данных до сих пор решается отдельно в каждом лечебном учреждении.

4.    Проблема качества данных: данные для обучения модели могут быть неточными или неполными, например, рентген снимки могут быть низкого качества или с артефактами сканирования, что делает их негодными для обучения модели.

5.    Финансовые и ресурсные ограничения: в дальнейшем, при развитии проекта, потребуется дорогостоящая и сложная инфраструктура для сбора и хранения данных.

6.    Недостаток специалистов: для проверки модели потребуются опытные врачи с различными специализациями, что затратит много времени на верификацию модели.

7.    Отсутствие субъективности в размеченных данных: в случае, так как для разметки используются независимые эксперты, имеется шанс ошибки, потому что каждый человек мыслит субъективно. Также для найма специалистов, особенно в медицинской сфере, потребуется значительное количество денежных средств.

8.    Недостоверные источники: это сокрытие пациентами каких-либо фактов, наличия редких заболеваний, ошибочная постановка ложноположительного или ложноотрицательного диагноза.

Для решения всех перечисленных выше проблем необходимо провести работу в правовой базе для беспрепятственного использования обезличенных медицинских данных. В частности, стандарт ГОСТР 59921.5-2021 хорошо описывает структуру и порядок обработки этих данных, но никак не регламентирует их получение от медицинских источников. Также необходимо ускорить процесс цифровизации медицины в рамках программы ЕГИСЗ, чтобы все данные хранились в электронном виде и были в едином стандарте.


Библиографический список
  1. The Challenges of Regulating Artificial Intel ligence in Healthcare // URL: https://pmc.ncbi.nlm.nih.gov/articles/PMC10125205/#s4 (дата обращения 27.02.2025)
  2. Проблемы и перспективы внедрения искусственного интеллекта в медицине // URL: https://cyberleninka.ru/article/n/problemy-i-perspektivy-vnedreniya-iskusstvennogo-intellekta-v-meditsine/viewer (дата обращения 27.02.2025)
  3. ГОСТ Р 59921.5-2021 // URL: https://rst.gov.ru:8443/file-service/file/load/1682521238184 (дата обращения 27.02.2025)


Все статьи автора «Гильманов Руслан Азаматович»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться: