Семантическая декомпозиция медицинских данных

Большинство приложений для здоровья хранят информацию как файлы: PDF здесь, фото там, выписка в папке. Поиск — это пролистывание. Динамика — ручное сравнение. Health Vault выбрал другой путь — семантическую декомпозицию, разбор каждого документа на атомарные медицинские факты.

Ловушка документо-центричности

Традиционные медицинские записи делают документ главной сущностью. Вы загружаете анализ от марта 2023 и от сентября 2024. Чтобы сравнить глюкозу, открываете оба файла и читаете цифры вручную.

Модель быстро ломается: разные лаборатории называют один тест по-разному («Glucose», «GLU», «Глюкоза»), референсы отличаются, клинические находки в тексте заключений не видны поиску и аналитике.

Фактор-центрическая архитектура

Health Vault инвертирует иерархию. Главные сущности — медицинские факторы: биомаркеры, диагнозы, назначения, клинические наблюдения. У каждого есть стандартный код (LOINC, SNOMED CT), значение, дата и ссылка на исходный документ.

При загрузке PDF проходит pipeline: OCR → NLP-парсинг → нормализация → валидация → запись в продольный профиль. Документ остаётся доступным, но аналитика работает с факторами.

Зачем нужны стандартные коды

Без стандартизации «глюкоза» из Lab A и «GLU» из Lab B — две несвязанные строки. С кодом LOINC 2345-7 это один фактор на едином графике.

Извлечение клинических находок

Сложнее таблиц с цифрами — нарратив: «очаговые изменения щитовидной железы», «признаки жирового гепatoza». NLP извлекает их как находки SNOMED CT. Они участвуют в индексе здоровья и AI-отчётах.

Преимущества

Для пользователей: автоматические графики, индекс здоровья, биологический возраст, AI-отчёты.

Для врачей: структурированная сводка, безопасный обмен ссылкой, до 25% экономии времени на документации.

Ограничения

OCR зависит от качества фото. Нестандartные бланки требуют доработки моделей. Свободный текст распознаётся с меньшей уверенностью. Мы показываем confidence score и флаги для ручной проверки.

Заключение

Переход от документов к факторам превращает архив в аналитический актив — основу для трекинга биомаркеров, цифрового двойника и AI-отчётов.

Оригинал опубликован на Хабре

Семантическая декомпозиция медицинских данных ​

Ловушка документо-центричности ​

Фактор-центрическая архитектура ​

Зачем нужны стандартные коды ​

Извлечение клинических находок ​

Преимущества ​

Ограничения ​

Заключение ​