Семантическая декомпозиция медицинских данных
Большинство приложений для здоровья хранят информацию как файлы: PDF здесь, фото там, выписка в папке. Поиск — это пролистывание. Динамика — ручное сравнение. Health Vault выбрал другой путь — семантическую декомпозицию, разбор каждого документа на атомарные медицинские факты.
Ловушка документо-центричности
Традиционные медицинские записи делают документ главной сущностью. Вы загружаете анализ от марта 2023 и от сентября 2024. Чтобы сравнить глюкозу, открываете оба файла и читаете цифры вручную.
Модель быстро ломается: разные лаборатории называют один тест по-разному («Glucose», «GLU», «Глюкоза»), референсы отличаются, клинические находки в тексте заключений не видны поиску и аналитике.
Фактор-центрическая архитектура
Health Vault инвертирует иерархию. Главные сущности — медицинские факторы: биомаркеры, диагнозы, назначения, клинические наблюдения. У каждого есть стандартный код (LOINC, SNOMED CT), значение, дата и ссылка на исходный документ.
При загрузке PDF проходит pipeline: OCR → NLP-парсинг → нормализация → валидация → запись в продольный профиль. Документ остаётся доступным, но аналитика работает с факторами.
Зачем нужны стандартные коды
Без стандартизации «глюкоза» из Lab A и «GLU» из Lab B — две несвязанные строки. С кодом LOINC 2345-7 это один фактор на едином графике.
Извлечение клинических находок
Сложнее таблиц с цифрами — нарратив: «очаговые изменения щитовидной железы», «признаки жирового гепatoza». NLP извлекает их как находки SNOMED CT. Они участвуют в индексе здоровья и AI-отчётах.
Преимущества
Для пользователей: автоматические графики, индекс здоровья, биологический возраст, AI-отчёты.
Для врачей: структурированная сводка, безопасный обмен ссылкой, до 25% экономии времени на документации.
Ограничения
OCR зависит от качества фото. Нестандartные бланки требуют доработки моделей. Свободный текст распознаётся с меньшей уверенностью. Мы показываем confidence score и флаги для ручной проверки.
Заключение
Переход от документов к факторам превращает архив в аналитический актив — основу для трекинга биомаркеров, цифрового двойника и AI-отчётов.
Оригинал опубликован на Хабре