Skip to content

AI-распознавание медицинских документов

Медицинские документы приходят в любом формате: PDF от современных лабораторий, сканы бумаги, фото на телефон, рукописные назначения. Ручной ввод — утомителен и ошибочен. Health Vault решает это с помощью AI-конвейера с точностью >90% на типовых бланках.

Pipeline распознавания

1. Классификация

Система определяет тип: лабораторный бланк, заключение УЗИ, выписка, рецепт. Разные модели для таблиц и повествовательного-текста.

2. OCR

Для изображений и сканов — распознавание текста. Поддержка многоколоночных таблиц, смешанного RU/EN, референсных диапазонов.

3. NLP

Из шумного OCR-текста извлекаются: названия тестов, значения, единицы, даты, находки из заключений. Маппинг на LOINC и SNOMED CT.

4. Валидация

Проверка правдоподобия (глюкоза 500 — вероятная ошибка OCR), нормализация единиц, дедупликация.

Поддерживаемые форматы

ФорматПоддержка
PDF (цифровой)Полная
PDF (скан)OCR
JPEG/PNGПолная
РукописьЧастичная (зависит от разборчивости)

Точность и ограничения

Хорошо работает: стандартные панели крупных лабораторий, цифровые PDF.

Сложнее: нестандartные бланки, плохие фото, рукопись.

Каждое значение имеет confidence score; низкая уверенность — флаг для проверки.

От распознавания к аналитике

Извлечённые биомаркеры автоматически попадают на графики, в индекс здоровья и расчёт биовозраста. Модуль Argus OCR достиг #1 на ProductRadar.

Конфиденциальность

TLS 1.3, AES-256, ФЗ-152, без передачи данных третьим сторонам для обучения.

Советы

  1. Фотографируйте документ ровно, при хорошем свете.
  2. Захватывайте всю страницу с датой.
  3. Предпочитайте PDF из личного кабинета лаборатории.
  4. Проверяйте помеченные значения.

Заключение

AI-распознавание снимает главный барьер трекинга здоровья — ручной ввод. Health Vault превращает фото и PDF в структурированные продольные данные.


Оригинал опубликован на Хабре

Vert Neo Limited — developer Health Vault