AI-распознавание медицинских документов
Медицинские документы приходят в любом формате: PDF от современных лабораторий, сканы бумаги, фото на телефон, рукописные назначения. Ручной ввод — утомителен и ошибочен. Health Vault решает это с помощью AI-конвейера с точностью >90% на типовых бланках.
Pipeline распознавания
1. Классификация
Система определяет тип: лабораторный бланк, заключение УЗИ, выписка, рецепт. Разные модели для таблиц и повествовательного-текста.
2. OCR
Для изображений и сканов — распознавание текста. Поддержка многоколоночных таблиц, смешанного RU/EN, референсных диапазонов.
3. NLP
Из шумного OCR-текста извлекаются: названия тестов, значения, единицы, даты, находки из заключений. Маппинг на LOINC и SNOMED CT.
4. Валидация
Проверка правдоподобия (глюкоза 500 — вероятная ошибка OCR), нормализация единиц, дедупликация.
Поддерживаемые форматы
| Формат | Поддержка |
|---|---|
| PDF (цифровой) | Полная |
| PDF (скан) | OCR |
| JPEG/PNG | Полная |
| Рукопись | Частичная (зависит от разборчивости) |
Точность и ограничения
Хорошо работает: стандартные панели крупных лабораторий, цифровые PDF.
Сложнее: нестандartные бланки, плохие фото, рукопись.
Каждое значение имеет confidence score; низкая уверенность — флаг для проверки.
От распознавания к аналитике
Извлечённые биомаркеры автоматически попадают на графики, в индекс здоровья и расчёт биовозраста. Модуль Argus OCR достиг #1 на ProductRadar.
Конфиденциальность
TLS 1.3, AES-256, ФЗ-152, без передачи данных третьим сторонам для обучения.
Советы
- Фотографируйте документ ровно, при хорошем свете.
- Захватывайте всю страницу с датой.
- Предпочитайте PDF из личного кабинета лаборатории.
- Проверяйте помеченные значения.
Заключение
AI-распознавание снимает главный барьер трекинга здоровья — ручной ввод. Health Vault превращает фото и PDF в структурированные продольные данные.
Оригинал опубликован на Хабре