# Аналіз продуктивності та точності DeepSeek-OCR-2 **Дата:** 28 січня 2026 **Тестовий файл:** `doc_for_testing/pdf12_un.pdf` (13 сторінок) **Середовище:** Apple M3 Max (CPU Inference, float32) --- ## 1. Аналіз точності (Accuracy) **Загальна оцінка:** 8/10 Модель демонструє високий рівень розуміння контексту тa структури документа, але має специфічні проблеми, характерні для Великих Мовних Моделей (LLM). ### ✅ Сильні сторони * **Глибоке розуміння контексту:** Модель чудово розрізняє секції документа ("Impression", "Plan", "Vitals"). Вихідний формат Markdown чистий і готовий до використання. * **Медична термінологія:** Специфічні терміни розпізнані майже бездоганно (напр., *Gastroesophageal reflux disease*, *Cholecystectomy*, *Tissue Transglutaminase*). * **Робота з таблицями:** Модель коректно перетворює візуальні таблиці у Markdown-таблиці, зберігаючи логічний зв'язок даних. * **Стійкість до шумів:** Добре справляється з різними шрифтами та форматуванням. ### ⚠️ Критичні проблеми (Слабкі сторони) * **Галюцинації у власних назвах (Hallucinations):** Це найсерйозніша проблема. Модель схильна "додумувати" назви брендів чи організацій, якщо текст нечіткий або логотип складний. * *Atrium Health* $\rightarrow$ розпізнано як **"Arthur Health"**. * *Carolina Imaging Services* $\rightarrow$ розпізнано як **"Carlos Alings Ingegvers"**. * **Дрібні помилки розпізнавання:** * *Post-menopausal* $\rightarrow$ **"Pilot-menopausal"**. * Дублювання відповідей у чек-лістах (напр., "No No" замість "No"). --- ## 2. Аналіз швидкості (Performance) **Загальна оцінка (CPU):** 6/10 Швидкість тестувалася на CPU через обмежену підтримку MPS (Metal Performance Shaders) для специфічних шарів MoE (Mixture of Experts) у поточній версії коду DeepSeek. * **Середній час на сторінку:** ~19-20 секунд. * *Найшвидша:* ~7.4 с (сторінки з малою кількістю тексту). * *Найповільніша:* ~29 с (насичені сторінки). * **Повний цикл (13 сторінок):** ~4.5 - 5 хвилин. **Висновок по швидкості:** На CPU модель придатна лише для фонової пакетної обробки (batch processing). Для інтерактивної роботи (real-time) швидкість є недостатньою. --- ## 3. Рекомендації ### Для покращення точності: 1. **Пост-обробка (Post-processing):** Впровадити словник-валідатор для критично важливих сутностей (Known Entities). Наприклад, автоматична заміна "Arthur Health" на "Atrium Health" на основі списку відомих клінік. 2. **Гібридний підхід:** Використовувати класичний OCR (наприклад, Tesseract або PaddleOCR) для витягування точних назв ("сирого тексту"), а DeepSeek-OCR-2 використовувати для структурування та розуміння семантики. ### Для покращення швидкості: 1. **GPU Інференс:** Перехід на NVIDIA GPU (CUDA) є обов'язковим для продакшн-середовища. Це дозволить прискорити обробку в 10-20 разів (до ~1-2 секунд на сторінку). 2. **Квантування (Quantization):** Розглянути можливість використання 4-bit або 8-bit квантування (GGUF/AWQ), якщо точність не постраждає критично. Це значно прискорить роботу навіть на CPU/Mac. ### Цільове використання: DeepSeek-OCR-2 ідеально підходить для **ETL-процесів** (Extract, Transform, Load), де потрібно перетворити неструктуровані PDF/Зображення у структуровані дані (JSON/Markdown) для подальшого аналізу. Вона менш придатна для задач, де потрібна 100% посимвольна точність без "творчості" (наприклад, розпізнавання кодів чи серійних номерів).