# Аналіз продуктивності та точності DeepSeek-OCR-2

**Дата:** 28 січня 2026  
**Тестовий файл:** `doc_for_testing/pdf12_un.pdf` (13 сторінок)  
**Середовище:** Apple M3 Max (CPU Inference, float32)

---

## 1. Аналіз точності (Accuracy)

**Загальна оцінка:** 8/10

Модель демонструє високий рівень розуміння контексту тa структури документа, але має специфічні проблеми, характерні для Великих Мовних Моделей (LLM).

### ✅ Сильні сторони
*   **Глибоке розуміння контексту:** Модель чудово розрізняє секції документа ("Impression", "Plan", "Vitals"). Вихідний формат Markdown чистий і готовий до використання.
*   **Медична термінологія:** Специфічні терміни розпізнані майже бездоганно (напр., *Gastroesophageal reflux disease*, *Cholecystectomy*, *Tissue Transglutaminase*).
*   **Робота з таблицями:** Модель коректно перетворює візуальні таблиці у Markdown-таблиці, зберігаючи логічний зв'язок даних.
*   **Стійкість до шумів:** Добре справляється з різними шрифтами та форматуванням.

### ⚠️ Критичні проблеми (Слабкі сторони)
*   **Галюцинації у власних назвах (Hallucinations):** Це найсерйозніша проблема. Модель схильна "додумувати" назви брендів чи організацій, якщо текст нечіткий або логотип складний.
    *   *Atrium Health* $\rightarrow$ розпізнано як **"Arthur Health"**.
    *   *Carolina Imaging Services* $\rightarrow$ розпізнано як **"Carlos Alings Ingegvers"**.
*   **Дрібні помилки розпізнавання:**
    *   *Post-menopausal* $\rightarrow$ **"Pilot-menopausal"**.
    *   Дублювання відповідей у чек-лістах (напр., "No No" замість "No").

---

## 2. Аналіз швидкості (Performance)

**Загальна оцінка (CPU):** 6/10

Швидкість тестувалася на CPU через обмежену підтримку MPS (Metal Performance Shaders) для специфічних шарів MoE (Mixture of Experts) у поточній версії коду DeepSeek.

*   **Середній час на сторінку:** ~19-20 секунд.
    *   *Найшвидша:* ~7.4 с (сторінки з малою кількістю тексту).
    *   *Найповільніша:* ~29 с (насичені сторінки).
*   **Повний цикл (13 сторінок):** ~4.5 - 5 хвилин.

**Висновок по швидкості:** На CPU модель придатна лише для фонової пакетної обробки (batch processing). Для інтерактивної роботи (real-time) швидкість є недостатньою.

---

## 3. Рекомендації

### Для покращення точності:
1.  **Пост-обробка (Post-processing):** Впровадити словник-валідатор для критично важливих сутностей (Known Entities). Наприклад, автоматична заміна "Arthur Health" на "Atrium Health" на основі списку відомих клінік.
2.  **Гібридний підхід:** Використовувати класичний OCR (наприклад, Tesseract або PaddleOCR) для витягування точних назв ("сирого тексту"), а DeepSeek-OCR-2 використовувати для структурування та розуміння семантики.

### Для покращення швидкості:
1.  **GPU Інференс:** Перехід на NVIDIA GPU (CUDA) є обов'язковим для продакшн-середовища. Це дозволить прискорити обробку в 10-20 разів (до ~1-2 секунд на сторінку).
2.  **Квантування (Quantization):** Розглянути можливість використання 4-bit або 8-bit квантування (GGUF/AWQ), якщо точність не постраждає критично. Це значно прискорить роботу навіть на CPU/Mac.

### Цільове використання:
DeepSeek-OCR-2 ідеально підходить для **ETL-процесів** (Extract, Transform, Load), де потрібно перетворити неструктуровані PDF/Зображення у структуровані дані (JSON/Markdown) для подальшого аналізу. Вона менш придатна для задач, де потрібна 100% посимвольна точність без "творчості" (наприклад, розпізнавання кодів чи серійних номерів).