Оцифровка української спадщини

AI + Архіви

AI для українських архівів

Розпізнавання рукописних документів

Центральні державні архіви України зберігають мільйони відсканованих сторінок без текстового шару — такі документи неможливо повноцінно шукати й аналізувати. Проект передбачає розробку HWR-моделі, розгортання обчислювальної інфраструктури та створення відкритого пошукового контуру для роботи з рукописними джерелами. Цільовий результат — перетворення сканів у структурований текст і графову модель зв'язків між особами, подіями та документами.

  • 120K EUR
  • 8×GPU
  • HWR + Graph
Розподіл бюджету120 000 EUR
  • Суперкомп'ютер для HWR (8× Gaudi GPU)
    SuperMicro GP802F-H30X12 — 8×96GB Gaudi GPU, 24 SFF-бейсів
    28 000 EUR
  • Оперативна пам'ять DDR5 (512 GB)
    Micron DDR5 64GB 6400 ×8 модулів
    8 000 EUR
  • SSD-накопичувачі (48 TB)
    Samsung 990 Pro 4TB ×12
    6 000 EUR
  • HDD-сховище (80 TB)
    WD Ultrastar 20TB ×4
    1 800 EUR
  • Сканери для оцифрування
    IRISCan Desk 6 Pro ×2 (основний + резервний)
    400 EUR
  • Безперебійне живлення
    UPS Cover JR 20K + 40×9Ah акумуляторів
    5 000 EUR
  • Ноутбуки команди (4 особи)
    RTX 4060/4070 ×4 для розробки та тестування
    4 800 EUR
  • Розробка, інфраструктура та API
    Сайт, API, Claude API, хостинг, зарплати розробників
    66 000 EUR

HWR-модель

AI-модель для розпізнавання рукописних текстів часів Першої та Другої світових воєн — листи, накази, щоденники, метричні книги.

Реструктуризація документів

Повний цикл каталогізації — від сканування до структурованої бази з пошуком, тегами та перехресними посиланнями між документами.

Графова модель зв'язків

Пошук по особам, подіям та документам — графова база зв'язків, що дозволить дослідникам та нащадкам знайти своїх рідних серед мільйонів архівних сторінок.

Підтримати проєкт
Оцифровка української спадщини | На Варті Світла