Державний архів передав 10 терабайтів даних для навчання вітчизняної ШІ-моделі «Сяйво» 

Державна архівна служба України вперше передала для тренування національної мовної моделі «Сяйво» обсяг даних розміром у 10 терабайтів, повідомило Міністерство цифрової трансформації України.

В Міністерстві пояснили, що більшість глобальних ШІ-помічників генерують відповіді англійською і перекладають ці тексти українською, часто втрачаючи контекст. Щоб «Сяйво» стало надійним джерелом інформації для людей і бізнесу, його тренують на українських даних. 

Для цього модель вивчатиме історичні джерела, рукописи, закони, судові рішення, медіаматеріали та словники. Масив інформації дорівнює 70 тисячам книжок. 

Крім Держархіву, свої матеріали надали вже понад 50 партнерів, серед яких медіа, університети, бібліотеки тощо. В міністерстві пообіцяли, що як тільки модель запрацює, вони оприлюднять повний перелік інституцій та людей, які допомогли створити національний український ШІ.

Нагадаємо, раніше Міністерство економіки України спільно із Державним архівом та іншими держустановами розпочало ініціативу зі створення бази україномовних рукописних даних. Проєкт покликаний навчити штучний інтелект точно розпізнавати складні рукописи, зокрема старі документи та медичні довідки. 

Total
0
Shares