В Україні стартував масштабний проект зі створення першої національної мовної моделі штучного інтелекту — вперше за участі держави та бізнесу. Розробкою займаються Міністерство цифрової трансформації та телеком-оператор «Київстар», які мають намір залучити до проєкту сотні мільйонів українських текстів, серед яких художня література, офіційні документи й архівні матеріали.
Ідея полягає не лише у запуску ще однієї IT-ініціативи, а в побудові технології, яка зможе працювати з українською мовою на рівні світових стандартів. Проект вже привернув увагу не лише профільних фахівців, а й звичайних українців, адже в умовах війни та економічної невизначеності питання про доцільність таких витрат звучить особливо гостро.
Український ШІ: амбіції, виклики та команда
Міністерство цифрової трансформації не приховує, що створення національної LLM — це завдання із зірочкою для будь-якої країни. Для розробки потрібні не тільки мільйони доларів інвестицій, а й залучення команди мовознавців, аналітиків, DevOps-інженерів, етиків та фахівців з обробки даних.
Саме тому партнером держави стала компанія «Київстар», яка взяла на себе фінансування та забезпечення інфраструктури. Це перший подібний досвід для телеком-ринку України: оператор створює проєктний офіс, підбирає команду та гарантує обчислювальні ресурси для навчання майбутньої моделі.
Ключова особливість проєкту — фокус на використанні відкритих моделей штучного інтелекту (open-source LLM), які будуть донавчатися (fine-tune) на українських даних. Це дозволяє пришвидшити запуск і зменшити витрати, адже повне навчання моделі «з нуля» вимагає величезних потужностей, яких в Україні поки немає.
Яку модель оберуть для України
У світі лише обмежена кількість LLM-моделей мають відкритий код і здатні працювати на високому рівні. Відомі рішення від OpenAI чи Google не є open-source, тому для національного проєкту обирають одну з доступних архітектур із вільною ліцензією. Як пояснює керівник розробки у «Київстар» Михайло Нестор, остаточне рішення щодо моделі буде ухвалене після завершення досліджень та консультацій із технічними й галузевими експертами. Китайські моделі, за заявами Мінцифри, не розглядатимуться з міркувань безпеки та довіри.
Для чого Україні власна мовна модель
Українська LLM має стати не просто черговим інструментом для IT-ринку. Вона повинна посилити електронне врядування, освіту, медицину, а також забезпечити технологічну незалежність країни. Відсутність власної мовної моделі — це ризик залишитися залежними від зовнішніх сервісів, які не завжди коректно працюють з українською мовою та її нюансами.
Світова практика вже показує результати національних LLM. Наприклад, у Болгарії й Греції такі моделі використовуються для допомоги учням, у Швеції — для автоматизації держсектору. В Албанії працює віртуальний асистент для взаємодії з державними сервісами. Україна прагне не відставати від цих трендів.
Як «зробити» штучний інтелект українцем
Мовна модель буде навчатися на унікальному корпусі українських текстів. Мінцифра координує процес збору та підготовки даних, залучаючи бібліотеки, університети та наукові фонди. Особливу увагу приділять не лише сучасним текстам, а й історичним джерелам, регіональним діалектам, спеціальній термінології. Це має дати моделі реальне розуміння української мови з усіма її особливостями.
Збір даних здійснюється прозоро — виключно з відкритих джерел і з дотриманням етичних норм. Авторські тексти можна буде передавати для тренування на добровільних засадах. Міністерство обіцяє, що у модель не потраплятиме жодна персональна або чутлива інформація — всі дані очищаються й анонімізуються.
Роль Київстару та фінансування
Обраний партнер — «Київстар» — забезпечує повний цикл організації проекту: від створення команди до оренди необхідної інфраструктури. У компанії зазначають, що братися за проєкт під час війни логічно саме бізнесу, адже фінансування з держбюджету наразі обмежене. Оціночна вартість першого етапу — близько 2 млн доларів. Основні кошти спрямують на оплату праці й хмарні обчислювальні ресурси.
Водночас це вигідно й самому оператору. «Київстар» активно розширює свою присутність на ринку IT, укладає стратегічні угоди, готується до IPO та формує репутацію технологічного лідера. Участь у державному ШІ-проекті — це не лише імідж, а й інвестиція у власні продукти й конкурентоспроможність у майбутньому.
Що отримають держава, бізнес та користувачі
Першу версію української LLM планують представити вже через дев’ять місяців. Вона буде доступна для тестування державним, науковим і освітнім установам, а згодом — для відкритого використання всім охочим. Ключовий фокус — глибоке розуміння української мови, з урахуванням діалектів та професійних термінів.
- Для держави — це інтеграція LLM з сервісами на кшталт «Дії», автоматизація перекладів законодавства та підтримка євроінтеграційних процесів.
- Для бізнесу — можливість створювати власні ШІ-продукти, чат-боти й аналітичні системи з доступом до локального API чи локального розгортання.
- Для звичайних користувачів — сучасний асистент, що розуміє українську мову, культуру й особливості побуту.
За попередніми оцінками, модель буде мати від 1 до 16 млрд параметрів. Це середній сегмент, що дозволяє поєднати якість та оптимальне використання ресурсів. Відомо, що такі моделі легко адаптуються до конкретних завдань і мають високий рівень ефективності саме на українських даних.
Якою буде на практиці нова українська LLM, покаже лише час — проте вже зараз її запуск можна вважати важливою віхою на шляху до справжньої технологічної незалежності України.







