Натрапив на статтю у Вашингтон пост “Inside the secret list of websites that make AI like ChatGPT sound smart“. Переклад можна почитати тут.
Багато цікавого, зокрема, той факт, що ШІ “навчався” на прикладі пропагандистських сайтів з ОРДЛО та окупованого Криму. І головне – засіб для запитів, які саме домени входять до навчання відомих англомовних ШІ, так званих великих мовних моделей, зокрема T5 від Google і LLaMA від Facebook.
Але мова не про те. Вибірка сайтів, які слугували джерелом даних для навчання, відбувалася за непублічними критеріями і нас завжди у таких випадках очікують цікаві сюрпризи.
Ось, зокрема, розподіл кількості токенів, за якими навчалися ШІ, у розрізі запорізьких ЗВО:
– ЗНТУ – 1,7 К;
– ХНА – 1,1 К;
– ЗНУ – 400;
– ЗІЕІТ – 330;
– ЗДМУ – 0;
– ЗОІППО – 0;
– КПУ – 0.
Як бачимо на цьому прикладі, цілісної системи залучення вирахувати майже неможливо.
Але головний сюрприз мене особисто очікував, коли я перевірив токени сайту архіву наукових видань ДонНУ eccyb.org.
Тобто, на цей архів було використано більше токенів, ніж на всі запорізькі ЗВО разом узяті!
Є над чим подумати, скажімо так.
* на заставці використано візуалізацію абревіатури “ЗІЕІТ”, створену штучним інтелектом “Нічне кафе” у стилі неоімпресіонізму.