OpenAI навчає чат GPT-4 за допомогою Youtube

OpenAI створила модель аудіотранскрипції Whisper та перевела в текст понад 1 мільйон годин відео з YouTube, щоб отримати високоякісні матеріали для навчання моделі GPT-4, повідомляє The New York Times.

Whisper – це інструмент розпізнавання мови, який може транскрибувати аудіо з Youtube-відео та в результаті отримувати текст.

Наприкінці 2021 року OpenAI зіткнулась з недостатньою кількістю навчальних даних. Компанія потребувала великого масиву даних для навчання своїх ШІ-інструментів, але вже вичерпала доступні матеріали.

Команда компанії знала, що розшифровка відео Youtube та використання отриманих текстів може суперечити правилам платформі відео-контенту, адже такі дії знаходяться в “сірій зоні” авторського права.

Однак співробітники OpenAI, в тому числі президент організації Грег Брокман, досягли узгодження стосовно того, що це є добросовісним використанням інтернет-ресурсів.

До цього компанія навчала свої моделі на даних комп’ютерного коду із Github, бази даних ходів у шахах і вмісту шкільних завдань із Quizlet.

Кожна з моделей OpenAI потребує унікальний набір даних, для того щоб конкурувати з іншими дослідниками штучного інтелекту.

OpenAI використовує загальнодоступні дані, а також такі партнерства, які надають доступ до непублічних даних.

Компанія наразі має на меті генерувати власні синтетичні дані.

Нагадаємо, OpenAI створила нейромережу, здатна генерувати реалістичні відео на основі тексту.

Total
0
Shares