OpenAI навчає чат GPT-4 за допомогою Youtube

OpenAI створила модель аудіотранскрипції Whisper та перевела в текст понад 1 мільйон годин відео з YouTube, щоб отримати високоякісні матеріали для навчання моделі GPT-4, повідомляє The New York Times.

Whisper – це інструмент розпізнавання мови, який може транскрибувати аудіо з Youtube-відео та в результаті отримувати текст.

Наприкінці 2021 року OpenAI зіткнулась з недостатньою кількістю навчальних даних. Компанія потребувала великого масиву даних для навчання своїх ШІ-інструментів, але вже вичерпала доступні матеріали.

Команда компанії знала, що розшифровка відео Youtube та використання отриманих текстів може суперечити правилам платформі відео-контенту, адже такі дії знаходяться в “сірій зоні” авторського права.

Однак співробітники OpenAI, в тому числі президент організації Грег Брокман, досягли узгодження стосовно того, що це є добросовісним використанням інтернет-ресурсів.

До цього компанія навчала свої моделі на даних комп’ютерного коду із Github, бази даних ходів у шахах і вмісту шкільних завдань із Quizlet.

Кожна з моделей OpenAI потребує унікальний набір даних, для того щоб конкурувати з іншими дослідниками штучного інтелекту.

OpenAI використовує загальнодоступні дані, а також такі партнерства, які надають доступ до непублічних даних.

Компанія наразі має на меті генерувати власні синтетичні дані.

Нагадаємо, OpenAI створила нейромережу, здатна генерувати реалістичні відео на основі тексту.

OpenAI навчає чат GPT-4 за допомогою Youtube

Схожі записи