Технологические компании, такие как OpenAI и Google, создающие чат-приложения, стремятся обеспечить, а иногда и оплачивать высококачественные источники данных для обучения своих моделей больших языков с искусственным интеллектом – например, заключая сделки, чтобы подключиться к постоянному потоку предложений, поступающих с форумов Reddit и новостных агентств.
Между тем, в долгосрочной перспективе новых блогов, новостных статей и комментариев в социальных сетях будет недостаточно для поддержания текущей траектории развития искусственного интеллекта, что вынудит компании использовать конфиденциальные данные, которые сейчас считаются частными, такие как электронные письма или текстовые сообщения.
Новое исследование, опубликованное в минувший четверг группой специалистов Epoch AI, предполагает, что технологические компании исчерпают запасы общедоступных обучающих данных для языковых моделей искусственного интеллекта примерно к концу десятилетия – где-то между 2026 и 2032 годами.
То есть, фактически, будут исчерпаны запасы письменности, созданные человеком.
Исследователи впервые сделали свои прогнозы два года назад — незадолго до дебюта ChatGPT — в рабочем документе, в котором прогнозируется более вероятное сокращение объема высококачественных текстовых данных в 2026 году.
С тех пор многое изменилось, в том числе появились новые методы, которые позволили исследователям искусственного интеллекта лучше использовать уже имеющиеся у них данные и иногда “переобучать” одни и те же источники по нескольку раз.
Но всему есть предел, и после дальнейших исследований Epoch теперь прогнозирует, что общедоступные текстовые данные закончатся в ближайшие два-восемь лет.
Соответствующие выводы должны быть представлены этим летом на Международной конференции по машинному обучению в Вене, Австрия.
Сам по себе Epoch – это некоммерческий институт, основанный компанией Rethink Priorities, базирующейся в Сан—Франциско, и финансируемый сторонниками эффективного альтруизма – филантропического движения, которое вкладывает деньги в снижение рисков, связанных с опасными проявлениями в работе искусственного интеллекта.
По мнению специалистов этого института, объем текстовых данных, передаваемых в языковые модели искусственного интеллекта, растет примерно в 2,5 раза в год, в то время как объем вычислений растет примерно в 4 раза в год.
Материнская компания Facebook Meta Platforms недавно заявила, что самая крупная версия их будущей модели Llama 3, которая еще не была выпущена, была обучена на 15 триллионах токенов, каждый из которых может представлять собой фрагмент слова.
Но вопрос о том, насколько сильно стоит беспокоиться из-за нехватки данных, остается спорным.
– Я думаю, важно помнить, что нам не обязательно обучать все более крупные модели, – считает Николас Паперно, доцент кафедры компьютерной инженерии в Университете Торонто и исследователь некоммерческого института искусственного интеллекта Vector Institute.
Николас Паперно, который не принимал участия в исследовании Epoch, уверен, что создание более квалифицированных систем искусственного интеллекта также может быть основано на моделях обучения, которые более специализированы для конкретных задач.
В то же время, у него имеются опасения по поводу обучения генеративных систем искусственного интеллекта тем же результатам, которые они производят, что приводит к снижению производительности, известному как “коллапс модели”.
Обучение на основе данных, сгенерированных искусственным интеллектом, “похоже на то, что происходит, когда вы копируете лист бумаги, а затем делаете ксерокопию с фотокопии. Вы теряете часть информации”, – поясняет Паперно.
Подобная ситуация может способствовать дальнейшему кодированию ошибок, предвзятости и несправедливости, которые уже присутствуют в информационной экосистеме.
Если реальные предложения, созданные человеком, остаются важным источником данных для искусственного интеллекта, то те, кто управляет наиболее востребованными ресурсами – такими сайтами, как Reddit и Википедия, а также новостными и книжными издательствами, – были вынуждены серьезно задуматься о том, как они используются.
– Возможно, вы не срубаете вершины с каждой горы, – шутит Селена Декельманн, директор по продуктам и технологиям Фонда Викимедиа, который управляет Википедией.
“Сейчас, когда мы обсуждаем природные ресурсы и данные, созданные человеком, возникает интересная проблема. Мне не следовало бы смеяться над этим, но я действительно нахожу это в некотором роде удивительным”.
В то время как некоторые пытались скрыть свои данные от обучения ИИ — часто после того, как они уже были получены без компенсации, — Википедия установила несколько ограничений на то, как компании, занимающиеся ИИ, используют свои записи, написанные добровольцами.
Тем ни менее, Селена Декельманн выразила надежду, что у людей по-прежнему будут стимулы продолжать вносить свой вклад, особенно в связи с тем, что поток дешевого и автоматически генерируемого “мусорного контента” начинает загрязнять Интернет.
– Компании, занимающиеся искусственным интеллектом, должны быть обеспокоены тем, как созданный человеком контент продолжает существовать и оставаться доступным, – предупреждает она.
С точки зрения разработчиков ИИ, в исследовании Epoch говорится, что платить миллионам людей за создание текста, который понадобится моделям ИИ, “вряд ли будет экономичным способом” повысить техническую производительность.
В то время как OpenAI начинает работу над обучением следующего поколения своих моделей GPT large language, генеральный директор Сэм Альтман сообщил аудитории на мероприятии Организации Объединенных Наций в прошлом месяце, что компания уже экспериментировала с “созданием большого количества синтетических данных” для обучения.
– Я думаю, что вам нужны данные высокого качества. Существуют синтетические данные низкого качества. Существуют данные о людях низкого качества, – пояснил Альтман.
Но он также выразил сомнения по поводу того, что синтетические данные слишком сильно зависят от других технических методов улучшения моделей искусственного интеллекта.
“Было бы очень странно, если бы лучшим способом обучения модели было просто сгенерировать квадриллион токенов синтетических данных и ввести их обратно”, – сказал Альтман. “Почему-то это кажется неэффективным”.
В действительности, на примерах работы нейросетей в ПС «Гугл» и «Яндекс», становится ясно, что главная уязвимость их ИИ состоит в том, что он не умеет отличать хорошее качество текста от плохого.
Можно побиться об заклад, что никакая ИИ не проявит необходимых способностей и при оценке стихов или великих романов.