Нам нужно много данных для создания продвинутых и точных алгоритмов искусственного интеллекта. Для обучения ChatGPT было использовано около 300 миллиардов слов, в то время как ИИ для обработки изображений, такой как DALL-E, требует не менее 5,8 миллиардов изображений и текста.
Если алгоритм обучен на недостаточном количестве и качестве данных, он будет давать плохую интерпретацию. Вот почему они используют не сообщения и фотографии в социальных сетях, а тексты книг, онлайн-статей, научных статей и определенного отфильтрованного веб-контента.
Однако, согласно последним исследованиям, эти материалы скоро у нас закончатся, сообщает ScienceAlert. Исследование 2022 года предсказало, что у нас закончатся высококачественные текстовые данные до 2026 года, если нынешние методы обучения ИИ сохранятся.
Однако, по данным бухгалтерско-консалтинговой группы PwC, к 2030 году искусственный интеллект может принести мировой экономике 15,7 триллиона долларов. Однако нехватка полезных данных может замедлить разработку.
В то же время можно улучшить использование данных в существующих алгоритмах, и программы можно даже использовать для создания синтетических обучающих данных. Однако тенденции показывают, что компаниям, занимающимся искусственным интеллектом, скоро придется лезть в карман, если они хотят использовать данные других людей для обучения.