Специалисты MIT научили нейросеть угадывать рецепты пиццы
Результаты исследования, посвященного тому, как машинное обучение можно использовать для преобразования изображения блюда в пошаговую инструкцию по его приготовлению, ученые представили на портале arхiv.com, сообщает ZD Net. В качестве тренировочного блюда выбрали пиццу, поэтому проект назвали PizzaGAN, где вторая часть названия — аббревиатура алгоритма Generative Adversarial Network (генеративно-состязательная сеть). GAN используется для создания фотореалистичных изображений в мультипликации и кинематографе, а также в различных областях науки и промышленности.
Специалисты MIT применили алгоритм к кулинарной сфере, научив его распознавать начинку пиццы и анализировать основу. Как подчеркивают авторы проекта, принцип работы нейросетей заключается в способности вычленять различные составляющие изображения, анализировать их и изменять слои, создавая пошаговое руководство по приготовлению блюда.
«Модель способна разложить изображение на упорядоченную последовательность слоев, применяя модули удаления последовательно и в правильном порядке», — говорится в исследовании.
Набор данных для алгоритма на первом этапе включал примерно 5500 изображений в стиле клип-арта. Ученые объяснили, что выбор таких иллюстраций значительно сэкономил время обучения и даже улучшил результаты работы нейросети.
После того как PizzaGAN усвоил синтетические изображения, ему предоставили дополнительные 9213 фотографий пиццы, собранных в интернете. В результате набор данных пополнился 12 ингредиентами, включая руколу, бекон, брокколи, кукурузу, грибы и оливки.
И хотя нейросеть успешно справляется со своей задачей, наилучшие результаты она показывает на искусственных изображениях пиццы, отмечают специалисты MIT. По их мнению, проект PizzaGAN может пригодиться для других типов блюд, например бургеров, сэндвичей и салатов.