- Развернуть нейросети для описания изображений с открытым исходным кодом. Необходим скрипт автоматизирующий разворачивание подобного интерфейса на личном компьютере/сервере без необходимости задействовать технического специалиста с возможностью регулирования настроек нейросети.
- Разработать интерфейс для взаимодействия с нейросетями. У интерфейса должен быть единый формат ввода изображения и вывода описания независимо от используемой нейросети.
Примеры нейросетей для описания изображений с открытым исходным кодом:
1. CLIP (Contrastive Language–Image Pretraining)
CLIP - это модель от OpenAI, которая обучена связывать изображения и текст. Она может использоваться для создания описаний изображений и для других задач компьютерного зрения.
Репозиторий: OpenAI CLIP GitHub
2. VGG Image Annotator (VIA)
VIA - это инструмент для аннотации изображений и видео, который также поддерживает создание описаний для изображений.
Репозиторий: VIA GitHub
3. Show, Attend and Tell (Attention-based Image Captioning)
Это нейросеть, использующая механизмы внимания для генерации описаний изображений. Она была разработана исследователями из Google.
Репозиторий: Show, Attend and Tell GitHub
4. DenseCap (Dense Captioning)
DenseCap - это модель, которая способна генерировать описания для нескольких регионов в изображении.
Репозиторий: DenseCap GitHub
5. Image Captioning by Microsoft Research
Эта модель была разработана командой Microsoft Research и использует CNN и RNN для создания описаний изображений.
Репозиторий: Image Captioning GitHub
6. NeuralTalk2
NeuralTalk2 - это проект, который использует архитектуру LSTM для генерации описаний изображений.
Репозиторий: NeuralTalk2 GitHub
7. AttnGAN (Attention Generative Adversarial Network)
AttnGAN - это модель, которая использует GAN и механизмы внимания для генерации текстов на основе изображений.
Репозиторий: AttnGAN GitHub
Эти модели и инструменты являются свободно доступными и могут быть использованы для различных задач по описанию изображений. Вы можете скачать их с указанных репозиториев GitHub и настроить под свои нужды.
лучить описание заданного изображения. Язык описания может быть английским.
ссылка на ТЗ
https://docs.google.com/document/d/1aweqsbEQpEj6O1...