Новости 

Статьи

Нейросети в AMV (часть 2)

Пятница, 23 Июнь 2023

Поскольку нейронные сети становятся популярными, вы можете захотеть использовать их в своих видео, чтобы создавать уникальные сцены, которые заставят зрителей усомниться в термине "оригинальность". Итак, эта статья поможет вам подумать, что вы можете сделать с нейронными сетями (технологии показаны от самых простых к самым сложным).

 


1. RunwayML


Описание

RunwayML — это сервис, который позволяет быстро и легко выполнять различные обработки изображений/видео. У него нет расширенного управления, но с этим очень легко работать.

Требования и Установка

Все, что вам нужно, это зарегистрироваться в сервисе, и он даст вам несколько кредитов в качестве бонуса за регистрацию, чтобы вы могли играть с программным обеспечением.

Эксперимент

#1: Gen-1

Позволяет копировать один стиль видео в другое видео.

#2: Gen-2

Позволяет создавать видео из текстового ввода. Результат весьма нестабилен.

#3. Удаление фона (автомаскирование)

Позволяет удалить фон со снимков. Достаточно хорошо работает для матирования мусора, плохо работает с темными, грязными снимками. Требуется Google Chrome.

Кроме того, вы можете выполнять отрисовку, интерполяцию кадров, расширение изображения и т. д. для различных типов экспериментов.

2. AnimeGAN


Превращает видео в аниме-стиль. Вы можете выбрать различные типы стилей: стиль Хаяо, стиль Синкай, стиль Диснея и т. д.

Все, что вам нужно, это загрузить репозиторий (https://github.com/TachibanaYoshino/AnimeGANv3, нажать «Код» -> «Загрузить Zip»), перейти к AnimeGANv3, запустить AnimeGANv3.exe и использовать его для преобразования видео в аниме.

 

3. Stable Diffusion

Требования

Прежде всего, начнем с совместимости. Как вы знаете, искусственный интеллект потребляет много энергии и требует высоких технологий (в частности, высокопроизводительных графических процессоров), которые, к сожалению, не каждый может себе позволить. Итак, чтобы обеспечить совместимость для всех, мы начнем с Google Colab.
Google Colab — область, содержащая высококачественные графические процессоры, на которых вы можете бесплатно запускать код. Единственным недостатком является то, что сервер может работать нестабильно и отключаться через некоторое время.
Чтобы использовать эту технологию, вам достаточно иметь учетную запись в службах Google.

Во-вторых, немного о Stable Diffusion. Это библиотека для создания изображений с открытым исходным кодом с использованием текстовых подсказок. Результат не так хорош, как другая альтернатива — Midjourney, но она совершенно бесплатна. Кроме того, можно настроить различные части изображения, чтобы сделать ваши подсказки более последовательными. Ее можно установить на свой компьютер, но мы перейдем к использованию этой технологии с Google Colab.

Стабильная диффузия начинается с шума и начинает генерировать изображение с использованием текстовых подсказок (информация, извлеченная из языковой модели, которая сообщает U-Net, как изменить изображение). Практически на каждом этапе модель добавляет детали, а шум удаляется. При различных шагах в скрытом пространстве то, что когда-то было шумом, становится все более и более похожим на изображение. После этого декодер преобразует то, что было шумом, в изображение в пространстве пикселей. [источник]

В-третьих, есть библиотека под названием Gradio. Он позволяет визуализировать консольные приложения в веб-приложения и можно поделиться ими.

Теперь, когда мы немного разобрались с теоретической частью, мы перейдем к практической части.

Установка

Взгляните на этот проект: https://github.com/TheLastBen/fast-stable-diffusion
Это Stable Diffusion с веб-интерфейсом с использованием Google Colab, который использует библиотеку Gradio для обмена ссылкой.
Другими словами, войдите в свою учетную запись и перейдите сюда: https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast_stable_diffusion_AUTOMATIC1111.ipynb
После загрузки запускаем все команды сверху вниз (для удобства можно нажать Runtime -> Run All)
После того, как Google завершит выполнение всех команд, вам будет представлена ссылка на сеанс градиента, который переходит в этот веб-интерфейс.


Эксперимент

Базовый Stable Diffusion позволяет создавать изображения из текстовых подсказок. Например, если вы напишете "Аниме, мальчик в очках в черном костюме в небе", он попытается создать изображение, подходящее для этого описания.


Отрицательная подсказка — это текстовая подсказка, которую вы не хотите видеть на изображении. Например, если написать «Аниме, мальчик в очках в черном костюме в небе»; в поле подсказки, а если вы напишете «облака» в поле отрицательной подсказки, то вы не увидите облаков на сгенерированном изображении.

Для Stable Diffusion было подготовлено много различных моделей, специализируещихся на каких-то стилях. Много разных моделей можно скачать на сайте https://civitai.com/. После скачивания поместите их в папку <папка с stable-diffusion-webui>/models/Stable-diffusion и перезапустите программу. Далее вы сможете выбрать эту модель вверху слева. Там же на сайте civitai.com для каждой модели можно найти примеры изображений и текстов, из которых они были получены. Там много моделей умеющих генерировать аниме. Например:
https://civitai.com/models/7240/meinamix
https://civitai.com/models/6755/cetus-mix
https://civitai.com/models/30240/toonyou
https://civitai.com/models/11866/meinapastel

и.т.д.

Режим Эксперта (от Turbo, сгенерирован через Dark Sushi Mix: https://civitai.com/models/24779/dark-sushi-mix-mix):

img2img 

Img2Img — это передовой метод, который создает новые изображения из входного изображения и соответствующей текстовой подсказки.

Выходное изображение сохраняет исходный цвет и композицию входного изображения.

Важно отметить, что входное изображение не обязательно должно быть сложным или визуально привлекательным.

Основное внимание следует уделить цвету и композиции, поскольку эти элементы будут перенесены в конечный результат.
Источник и дополнительную информацию можно найти здесь: https://www.greataiprompts.com/guide/how-to-use-img2img-in-stable-diffusion/?expand_article=1

Окрашивание

С помощью inpaint вы можете изменить любую часть изображения по своему усмотрению. Просто почистите ту часть, которую нужно изменить (или оставить), и опишите изменения, которые должны быть здесь. 


Эскиз

С помощью набросков вы можете нарисовать примерное представление о том, как должно выглядеть изображение, и ControlNet преобразует его в фактическое изображение.

 



Изменение размера

Вы можете шумоподавить & изменить размер, выполнить другую обработку изображения на вкладке «Дополнительно».

Вы также можете поиграть с ControlNet, который дает гораздо больше контроля над выводом, но вам нужно будет установить его локально или купить платную подписку Google Colab.

Для локальной установки Stable Diffusion выполните шаги здесь: https://github.com/AUTOMATIC1111/stable-diffusion-webui.

ControlNet

ControlNet — позволяет изменять часть изображения, обеспечивая согласованность между изображениями. Для установки обратитесь сюда: https://github.com/Mikubill/sd-webui-controlnet

Примеры: https://pikabu.ru/story/preobrazovanie_tantsa_realnogo_cheloveka_v_animatsiyu_s_ispolzovaniem_stable_diffusion_i_multicontrolnet_10135049

Гайд: https://journal.tinkoff.ru/controlnet/

Deforum

Deforum — это расширение для ControlNet, которое позволяет вам анимировать заданное изображение. Для установки обратитесь сюда: https://github.com/deforum-art/sd-webui-deforum

Пример:


Приложение

Существует библиотека Audiocraft, которая генерирует музыку на основе MusicGen. Вы можете попробовать описать музыку на свой вкус и получить результат который соответствует вашему описанию.

Repo: https://github.com/facebookresearch/audiocraft

Colab: https://github.com/camenduru/MusicGen-colab

Автор: okhostok Прочитали: 1640 раз
Вернуться назад

Комментарии (4)
Вы не авторизованы! Комментарии могут оставлять только зарегистрированные и авторизованные пользователи!

mwDeus   User profile
  13.07.2023 09:00
Нормалёчек. Новый кон с нейронками - да, надо адаптироваться.
ProSetup   User profile
  24.06.2023 21:40
Наверное, можно теперь с сюжетными клипами развернуться. По крайне мере мороки станет меньше: ни надо с нуля всё рисовать, ни маски точно накладывать.
Но даже так работы остаётся много, а значит мало кто вытянет.
Я продолжу ждать кнопку "Сделать красиво".
Disengager   User profile
  24.06.2023 10:12
Спасибо за гайд.
S.A. Robert   User profile
  23.06.2023 20:59
Хорошая подборка, но у меня лично от нейросетей глаза уже болят, везде эти дефолтные картинки, сразу палятся по качеству.

https://i.imgur.com/erwfZR8.jpg

 Случайная цитата