13 Nov 2023

AI SERVICES

За останні декілька років відбулась без перебільшення революція в сфері штучного інтелекту. Я її майже повністю пропустив і присвятив два місяці літом, щоб розібратись в темі, а також був підписаний на тематичні канали, ось мої нотатки.

Додатковою причиною появи цієї статті також стало те, що я, слідуючи всезагальному тренду, вирішив створити music video використовуючи АІ і хотілось поділитись досвідом.

Перші кроки
Довго збирався з думками спробувати якісь AI-сервіси. Те що бачив в інтернеті - виглядає круто, але коли пробував щось сам - виходила повна фігня. Здавалось що я дуже відстав від теми і треба багато знати, щоб генерувати годноту... Навіть мем придумав.

Також першими сервісами, що я пробував, були DALL-E та Distropic. Там генерувалась неюзабельна фігня і я вважав, що подібне скрізь.

Думав аби створити класний результат – треба шарити в промптах, аргументах, стилях. Тож став активно гуглити, дивитись YouTube і потроху пробувати різне. Це була помилка, потрібно було просто починати з Мідджорні та й все. Без ніяких знань там відразу класний результат.

Andreas Achenbach's painting depicting moon --ar 16:9

Зображення

midjourney.com

Найдоступніша нейронка (в тому сенсі що найлегше почати), але платна, безкоштовного плану вже нема (принаймні для Українців), $10/міс. Працює через Діскорд, віднедавна можна працювати і через веб-інтерфейс.

🆕 Днями вийшла 6-та версія, потрібно заново розбиратись як робити промпти, бо стала складнішою і чутливішою до деталей. Також тепер можна генерувати текст! (🔥 для створення логотипів). Макс. розширення збільшилось до 2048 × 2048, може створювати 3д моделі та покращена генерація рук.

Тут можна побачити більше зображень, що підривають мозок: midjourney.com/explore, а головне - побачити який промт був використаний, щоб їх створити.

midlibrary.io - ось тут є каталог стилів та інструкція, що потрібно написати, щоб їх використати для генерації.

aituts.com/midjourney-camera-prompts - cписок підказок освітлення та камери.

lexica.art/ - можна переглянути велику галерею та дізнатись промт, Stable Diffusion.

Список оптичних ефектів. Prompt:

photo of a woman, [OPTICAL PHENOMENA] --style raw --v 6 --ar 2:3

Також тут є стайлінг за допомогою певних кодів, які додаєш у промпт. midjourney.com/docs/style-tuner

Інші нейронки
Dall-E

більше

Я її не зрозумів, у мене завжди дивні результати, але саме вона згенерувала нам обкладинку для останньої пісні.
Вийшло не фонтан, але і не так гламурно, як у Midjourney.

Далі ми замовили у художника її покращення і вийшло прикольно.

Головна особливість усіх комерційних нейронок, що вони не хочуть малювати сумнівний чи жорстокий контент. Наприклад, ми ніяк не могли заставити MJ намалювати ніж у руках жінки. Dall-e теж відмовлявся це робити. Кров, тіла мертвих, насильство, еротика - все це не пройде. Навіть запит "naked feet" (босі ноги) - був забракований.

Stable Diffusion

Тут посилання на Вікі, а не якийсь комерційний сайт. Є повно сайтів, які на основі цієї розробки пропонують генерацію картинок. Але опенсорсна суть цієї розробки дозволяє кожному поставити її до себе на комп. Я успішно це зробив за допомогою ось цього гайду: https://stable-diffusion-art.com/controlnet

Вона не цензурована, моделі можна брати тут: civitai.com

Деталі треба буде дізнатись в покрокових гайдах на Ютюб, якщо є досвід з командною строкою (CLI), то розібратись можна за пів дня. Займає 55 ГБ разом з контрол-нет'ом та декількома моделям. Виглядає ось так:

Качати тут: github.com/stable-diffusion-webui

leonardo.ai

Можна спробувати безкоштовно, непогано.

В порівнянні з MJ.

Відео

runwayml.com

Це найпопулярніший сервіс зараз. Вирішив спробувати створити кліп за допомогою Midjourney та Runway. Хотів анімоване слайдшоу яке розповідає історію. Безплатних кредитів десь на 2хв матеріалу. На середині зрозумів, що не вистачить доробити і купив підписку за $15 (ще ~3 хв / міс).

Ти обираєш картинку, можеш додати опис, що робити (animate clouds, animate only water), вибираєш "варіативність" і можеш згенерувати 4 сек (не менше). Потім можна додати ще 4 сек (макс 16).

Можна вказати куди рухати камеру, вперед, назад, вліво, вправо, zoom-in/out. Ось так виглядає інтерфейс.

Недоліки:

1) після підписки на план посеред роботи – зникли всі попередні генерації та налаштування;
2) важко повторити результат. Наприклад, у мене було відео на 4 сек, яким я був задоволений, але там був вотермарк.

Я хотів перегенерувати це без вотермарка, і результати вже були інші / гірші. А я не пам'ятав, що робив, щоб отримати той. Функціонал є, відображаються sid-номери, які можна якось використати, але я не зрозумів як.
3) результати не консистентні, інколи відбувається хаос, навіть на мінімальних налаштуваннях generation motion.

(це типу мав бути місяць-князь 😁)

Висновок: часто результати класні, інколи нормальні, деколи ні. Помітив що хвилі і хмари, ландшафт і природа - добре анімуються, а люди - не дуже.

Ще залежить від картинки і у Midjourney.

Також, я три рази намагався скасувати підписку, але вони все рівно зняли гроші з картки. Тож я писав, в супорт щоб повернули, сказали ок, через пару днів прийшли назад.

Інші нейронки
kaiber.ai

Побачив на Ютюб, не пробував.

d-id.com

Використовувалась щоб робити Harry Potter by Balenciaga.

Вокал, голос

Faceswap

Для дешевого маркетингу власного обличчя

Akool, deepswap.ai, Facefusion, deep-fake.ai, Roop, Magic Hour, Reface, pica-ai.com *, picsi.ai

Де стежити за новинами