DALL-E
Частина з циклу про |
Штучний інтелект |
---|
Словник |
DALL-E (стилізований запис — DALL-E), а також DALL-E 2 — створені шляхом машинного навчання нейронні моделі, розроблені компанією OpenAI за фінансової підтримки Microsoft[1], призначені для створення цифрових зображень на основі описів природною мовою, званих «підказками». Компанія OpenAI представила нейронну мережу DALL-E у своєму блозі в січні 2021 року. DALL-E використовує мовну модель GPT-3[2], модифіковану для генерації зображень. У квітні 2022 року компанія OpenAI представила DALL-E 2 — наступну версію свого продукту, розроблену для створення реалістичніших зображень, які мають вищу роздільну здатність і «здатні поєднувати концепції, атрибути й стилі»[3].
OpenAI не опублікувала початковий код своїх моделей, але зображення, згенеровані на основі обмеженого набору пробних запитів, можна отримати на її вебсайті[2]. Незважаючи на це, в інтернеті з'явилося кілька емуляцій із відкритим кодом, створених на меншому обсязі даних[4][5][6].
Назва DALL-E — це контамінація імен ВОЛЛ-І (WALL-E), мультиплікаційного персонажа компанії Pixar, та іспанського художника-сюрреаліста Сальвадора Далі[7][2].
Компанія OpenAI почала розробляти нейронну мережу DALL-E у 2019 році, коли отримала грант сумою в 1 млрд дол. від компанії Microsoft на розробку інноваційних технологій у сфері штучного інтелекту[1]. У результаті розробка тривала два роки, а перша версія нейромережі була представлена світовій спільноті 5 січня 2021 року[1].
Ще за рік, 6 квітня 2022 року, була анонсована нова версія DALL-E — DALL-E 2. Продовження розробки стало можливим завдяки тому, що аудиторія добре зустріла її першу версію[1]. 20 липня 2022 року версія DALL-E 2 ввійшла у фазу бета-тестування за запрошеннями, надісланими одному мільйону попередньо зареєстрованих осіб[8][9]. З огляду на можливі етичні питання й проблеми, пов'язані безпекою, доступ був заздалегідь обмежений і надавався лише попередньо зареєстрованим користувачам[10][11]. У новій версії програми були доопрацьовані алгоритми, що дало змогу створювати фотореалістичні зображення, а також додано редактор, що дає змогу змінювати згенеровані зображення[12].
Приклад роботи нейронної мережі продемонстрував журнал Cosmopolitan, використавши DALL-E 2 для створення обкладинки одного з випусків свого журналу[13].
Нейронну модель GPT (породжувальний попередньо тренований трансформер), розроблену на основі архітектури «трансформер», компанія OpenAI випустила у 2018 році[14]. У 2019 році з'явилася GPT-2 — розширений варіант першої версії[15]. У 2020 році вийшла GPT-3 — ще більш розширена версія зі 175 млрд параметрів[16][2][17]. Модель DALL-E — це багатомодальна реалізація GPT-3[18] із 12 млрд параметрів[2], яка «заміняє текст на пікселі», натренована на парах текст-зображення, узятих з інтернету[19]. DALL-E 2 використовує 3,5 млрд параметрів — менше, ніж її попередниця[20].
DALL-E була розроблена й представлена публіці разом із моделлю CLIP (Contrastive Language-Image Pre-training — порівняльне тренування мовних зображень)[19]. CLIP — це окрема модель, створена в результаті так званого навчання без джерел (zero-shot learning). Вона натренована на 400 млн пар зображень із текстовими описами, узятими в інтернеті[2][19][21]. Її задача — «зрозуміти й класифікувати» результат робити DALL-E шляхом визначення того, який саме опис із 32 768 (215), вибраних випадково з набору даних (у якому один є правильною відповіддю) найкраще відповідає зображенню. Ця модель використовується для відсіювання великого початкового списку зображень, згенерованих мережею DALL-E, з метою вибрати найвідповідніші з них[7][19].
DALL-E 2 використовує модель розсіювання на вбудованих зображеннях CLIP, які створюються на основі вбудованих текстових описів моделі CLIP за попередньою моделлю[20].
Мережа DALL-E здатна створювати зображення багатьма стилями, зокрема фотореалістичні, мальовничі та емодзі[2]. Вона спроможна «впорядковувати й змінювати» об'єкти на своїх зображеннях"[2] і правильно розміщувати предмети й «дійових осіб» сцени, не маючи чітких інструкцій. Том Данн (Thom Dunn) на сайті BoingBoing зазначив:
Наприклад, коли просиш її намалювати редьку-дайкон, яка сякається, ковтаючи латте, або катається на одноколісному велосипеді, DALL-E часто малює носовичок, руки й ноги в імовірних місцях[22].
DALL-E продемонструвала вміння «заповнювати прогалини» з урахуванням контексту. Вона вигадує деталі без специфічних запитів — наприклад, додає різдвяні предмети на зображення, які зазвичай асоціюються зі святкуванням[23], або належним чином промальовує тіні, хоча такого завдання не ставилося[24]. Крім того, DALL-E показує «добре знається» на тенденціях візуалізації й дизайну.
DALL-E здатна генерувати зображення за найрізноманітнішими варіантами вільного опису[25], і помилки трапляються рідко[7]. Марк Рідл (Mark Riedl), ад'юнкт-професор Школи інтерактивних обчислень Технологічного інституту Джорджії, виявив, що DALL-E здатна поєднувати концепції. Це вважається ключовим елементом людської творчості[26][27].
Її «візуальних розумових здатностей» достатньо, щоб пройти тест Равена (за допомогою візуальних тестів часто вимірюють розумові здібності людини)[28][29].
Той факт, що модель DALL-E 2 була натренована на загальнодоступних даних з інтернету, впливає на результати його роботи і в деяких випадках зумовлює алгоритмічне упередження. Наприклад, якщо в запиті не згадується стать людини, модель генерує більше зображень чоловіків, ніж жінок[30].
Дані, на яких тренували DALL-E 2, фільтрувалися: з них усували картинки, на яких зображено насильство й сексуальні образи. Проте з'ясувалося, що подекуди це призвело навіть до посилення упередженості моделі, — як-от зменшення частоти зображень жінок[31]. У компанії OpenAI припускають, що в даних, на основі яких здійснювалося тренування моделі, жінки часто виявлялись об'єктом сексуальної об'єктивації, і видалення таких даних вплинуло на роботу фільтра[31].
Проблема, яка виникає у зв'язку з появою нейронних мереж для генерації зображень, як-от DALL-E 2 і подібних, полягає в тому, що їх можна використовувати для генерації діпфейків та інших різновидів дезінформації[32][33]. У рамках боротьби з неналежним використанням ПЗ відкидає запити, у яких згадуються публічні особи, і завантаження зображень, які містять людські обличчя[34]. Запити, які містять потенційно небажаний зміст, блокуються, а вивантажені зображення аналізуються на наявність образливого контенту[35]. Недоліком фільтрування запитів є те, що його легко обійти за допомогою синонімічних фраз, які призводять до подібних результатів. Наприклад, слово «кров» фільтрується, а «кетчуп» і «червона рідина» — ні[36][35].
Ще одна проблема, пов'язана з DALL-E 2 і подібними моделями, полягає в тому, що їхня точність і популярність здатні призвести до технологічного безробіття художників, фотографів і графічних дизайнерів[37][38].
Розуміння природної мови моделлю DALL-E 2 не є абсолютним. Вона нездатна відрізнити запит «жовта книга і червона ваза» від «червона книга і жовта ваза» або «панда, яка малює лате», від «лате, намальоване пандою»[39]. Запит «кінь верхи на космонавті» вона трактує як «астронавт верхи на коні»[40]. Крім того, за деяких обставин вона не може згенерувати правильні зображення. Запити, у яких згадується більше трьох об'єктів, які містять заперечення, кількості або речення, з'єднані сполучником, можуть призвести до помилок, а властивості одних об'єктів — перейти на інші[1]. Додатковими обмеженнями є також неспроможність нейронної мережі розуміти наукові терміни, як-от астрономічні або медичні[41].
Найчастіше результати роботи DALL-E характеризують як «сюрреалістичні»[19] та «примхливі»[26]. Зображення, яке DALL-E згенерувала у відповідь на запит «an illustration of a baby daikon radish in a tutu walking a dog» (зображення дитини редьки-дайкона, яка вигулює собаку, у пачці балерини), згадувалося в публікаціях Input[42], NBC[43], Nature[44] та інших[2][45][46]. Часто згадували також зображення «an armchair in the shape of an avocado» (крісло у формі авокадо)[19][27].
ExtremeTech заявив:
Можна запитати DALL-E зобразити телефон або пилосос із указаного періоду часу: вона розуміє, як змінювалися ці предмети[23].
Engadget помітив також надзвичайну здатність «розуміти, як телефони та інші предмети змінюються з часом»[24].
MIT Technology Review зауважив, що однією з цілей компанії OpenAI було «надати мовним моделям краще уявлення про буденні поняття, які люди використовують для розуміння речей»[19].
Здійснено кілька спроб створити реалізацію DALL-E з відкритим кодом[4][47]. У 2022 році випущено нейронну мережу Craiyon. Спершу вона називалася DALL-E Mini, але невдовзі, у червні 2022 року, компанія OpenAI надіслала запит на зміну цього імені. Це ШІ-модель, заснована на оригінальній DALL-E, але натренована на нефільтрованих даних з інтернету. У 2022 році вона привернула велику увагу ЗМІ, оскільки створювала вельми смішні зображення[48][49][50].
- ↑ а б в г д Microsoft Invests In and Partners with OpenAI to Support Us Building Beneficial AGI. OpenAI (англ.). 22 червня 2019.
- ↑ а б в г д е ж и к л Johnson, Khari (5 січня 2021). OpenAI debuts DALL-E for generating images from text. VentureBeat. Архів оригіналу за 5 січня 2021. Процитовано 5 січня 2021.
- ↑ DALL·E 2. OpenAI (англ.). Процитовано 6 липня 2022.
- ↑ а б в Sahar Mor, Stripe (16 квітня 2022). How DALL-E 2 could solve major computer vision challenges. VentureBeat. Архів оригіналу за 24 травня 2022. Процитовано 15 червня 2022.
- ↑ Knight, Will. Inside DALL-E Mini, the Internet's Favorite AI Meme Machine. Wired (амер.). ISSN 1059-1028. Процитовано 6 липня 2022.
- ↑ Midjourney. Midjourney (англ.). Процитовано 20 липня 2022.
- ↑ а б в г Coldewey, Devin (5 січня 2021). OpenAI's DALL-E creates plausible images of literally anything you ask it to. Архів оригіналу за 6 січня 2021. Процитовано 5 січня 2021.
- ↑ DALL·E Now Available in Beta. OpenAI (англ.). 20 липня 2022. Процитовано 20 липня 2022.
- ↑ Allyn, Bobby (20 липня 2022). Surreal or too real? Breathtaking AI tool DALL-E takes its images to a bigger stage. NPR (англ.). Процитовано 20 липня 2022.
- ↑ DALL·E Waitlist. labs.openai.com (англ.). Процитовано 6 липня 2022.
- ↑ From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art. the Guardian (англ.). 18 червня 2022. Процитовано 6 липня 2022.
- ↑ Hope Corrigan (1 липня 2022). Photographer uses DALL-E 2 AI to automatically edit images better than Photoshop. PC Gamer (англ.).
- ↑ Gloria Liu (21 червня 2022). The World’s Smartest Artificial Intelligence Just Made Its First Magazine Cover. Cosmopolitan (англ.).
- ↑ а б Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 червня 2018). Improving Language Understanding by Generative Pre-Training (PDF). OpenAI. с. 12. Архів (PDF) оригіналу за 26 січня 2021. Процитовано 23 січня 2021.
- ↑ а б Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 лютого 2019). Language models are unsupervised multitask learners (PDF). 1 (8). Архів (PDF) оригіналу за 6 лютого 2021. Процитовано 19 грудня 2020.
- ↑ а б Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 липня 2020). Language Models are Few-Shot Learners. arXiv:2005.14165 [cs.CL].
- ↑ а б Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (24 лютого 2021). Zero-Shot Text-to-Image Generation. arXiv:2102.12092 [cs.LG].
- ↑ а б Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv:2102.02503 [cs.CL].
- ↑ а б в г д е ж и Heaven, Will Douglas (5 січня 2021). This avocado armchair could be the future of AI. MIT Technology Review. Процитовано 5 січня 2021.
- ↑ а б Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (12 квітня 2022). Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv:2204.06125.
- ↑ 'DALL-E' AI generates an image out of anything you describe. Engadget (амер.). Процитовано 18 липня 2022.
- ↑ а б Dunn, Thom (10 лютого 2021). This AI neural network transforms text captions into art, like a jellyfish Pikachu. BoingBoing. Архів оригіналу за 22 лютого 2021. Процитовано 2 березня 2021.
- ↑ а б в Whitwam, Ryan (6 січня 2021). OpenAI's 'DALL-E' Generates Images From Text Descriptions. ExtremeTech. Архів оригіналу за 28 січня 2021. Процитовано 2 березня 2021.
- ↑ а б в Dent, Steve (6 січня 2021). OpenAI's DALL-E app generates images from just a description. Engadget. Архів оригіналу за 27 січня 2021. Процитовано 2 березня 2021.
- ↑ Marcus, Gary; Davis, Ernest; Aaronson, Scott (2 травня 2022). A very preliminary analysis of DALL-E 2. arXiv:2204.13807 [cs.CV].
- ↑ а б в Shead, Sam (8 січня 2021). Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab. CNBC. Процитовано 2 березня 2021.
- ↑ а б в Wakefield, Jane (6 січня 2021). AI draws dog-walking baby radish in a tutu. British Broadcasting Corporation. Архів оригіналу за 2 березня 2021. Процитовано 3 березня 2021.
- ↑ а б Markowitz, Dale (10 січня 2021). Here's how OpenAI's magical DALL-E image generator works. TheNextWeb. Архів оригіналу за 23 лютого 2021. Процитовано 2 березня 2021.
- ↑ DALL·E: Creating Images from Text. OpenAI (англ.). 5 січня 2021. Процитовано 13 серпня 2022.
- ↑ STRICKLAND, ELIZA (14 липня 2022). DALL-E 2's Failures Are the Most Interesting Thing About It. IEEE Spectrum (англ.). Процитовано 15 липня 2022.
- ↑ а б DALL·E 2 Pre-Training Mitigations. OpenAI (англ.). 28 червня 2022. Процитовано 18 липня 2022.
- ↑ Taylor, Josh (18 червня 2022). From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art. The Guardian. Процитовано 2 серпня 2022.
- ↑ Knight, Will (13 липня 2022). When AI Makes Art, Humans Supply the Creative Spark. Wired. Процитовано 2 серпня 2022.
- ↑ Rose, Janus (24 червня 2022). DALL-E Is Now Generating Realistic Faces of Fake People. Vice. Процитовано 2 серпня 2022.
- ↑ а б OpenAI (19 червня 2022). DALL·E 2 Preview - Risks and Limitations. GitHub. Процитовано 2 серпня 2022.
- ↑ Lane, Laura (1 липня 2022). DALL-E, Make Me Another Picasso, Please. The New Yorker. Процитовано 2 серпня 2022.
- ↑ Goldman, Sharon. OpenAI: Will DALLE-2 kill creative careers?.
- ↑ Blain, Loz. DALL-E 2: A dream tool and an existential threat to visual artists.
- ↑ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara; Lopes, Rapha Gontijo; Salimans, Tim (23 травня 2022). Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. arXiv:2205.11487 [cs.CV].
- ↑ Marcus, Gary (28 травня 2022). Horse rides astronaut. The Road to AI We Can Trust. Процитовано 18 червня 2022.
- ↑ Strickland, Eliza (14 липня 2022). DALL-E 2's Failures Are the Most Interesting Thing About It. IEEE Spectrum (англ.). Процитовано 16 серпня 2022.
- ↑ а б Kasana, Mehreen (7 січня 2021). This AI turns text into surreal, suggestion-driven art. Input. Архів оригіналу за 29 січня 2021. Процитовано 2 березня 2021.
- ↑ а б Ehrenkranz, Melanie (27 січня 2021). Here's DALL-E: An algorithm learned to draw anything you tell it. NBC News. Архів оригіналу за 20 лютого 2021. Процитовано 2 березня 2021.
- ↑ а б Stove, Emma (5 лютого 2021). Tardigrade circus and a tree of life — January's best science images. Nature. Архів оригіналу за 8 березня 2021. Процитовано 2 березня 2021.
- ↑ а б Knight, Will (26 січня 2021). This AI Could Go From 'Art' to Steering a Self-Driving Car. Wired. Архів оригіналу за 21 лютого 2021. Процитовано 2 березня 2021.
- ↑ а б Metz, Rachel (2 лютого 2021). A radish in a tutu walking a dog? This AI can draw it really well. CNN. Процитовано 2 березня 2021.
- ↑ jina-ai/dalle-flow, Jina AI, 17 червня 2022, процитовано 17 червня 2022
- ↑ а б Carson, Erin (14 червня 2022). Everything to Know About Dall-E Mini, the Mind-Bending AI Art Creator. CNET. Архів оригіналу за 15 червня 2022. Процитовано 15 червня 2022.
- ↑ а б Schroeder, Audra (9 червня 2022). AI program DALL-E mini prompts some truly cursed images. Daily Dot. Архів оригіналу за 10 червня 2022. Процитовано 15 червня 2022.
- ↑ а б Diaz, Ana (15 червня 2022). People are using DALL-E mini to make meme abominations — like pug Pikachu. Polygon. Архів оригіналу за 15 червня 2022. Процитовано 15 червня 2022.
- ↑ Nichele, Stefano (2021). Tim Taylor and Alan Dorin: Rise of the self-replicators—early visions of machines, AI and robots that can reproduce and evolve. Genetic Programming and Evolvable Machines. 22: 141—145. doi:10.1007/s10710-021-09398-5. S2CID 231930573.
- ↑ Macaulay, Thomas (6 січня 2021). Say hello to OpenAI's DALL-E, a GPT-3-powered bot that creates weird images from text. TheNextWeb. Архів оригіналу за 28 січня 2021. Процитовано 2 березня 2021.
- ↑ Andrei, Mihai (8 січня 2021). This AI module can create stunning images out of any text input. ZME Science. Архів оригіналу за 29 січня 2021. Процитовано 2 березня 2021.
- ↑ Grossman, Gary (16 січня 2021). OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator. VentureBeat. Архів оригіналу за 26 лютого 2021. Процитовано 2 березня 2021.
- ↑ Toews, Rob (18 січня 2021). AI And Creativity: Why OpenAI's Latest Model Matters. Forbes. Архів оригіналу за 12 лютого 2021. Процитовано 2 березня 2021.
- ↑ Walsh, Bryan (5 січня 2021). A new AI model draws images from text. Axios. Процитовано 2 березня 2021.
- ↑ For Its Latest Trick, OpenAI's GPT-3 Generates Images From Text Captions. Synced. 5 січня 2021. Архів оригіналу за 6 січня 2021. Процитовано 2 березня 2021.