欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

单卡就能运行AI画画模型,小白也能看懂的教程来了,还有免费算力

时间:2023-05-31 08:43:48 | 浏览:273

允中 发自 凹非寺量子位 | 公众号 QbitAI昇思MindSpore首个可训练的diffusion模型DDPM马上要和大家见面了,操作简单,可训练+推理,单卡即可运行。最近爆火的AI绘图,相信大家并不陌生了。从AI绘图软件生成的作品打败

允中 发自 凹非寺量子位 | 公众号 QbitAI

昇思MindSpore首个可训练的diffusion模型DDPM马上要和大家见面了,操作简单,可训练+推理,单卡即可运行。

最近爆火的AI绘图,相信大家并不陌生了。

从AI绘图软件生成的作品打败一众人类艺术家,斩获数字艺术类冠军,到如今DALL.E、Imagen、novelai等国内外平台遍地开花。

也许你也曾点开过相关网站,尝试让AI描绘你脑海中的风景,又或者上传了一张自己帅气/美美的照片,然后对着最后生成的糙汉哭笑不得。

那么,在你感受AI绘图魅力的同时,有没有想过(不你肯定想过),它背后的奥妙究竟是什么?

△美国科罗拉多州技术博览会中获得数字艺术类冠军的作品——《太空歌剧院》

一切,都要从一个名为DDPM的模型说起…

DDPM是什么?

DDPM模型,全称Denoising Diffusion Probabilistic Model,可以说是现阶段diffusion模型的开山鼻祖。

不同于前辈GAN、VAE和flow等模型,diffusion模型的整体思路是通过一种偏向于优化的方式,逐步从一个纯噪音的图片中生成图像。

△现在已有生成图像模型的对比

有的小伙伴可能会问了,什么是纯噪音图片?

很简单,老式电视机没信号时,伴随着“刺啦刺啦”噪音出现的雪花图片,就属于纯噪音图片。

而DDPM在生成阶段所做的事情,就是把这些个“雪花”一点点移除,直到清晰的图像露出它的庐山真面目,我们把这个阶段称之为“去噪”。

△纯噪音图片:老电视的雪花屏

通过描述,大家可以感受到,去噪其实是个相当复杂的过程。

没有一定的去噪规律,可能你忙活了好半天,到最后还是对着奇形怪状的图片欲哭无泪。

当然,不同类型的图片也会有不同的去噪规律,至于怎么让机器学会这种规律,有人灵机一动,想到了一种绝妙的方法:

既然去噪规律不好学,那我为什么不先通过加噪的方式,先把一张图片变成纯噪音图像,再把整个过程反着来一遍呢?

这便奠定了diffusion模型整个训练-推理的流程:先在前向过程(forward process)通过逐步加噪,将图片转换为一个近似可用高斯分布的纯噪音图像

紧接着在反向过程(reverse process)中逐步去噪,生成图像;

最后以增大原始图像和生成图像的相似度作为目标,优化模型,直至达到理想效果

△DDPM的训练-推理流程

到这里,不知道大家的接受度怎样?如果感觉没问题,轻轻松松的话,准备好,我要开始上大招(深入理论)啦。

1.1.1 前向过程(forward process)

前向过程又称为扩散过程(diffusion process),整体是一个参数化的马尔可夫链(Markov chain)。从初始数据分布x0~q(x)出发,每步在数据分布中添加高斯噪音,持续T次。其中从第t-1步xt-1到第t步xt的过程可以用高斯分布表示为:

通过合适的设置,随着t不断增大,原始数据x0会逐渐失去他的特征。我们可以理解为,在进行了无限次的加噪步骤后,最终的数据xT会变成没有任何特征,完全是随机噪音的图片,也就是我们最开始说的“雪花屏”。

在这个过程中,每一步的变化是可以通过设置超参βt来控制,在我们知晓最开始的图片是什么的前提下,前向加噪的整个过程可以说是已知且可控的,我们完全能知道每一步的生成数据是什么样子。

但问题在于,每次的计算都需要从起始点出发,结合每一步的过程,慢慢推导至你想要的某步数据xt,过于麻烦。好在因为高斯分布的一些特性,我们可以一步到位,直接从x0得到xt。

注意,这里的

1.1.2 反向过程(reverse process)

和前向过程同理,反向过程也是一个马尔可夫链(Markov chain),只不过这里用到的参数不同,至于具体参数是什么,这个就是我们需要机器来学习的部分啦。

在了解机器如何学习前,我们首先思考,基于某一个原始数据x0,从第t步xt,精准反推回第t-1步xt-1的过程应该是怎样的?

答案是,这个仍可以用高斯分布表示:

注意这里必须要考虑x0,意思是反向过程最后生成图像还是要与原始数据有关。输入猫的图片,模型生成的图像应该是猫,输入狗的图片,生成的图像也应该和狗相关。若是去除掉x0,则会导致无论输入哪种类型的图片训练,最后diffusion生成的图像都一样,“猫狗不分”。

经过一系列的推导,我们发现,反向过程中的参数

当然,机器事先并不知道这个真实的反推过程,它能做到的,只是用一个大概近似的估计分布去模拟,表示为p0(xt-1|xt)。

1.1.3 优化目标

在最开始我们提到,需要通过增大原始数据和反向过程最终生成数据的相似度来优化模型。在机器学习中,我们计算该相似度参考的是交叉熵(cross entropy)。

关于交叉熵,学术上给出的定义是“用于度量两个概率分布间的差异性信息”。换句话讲,交叉熵越小,模型生成的图片就越和原始图片接近。但是,在大多数情况下,交叉熵是很难或者无法通过计算得出的,所以我们一般会通过优化一个更简单的表达式,达到同样的效果。

Diffusion模型借鉴了VAE模型的优化思路,将variational lower bound(VLB,又称ELBO)替代cross entropy来作为最大优化目标。通过无数步的分解,我们最终得到:

看到这么复杂的公式,好多小伙伴肯定头都大了。但不慌,这里需要关注的,只是中间的Lt-1罢了,它表示的是xt和xt-1之间估计分布p0(xt-1|xt)和真实分布q(xt-1|xt,x0)的差距。差距越小,模型最后生成图片的效果就越好。

1.1.4 上代码

在了解完DDPM背后的原理,接下来就让我们看看DDPM模型究竟是如何实现…

才怪啦。相信看到这里的你,肯定也不想遭受成百上千行代码的洗礼。

好在MindSpore已经为大家提供了开发完备的DDPM模型,训练推理两手抓,操作简单,单卡即可运行,想要体验效果的小伙伴,只需要先

pip install denoising-diffusion-mindspore

然后,参考如下代码配置参数:

对重要的参数进行一些解析:

  • GaussianDiffusion
  • image_size: 图片大小
  • timesteps: 加噪步数
  • sampling_timesteps: 采样步数,为提升推理性能,需小于加噪步数
  • Trainer
  • folder_or_dataset: 对应图片中的path, 可以是已下载数据集的路径(str),也可以是已做好数据处理的VisionBaseDataset, GeneratorDataset 或 MindDataset
  • train_batch_size:batch大小
  • train_lr: 学习率
  • train_num_steps: 训练步数

“进阶版”DDPM模型MindDiffusion

DDPM只是Diffusion这个故事的开篇。目前,已有无数的研究人员被其背后瑰丽的世界所吸引,纷纷投身其中。

在不断优化模型的同时,他们也逐渐开发了Diffusion在各个领域的应用。

其中,包括了计算机视觉领域的图像优化、inpainting、3D视觉、自然语言处理中的text-to-speech、AI for Science领域的分子构象生成、材料设计等。

更有来自斯坦福大学计算机科学系的博士生Eric Zelikman大开脑洞,尝试将DALLE-2与最近另一个大火的对话模型ChatGPT相结合,制作出了温馨的绘本故事。

△DALLE-2 + ChatGPT合力完成的,关于一个名叫“罗比”的小机器人的故事

不过最广为大众所知的,应该还是它在文生图(text-to-image)方面的应用。输入几个关键词或者一段简短的描述,模型便可以为你生成相对应的图画。

比如,输入“城市夜景 赛博朋克 格雷格·路特科夫斯基”,最后生成的便是一张色彩鲜明,颇具未来科幻风格的作品。

再比如,输入“莫奈 撑阳伞的女人 月亮 梦幻”,生成的便是一张极具有朦胧感的女人画像,色彩搭配的风格有木有让你想起莫奈的《睡莲》?

想要写实风格的风景照作为屏保?没问题!

△乡村 田野 屏保

想要二次元浓度多一点的?也可以!

△来自深渊 风景 绘画 写实风格

以上这些图片,均是由MindDiffusion平台的下的悟空画画制作而成的哦,悟空画画是基于扩散模型的中文文生图大模型,由华为诺亚团队携手中软分布式并行实验室昇腾计算产品部联合开发。

模型基于Wukong dataset训练,并使用昇思框架(MindSpore)+昇腾(Ascend)软硬件解决方案实现。

此外,MindDiffusion中的模型也会同样具备可训练、可推理的特性,预计明年就能出现。

欢迎大家头脑风暴,生成各种别具风格的作品哦~

(据说有人已经开始尝试“张飞绣花”、“刘华强砍瓜”、“古希腊神大战哥斯拉”了。ummmm,怎么办,突然就很期待成品了呢(ಡωಡ))

One More Thing

最后的最后,在Diffusion爆火的如今,有人也曾发出过疑问,它为什么可以做到如此的大红大紫,甚至风头开始超过GAN网络?

Diffusion的优势突出,劣势也很明显;它的诸多领域仍是空白,它的前方还是一片未知。

为什么却有那么多的人在孜孜不倦地对它进行研究呢?

兴许,马毅教授的一番话,可以给我们提供一种解答。

但diffusion process的有效性、以及很快取代GAN也充分说明了一个简单道理:

几行简单正确的数学推导,可以比近十年的大规模调试超参调试网络结构有效得多。

或许,这就是Diffusion模型的魅力吧。

此外,DDPM模型运算可使用启智社区的NPU算力,启智社区联合MindSpore,发放一年份100万卡时的免费算力,可以去试试了~

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关资讯

单卡就能运行AI画画模型,小白也能看懂的教程来了,还有免费算力

允中 发自 凹非寺量子位 | 公众号 QbitAI昇思MindSpore首个可训练的diffusion模型DDPM马上要和大家见面了,操作简单,可训练+推理,单卡即可运行。最近爆火的AI绘图,相信大家并不陌生了。从AI绘图软件生成的作品打败

免费试听课|8月7日李萍老师教做奶油水果蛋糕,免费学!免费带走

56岁保洁员靠画笔走红,6年挣数十万养“软饭男”丈夫,“怕灵魂死掉,所以不停读书画画”

我的孤独装得下天空的蓝,那是一种很盛大的、能够容纳很多东西的孤独。作者:刘舒扬 侯欣颖编辑:陈佳莉“我怕我的灵魂死掉了,一直在‘喂饭’给它吃,所以我不停地读书、画画。”说出这话的时候,王柳云正坐在一把灰色椅子上。左手边的粉色小电锅里是她今天

这些年给孩子报的兴趣班,钢琴、轮滑、英语、声乐、画画一大堆

从孩子三岁开始我就蠢蠢欲动想给他报各种兴趣班,但是事实证明三岁还是太小了,那时带他去试听了跆拳道、舞蹈、轮滑、钢琴都不肯上。但是过了五岁基本都安排上了不过报着报着我发现他竟然有十几个兴趣班了,今年上小学之后发现还是要减几个,不然没时间学习啊

神的使者阿琪亚娜,4岁开始画画,8岁作品价值600多万美金

被上帝教画画是一种什么体验?她4岁开始画画,8岁时作品就价值几十万美元,15岁靠画画已经成为富翁,重要的是没人教他画画,而她自称是上帝在梦中教她画画,你可能会觉得不扯吗?但是可以很负责任的告诉你,这都是真的她叫阿琪亚娜,从四岁就自己抱起画笔

她4岁学画,6岁写诗,15岁靠画画成为富翁

看标题您也许会感到十分震惊,她是谁?怎么会这么厉害?这一切都是真的吗?很负责任地告诉大家,这一切的确都是真的!很多人在看到一些无论是年幼成名或者成年时代成名的人物和他们的事迹,都表示深深的怀疑,甚至有些人不惜恶言相向,还有不少人表示鄙视甚至

知名童星谢苗罕晒女儿画画,9岁宝贝呆萌可爱,像极了演员妈妈

6月3日,知名童星谢苗罕见在个人社交账号晒出一段女儿糖豆画画的视频,曝光了爱女的近况。画面中,首先出现在镜头前的是一个平板电脑,里面呈现了电影《目中无人》的海报,海报里牵着马的男子,正是谢苗在戏中扮演的角色。电影在端午节后上映,为了给老爸做

这篇文章教你怎么用AI画画

前几天,我在朋友圈里看到了一个朋友发布由AI绘制的图片,感觉非常新奇和有趣。我就也想尝试一下,看看用AI进行绘画的体验是怎么样的。于是便私聊了这位朋友,让他推荐几个可以进行输入文字自动生成图片的软件,在经过一段时间的体验后,感觉还是比较不错

当AI开始画画:画师会失业吗?

把脑海中的画面用一句话表达出来,尽可能细节化,然后点击鼠标,只需要几秒钟,你就能获得一张高度渲染的精美图片。当然,你也可以只模糊地输入几个字,描述越模糊,得到的结果越出乎意料。哪怕你连画笔都没拿过,也能“画”出一幅梵高的《星空》和莫奈的《日

当AI学会画画,画师们该感到害怕吗?

《不要温和地走进那个良夜》,这首英国诗人狄兰·托马斯写给病危父亲的诗歌,在2022年成为中国美术学院图像与媒体艺术类专业复试的命题创作试题。长期进行现代诗创作的苏拉用AI绘图工具给出了心目中的答案:星空中温润、细腻的玫瑰色黑洞。苏拉告诉南方

看完AI画画,我的插画师朋友挺急的

一、AI画画做得有多好了?最近一个新闻非常出圈,并且成功登上微博热搜,一个来自美国的39岁的游戏设计师用AI画画工具-midjourney创作的一张作品,获得了科罗拉多州博览会的艺术比赛第一名。作品名称叫做《空间歌剧院》,作品本身非常漂亮,

用文字画画的“AI绘画”走红网络,它将取代人类绘画吗?

近期“AI眼中的世界”频繁出现于公众视野,从未来中国到节气美食,甚至是世界杯的经典场景……AI(人工智能)绘画工具基于使用者文字描述生成的场景总是能带给人不一样的视觉体验。但与AI绘画相关的争议也从未停歇,“绘画会被AI取代吗”更是成为网友

看了AI画画,我想拔掉它的电源

2022 年4月4 日,英国伦敦。机器人Ai-Da 在英国图书馆展示绘画才能。(图/ 视觉中国)试想,在城市里,楼房的排水管相互连通,组成一个巨大的管道迷宫,而你踩着冲浪板在管道里滑行,穿梭于一个个建筑体间……这不是现实场景,而是梦境里的画

当AI开始画画和“摄影”:不仅娱乐人,还会愚弄人

人工智能势不可挡。本周,包括微软、谷歌、英伟达、Adobe在内的全球多家科技巨头公司都不约而同地发布或开放生成式AI新技术,其中微软和Adobe发布了与图像生成相关的新应用。然而,AI不仅可以帮助人类,也会被利用来戏弄人类。例如,近日互联网

科技进步了,人工智能也能画画,堪比艺术家

有钱人的世界我根本无法理解!今年2月份,一位巴黎艺术品收藏家花了1W欧元,买了一幅人工智能画的画。那可是近8W人民币啊!能买多少颜料、画布、画纸啊!他买下的画长这样——La Comtesse de Belamy,2018,由 GAN 创作还

友情链接

网址导航 SEO域名抢注宝宝起名网妈妈知道币圈百达翡丽收藏家绝味鸭脖资讯网南宁分之道官网南京旅游网潜水运动乳胶漆品牌网今日芜湖三门峡新闻头条网睡眠健康知识网防晒霜品牌网南红玛瑙养生知识网合盛硅业A股今日榆林尤尼克斯球拍
美术艺考培训网-是一个集美术艺考学习资料、政策解读、报考信息、志愿填报于一体的美术学习门户网站。中国美术高考培训权威机构、画室培训领导品牌、十大排名画室、美术培训机构、在线教育、专注于为广大艺考生提供优质的艺考培训课程、艺术类院校库查询,艺考生高考培训资料、艺术考试资讯等信息。
美术艺考培训网 yiyanggu.cn ©2022-2028版权所有