聊聊Stable Diffusion 1

bwyw
0 评论 798 浏览 1 收藏 6 分钟
🔗 产品经理专业技能指的是:需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

为了更好地拥抱AI时代,不少设计师或许需要接触AI应用软件,比如本文作者就开始学习并使用Stable Diffusion。这篇文章里,作者聊了聊自己的理解,一起来看一下。

AIGC已经是大势所驱,设计师要如何不被AI所替代,是我经常思考的问题,“觉得会被替代、对AI产生恐惧”,产生这种情绪只因我们不了解AIGC,因此我想我们应该大胆迎接,深入了解。基于此,我早已投入到学习的行列中了,这段时间以来,我学习stable diffusion以及comfyui的相关知识,并且想通过写文章的方式将这些知识总结复盘。

本文章优先介绍下stable diffusion,理解了stable diffusion原理,comfyui就比较简单了,两者原理是互通的。再加上现在市场很多AI生成图片的软件工具也是基于stable diffusion的逻辑去设计的,所以了解stable diffusion的运行原理,帮助我们掌握其他AI生成图片的软件工具。

一、Stable Diffusion的来源

Stable Diffusion(简称SD)是2022年发布的一个深度学习文本到图像生成模型,由慕尼黑大学的CompVis研究团体首先提出,并与初创公司Stability AI、Runway合作开发,同时得到了EleutherAI和LAION的支持。

二、Stable Diffusion的功能

它可以实现的功能有很多,可以根据文本的描述生成指定内容的图片(图生图),也可以用于已有图片内容的转绘(图生图),还可以用作图像的局部重绘、外补扩充、高清修复,甚至是视频的“动画化”生成。

三、Stable Diffusion的原理

Stable Diffusion使用的是Latent Diffusion Model(潜在扩散模型),它通过使用经过训练的编码器(VAE中的E)将全尺寸图像编码为较低维度的图像,然后再在潜空间内进行正向扩散过程和反向扩散过程。再经过训练的解码器 (VAE中的D),将图像从其潜在表示解码回像素空间。

该模型由下图所示的3个部分组成:pixel space(像素空间)、latent space (潜空间)、conditioning(条件)。

稳定扩散过程:

  • 感知图像压缩(Perceptual Image Compression):图3中最左侧红框部分是一个VQ-VAE,用于将输入图像x编码为一个离散特征z。
  • LDM:图3的中间绿色部分是在潜变量空间的扩散模型,其中上半部分是加噪过程,用于将特征Z加噪为ZT 。下半部分是去噪过程,去噪的核心结构是一个由交叉注意力(Cross Attention)组成的U-Net,用于将ZT还原为Z 。
  • 条件机制(Conditioning Mechanisms):上图的右侧是一个条件编码器,用于将图像,文本等前置条件编码成一个特征向量,并将其送入到扩散模型的去噪过程中。

四、Stable Diffusion(Latent Diffusion Model)的特点

与Diffusion Models和GAN模型相比,Stable Diffusion(Latent Diffusion Model模型)具备更快速、更稳定的特点。

  • 更快速:与Diffusion Models相比,Latent Diffusion Model模型通过减少噪声的数量和步骤,从而减少模型的训练时间。
  • 更稳定:与GAN相比更稳定,GAN作为是早期的图像生成模型,通过生成器(Generato)与判别器(Discriminator)不断对抗进行训练。但生成的图片存在对输出结果的控制力较弱,容易产生随机图像、分辨率比较低的问题。

最后,这篇文章初步介绍了Stable Diffusion的原理和特点,下一篇文章我想聊一聊自己是如何使用Stable Diffusion这个工具以及后续的一些实战案例。敬请期待!

数据来源:

https://zhuanlan.zhihu.com/p/667057805

https://blog.marvik.ai/2023/11/28/an-introduction-to-diffusion-models-and-stable-diffusion/****https://techvify-software.com/what-is-stable-diffusion/

https://developer.baidu.com/article/details/3222941

本文由 @bwyw 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于CCO协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
13555人已学习13篇文章
本专题的文章分享了搜索策略产品经理必读系列。
专题
15918人已学习15篇文章
汽车座舱的智能化,本质上是通过硬件+软件的手段,让汽车座舱具备人类“智能”的能力,使人与车直接协作更加安全高效。本专题的文章分享了智能座舱的产品模块解读。
专题
35669人已学习18篇文章
借用别人家的经典案例,来扒一扒社交电商。
专题
14077人已学习12篇文章
一张逻辑清晰、层次明确的产品架构图,能够给观者讲述一个产品的业务流程、功能框架和设计思路,也是一个产品必不可少的可视化工具。
专题
13192人已学习14篇文章
在项目完结时,我们经常需要进行项目复盘。那么一个好的项目复盘是怎样的?
专题
14146人已学习14篇文章
在生活中,我们总是能被各种各样的事情挑起不同的情绪,如果将情绪映射到设计/运营中呢?本专题的文章分享了如何将“情绪”映射到设计/运营中。