聊聊Stable Diffusion 1

bwyw 2024-04-25 09:52:45

AIGC已经是大势所驱，设计师要如何不被AI所替代，是我经常思考的问题，“觉得会被替代、对AI产生恐惧”，产生这种情绪只因我们不了解AIGC，因此我想我们应该大胆迎接，深入了解。基于此，我早已投入到学习的行列中了，这段时间以来，我学习stable diffusion以及comfyui的相关知识，并且想通过写文章的方式将这些知识总结复盘。

本文章优先介绍下stable diffusion，理解了stable diffusion原理，comfyui就比较简单了，两者原理是互通的。再加上现在市场很多AI生成图片的软件工具也是基于stable diffusion的逻辑去设计的，所以了解stable diffusion的运行原理，帮助我们掌握其他AI生成图片的软件工具。

一、Stable Diffusion的来源

Stable Diffusion（简称SD）是2022年发布的一个深度学习文本到图像生成模型，由慕尼黑大学的CompVis研究团体首先提出，并与初创公司Stability AI、Runway合作开发，同时得到了EleutherAI和LAION的支持。

二、Stable Diffusion的功能

它可以实现的功能有很多，可以根据文本的描述生成指定内容的图片（图生图），也可以用于已有图片内容的转绘（图生图），还可以用作图像的局部重绘、外补扩充、高清修复，甚至是视频的“动画化”生成。

三、Stable Diffusion的原理

Stable Diffusion使用的是Latent Diffusion Model（潜在扩散模型），它通过使用经过训练的编码器（VAE中的E）将全尺寸图像编码为较低维度的图像，然后再在潜空间内进行正向扩散过程和反向扩散过程。再经过训练的解码器（VAE中的D），将图像从其潜在表示解码回像素空间。

该模型由下图所示的3个部分组成：pixel space（像素空间）、latent space （潜空间）、conditioning（条件）。

聊聊Stable Diffusion 1

稳定扩散过程：

感知图像压缩（Perceptual Image Compression）：图3中最左侧红框部分是一个VQ-VAE，用于将输入图像x编码为一个离散特征z。
LDM：图3的中间绿色部分是在潜变量空间的扩散模型，其中上半部分是加噪过程，用于将特征Z加噪为ZT 。下半部分是去噪过程，去噪的核心结构是一个由交叉注意力（Cross Attention）组成的U-Net，用于将ZT还原为Z 。
条件机制（Conditioning Mechanisms）：上图的右侧是一个条件编码器，用于将图像，文本等前置条件编码成一个特征向量，并将其送入到扩散模型的去噪过程中。

四、Stable Diffusion（Latent Diffusion Model）的特点

与Diffusion Models和GAN模型相比，Stable Diffusion（Latent Diffusion Model模型）具备更快速、更稳定的特点。

更快速：与Diffusion Models相比，Latent Diffusion Model模型通过减少噪声的数量和步骤，从而减少模型的训练时间。
更稳定：与GAN相比更稳定，GAN作为是早期的图像生成模型，通过生成器（Generato）与判别器（Discriminator）不断对抗进行训练。但生成的图片存在对输出结果的控制力较弱，容易产生随机图像、分辨率比较低的问题。

最后，这篇文章初步介绍了Stable Diffusion的原理和特点，下一篇文章我想聊一聊自己是如何使用Stable Diffusion这个工具以及后续的一些实战案例。敬请期待！

数据来源：

https://zhuanlan.zhihu.com/p/667057805

https://blog.marvik.ai/2023/11/28/an-introduction-to-diffusion-models-and-stable-diffusion/****https://techvify-software.com/what-is-stable-diffusion/

https://developer.baidu.com/article/details/3222941

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：产品经理 AIGC AI应用 Stable Diffusion 工具原理

上一篇 > URL 中的 UTM：产品经理的秘密武器
下一篇 > SEM信息流广告投放：策略、平台选择与效果优化

深度研究：从Copilot到Agent到市场，钉钉AI是否可以作为中国AI应用的观察样板

AI大模型爆红，抖音上架“星绘”，360上架“360AI浏览器”

我训练ChatGPT写短视频分镜头脚本，它的表现，让我惊讶

AI智能应用初探索

我的12个「2024 AI 猜想」

23种「Prompt」提示技术向ChatGPT获取高质量输出

算法人生（2）：从“强化学习”看如何“活在当下”

聊聊Stable Diffusion 1

盘点2023年Stable Diffusion GUI工具及其创作生态

Sora冲击还没来，但智能家居人已经开始焦虑了！

用了 18 个月时间，做 AI 应用从 0 到 200 万用户，从亏损到盈利（4000 字全面复盘）

深度｜黄仁勋对话 Cadence CEO：AI 将在数据中心、机器人/自动驾驶、生命科学三个领域带来革命性影响！

爆火的AI面试，逼疯打工人

生成式AI在B端产品的应用分析

为什么说这些倒腾AI的方式会把自己“搞死”

诸侯争霸，胜负难分，协同办公你pick哪家？

自立门户的苹果员工惨遭翻车，小型化AI设备危机四伏？

我的高频 AI 应用 & 老妈的 AI 应用

Sora又升级了？现实地讲讲AIGC在广告营销行业的场景应用

短视频平台的优劣势分析

AI时代，程序员会失业吗？还需要学习编程吗？

AI健康应用体验分析–讯飞晓医/夸克

Poe AI：构建创作者基础设施的未来之路

“更大的焦虑，更大的想象力”：音视频厂商如何闯入AI时代？

在音乐APP上，花10元就能成为“周杰伦”

AI创业新典范：Monica.im如何用浏览器插件撬动商业价值？

机器人说话的艺术

周鸿祎老板AI公开课，这4点让我受益匪浅！

聊聊Stable Diffusion 1

一、Stable Diffusion的来源

二、Stable Diffusion的功能

三、Stable Diffusion的原理

四、Stable Diffusion（Latent Diffusion Model）的特点

相关文章