Contents
前言
原本,这次是想写mac下部署”Stable Diffusion”的教程,只是此时恰好看到了Diffusion Bee这个事实上基于”Stable Diffusion”,但是又对零基础的朋友非常友好的APP,所以就决定靠这个水一篇文章,来交一下这一周的作业。
Diffusion Bee安装
软件简介
DiffusionBee 是一款基于 Stable Diffusion 的桌面应用程序,专门设计用于在 macOS 平台上运行生成式 AI 模型。它以用户友好的界面和免配置的特点而受到广泛欢迎,主要面向对生成图像感兴趣的创作者和 AI 爱好者,其有以下特点和功能:
- 无需配置,开箱即用
• DiffusionBee 将复杂的 AI 模型配置过程隐藏在后台,用户无需安装 Python 环境或复杂的依赖,只需下载并启动程序即可开始生成图像。
• 适合对技术了解较少的初学者。
- 支持的模型类型
• Stable Diffusion 1.x 和 2.x:支持社区广泛使用的基础版本。
• SD XL:支持 Stable Diffusion 的扩展大模型,提供更高质量的图像生成。
• Inpainting:支持修复和编辑图像,允许用户通过绘制遮罩区域重新生成部分图像。
• ControlNet:提供对图像生成的精确控制,基于草图、姿态等辅助信息生成目标内容。
• LoRA:加载低秩适配权重以增强特定风格或主题的生成能力。
- 简单的用户界面
• 提供一个直观的图形界面,用户只需输入提示词(prompts)并点击生成按钮即可获得结果。
• 支持直接导入提示词模板,方便快速创作。
- 高效运行,支持本地生成
• 利用 Apple 的 Metal API 和 M系列芯片的神经网络引擎,在 macOS 上运行时性能优越,能够充分利用硬件特性实现快速生成。
• 所有生成任务均在本地运行,无需网络连接,保障用户隐私。
- 支持的功能
• 文本生成图像:根据用户输入的描述生成高质量图片。
• 提示词优化:内置提示词推荐和调试功能,帮助用户优化输入,提高生成结果质量。
• 多分辨率支持:可以生成不同分辨率的图像,满足各种用途。
• 批量处理:支持一次性生成多张图片。
- 安全性
• DiffusionBee 的完全本地运行模式避免了用户数据上传至云端的风险,确保隐私保护。
适用人群
- 初学者
• 不需要技术背景即可快速体验生成式 AI 图像的魅力。
• 界面简单,易于上手。
- 创作者
• 适合插画师、设计师等需要快速生成灵感图或创意草图的人群。
• 提供便捷的图像修复和编辑功能。
- macOS用户
• 特别适用于 macOS 用户,尤其是 M系列芯片用户,无需额外配置 GPU 或高性能设备。
系统要求
• 操作系统:macOS 12.5 或更高版本。
• 硬件要求:推荐使用 Apple Silicon 芯片(M系列芯片),尽管也支持 Intel 芯片,但生成速度会较慢(据说5分钟生成一幅画,我没有环境测试,不过我的M4 pro生成一张图大概20秒左右)。也有windows 64 Bit的版本,但是如果没有Nvidia显卡,估计生成速度感人。
安装
Diffusion Bee官网下载链接如下:https://diffusionbee.com/download。
安装就不浪费篇幅了,就是最正常APP安装过程,安装之后打开APP,首页就是所有提供的功能:
Diffusion Bee实操
Text to image(文字生成图片)
功能简介
文字生成图片是 Diffusion Bee 的核心功能之一,它让用户可以将创意想法以简单的文字描述转化为生动的图像。这种技术为创作者、设计师和普通用户提供了极大的便利,使视觉艺术创作更加高效、直观和个性化,其常见的应用场景如下:
• 1、艺术创作
自动生成复杂的艺术风格图像,帮助艺术家获得灵感或快速实现概念。
• 2、概念设计
在影视、游戏、建筑等领域,用于快速创建概念草图和场景。
• 3、内容生成
为博客、社交媒体或营销材料生成配图。
• 4、教育和研究
为教学、论文或科研项目提供视觉辅助材料。
• 5、个性化需求
用户可以用独特的描述生成独一无二的艺术品。
入门使用
首次使用时需要先下载对应的模型,我选择文字生成图像功能时,会自动下载默认的模型(需要科学,否则感觉下不动):
进行图片生成,我的中文提示词如下:
一位美丽的日本女孩穿着比基尼,静静地在黄昏的海滩上观看日落。她有着乌黑亮丽的长发,苗条的身材,胸部丰满,蜜桃臀。
需要翻译成英文:
A beautiful Japanese girl in a bikini quietly watches the sunset on the beach at dusk. She has long, shiny black hair, a slim figure, but her chest is full and her backside is a peach-shaped butt.
不超过30秒完成:
注:这算蜜桃臀吗?我也不是很懂~。
可以通过”Styles”(风格)进行调整,默认是”none”(无),比如我选择”enhance”(增强):
然后重新生成图片:
还行,就是脸有点不理想啊,我不喜欢尖下巴,而且这样不像日本女孩了啊?看来下次提示词要注明这一点,不过为什么比基尼样式都变了?
之后我又进行了一些尝试,发现提示词简单得时候一般都没什么问题,但是,一旦提示词里涉及的元素过多,生成的图像怎么都无法满足所有要求,比如,我将:”枯藤老树昏鸦,小桥流水人家,古道西风瘦马。夕阳西下,断肠人在天涯。”,换成描述:”一幅秋天乡村的场景,弥漫着忧郁的氛围:枯萎的藤蔓缠绕在一棵古老的树上,树枝上栖息着一只孤独乌鸦的暗黑剪影。一座小拱桥跨越着一条温柔流淌的小溪,旁边是一座温馨的中国古代的茅草屋。一条荒凉的旧路延伸向地平线,那里有一匹瘦弱疲惫的马,背靠着寒冷的西风。天空被落日染上了温暖的色调,投射出长长的阴影,唤起了一种孤独与渴望的感觉,一位孤独的旅者在世界的边缘望向远方。”,然后生成的各种图片都不满意,不是缺这就是缺那,或者干脆缺很多,特别是马,从头到尾没出现过:
也不知道是我生成图片时的姿势不对,还是这么多元素超过了默认模型的能力范围,或者我的提示词有问题,这个以后有心情时再来研究研究。
从软件界面可以看出,Diffusion Bee的默认模型是”Default_SDB_0.1″,其对应的Stable Diffusion的核心版本是”Stable Diffusion v1.5″,而目前Diffusion Bee支持的版本如下:
为什么默认的核心版本用v1.5,而不是v2或者XL呢?因为SD 1.x 是最广泛使用的版本,其模型生成效果较为成熟,对资源需求也较低,适合作为入门级默认选项。默认模型不直接使用SD 2.x 或 SD XL,大概率是因为:
• SD 2.x 引入了新功能(如 OpenCLIP),与 1.x 不完全兼容。
• SD XL 对硬件要求更高(需要更强大的 GPU),不适合作为默认模型。
不过,其他版本都可以按需自己进行导入,所以也不影响。
进阶使用(开启高级选项)
常规界面
上一部分是Diffusion Bee最基础的使用方式,也没提供什么专业的调整参数,适合要求不高的、零基础用户。而对于有一定技术基础的,有自己定制部分参数的朋友,最基础的使用方式明显就不适合了,这个时候,就可以通过开启”Advanced Options”启用Diffusion Bee的高级选项界面,操作界面会多出很多选项:
Negative Prompt(负面提示词):是用于控制图像生成的一个重要选项,其作用是抑制不希望出现的特定特征或元素。当生成图片时,模型会根据提示词(prompt)生成与描述匹配的图像。但有时,生成的图像可能包含一些不需要的特征或元素。Negative Prompt就是用来明确告诉模型哪些内容应该被弱化或避免。例如,你想生成一张清晰的图像,但模型可能会生成模糊效果,在Negative Prompt中输入blurry(模糊),可以减少模糊的概率;如果你不想要图像中出现某些物体,比如“帽子”,可以在Negative Prompt中输入hat。
分辨率(开启高级选项后多出来的)和图片数量一看就懂,就不说了。
Seed(种子):基础模式就有的,它是生成图像时的一个重要参数,它用来控制随机性并使生成结果可复现,根据设置的数值不同,可以分为随机Seed和固定Seed:如果将 Seed 设为 -1 或“随机”,模型会为每次生成自动分配一个新的 Seed,结果会有所变化;如果使用特定的 Seed 值(例如 12345),则每次生成的图像在其他条件一致的情况下都会相同。
Sampling Steps(采样步数):开启高级选项后多出来的,是控制图像生成过程的一个关键参数。它决定了从随机噪声到最终图像的去噪迭代次数,直接影响生成图像的质量、细节和生成时间,步数越多,模型有更多的迭代机会对图像进行优化,逐步去除噪声,生成符合提示词的图像。低步数(10-20):适用于快速预览生成结果,或当生成目标简单时(如背景、纯色图像)。优点:快速生成,适合调试;缺点:细节不足,可能产生瑕疵;中等步数(20-50):平衡生成时间与图像质量,适合大多数场景,通常 30-40 步可以生成高质量图像;高步数(50+):适用于对图像质量要求极高的场景(如高分辨率图像或复杂场景)。超过一定步数后(如 100 步以上),质量提升可能趋于饱和。在硬件有限的情况下(如普通 GPU),推荐从较低步数(20-30)开始调整,找到质量和时间的最佳平衡点。
开启高级选项开关后,除了常规界面多出的选项,还新增了以下设置项:
下面我一一介绍这些设置项的作用。
Diffusion和Seed
Diffusion:作用是选择和调整用于生成图像的采样算法。采样算法决定了模型在生成过程中如何逐步去除噪声,以及每一步去噪的方式,会影响:图像生成速度、图像质量、稳定性,有karras、ddim、lmsd、pndm、k_euler、k_euler_ancestral。其中,ddim快速且稳定,低步数时仍能生成高质量图像,非常流行,生成速度和质量的平衡点好;pndm是一种通过引入数值方法来优化扩散过程的采样方法,它结合了传统的扩散模型与数值优化策略,使得在较少的步数下仍能生成高质量的图像,我准备主要选择这2种。
Guidance Scale:是一个非常重要的参数,用于控制生成图像时模型对提示词(Prompt)的依从程度。它影响模型在生成过程中如何平衡提示词的引导与随机性,从而改变图像的细节、风格和与描述的匹配程度。初学者建议:在 7-12 的范围内调整,作为通用设置。这是大多数模型生成图像时的推荐值,既能保证提示词的符合度,又不会过度引导;特定场景下的优化:详细描述的 Prompt,增加到 15-20,确保模型按照描述生成细节丰富的内容;抽象或模糊的 Prompt,降低到 5-7,允许模型更多自由发挥。
Small Modification seed:是指在当前的 Seed 基础上,稍微改变随机数的值(例如增加或减少一个小幅度),从而生成与原始图像类似但又稍有不同的图像。对 Seed 进行小的改动(例如从 12345 改成 12346)会微调噪声分布。
Compatibility Mode:解决不同模型或参数不兼容问题的关键工具,能够确保各种模型(旧版本、新架构、不同格式)在目标生成工具中正常使用。启用兼容模式后,可能会对性能或效果产生轻微影响,但它是确保跨模型生成的一个强大工具。
ControlNet
ControlNet:它为文字生成图像增加了精确的条件控制能力,允许用户为生成图像提供辅助输入信息作为控制和指导,其常见的额外输入类型如下:
通过结合提示词和用户提供的辅助输入,ControlNet 能生成更精准且符合预期的图像,非常适合需要细节控制和复杂场景生成的应用场景,可以极大地提升图像生成的创意自由度和结果质量。
ControlNet Model:作用就是告诉 Diffusion Bee 提供的辅助输入图片(如边缘图、深度图、姿态图等)具体是哪一类信息:
Automatically generate control:结合ControlNet Model的设置内容,自动从用户上传的辅助图像里提取所需的辅助输入信息以供ControlNet使用,这可以帮助用户省去手动准备这些输入的步骤,使 ControlNet 更加易用。
- 选择开启 (Yes),系统会自动处理你上传的辅助输入图像,从辅助输入图像中提取与ControlNet模型匹配的控制信息(如边缘图、深度图、姿态图等,视ControlNet Model的设置项而定),适合上传普通图片或粗略草图,降低对输入图像精度的要求。
- 选择关闭 (No):系统直接使用你上传的控制输入图像,不做额外处理,要求输入内容已经精准匹配 ControlNet 模型(如清晰的边缘图或深度图,视ControlNet Model的设置项而定),用于精确控制生成结果。
ControlNet importance:控制生成过程中”ControlNet 辅助输入”对最终结果的影响程度,决定模型在多大程度上遵循辅助输入的约束,通过调整该参数,可以平衡辅助输入与提示词之间的影响,满足不同生成需求:
高重要性(接近 1.0):
• 作用:强调辅助输入(如边缘图、深度图)的影响,使生成结果尽可能贴合输入的结构或特征。
• 适用场景:需要严格控制生成图像的特定元素,例如,保留输入边缘图的精确轮廓;根据深度图生成具有准确空间感的场景;完全匹配输入的人体姿态图。
低重要性(接近 0.0):
• 作用:弱化辅助输入的影响,让模型更多依赖提示词(Prompt)的描述,生成更自由和富于创意的图像。
• 适用场景:希望辅助输入只是一个参考,而最终生成图像更依赖提示词表达,例如,输入的边缘图只是提供一个大致的结构,而具体内容和细节由提示词决定;辅助输入提供基础方向,但允许模型更有创意地生成背景或装饰。
LoRA
LoRA:全称为Low-Rank Adaptation of Large Language Models,既大型语言模型的低秩适应,它是一种优化技术,主要用来以高效的方式微调大型神经网络(例如用于扩散模型的图像生成网络)。
LoRA 是扩散模型生态中的重要技术,通过这一工具,用户可以高效实现模型的定制化,同时保持对计算资源的友好支持,这使得像 Diffusion Bee 这样的工具更加灵活和易用:LoRA 常用于微调模型,使其生成特定风格的图片,或在生成时加入特定主题(如特定角色、艺术风格等),例如,微调后模型可以更好地理解和生成类似 “赛博朋克风” 或 “油画风格” 的图像。LoRA 微调后,不需要重新保存整个模型,仅保存额外的微调权重(A 和 B)。这使得存储空间需求大大降低(通常小于 100MB)。
在 Diffusion Bee 的高级选项中,用户可以加载特定的 LoRA 模型或权重文件,来调整生成图片的风格:通常,用户需要提供预训练的 LoRA 文件(例如 .safetensors 或 .ckpt 格式),并通过界面配置其影响程度(如权重或比率)。
在 Diffusion Bee 的界面中开启高级选项后,LoRA部分出现了LoRA1、LoRA2、LoRA3。这3项是用于加载和组合多个 LoRA 模型的独立插槽(slots)。它们的主要作用和区别如下:
1. LoRA 插槽的作用
• 支持多模型叠加:Diffusion Bee 支持在一次生成任务中应用多个 LoRA 模型,这对实现更加复杂或定制化的图像效果非常有用。
• 独立配置:每个 LoRA 插槽可以加载一个独立的 LoRA 模型,并对每个模型分别设置权重。
• 组合效果:多个 LoRA 的叠加会根据设置的权重共同影响最终生成的图像。
2. LoRA 1、LoRA 2 和 LoRA 3 的区别
它们本质上没有功能上的区别,只是提供更多组合的可能性。:
• 每个插槽可以加载不同的 LoRA 模型。
• 加载的顺序可能会影响生成结果(在一些工具中,后加载的模型可能覆盖前面的部分影响)。
• 可以对不同插槽的 LoRA 模型设置不同的强度(如果有选项)。
3. 如何使用多个 LoRA
- 加载多个主题的 LoRA:
• 比如你加载了一个风格化模型(LoRA 1)和一个特定角色模型(LoRA 2),图像会同时体现这两个模型的特性。
- 调整权重:
• 如果界面允许调整权重,你可以对不同 LoRA 设置不同的强度,决定其对最终图像的影响程度。
• 一般范围是 0 到 1(或 0 到某个最大值),值越高影响越大。
4. 注意事项
- 基础模型需匹配:
• 确保所有加载的 LoRA 模型适配同一个基础模型(如本文中是SD 1.5),否则可能导致生成效果异常。
- 多个 LoRA 的兼容性:
• 不同 LoRA 的训练目标可能存在冲突,例如一个是风格化模型,另一个是特定形象模型,叠加后效果可能会失真或变得不可控。
- 性能消耗:
• 同时加载多个 LoRA 可能增加显存或计算资源的需求。
5. 示例场景
• LoRA 1:风格模型
加载一个“油画风格”LoRA,给图片赋予特定艺术风格。
• LoRA 2:角色模型
加载一个角色或特定物品的 LoRA(例如“某动漫角色”)。
• LoRA 3:背景增强
加载一个用于增强特定背景细节的 LoRA(如“森林背景”)。
通过这种组合,你可以生成一个特定角色在油画风格下的森林场景。
那么,在哪里下载LoRA模型呢?一般来说,LoRA模型可以从网上的模型分享社区平台进行下载,比如Civitai、Hugging Face等,本文中我是从Civitai下载的。
Civitai简介
Civitai.com 是一个专注于 AI 模型分享与交流 的社区平台,主要面向使用 Stable Diffusion 等生成式 AI 模型的用户和开发者。它提供了一站式的模型下载、预览和使用指南,是当前生成式 AI 领域中比较活跃的资源分享网站之一。
核心功能和特点:
- 模型分享:用户可以上传和下载各种用于生成图像的模型文件(如 Stable Diffusion 的模型权重),包括基础模型、精调模型(fine-tuned models)、LoRA(低秩适配)权重等。
- 模型分类:网站提供了多个模型分类,如:写实风格(Realistic)、动漫风格(Anime)、插画风格(Illustrative)、特效/后期处理模型。
- 示例图片与预览:每个模型的页面通常会附带许多示例图片,展示模型生成效果。示例图片还包含生成时使用的提示词(prompts),便于用户参考和学习。
- 社区交流:用户可以对模型进行评价、评论和打分,帮助其他人判断模型的效果。开发者和用户之间可以直接互动,讨论模型优化与使用技巧。
- 工具支持:提供了针对生成式模型的安装和使用指导,帮助用户快速部署。部分资源可能包含相关工具或脚本的推荐。
- 开源精神:大部分模型文件是由社区用户免费分享的,延续了生成式 AI 领域的开源传统。
在Civitai的”模型”中找到自己喜欢的人物图像,注意要根据自己使用的基础模型进行选择,否则很可能会在导入的时候出现不兼容,这个问题可以通过过滤器来解决:
在合适的模型中选择自己顺眼的人物模型:
然后在当前页点击右上的下载按钮:
在Diffusion Bee中导入刚才下载的模型:
然后再LoRA插槽的下拉菜单中进行选择即可(因为只选择了一个角色模型,所以任意选择一个LoRA插槽就行,我这里就选择了LoRA 1):
Misc
Misc:杂项(Miscellaneous)的缩写,提供更精细化的控制,让用户可以根据需求在生成图像的细节(V-Prediction)和文本解析(Clip Skip 2)之间找到平衡。这些选项通常适合有一定经验的用户,或者对生成结果有特殊要求的场景。
V-Prediction:启用扩散模型中的方差预测机制,提升图像生成的细节表现和稳定性,尤其是在复杂或高分辨率的图像生成中,有助于减少生成过程中的模糊或随机性,生成更清晰的图像:开启,用于追求高质量、细节丰富的图像输出;关闭,可尝试解决某些早期模型生成时的不兼容问题。
Clip Skip 2:调整 CLIP 模型的文本提示处理机制,跳过最后两层的 Transformer 输出。生成的图像可能更具艺术性和创意性,但可能会稍微偏离提示词的初始含义。同时减少对提示词的严格依赖,允许模型生成更加自由的图像内容:开启,探索风格多样化或更宽松的提示词解释;关闭,当需要精确反映提示词含义时。
最后,依旧使用了最开始的提示词,我启用了高级选项并按照以下方式设置了参数(其他没提及的选项就是使用的默认值):
最后得到的效果如下:
还有其他选项我没有仔细研究,只有留待以后有需求的时候再说吧,需要不停的尝试才能搞明白。
Image to image(图片生成图片)
功能简介
“Image to image”是一个强大的工具,它在保持输入图像关键特征的基础上,通过 AI 提供多样化的变化和创意输出,为用户提供了更多的可能性,这使其适用于创意设计、数字艺术和内容生成的各类需求,常见的应用场景如下:
• 艺术创作:将草图转化为高质量的艺术图,或者让已有画作呈现不同风格。
• 风格化照片:将普通照片转化为油画、水彩画等特定风格的作品。
• 场景或细节修改:修改图像中的某些区域,或根据提示词改变内容(例如,把白天的场景变为夜晚)。
• 概念设计:快速为概念设计或项目生成基于初稿的新图像。
功能实操
基本来说,Image to image和Text to image的选项是大同小异的,也分基础使用界面和开启高级选项之后的进阶使用界面,并且选项参数其实都差不多,基础使用界面如下:
Input Strength(输入强度):是图像生成图像功能的一个关键参数,可调节输入图像与生成结果之间的融合程度。通过调整此参数,你可以在“基于提示词生成新图像”和“对输入图像进行轻微调整”之间找到适合的平衡点。
Input Strength设置不同参数值的影响
- 低值(例如 10 – 40):
• 输入图像的特征较弱,仅作为初始噪声的参考。
• 输出图像会更接近提示词(Prompt)的描述,而较少保留原始输入图像的结构或细节。
• 适合用输入图像作为灵感,而非直接修改。
- 中等值(例如 50 – 70):
• 输入图像和提示词的权重达到平衡。
• 输出图像既包含输入图像的主要结构,也反映提示词的内容。
• 常用于希望在输入图像的基础上添加创意或风格化调整。
- 高值(例如 80 – 100):
• 输入图像的特征被高度保留。
• 输出图像会非常接近原始输入图像,仅进行轻微的风格化或细节修改。
• 适合希望仅对输入图像进行小范围增强的场景。
进阶使用界面主要是多了2个选项开关,一个是Specify image dimensions(就是指定输出图片的分辨率):
另一个是Inpainting Options:
Inpainting options(修复选项),下面只有一个开关Smoothen Mask(平滑蒙版)。在进行图像修复(inpainting)时,蒙版用于指定需要修改的区域。Smoothen Mask 的开关可以让蒙版的边缘变得更平滑,避免出现过于生硬或突兀的边缘。通过平滑处理,修复区域与周围未修改区域的过渡更加自然,从而减少明显的编辑痕迹,提高生成结果的视觉一致性。
如果需要精细化局部修改,例如修复细小的细节或对较复杂的背景进行修补(开启Smoothen Mask:适用于需要更柔和、无缝过渡的场景,例如修复人像、自然风景或复杂纹理;关闭Smoothen Mask:如果需要保留锐利的边缘,或在修改时需要清晰的边界,则可以选择关闭)。
此功能对生成结果的细节和一致性起到了辅助优化作用,尤其是在需要高质量修复时很有用。
实践一把,用下面这张猫猫照片为输入照片:
描述词用以下内容:
A cat is napping on the Floor,Cartoon style
参数设置如下:
指定包括输入强度在内的相关参数:
其他选项都有的默认值,最终结果如下:
或者一个更简单的处理,用梵高的风格:
还可以使用mask功能进行局部修改:
注:Input Strength(输入强度)很重要,大家可以尝试使用不同的输入强度来尝试不同风格的图片。
IIIusion generator(幻觉生成器)
生成具有超现实或视觉幻觉效果的图像。它利用扩散模型的能力,通过结合用户的提示词和内置的图像生成算法,创造出具有独特、艺术性强的超现实场景。
IIIusion generator的功能界面和之前的Text to image、Image to image功能类似,唯一一个有自己特色的条件参数是IIIusion generator,默认值是1,最大值是3:
该选项的作用是调节生成内容的强度和原始图像之间的融合程度:数值较低时,生成内容会更轻微地覆盖或融合到原图中,保持更多原图细节和风格;数值较高时,生成内容会更明显地改变原图,甚至完全覆盖原始图像,展示提示词指定的新内容。这个选项类似于 Image-to-Image 功能中的 Input Strength,但侧重于为现有图像添加幻觉般的效果,增强艺术创造力。
该功能很简单,这里不做更多描述,看一张实际效果即可:
Inpainting(修复)
功能简介
在 Diffusion Bee 中,Inpainting 功能的作用是对图像的指定部分进行编辑、修复或重生成,而不影响其他未选中的区域。这项功能非常适合修改图像的局部内容,比如修复瑕疵、替换某些元素或填补空白。
Inpainting 的具体作用
- 局部修复:用于修复图像中的损坏区域或删除不需要的部分。例如,去掉图中的文字或物体后填充合适的内容。
- 区域编辑:根据用户提供的提示词,对选定区域生成新的内容,同时尽量保持与周围区域的自然过渡。例如,将某个物体替换为另一个物体。
- 填补空白:对未完成或部分空白的图像进行补充,生成与现有画面风格一致的内容。
- 创意变换:在已有图像基础上,按照提示词重新生成指定区域的内容,实现局部风格化或创意调整。
实际应用场景
• 修复旧照片中的瑕疵或损坏部分。
• 修改现有设计中的局部内容,例如更改颜色、添加新元素。
• 为艺术作品增添新的创意细节。
功能实操
用我U的一张照片,把她变成金色的头发:
最终效果(金色头发的提示词太简单了,我应该写金色长发才对~):
感觉脸部略微有点变形,这可能是因为使用mask选择头发区域的时候不够细致所致,难怪鸟山明因为头发太麻烦不想画超级赛亚人3了,我连选个长发区域都很毛躁~。
Inpainting 和 Image to Image功能中的 Mask 功能
在 Diffusion Bee 中,Inpainting 和 Image to Image 中的 Mask 功能 有一定的相似性,但它们的设计目标和实际用途有所不同:
1. 功能定位的差别
Inpainting
- 目标:对选定区域进行修复、替换或重生成
- 应用场景:局部修复、内容替换、填补空白等局部编辑操作
Image to Image 的 Mask
- 目标:对整个图像进行重生成,但允许保留部分内容
- 应用场景:在较大范围内调整图像的风格或内容,且保留关键区域
2. Mask 作用的差别
Inpainting
- 覆盖范围:仅影响用户手动绘制的区域,未选中的部分完全不变
- 编辑强度:AI 对选中的区域进行完全的重新生成
- 使用方式:手动绘制 Mask 后,输入提示词对该区域单独生成
- 典型结果:生成的内容与未选中区域无缝融合(局部处理为主)
Image to Image的Mask
- 覆盖范围:不同于传统的硬性遮盖,Mask 是为保留的区域指定较少的变化程度
- 编辑强度:AI 根据图像整体的提示,调整未遮盖部分,并轻微影响 Mask 部分
- 使用方式:提供初始图像,使用 Mask 来控制对某些区域的生成幅度
- 典型结果:生成内容时,Mask部分通常作为参考或保持一致性(整体处理为主)
3. 实际使用的对比
Inpainting 的典型使用场景:
• 修复照片中的划痕、污点或缺损部分。
• 替换图像局部内容(如换脸、去除背景中的干扰物)。
• 用输入提示词对选中区域重新生成(如替换天空、添加装饰等)。
Image to Image Mask 的典型使用场景:
• 保留特定区域(如面部或关键物体)的同时,调整背景或其他部分的风格。
• 提高编辑过程中对整体图像的控制程度,例如避免覆盖已经满意的细节。
• 在风格迁移或图像增强时,保护重要区域免受大幅度的更改。
总结
• Inpainting 专注于局部编辑,仅影响手动绘制的区域,非常适合小范围内容替换或修复。
• Image to Image 中的 Mask 是整体图像生成中的一个辅助功能,目的是保留选定区域,同时对其余区域进行风格或内容调整。
二者功能互补,大家可根据需求选择最合适的工具。
Upscaler(放大器)
功能简介
Upscaler功能很单纯:对图像进行分辨率提升和细节增强,以提高图像质量,使其适合更高分辨率的应用场景(例如打印、大屏展示或高质量保存):
- 分辨率提升:将低分辨率的图像放大为高分辨率,同时尽量避免像素化或失真;常用于生成后的图像,使其更加清晰,适配更高分辨率的设备。
- 细节增强:利用 AI 技术,补充图像中的纹理、边缘和细节,使放大后的图像更自然;减少图像放大过程中可能出现的模糊或细节丢失。
- 无损放大:使用深度学习模型(如Real-ESRGAN ),确保图像放大后保留尽可能多的原始细节。
功能实操
Upscaler功能没什么选项,直接选择照片然后点击”Upscaler”按钮即可:
上面那张图怕大家看不清楚实际效果,下面给大家看看原始图片效果。
原始图片(网上直接截图保存的效果):
使用upscaler处理之后的效果:
注:因为我上传到图床的图片已经经过了一次处理(在chevereto上限制了图片分辨率是1024 * 768),所以最终大家看到的和真实效果还是有较大差别的,不过即便这样,也能看出经过upsclaer处理过的图片细节更丰富,也更高清了(很合理,经过Upscaler处理过后,图片大小从1.2兆直接变成了26.4兆~)。
AI canvas
功能简介
AI Canvas 功能的主要作用是为用户提供一个交互式的画布,用于结合 AI 绘画技术进行创作。它的具体功能包括以下几个方面:
1. 局部编辑和绘制
用户可以手动在画布上绘制或遮盖区域(选区框),指定 AI 应该生成图像的具体位置或修改现有图像的区域。这种功能适用于局部修补、细节修改,或在已有画作基础上进行增强。
2. Inpainting(修复)功能
AI Canvas 通常支持”Inpainting”,即通过 AI 修复或重新生成被遮盖的区域。用户可以遮盖不满意的部分,让 AI 根据上下文重新绘制,完成自然过渡。
3. 草图或提示设计
用户可以用粗略的线条或形状在画布上绘制草图,然后让 AI基于这些草图生成更完整、更精细的作品。这种方式适合有特定构图或设计需求的用户。
4. 灵活调整生成区域
AI Canvas 提供了更大的控制权,允许用户选择部分或全部画布区域进行 AI 图像生成或改动,而不必每次都针对整个图像。
5. 增强用户创意表达
借助 AI Canvas,用户能够直接在视觉界面中与 AI 互动,提供了一种更直观的方式来调整图像生成过程,探索更多创意可能性。
常见应用场景:
• 图像局部修复(例如去除不需要的对象、补全画面)
• 创意绘画(基于用户草图进行AI绘制)
• 调整生成内容的细节与整体风格
这个功能通常用于需要细化修改或高交互性的生成场景,非常适合设计师和艺术创作者。
功能实操
注:我之所以把AI Canvas功能放到后面来讲,是因为这个功能也算是前面很多功能的组合体:包括文字生成图片、图片生成图片、修复等,所以把前面的功能讲清楚后,这里就可以节约不少口水了。
首次使用需要下载ControlNet Inpaint模型:
在右边画布区域的顶部,提供了一系列的工具,如下图(如果要使用画笔提供的修复功能,左边的大模型需要选择之前下载的”SD1.5_Inpainting”):
在上图左下方的Function部分,有3个选项:
这3个选项表示在右面画布的选区框里要用AI做哪种类型的工作,其中,”Text To Image”和”Image To Image”很好理解,我在文章前面也讲过,关键是第3个选项,也是默认选项”Generative Fill”,既生成填充:生成填充的功能是在已有图像或画布的基础上,通过输入文字描述生成并填充新的内容,如果是在空白画布使用生成填充,其实和文字生成图像很类似:
功能选择”Generative Fill”的效果:
功能选择”Text To Image”的效果:
这种方式使用”Generative Fill”属于特殊情况(空画布),而正常情况下,如果重新生成一张图片(从零开始),应该选择”Text to Image”更好;如果是希望基于现有内容(例如完善图像、去除多余部分或添加新元素),则选择 “Generative Fill”。
以下图的卡卡罗特为例,把他变成粉色头发,需要使用”Generative Fill”以及”SD1.5_Inpainting”模型:
最终效果如下:
可以看出其实就是Inpainting(修复)的功能,所以我之前才说AI Canvas是多个功能的组合体。另外,还有个Paintbrush(画笔)功能,研究了半天没研究出怎么玩,大家有知道怎么用的可以在评论区告诉我。
注:AI canvas的功能很强大,我这里只是最浅显的使用当做示范,具体应用技巧大家有需要可以慢慢研究。
总结
其实,Diffusion Bee最核心的除了基于”Stable Diffusion”的生成方面的功能(文字生成图片、图片生成图片),最重要的其实是对新人几乎没有任何学习成本的、开箱既可上手的易用性。如果真要比功能强大的话,Diffusion Bee肯定是比不过其他专业化的工具(例如Midjourney、基于专业UI的Stable Diffusion等),但是如果论上手速度,Diffusion Bee肯定是最快的:毕竟双击安装了就直接开始用(最多就是下默认的基础模型需要一点时间而已)。
而作为苹果电脑M系列芯片的用户,天然自带强大的GPU和神经网络芯片,这简直就是Diffusion Bee的最佳载体:不管需要不需要,不用一用简直相当于损失了几个亿!
可惜的是,网上关于Diffusion Bee的详细使用教程实在是太少(特别是高级选项涉及的参数的作用以及设置方法),所以查找这些参数的作用和验证设置之后的效果花了我不少的时间,还好最终在本文中覆盖得七七八八了,希望能或多或少的对那些需要使用Diffusion Bee的朋友有那么一点帮助吧(本来只是想随便水一篇文章来充数的,结果越写越不对,最后发现居然比平时更累了?)。
注1:在本文中我详细解释了不少基础设置项的含义以及设置效果,之后的相关文章中我不再重复解释(比如下篇关于Draw Things的文章)。
注2:本文中涉及的都是最初级的生成类应用,加上我本来对这些涉及细分领域的操作就不太行(有些技巧和经验是需要在反复的实战中积累的),所以大家不用拘泥于本文中我这些粗浅的演示(甚至文中我的有些说法未必准确),当个参考就行了。