前言

原本，这次是想写mac下部署”Stable Diffusion”的教程，只是此时恰好看到了Diffusion Bee这个事实上基于”Stable Diffusion”，但是又对零基础的朋友非常友好的APP，所以就决定靠这个水一篇文章，来交一下这一周的作业。

Diffusion Bee安装

软件简介

DiffusionBee 是一款基于 Stable Diffusion 的桌面应用程序，专门设计用于在 macOS 平台上运行生成式 AI 模型。它以用户友好的界面和免配置的特点而受到广泛欢迎，主要面向对生成图像感兴趣的创作者和 AI 爱好者，其有以下特点和功能：

无需配置，开箱即用

• DiffusionBee 将复杂的 AI 模型配置过程隐藏在后台，用户无需安装 Python 环境或复杂的依赖，只需下载并启动程序即可开始生成图像。

• 适合对技术了解较少的初学者。

支持的模型类型

• Stable Diffusion 1.x 和 2.x：支持社区广泛使用的基础版本。

• SD XL：支持 Stable Diffusion 的扩展大模型，提供更高质量的图像生成。

• Inpainting：支持修复和编辑图像，允许用户通过绘制遮罩区域重新生成部分图像。

• ControlNet：提供对图像生成的精确控制，基于草图、姿态等辅助信息生成目标内容。

• LoRA：加载低秩适配权重以增强特定风格或主题的生成能力。

简单的用户界面

• 提供一个直观的图形界面，用户只需输入提示词（prompts）并点击生成按钮即可获得结果。

• 支持直接导入提示词模板，方便快速创作。

高效运行，支持本地生成

• 利用 Apple 的 Metal API 和 M系列芯片的神经网络引擎，在 macOS 上运行时性能优越，能够充分利用硬件特性实现快速生成。

• 所有生成任务均在本地运行，无需网络连接，保障用户隐私。

支持的功能

• 文本生成图像：根据用户输入的描述生成高质量图片。

• 提示词优化：内置提示词推荐和调试功能，帮助用户优化输入，提高生成结果质量。

• 多分辨率支持：可以生成不同分辨率的图像，满足各种用途。

• 批量处理：支持一次性生成多张图片。

安全性

• DiffusionBee 的完全本地运行模式避免了用户数据上传至云端的风险，确保隐私保护。

适用人群

初学者

• 不需要技术背景即可快速体验生成式 AI 图像的魅力。

• 界面简单，易于上手。

创作者

• 适合插画师、设计师等需要快速生成灵感图或创意草图的人群。

• 提供便捷的图像修复和编辑功能。

macOS用户

• 特别适用于 macOS 用户，尤其是 M系列芯片用户，无需额外配置 GPU 或高性能设备。

系统要求

• 操作系统：macOS 12.5 或更高版本。

• 硬件要求：推荐使用 Apple Silicon 芯片(M系列芯片），尽管也支持 Intel 芯片，但生成速度会较慢(据说5分钟生成一幅画，我没有环境测试，不过我的M4 pro生成一张图大概20秒左右)。也有windows 64 Bit的版本，但是如果没有Nvidia显卡，估计生成速度感人。

安装

Diffusion Bee官网下载链接如下：https://diffusionbee.com/download。

安装就不浪费篇幅了，就是最正常APP安装过程，安装之后打开APP，首页就是所有提供的功能：

Diffusion Bee实操

Text to image(文字生成图片)

功能简介

文字生成图片是 Diffusion Bee 的核心功能之一，它让用户可以将创意想法以简单的文字描述转化为生动的图像。这种技术为创作者、设计师和普通用户提供了极大的便利，使视觉艺术创作更加高效、直观和个性化，其常见的应用场景如下：

• 1、艺术创作

自动生成复杂的艺术风格图像，帮助艺术家获得灵感或快速实现概念。

• 2、概念设计

在影视、游戏、建筑等领域，用于快速创建概念草图和场景。

• 3、内容生成

为博客、社交媒体或营销材料生成配图。

• 4、教育和研究

为教学、论文或科研项目提供视觉辅助材料。

• 5、个性化需求

用户可以用独特的描述生成独一无二的艺术品。

入门使用

首次使用时需要先下载对应的模型，我选择文字生成图像功能时，会自动下载默认的模型(需要科学，否则感觉下不动)：

进行图片生成，我的中文提示词如下：

一位美丽的日本女孩穿着比基尼，静静地在黄昏的海滩上观看日落。她有着乌黑亮丽的长发，苗条的身材，胸部丰满，蜜桃臀。

需要翻译成英文：

A beautiful Japanese girl in a bikini quietly watches the sunset on the beach at dusk. She has long, shiny black hair, a slim figure, but her chest is full and her backside is a peach-shaped butt.

不超过30秒完成：

注：这算蜜桃臀吗？我也不是很懂～。

可以通过”Styles”(风格)进行调整，默认是”none”(无)，比如我选择”enhance”(增强)：

然后重新生成图片：

还行，就是脸有点不理想啊，我不喜欢尖下巴，而且这样不像日本女孩了啊？看来下次提示词要注明这一点，不过为什么比基尼样式都变了？

之后我又进行了一些尝试，发现提示词简单得时候一般都没什么问题，但是，一旦提示词里涉及的元素过多，生成的图像怎么都无法满足所有要求，比如，我将：”枯藤老树昏鸦，小桥流水人家，古道西风瘦马。夕阳西下，断肠人在天涯。”，换成描述：”一幅秋天乡村的场景，弥漫着忧郁的氛围：枯萎的藤蔓缠绕在一棵古老的树上，树枝上栖息着一只孤独乌鸦的暗黑剪影。一座小拱桥跨越着一条温柔流淌的小溪，旁边是一座温馨的中国古代的茅草屋。一条荒凉的旧路延伸向地平线，那里有一匹瘦弱疲惫的马，背靠着寒冷的西风。天空被落日染上了温暖的色调，投射出长长的阴影，唤起了一种孤独与渴望的感觉，一位孤独的旅者在世界的边缘望向远方。”，然后生成的各种图片都不满意，不是缺这就是缺那，或者干脆缺很多，特别是马，从头到尾没出现过：

也不知道是我生成图片时的姿势不对，还是这么多元素超过了默认模型的能力范围，或者我的提示词有问题，这个以后有心情时再来研究研究。

从软件界面可以看出，Diffusion Bee的默认模型是”Default_SDB_0.1″，其对应的Stable Diffusion的核心版本是”Stable Diffusion v1.5″，而目前Diffusion Bee支持的版本如下：

为什么默认的核心版本用v1.5，而不是v2或者XL呢？因为SD 1.x 是最广泛使用的版本，其模型生成效果较为成熟，对资源需求也较低，适合作为入门级默认选项。默认模型不直接使用SD 2.x 或 SD XL，大概率是因为：

• SD 2.x 引入了新功能（如 OpenCLIP），与 1.x 不完全兼容。

• SD XL 对硬件要求更高（需要更强大的 GPU），不适合作为默认模型。

不过，其他版本都可以按需自己进行导入，所以也不影响。

进阶使用(开启高级选项)

常规界面

上一部分是Diffusion Bee最基础的使用方式，也没提供什么专业的调整参数，适合要求不高的、零基础用户。而对于有一定技术基础的，有自己定制部分参数的朋友，最基础的使用方式明显就不适合了，这个时候，就可以通过开启”Advanced Options”启用Diffusion Bee的高级选项界面，操作界面会多出很多选项：

Negative Prompt(负面提示词)：是用于控制图像生成的一个重要选项，其作用是抑制不希望出现的特定特征或元素。当生成图片时，模型会根据提示词(prompt)生成与描述匹配的图像。但有时，生成的图像可能包含一些不需要的特征或元素。Negative Prompt就是用来明确告诉模型哪些内容应该被弱化或避免。例如，你想生成一张清晰的图像，但模型可能会生成模糊效果，在Negative Prompt中输入blurry(模糊），可以减少模糊的概率；如果你不想要图像中出现某些物体，比如“帽子”，可以在Negative Prompt中输入hat。

分辨率(开启高级选项后多出来的)和图片数量一看就懂，就不说了。

Seed(种子)：基础模式就有的，它是生成图像时的一个重要参数，它用来控制随机性并使生成结果可复现，根据设置的数值不同，可以分为随机Seed和固定Seed：如果将 Seed 设为 -1 或“随机”，模型会为每次生成自动分配一个新的 Seed，结果会有所变化；如果使用特定的 Seed 值(例如 12345)，则每次生成的图像在其他条件一致的情况下都会相同。

Sampling Steps(采样步数)：开启高级选项后多出来的，是控制图像生成过程的一个关键参数。它决定了从随机噪声到最终图像的去噪迭代次数，直接影响生成图像的质量、细节和生成时间，步数越多，模型有更多的迭代机会对图像进行优化，逐步去除噪声，生成符合提示词的图像。低步数（10-20）：适用于快速预览生成结果，或当生成目标简单时（如背景、纯色图像）。优点：快速生成，适合调试；缺点：细节不足，可能产生瑕疵；中等步数（20-50）：平衡生成时间与图像质量，适合大多数场景，通常 30-40 步可以生成高质量图像；高步数（50+）：适用于对图像质量要求极高的场景（如高分辨率图像或复杂场景）。超过一定步数后（如 100 步以上），质量提升可能趋于饱和。在硬件有限的情况下（如普通 GPU），推荐从较低步数（20-30）开始调整，找到质量和时间的最佳平衡点。

开启高级选项开关后，除了常规界面多出的选项，还新增了以下设置项：

下面我一一介绍这些设置项的作用。

Diffusion和Seed

Diffusion：作用是选择和调整用于生成图像的采样算法。采样算法决定了模型在生成过程中如何逐步去除噪声，以及每一步去噪的方式，会影响：图像生成速度、图像质量、稳定性，有karras、ddim、lmsd、pndm、k_euler、k_euler_ancestral。其中，ddim快速且稳定，低步数时仍能生成高质量图像，非常流行，生成速度和质量的平衡点好；pndm是一种通过引入数值方法来优化扩散过程的采样方法，它结合了传统的扩散模型与数值优化策略，使得在较少的步数下仍能生成高质量的图像，我准备主要选择这2种。

Guidance Scale：是一个非常重要的参数，用于控制生成图像时模型对提示词（Prompt）的依从程度。它影响模型在生成过程中如何平衡提示词的引导与随机性，从而改变图像的细节、风格和与描述的匹配程度。初学者建议：在 7-12 的范围内调整，作为通用设置。这是大多数模型生成图像时的推荐值，既能保证提示词的符合度，又不会过度引导；特定场景下的优化：详细描述的 Prompt，增加到 15-20，确保模型按照描述生成细节丰富的内容；抽象或模糊的 Prompt，降低到 5-7，允许模型更多自由发挥。

Small Modification seed：是指在当前的 Seed 基础上，稍微改变随机数的值（例如增加或减少一个小幅度），从而生成与原始图像类似但又稍有不同的图像。对 Seed 进行小的改动（例如从 12345 改成 12346）会微调噪声分布。

Compatibility Mode：解决不同模型或参数不兼容问题的关键工具，能够确保各种模型（旧版本、新架构、不同格式）在目标生成工具中正常使用。启用兼容模式后，可能会对性能或效果产生轻微影响，但它是确保跨模型生成的一个强大工具。

ControlNet

ControlNet：它为文字生成图像增加了精确的条件控制能力，允许用户为生成图像提供辅助输入信息作为控制和指导，其常见的额外输入类型如下：

通过结合提示词和用户提供的辅助输入，ControlNet 能生成更精准且符合预期的图像，非常适合需要细节控制和复杂场景生成的应用场景，可以极大地提升图像生成的创意自由度和结果质量。

ControlNet Model：作用就是告诉 Diffusion Bee 提供的辅助输入图片（如边缘图、深度图、姿态图等）具体是哪一类信息:

以及模型如何利用这些信息来影响最终的图像生成过程。例如，如果上传了”边缘图”，ControlNet Model 会理解这些线条是用来定义图像的”轮廓结构”；如果上传了”深度图”，模型会知道这些灰度值表示场景的”深度和透视关系”；如果上传了”姿态图”，模型会识别其中的关键点代表”人体动作或骨架”，并据此生成符合姿态的图像。通过这种方式，ControlNet Model 能精准地将用户提供的辅助信息融入到扩散模型的生成过程中，实现更符合预期的结果。

Automatically generate control：结合ControlNet Model的设置内容，自动从用户上传的辅助图像里提取所需的辅助输入信息以供ControlNet使用，这可以帮助用户省去手动准备这些输入的步骤，使 ControlNet 更加易用。

选择开启 (Yes)，系统会自动处理你上传的辅助输入图像，从辅助输入图像中提取与ControlNet模型匹配的控制信息(如边缘图、深度图、姿态图等，视ControlNet Model的设置项而定），适合上传普通图片或粗略草图，降低对输入图像精度的要求。
选择关闭 (No)：系统直接使用你上传的控制输入图像，不做额外处理，要求输入内容已经精准匹配 ControlNet 模型（如清晰的边缘图或深度图，视ControlNet Model的设置项而定），用于精确控制生成结果。

ControlNet importance：控制生成过程中”ControlNet 辅助输入”对最终结果的影响程度，决定模型在多大程度上遵循辅助输入的约束，通过调整该参数，可以平衡辅助输入与提示词之间的影响，满足不同生成需求：

高重要性(接近 1.0)：

• 作用：强调辅助输入(如边缘图、深度图)的影响，使生成结果尽可能贴合输入的结构或特征。

• 适用场景：需要严格控制生成图像的特定元素，例如，保留输入边缘图的精确轮廓；根据深度图生成具有准确空间感的场景；完全匹配输入的人体姿态图。

低重要性(接近 0.0)：

• 作用：弱化辅助输入的影响，让模型更多依赖提示词（Prompt）的描述，生成更自由和富于创意的图像。

• 适用场景：希望辅助输入只是一个参考，而最终生成图像更依赖提示词表达，例如，输入的边缘图只是提供一个大致的结构，而具体内容和细节由提示词决定；辅助输入提供基础方向，但允许模型更有创意地生成背景或装饰。

LoRA

LoRA：全称为Low-Rank Adaptation of Large Language Models，既大型语言模型的低秩适应，它是一种优化技术，主要用来以高效的方式微调大型神经网络(例如用于扩散模型的图像生成网络)。

LoRA 是扩散模型生态中的重要技术，通过这一工具，用户可以高效实现模型的定制化，同时保持对计算资源的友好支持，这使得像 Diffusion Bee 这样的工具更加灵活和易用：LoRA 常用于微调模型，使其生成特定风格的图片，或在生成时加入特定主题(如特定角色、艺术风格等)，例如，微调后模型可以更好地理解和生成类似 “赛博朋克风” 或 “油画风格” 的图像。LoRA 微调后，不需要重新保存整个模型，仅保存额外的微调权重( $A$ 和 $B$ )。这使得存储空间需求大大降低（通常小于 100MB）。

在 Diffusion Bee 的高级选项中，用户可以加载特定的 LoRA 模型或权重文件，来调整生成图片的风格：通常，用户需要提供预训练的 LoRA 文件(例如 .safetensors 或 .ckpt 格式），并通过界面配置其影响程度(如权重或比率)。

在 Diffusion Bee 的界面中开启高级选项后，LoRA部分出现了LoRA1、LoRA2、LoRA3。这3项是用于加载和组合多个 LoRA 模型的独立插槽(slots)。它们的主要作用和区别如下：

1. LoRA 插槽的作用

• 支持多模型叠加：Diffusion Bee 支持在一次生成任务中应用多个 LoRA 模型，这对实现更加复杂或定制化的图像效果非常有用。

• 独立配置：每个 LoRA 插槽可以加载一个独立的 LoRA 模型，并对每个模型分别设置权重。

• 组合效果：多个 LoRA 的叠加会根据设置的权重共同影响最终生成的图像。

2. LoRA 1、LoRA 2 和 LoRA 3 的区别

它们本质上没有功能上的区别，只是提供更多组合的可能性。：

• 每个插槽可以加载不同的 LoRA 模型。

• 加载的顺序可能会影响生成结果（在一些工具中，后加载的模型可能覆盖前面的部分影响）。

• 可以对不同插槽的 LoRA 模型设置不同的强度（如果有选项）。

3. 如何使用多个 LoRA

加载多个主题的 LoRA：

• 比如你加载了一个风格化模型（LoRA 1）和一个特定角色模型（LoRA 2），图像会同时体现这两个模型的特性。

调整权重：

• 如果界面允许调整权重，你可以对不同 LoRA 设置不同的强度，决定其对最终图像的影响程度。

• 一般范围是 0 到 1（或 0 到某个最大值），值越高影响越大。

4. 注意事项

基础模型需匹配：

• 确保所有加载的 LoRA 模型适配同一个基础模型(如本文中是SD 1.5），否则可能导致生成效果异常。

多个 LoRA 的兼容性：

• 不同 LoRA 的训练目标可能存在冲突，例如一个是风格化模型，另一个是特定形象模型，叠加后效果可能会失真或变得不可控。

性能消耗：

• 同时加载多个 LoRA 可能增加显存或计算资源的需求。

5. 示例场景

• LoRA 1：风格模型

加载一个“油画风格”LoRA，给图片赋予特定艺术风格。

• LoRA 2：角色模型

加载一个角色或特定物品的 LoRA（例如“某动漫角色”）。

• LoRA 3：背景增强

加载一个用于增强特定背景细节的 LoRA（如“森林背景”）。

通过这种组合，你可以生成一个特定角色在油画风格下的森林场景。

那么，在哪里下载LoRA模型呢？一般来说，LoRA模型可以从网上的模型分享社区平台进行下载，比如Civitai、Hugging Face等，本文中我是从Civitai下载的。

Civitai简介

Civitai.com 是一个专注于 AI 模型分享与交流 的社区平台，主要面向使用 Stable Diffusion 等生成式 AI 模型的用户和开发者。它提供了一站式的模型下载、预览和使用指南，是当前生成式 AI 领域中比较活跃的资源分享网站之一。

核心功能和特点：

模型分享：用户可以上传和下载各种用于生成图像的模型文件(如 Stable Diffusion 的模型权重)，包括基础模型、精调模型（fine-tuned models）、LoRA（低秩适配）权重等。
模型分类：网站提供了多个模型分类，如：写实风格(Realistic)、动漫风格(Anime)、插画风格(Illustrative)、特效/后期处理模型。
示例图片与预览：每个模型的页面通常会附带许多示例图片，展示模型生成效果。示例图片还包含生成时使用的提示词（prompts），便于用户参考和学习。
社区交流：用户可以对模型进行评价、评论和打分，帮助其他人判断模型的效果。开发者和用户之间可以直接互动，讨论模型优化与使用技巧。
工具支持：提供了针对生成式模型的安装和使用指导，帮助用户快速部署。部分资源可能包含相关工具或脚本的推荐。
开源精神：大部分模型文件是由社区用户免费分享的，延续了生成式 AI 领域的开源传统。

在Civitai的”模型”中找到自己喜欢的人物图像，注意要根据自己使用的基础模型进行选择，否则很可能会在导入的时候出现不兼容，这个问题可以通过过滤器来解决：

在合适的模型中选择自己顺眼的人物模型：

然后在当前页点击右上的下载按钮：

在Diffusion Bee中导入刚才下载的模型：

然后再LoRA插槽的下拉菜单中进行选择即可(因为只选择了一个角色模型，所以任意选择一个LoRA插槽就行，我这里就选择了LoRA 1)：

Misc

Misc：杂项(Miscellaneous)的缩写，提供更精细化的控制，让用户可以根据需求在生成图像的细节(V-Prediction)和文本解析(Clip Skip 2)之间找到平衡。这些选项通常适合有一定经验的用户，或者对生成结果有特殊要求的场景。

V-Prediction：启用扩散模型中的方差预测机制，提升图像生成的细节表现和稳定性，尤其是在复杂或高分辨率的图像生成中，有助于减少生成过程中的模糊或随机性，生成更清晰的图像：开启，用于追求高质量、细节丰富的图像输出；关闭，可尝试解决某些早期模型生成时的不兼容问题。

Clip Skip 2：调整 CLIP 模型的文本提示处理机制，跳过最后两层的 Transformer 输出。生成的图像可能更具艺术性和创意性，但可能会稍微偏离提示词的初始含义。同时减少对提示词的严格依赖，允许模型生成更加自由的图像内容：开启，探索风格多样化或更宽松的提示词解释；关闭，当需要精确反映提示词含义时。

最后，依旧使用了最开始的提示词，我启用了高级选项并按照以下方式设置了参数(其他没提及的选项就是使用的默认值)：

最后得到的效果如下：

还有其他选项我没有仔细研究，只有留待以后有需求的时候再说吧，需要不停的尝试才能搞明白。

Image to image(图片生成图片)

功能简介

“Image to image”是一个强大的工具，它在保持输入图像关键特征的基础上，通过 AI 提供多样化的变化和创意输出，为用户提供了更多的可能性，这使其适用于创意设计、数字艺术和内容生成的各类需求，常见的应用场景如下：

• 艺术创作：将草图转化为高质量的艺术图，或者让已有画作呈现不同风格。

• 风格化照片：将普通照片转化为油画、水彩画等特定风格的作品。

• 场景或细节修改：修改图像中的某些区域，或根据提示词改变内容（例如，把白天的场景变为夜晚）。

• 概念设计：快速为概念设计或项目生成基于初稿的新图像。

功能实操

基本来说，Image to image和Text to image的选项是大同小异的，也分基础使用界面和开启高级选项之后的进阶使用界面，并且选项参数其实都差不多，基础使用界面如下：

Input Strength(输入强度)：是图像生成图像功能的一个关键参数，可调节输入图像与生成结果之间的融合程度。通过调整此参数，你可以在“基于提示词生成新图像”和“对输入图像进行轻微调整”之间找到适合的平衡点。

Input Strength设置不同参数值的影响

低值（例如 10 – 40）：

• 输入图像的特征较弱，仅作为初始噪声的参考。

• 输出图像会更接近提示词（Prompt）的描述，而较少保留原始输入图像的结构或细节。

• 适合用输入图像作为灵感，而非直接修改。

中等值（例如 50 – 70）：

• 输入图像和提示词的权重达到平衡。

• 输出图像既包含输入图像的主要结构，也反映提示词的内容。

• 常用于希望在输入图像的基础上添加创意或风格化调整。

高值（例如 80 – 100）：

• 输入图像的特征被高度保留。

• 输出图像会非常接近原始输入图像，仅进行轻微的风格化或细节修改。

• 适合希望仅对输入图像进行小范围增强的场景。

进阶使用界面主要是多了2个选项开关，一个是Specify image dimensions(就是指定输出图片的分辨率)：

另一个是Inpainting Options：

Inpainting options(修复选项)，下面只有一个开关Smoothen Mask(平滑蒙版)。在进行图像修复(inpainting)时，蒙版用于指定需要修改的区域。Smoothen Mask 的开关可以让蒙版的边缘变得更平滑，避免出现过于生硬或突兀的边缘。通过平滑处理，修复区域与周围未修改区域的过渡更加自然，从而减少明显的编辑痕迹，提高生成结果的视觉一致性。

如果需要精细化局部修改，例如修复细小的细节或对较复杂的背景进行修补(开启Smoothen Mask：适用于需要更柔和、无缝过渡的场景，例如修复人像、自然风景或复杂纹理；关闭Smoothen Mask：如果需要保留锐利的边缘，或在修改时需要清晰的边界，则可以选择关闭)。

此功能对生成结果的细节和一致性起到了辅助优化作用，尤其是在需要高质量修复时很有用。

实践一把，用下面这张猫猫照片为输入照片：

描述词用以下内容：

A cat is napping on the Floor，Cartoon style

参数设置如下：

指定包括输入强度在内的相关参数：

其他选项都有的默认值，最终结果如下：

或者一个更简单的处理，用梵高的风格：

还可以使用mask功能进行局部修改：

注：Input Strength(输入强度)很重要，大家可以尝试使用不同的输入强度来尝试不同风格的图片。

IIIusion generator(幻觉生成器)

生成具有超现实或视觉幻觉效果的图像。它利用扩散模型的能力，通过结合用户的提示词和内置的图像生成算法，创造出具有独特、艺术性强的超现实场景。

IIIusion generator的功能界面和之前的Text to image、Image to image功能类似，唯一一个有自己特色的条件参数是IIIusion generator，默认值是1，最大值是3：

该选项的作用是调节生成内容的强度和原始图像之间的融合程度：数值较低时，生成内容会更轻微地覆盖或融合到原图中，保持更多原图细节和风格；数值较高时，生成内容会更明显地改变原图，甚至完全覆盖原始图像，展示提示词指定的新内容。这个选项类似于 Image-to-Image 功能中的 Input Strength，但侧重于为现有图像添加幻觉般的效果，增强艺术创造力。

该功能很简单，这里不做更多描述，看一张实际效果即可：

Inpainting(修复)

功能简介

在 Diffusion Bee 中，Inpainting 功能的作用是对图像的指定部分进行编辑、修复或重生成，而不影响其他未选中的区域。这项功能非常适合修改图像的局部内容，比如修复瑕疵、替换某些元素或填补空白。

Inpainting 的具体作用

局部修复：用于修复图像中的损坏区域或删除不需要的部分。例如，去掉图中的文字或物体后填充合适的内容。
区域编辑：根据用户提供的提示词，对选定区域生成新的内容，同时尽量保持与周围区域的自然过渡。例如，将某个物体替换为另一个物体。
填补空白：对未完成或部分空白的图像进行补充，生成与现有画面风格一致的内容。
创意变换：在已有图像基础上，按照提示词重新生成指定区域的内容，实现局部风格化或创意调整。

实际应用场景

• 修复旧照片中的瑕疵或损坏部分。

• 修改现有设计中的局部内容，例如更改颜色、添加新元素。

• 为艺术作品增添新的创意细节。

功能实操

用我U的一张照片，把她变成金色的头发：

最终效果(金色头发的提示词太简单了，我应该写金色长发才对～)：

感觉脸部略微有点变形，这可能是因为使用mask选择头发区域的时候不够细致所致，难怪鸟山明因为头发太麻烦不想画超级赛亚人3了，我连选个长发区域都很毛躁~。

Inpainting 和 Image to Image功能中的 Mask 功能

在 Diffusion Bee 中，Inpainting 和 Image to Image 中的 Mask 功能 有一定的相似性，但它们的设计目标和实际用途有所不同：

1. 功能定位的差别

Inpainting

目标：对选定区域进行修复、替换或重生成
应用场景：局部修复、内容替换、填补空白等局部编辑操作

Image to Image 的 Mask

目标：对整个图像进行重生成，但允许保留部分内容
应用场景：在较大范围内调整图像的风格或内容，且保留关键区域

2. Mask 作用的差别

Inpainting

覆盖范围：仅影响用户手动绘制的区域，未选中的部分完全不变
编辑强度：AI 对选中的区域进行完全的重新生成
使用方式：手动绘制 Mask 后，输入提示词对该区域单独生成
典型结果：生成的内容与未选中区域无缝融合(局部处理为主)

Image to Image的Mask

覆盖范围：不同于传统的硬性遮盖，Mask 是为保留的区域指定较少的变化程度
编辑强度：AI 根据图像整体的提示，调整未遮盖部分，并轻微影响 Mask 部分
使用方式：提供初始图像，使用 Mask 来控制对某些区域的生成幅度
典型结果：生成内容时，Mask部分通常作为参考或保持一致性(整体处理为主)

3. 实际使用的对比

Inpainting 的典型使用场景：

• 修复照片中的划痕、污点或缺损部分。

• 替换图像局部内容(如换脸、去除背景中的干扰物）。

• 用输入提示词对选中区域重新生成(如替换天空、添加装饰等）。

Image to Image Mask 的典型使用场景：

• 保留特定区域（如面部或关键物体）的同时，调整背景或其他部分的风格。

• 提高编辑过程中对整体图像的控制程度，例如避免覆盖已经满意的细节。

• 在风格迁移或图像增强时，保护重要区域免受大幅度的更改。

总结

• Inpainting 专注于局部编辑，仅影响手动绘制的区域，非常适合小范围内容替换或修复。

• Image to Image 中的 Mask 是整体图像生成中的一个辅助功能，目的是保留选定区域，同时对其余区域进行风格或内容调整。

二者功能互补，大家可根据需求选择最合适的工具。

Upscaler(放大器)

功能简介

Upscaler功能很单纯：对图像进行分辨率提升和细节增强，以提高图像质量，使其适合更高分辨率的应用场景(例如打印、大屏展示或高质量保存)：

分辨率提升：将低分辨率的图像放大为高分辨率，同时尽量避免像素化或失真；常用于生成后的图像，使其更加清晰，适配更高分辨率的设备。
细节增强：利用 AI 技术，补充图像中的纹理、边缘和细节，使放大后的图像更自然；减少图像放大过程中可能出现的模糊或细节丢失。
无损放大：使用深度学习模型（如Real-ESRGAN ），确保图像放大后保留尽可能多的原始细节。

功能实操

Upscaler功能没什么选项，直接选择照片然后点击”Upscaler”按钮即可：

上面那张图怕大家看不清楚实际效果，下面给大家看看原始图片效果。

原始图片(网上直接截图保存的效果)：

使用upscaler处理之后的效果：

注：因为我上传到图床的图片已经经过了一次处理(在chevereto上限制了图片分辨率是1024 * 768)，所以最终大家看到的和真实效果还是有较大差别的，不过即便这样，也能看出经过upsclaer处理过的图片细节更丰富，也更高清了(很合理，经过Upscaler处理过后，图片大小从1.2兆直接变成了26.4兆～)。

AI canvas

功能简介

AI Canvas 功能的主要作用是为用户提供一个交互式的画布，用于结合 AI 绘画技术进行创作。它的具体功能包括以下几个方面：

1. 局部编辑和绘制

用户可以手动在画布上绘制或遮盖区域(选区框)，指定 AI 应该生成图像的具体位置或修改现有图像的区域。这种功能适用于局部修补、细节修改，或在已有画作基础上进行增强。

2. Inpainting(修复)功能

AI Canvas 通常支持”Inpainting”，即通过 AI 修复或重新生成被遮盖的区域。用户可以遮盖不满意的部分，让 AI 根据上下文重新绘制，完成自然过渡。

3. 草图或提示设计

用户可以用粗略的线条或形状在画布上绘制草图，然后让 AI基于这些草图生成更完整、更精细的作品。这种方式适合有特定构图或设计需求的用户。

4. 灵活调整生成区域

AI Canvas 提供了更大的控制权，允许用户选择部分或全部画布区域进行 AI 图像生成或改动，而不必每次都针对整个图像。

5. 增强用户创意表达

借助 AI Canvas，用户能够直接在视觉界面中与 AI 互动，提供了一种更直观的方式来调整图像生成过程，探索更多创意可能性。

常见应用场景：

• 图像局部修复（例如去除不需要的对象、补全画面）

• 创意绘画（基于用户草图进行AI绘制）

• 调整生成内容的细节与整体风格

这个功能通常用于需要细化修改或高交互性的生成场景，非常适合设计师和艺术创作者。

功能实操

注：我之所以把AI Canvas功能放到后面来讲，是因为这个功能也算是前面很多功能的组合体：包括文字生成图片、图片生成图片、修复等，所以把前面的功能讲清楚后，这里就可以节约不少口水了。

首次使用需要下载ControlNet Inpaint模型：

在右边画布区域的顶部，提供了一系列的工具，如下图(如果要使用画笔提供的修复功能，左边的大模型需要选择之前下载的”SD1.5_Inpainting”)：

在上图左下方的Function部分，有3个选项：

这3个选项表示在右面画布的选区框里要用AI做哪种类型的工作，其中，”Text To Image”和”Image To Image”很好理解，我在文章前面也讲过，关键是第3个选项，也是默认选项”Generative Fill”，既生成填充：生成填充的功能是在已有图像或画布的基础上，通过输入文字描述生成并填充新的内容，如果是在空白画布使用生成填充，其实和文字生成图像很类似：

功能选择”Generative Fill”的效果：

功能选择”Text To Image”的效果：

这种方式使用”Generative Fill”属于特殊情况(空画布)，而正常情况下，如果重新生成一张图片(从零开始)，应该选择”Text to Image”更好；如果是希望基于现有内容(例如完善图像、去除多余部分或添加新元素），则选择 “Generative Fill”。

以下图的卡卡罗特为例，把他变成粉色头发，需要使用”Generative Fill”以及”SD1.5_Inpainting”模型：

最终效果如下：

可以看出其实就是Inpainting(修复)的功能，所以我之前才说AI Canvas是多个功能的组合体。另外，还有个Paintbrush(画笔)功能，研究了半天没研究出怎么玩，大家有知道怎么用的可以在评论区告诉我。

注：AI canvas的功能很强大，我这里只是最浅显的使用当做示范，具体应用技巧大家有需要可以慢慢研究。

总结

其实，Diffusion Bee最核心的除了基于”Stable Diffusion”的生成方面的功能(文字生成图片、图片生成图片)，最重要的其实是对新人几乎没有任何学习成本的、开箱既可上手的易用性。如果真要比功能强大的话，Diffusion Bee肯定是比不过其他专业化的工具(例如Midjourney、基于专业UI的Stable Diffusion等)，但是如果论上手速度，Diffusion Bee肯定是最快的：毕竟双击安装了就直接开始用(最多就是下默认的基础模型需要一点时间而已)。

而作为苹果电脑M系列芯片的用户，天然自带强大的GPU和神经网络芯片，这简直就是Diffusion Bee的最佳载体：不管需要不需要，不用一用简直相当于损失了几个亿！

可惜的是，网上关于Diffusion Bee的详细使用教程实在是太少(特别是高级选项涉及的参数的作用以及设置方法)，所以查找这些参数的作用和验证设置之后的效果花了我不少的时间，还好最终在本文中覆盖得七七八八了，希望能或多或少的对那些需要使用Diffusion Bee的朋友有那么一点帮助吧(本来只是想随便水一篇文章来充数的，结果越写越不对，最后发现居然比平时更累了?)。

注1：在本文中我详细解释了不少基础设置项的含义以及设置效果，之后的相关文章中我不再重复解释(比如下篇关于Draw Things的文章)。

注2：本文中涉及的都是最初级的生成类应用，加上我本来对这些涉及细分领域的操作就不太行(有些技巧和经验是需要在反复的实战中积累的)，所以大家不用拘泥于本文中我这些粗浅的演示(甚至文中我的有些说法未必准确)，当个参考就行了。

前言

Diffusion Bee安装

软件简介

安装

Diffusion Bee实操

Text to image(文字生成图片)

功能简介

入门使用

进阶使用(开启高级选项)

常规界面

Diffusion和Seed

ControlNet

LoRA

Misc

Image to image(图片生成图片)

功能简介

功能实操

IIIusion generator(幻觉生成器)

Inpainting(修复)

功能简介

功能实操

Inpainting 和 Image to Image功能中的 Mask 功能

Upscaler(放大器)

功能简介

功能实操

AI canvas

功能简介

功能实操

总结

发送评论 编辑评论

推荐文章

发送评论编辑评论