家庭数据中心系列 Mac上免费的入门级本地AI图像生成工具(上篇):Diffusion Bee设置参数详解与实操演示

前言

原本,这次是想写mac下部署”Stable Diffusion”的教程,只是此时恰好看到了Diffusion Bee这个事实上基于”Stable Diffusion”,但是又对零基础的朋友非常友好的APP,所以就决定靠这个水一篇文章,来交一下这一周的作业。

Diffusion Bee安装

软件简介

DiffusionBee 是一款基于 Stable Diffusion 的桌面应用程序,专门设计用于在 macOS 平台上运行生成式 AI 模型。它以用户友好的界面和免配置的特点而受到广泛欢迎,主要面向对生成图像感兴趣的创作者和 AI 爱好者,其有以下特点和功能:

  1. 无需配置,开箱即用

• DiffusionBee 将复杂的 AI 模型配置过程隐藏在后台,用户无需安装 Python 环境或复杂的依赖,只需下载并启动程序即可开始生成图像。

• 适合对技术了解较少的初学者。

  1. 支持的模型类型

Stable Diffusion 1.x 和 2.x:支持社区广泛使用的基础版本。

SD XL:支持 Stable Diffusion 的扩展大模型,提供更高质量的图像生成。

Inpainting:支持修复和编辑图像,允许用户通过绘制遮罩区域重新生成部分图像。

ControlNet:提供对图像生成的精确控制,基于草图、姿态等辅助信息生成目标内容。

LoRA:加载低秩适配权重以增强特定风格或主题的生成能力。

  1. 简单的用户界面

• 提供一个直观的图形界面,用户只需输入提示词(prompts)并点击生成按钮即可获得结果。

• 支持直接导入提示词模板,方便快速创作。

  1. 高效运行,支持本地生成

• 利用 Apple 的 Metal APIM系列芯片的神经网络引擎,在 macOS 上运行时性能优越,能够充分利用硬件特性实现快速生成。

• 所有生成任务均在本地运行,无需网络连接,保障用户隐私。

  1. 支持的功能

文本生成图像:根据用户输入的描述生成高质量图片。

提示词优化:内置提示词推荐和调试功能,帮助用户优化输入,提高生成结果质量。

多分辨率支持:可以生成不同分辨率的图像,满足各种用途。

批量处理:支持一次性生成多张图片。

  1. 安全性

• DiffusionBee 的完全本地运行模式避免了用户数据上传至云端的风险,确保隐私保护。

适用人群

  1. 初学者

• 不需要技术背景即可快速体验生成式 AI 图像的魅力。

• 界面简单,易于上手。

  1. 创作者

• 适合插画师、设计师等需要快速生成灵感图或创意草图的人群。

• 提供便捷的图像修复和编辑功能。

  1. macOS用户

• 特别适用于 macOS 用户,尤其是 M系列芯片用户,无需额外配置 GPU 或高性能设备。

系统要求

操作系统:macOS 12.5 或更高版本。

硬件要求:推荐使用 Apple Silicon 芯片(M系列芯片),尽管也支持 Intel 芯片,但生成速度会较慢(据说5分钟生成一幅画,我没有环境测试,不过我的M4 pro生成一张图大概20秒左右)。也有windows 64 Bit的版本,但是如果没有Nvidia显卡,估计生成速度感人。

安装

Diffusion Bee官网下载链接如下:https://diffusionbee.com/download

image.png

安装就不浪费篇幅了,就是最正常APP安装过程,安装之后打开APP,首页就是所有提供的功能:

image.png

Diffusion Bee实操

Text to image(文字生成图片)

功能简介

文字生成图片是 Diffusion Bee 的核心功能之一,它让用户可以将创意想法以简单的文字描述转化为生动的图像。这种技术为创作者、设计师和普通用户提供了极大的便利,使视觉艺术创作更加高效、直观和个性化,其常见的应用场景如下:

1、艺术创作

自动生成复杂的艺术风格图像,帮助艺术家获得灵感或快速实现概念。

2、概念设计

在影视、游戏、建筑等领域,用于快速创建概念草图和场景。

3、内容生成

为博客、社交媒体或营销材料生成配图。

4、教育和研究

为教学、论文或科研项目提供视觉辅助材料。

5、个性化需求

用户可以用独特的描述生成独一无二的艺术品。

入门使用

首次使用时需要先下载对应的模型,我选择文字生成图像功能时,会自动下载默认的模型(需要科学,否则感觉下不动):

image.png

进行图片生成,我的中文提示词如下:

一位美丽的日本女孩穿着比基尼,静静地在黄昏的海滩上观看日落。她有着乌黑亮丽的长发,苗条的身材,胸部丰满,蜜桃臀。

需要翻译成英文:

A beautiful Japanese girl in a bikini quietly watches the sunset on the beach at dusk. She has long, shiny black hair, a slim figure, but her chest is full and her backside is a peach-shaped butt.

不超过30秒完成:

image.png

注:这算蜜桃臀吗?我也不是很懂~。

可以通过”Styles”(风格)进行调整,默认是”none”(无),比如我选择”enhance”(增强):

image.png

然后重新生成图片:
image.png

还行,就是脸有点不理想啊,我不喜欢尖下巴,而且这样不像日本女孩了啊?看来下次提示词要注明这一点,不过为什么比基尼样式都变了?

之后我又进行了一些尝试,发现提示词简单得时候一般都没什么问题,但是,一旦提示词里涉及的元素过多,生成的图像怎么都无法满足所有要求,比如,我将:”枯藤老树昏鸦,小桥流水人家,古道西风瘦马。夕阳西下,断肠人在天涯。”,换成描述:”一幅秋天乡村的场景,弥漫着忧郁的氛围:枯萎的藤蔓缠绕在一棵古老的树上,树枝上栖息着一只孤独乌鸦的暗黑剪影。一座小拱桥跨越着一条温柔流淌的小溪,旁边是一座温馨的中国古代的茅草屋。一条荒凉的旧路延伸向地平线,那里有一匹瘦弱疲惫的马,背靠着寒冷的西风。天空被落日染上了温暖的色调,投射出长长的阴影,唤起了一种孤独与渴望的感觉,一位孤独的旅者在世界的边缘望向远方。”,然后生成的各种图片都不满意,不是缺这就是缺那,或者干脆缺很多,特别是马,从头到尾没出现过:

image.png

image.png

image.png

image.png

也不知道是我生成图片时的姿势不对,还是这么多元素超过了默认模型的能力范围,或者我的提示词有问题,这个以后有心情时再来研究研究。


从软件界面可以看出,Diffusion Bee的默认模型是”Default_SDB_0.1″,其对应的Stable Diffusion的核心版本是”Stable Diffusion v1.5″,而目前Diffusion Bee支持的版本如下:

image.png

为什么默认的核心版本用v1.5,而不是v2或者XL呢?因为SD 1.x 是最广泛使用的版本,其模型生成效果较为成熟,对资源需求也较低,适合作为入门级默认选项。默认模型不直接使用SD 2.x 或 SD XL,大概率是因为:

SD 2.x 引入了新功能(如 OpenCLIP),与 1.x 不完全兼容。

SD XL 对硬件要求更高(需要更强大的 GPU),不适合作为默认模型。

不过,其他版本都可以按需自己进行导入,所以也不影响。


进阶使用(开启高级选项)

常规界面

上一部分是Diffusion Bee最基础的使用方式,也没提供什么专业的调整参数,适合要求不高的、零基础用户。而对于有一定技术基础的,有自己定制部分参数的朋友,最基础的使用方式明显就不适合了,这个时候,就可以通过开启”Advanced Options”启用Diffusion Bee的高级选项界面,操作界面会多出很多选项:

image.png

Negative Prompt(负面提示词):是用于控制图像生成的一个重要选项,其作用是抑制不希望出现的特定特征或元素。当生成图片时,模型会根据提示词(prompt)生成与描述匹配的图像。但有时,生成的图像可能包含一些不需要的特征或元素。Negative Prompt就是用来明确告诉模型哪些内容应该被弱化或避免。例如,你想生成一张清晰的图像,但模型可能会生成模糊效果,在Negative Prompt中输入blurry(模糊),可以减少模糊的概率;如果你不想要图像中出现某些物体,比如“帽子”,可以在Negative Prompt中输入hat。

分辨率(开启高级选项后多出来的)和图片数量一看就懂,就不说了。

Seed(种子):基础模式就有的,它是生成图像时的一个重要参数,它用来控制随机性并使生成结果可复现,根据设置的数值不同,可以分为随机Seed和固定Seed:如果将 Seed 设为 -1 或“随机”,模型会为每次生成自动分配一个新的 Seed,结果会有所变化;如果使用特定的 Seed 值(例如 12345),则每次生成的图像在其他条件一致的情况下都会相同。

Sampling Steps(采样步数):开启高级选项后多出来的,是控制图像生成过程的一个关键参数。它决定了从随机噪声到最终图像的去噪迭代次数,直接影响生成图像的质量、细节和生成时间,步数越多,模型有更多的迭代机会对图像进行优化,逐步去除噪声,生成符合提示词的图像。低步数(10-20):适用于快速预览生成结果,或当生成目标简单时(如背景、纯色图像)。优点:快速生成,适合调试;缺点:细节不足,可能产生瑕疵;中等步数(20-50):平衡生成时间与图像质量,适合大多数场景,通常 30-40 步可以生成高质量图像;高步数(50+):适用于对图像质量要求极高的场景(如高分辨率图像或复杂场景)。超过一定步数后(如 100 步以上),质量提升可能趋于饱和。在硬件有限的情况下(如普通 GPU),推荐从较低步数(20-30)开始调整,找到质量和时间的最佳平衡点。

开启高级选项开关后,除了常规界面多出的选项,还新增了以下设置项:

image.png

下面我一一介绍这些设置项的作用。

Diffusion和Seed

image.png

Diffusion:作用是选择和调整用于生成图像的采样算法。采样算法决定了模型在生成过程中如何逐步去除噪声,以及每一步去噪的方式,会影响:图像生成速度、图像质量、稳定性,有karras、ddim、lmsd、pndm、k_euler、k_euler_ancestral。其中,ddim快速且稳定,低步数时仍能生成高质量图像,非常流行,生成速度和质量的平衡点好;pndm是一种通过引入数值方法来优化扩散过程的采样方法,它结合了传统的扩散模型与数值优化策略,使得在较少的步数下仍能生成高质量的图像,我准备主要选择这2种。

Guidance Scale:是一个非常重要的参数,用于控制生成图像时模型对提示词(Prompt)的依从程度。它影响模型在生成过程中如何平衡提示词的引导与随机性,从而改变图像的细节、风格和与描述的匹配程度。初学者建议:在 7-12 的范围内调整,作为通用设置。这是大多数模型生成图像时的推荐值,既能保证提示词的符合度,又不会过度引导;特定场景下的优化:详细描述的 Prompt,增加到 15-20,确保模型按照描述生成细节丰富的内容;抽象或模糊的 Prompt,降低到 5-7,允许模型更多自由发挥。

Small Modification seed:是指在当前的 Seed 基础上,稍微改变随机数的值(例如增加或减少一个小幅度),从而生成与原始图像类似但又稍有不同的图像。对 Seed 进行小的改动(例如从 12345 改成 12346)会微调噪声分布。

Compatibility Mode:解决不同模型或参数不兼容问题的关键工具,能够确保各种模型(旧版本、新架构、不同格式)在目标生成工具中正常使用。启用兼容模式后,可能会对性能或效果产生轻微影响,但它是确保跨模型生成的一个强大工具。

ControlNet

image.png

ControlNet:它为文字生成图像增加了精确的条件控制能力,允许用户为生成图像提供辅助输入信息作为控制和指导,其常见的额外输入类型如下:
image.png

通过结合提示词和用户提供的辅助输入,ControlNet 能生成更精准且符合预期的图像,非常适合需要细节控制和复杂场景生成的应用场景,可以极大地提升图像生成的创意自由度和结果质量。

ControlNet Model:作用就是告诉 Diffusion Bee 提供的辅助输入图片(如边缘图、深度图、姿态图等)具体是哪一类信息:

image.png
以及模型如何利用这些信息来影响最终的图像生成过程。例如,如果上传了”边缘图”,ControlNet Model 会理解这些线条是用来定义图像的”轮廓结构”;如果上传了”深度图”,模型会知道这些灰度值表示场景的”深度和透视关系”;如果上传了”姿态图”,模型会识别其中的关键点代表”人体动作或骨架”,并据此生成符合姿态的图像。通过这种方式,ControlNet Model 能精准地将用户提供的辅助信息融入到扩散模型的生成过程中,实现更符合预期的结果。

Automatically generate control:结合ControlNet Model的设置内容,自动从用户上传的辅助图像里提取所需的辅助输入信息以供ControlNet使用,这可以帮助用户省去手动准备这些输入的步骤,使 ControlNet 更加易用。

  • 选择开启 (Yes),系统会自动处理你上传的辅助输入图像,从辅助输入图像中提取与ControlNet模型匹配的控制信息(如边缘图、深度图、姿态图等,视ControlNet Model的设置项而定),适合上传普通图片或粗略草图,降低对输入图像精度的要求。
  • 选择关闭 (No):系统直接使用你上传的控制输入图像,不做额外处理,要求输入内容已经精准匹配 ControlNet 模型(如清晰的边缘图或深度图,视ControlNet Model的设置项而定),用于精确控制生成结果。

ControlNet importance:控制生成过程中”ControlNet 辅助输入”对最终结果的影响程度,决定模型在多大程度上遵循辅助输入的约束,通过调整该参数,可以平衡辅助输入与提示词之间的影响,满足不同生成需求:

image.png

高重要性(接近 1.0):

作用:强调辅助输入(如边缘图、深度图)的影响,使生成结果尽可能贴合输入的结构或特征。

适用场景:需要严格控制生成图像的特定元素,例如,保留输入边缘图的精确轮廓;根据深度图生成具有准确空间感的场景;完全匹配输入的人体姿态图。

低重要性(接近 0.0):

作用:弱化辅助输入的影响,让模型更多依赖提示词(Prompt)的描述,生成更自由和富于创意的图像。

适用场景:希望辅助输入只是一个参考,而最终生成图像更依赖提示词表达,例如,输入的边缘图只是提供一个大致的结构,而具体内容和细节由提示词决定;辅助输入提供基础方向,但允许模型更有创意地生成背景或装饰。

LoRA

image.png

LoRA:全称为Low-Rank Adaptation of Large Language Models,既大型语言模型的低秩适应,它是一种优化技术,主要用来以高效的方式微调大型神经网络(例如用于扩散模型的图像生成网络)。

LoRA 是扩散模型生态中的重要技术,通过这一工具,用户可以高效实现模型的定制化,同时保持对计算资源的友好支持,这使得像 Diffusion Bee 这样的工具更加灵活和易用:LoRA 常用于微调模型,使其生成特定风格的图片,或在生成时加入特定主题(如特定角色、艺术风格等),例如,微调后模型可以更好地理解和生成类似 “赛博朋克风” 或 “油画风格” 的图像。LoRA 微调后,不需要重新保存整个模型,仅保存额外的微调权重(AB)。这使得存储空间需求大大降低(通常小于 100MB)。

在 Diffusion Bee 的高级选项中,用户可以加载特定的 LoRA 模型或权重文件,来调整生成图片的风格:通常,用户需要提供预训练的 LoRA 文件(例如 .safetensors 或 .ckpt 格式),并通过界面配置其影响程度(如权重或比率)。

在 Diffusion Bee 的界面中开启高级选项后,LoRA部分出现了LoRA1、LoRA2、LoRA3。这3项是用于加载和组合多个 LoRA 模型的独立插槽(slots)。它们的主要作用和区别如下:

1. LoRA 插槽的作用

支持多模型叠加:Diffusion Bee 支持在一次生成任务中应用多个 LoRA 模型,这对实现更加复杂或定制化的图像效果非常有用。

独立配置:每个 LoRA 插槽可以加载一个独立的 LoRA 模型,并对每个模型分别设置权重。

组合效果:多个 LoRA 的叠加会根据设置的权重共同影响最终生成的图像。

2. LoRA 1、LoRA 2 和 LoRA 3 的区别

它们本质上没有功能上的区别,只是提供更多组合的可能性。:

• 每个插槽可以加载不同的 LoRA 模型。

• 加载的顺序可能会影响生成结果(在一些工具中,后加载的模型可能覆盖前面的部分影响)。

• 可以对不同插槽的 LoRA 模型设置不同的强度(如果有选项)。

3. 如何使用多个 LoRA

  1. 加载多个主题的 LoRA

• 比如你加载了一个风格化模型(LoRA 1)和一个特定角色模型(LoRA 2),图像会同时体现这两个模型的特性。

  1. 调整权重

• 如果界面允许调整权重,你可以对不同 LoRA 设置不同的强度,决定其对最终图像的影响程度。

• 一般范围是 0 到 1(或 0 到某个最大值),值越高影响越大。

4. 注意事项

  1. 基础模型需匹配

• 确保所有加载的 LoRA 模型适配同一个基础模型(如本文中是SD 1.5),否则可能导致生成效果异常。

  1. 多个 LoRA 的兼容性

• 不同 LoRA 的训练目标可能存在冲突,例如一个是风格化模型,另一个是特定形象模型,叠加后效果可能会失真或变得不可控。

  1. 性能消耗

• 同时加载多个 LoRA 可能增加显存或计算资源的需求。

5. 示例场景

LoRA 1:风格模型

加载一个“油画风格”LoRA,给图片赋予特定艺术风格。

LoRA 2:角色模型

加载一个角色或特定物品的 LoRA(例如“某动漫角色”)。

LoRA 3:背景增强

加载一个用于增强特定背景细节的 LoRA(如“森林背景”)。

通过这种组合,你可以生成一个特定角色在油画风格下的森林场景。

那么,在哪里下载LoRA模型呢?一般来说,LoRA模型可以从网上的模型分享社区平台进行下载,比如Civitai、Hugging Face等,本文中我是从Civitai下载的。


Civitai简介

Civitai.com 是一个专注于 AI 模型分享与交流 的社区平台,主要面向使用 Stable Diffusion 等生成式 AI 模型的用户和开发者。它提供了一站式的模型下载、预览和使用指南,是当前生成式 AI 领域中比较活跃的资源分享网站之一。

核心功能和特点:

  1. 模型分享:用户可以上传和下载各种用于生成图像的模型文件(如 Stable Diffusion 的模型权重),包括基础模型、精调模型(fine-tuned models)、LoRA(低秩适配)权重等。
  2. 模型分类:网站提供了多个模型分类,如:写实风格(Realistic)、动漫风格(Anime)、插画风格(Illustrative)、特效/后期处理模型。
  3. 示例图片与预览:每个模型的页面通常会附带许多示例图片,展示模型生成效果。示例图片还包含生成时使用的提示词(prompts),便于用户参考和学习。
  4. 社区交流:用户可以对模型进行评价、评论和打分,帮助其他人判断模型的效果。开发者和用户之间可以直接互动,讨论模型优化与使用技巧。
  5. 工具支持:提供了针对生成式模型的安装和使用指导,帮助用户快速部署。部分资源可能包含相关工具或脚本的推荐。
  6. 开源精神:大部分模型文件是由社区用户免费分享的,延续了生成式 AI 领域的开源传统。

在Civitai的”模型”中找到自己喜欢的人物图像,注意要根据自己使用的基础模型进行选择,否则很可能会在导入的时候出现不兼容,这个问题可以通过过滤器来解决:

image.png

在合适的模型中选择自己顺眼的人物模型:
image.png

然后在当前页点击右上的下载按钮:

image.png

在Diffusion Bee中导入刚才下载的模型:
image.png

image.png

然后再LoRA插槽的下拉菜单中进行选择即可(因为只选择了一个角色模型,所以任意选择一个LoRA插槽就行,我这里就选择了LoRA 1):
image.png

Misc

image.png

Misc:杂项(Miscellaneous)的缩写,提供更精细化的控制,让用户可以根据需求在生成图像的细节(V-Prediction)和文本解析(Clip Skip 2)之间找到平衡。这些选项通常适合有一定经验的用户,或者对生成结果有特殊要求的场景。

V-Prediction:启用扩散模型中的方差预测机制,提升图像生成的细节表现和稳定性,尤其是在复杂或高分辨率的图像生成中,有助于减少生成过程中的模糊或随机性,生成更清晰的图像:开启,用于追求高质量、细节丰富的图像输出;关闭,可尝试解决某些早期模型生成时的不兼容问题。

Clip Skip 2:调整 CLIP 模型的文本提示处理机制,跳过最后两层的 Transformer 输出。生成的图像可能更具艺术性和创意性,但可能会稍微偏离提示词的初始含义。同时减少对提示词的严格依赖,允许模型生成更加自由的图像内容:开启,探索风格多样化或更宽松的提示词解释;关闭,当需要精确反映提示词含义时。

最后,依旧使用了最开始的提示词,我启用了高级选项并按照以下方式设置了参数(其他没提及的选项就是使用的默认值):

image.png

image.png

image.png

最后得到的效果如下:

image.png

还有其他选项我没有仔细研究,只有留待以后有需求的时候再说吧,需要不停的尝试才能搞明白。

Image to image(图片生成图片)

功能简介

“Image to image”是一个强大的工具,它在保持输入图像关键特征的基础上,通过 AI 提供多样化的变化和创意输出,为用户提供了更多的可能性,这使其适用于创意设计、数字艺术和内容生成的各类需求,常见的应用场景如下:

艺术创作:将草图转化为高质量的艺术图,或者让已有画作呈现不同风格。

风格化照片:将普通照片转化为油画、水彩画等特定风格的作品。

场景或细节修改:修改图像中的某些区域,或根据提示词改变内容(例如,把白天的场景变为夜晚)。

概念设计:快速为概念设计或项目生成基于初稿的新图像。

功能实操

基本来说,Image to image和Text to image的选项是大同小异的,也分基础使用界面和开启高级选项之后的进阶使用界面,并且选项参数其实都差不多,基础使用界面如下:

image.png

Input Strength(输入强度):是图像生成图像功能的一个关键参数,可调节输入图像与生成结果之间的融合程度。通过调整此参数,你可以在“基于提示词生成新图像”和“对输入图像进行轻微调整”之间找到适合的平衡点。


Input Strength设置不同参数值的影响

  1. 低值(例如 10 – 40)

• 输入图像的特征较弱,仅作为初始噪声的参考。

• 输出图像会更接近提示词(Prompt)的描述,而较少保留原始输入图像的结构或细节。

• 适合用输入图像作为灵感,而非直接修改。

  1. 中等值(例如 50 – 70)

• 输入图像和提示词的权重达到平衡。

• 输出图像既包含输入图像的主要结构,也反映提示词的内容。

• 常用于希望在输入图像的基础上添加创意或风格化调整。

  1. 高值(例如 80 – 100)

• 输入图像的特征被高度保留。

• 输出图像会非常接近原始输入图像,仅进行轻微的风格化或细节修改。

• 适合希望仅对输入图像进行小范围增强的场景。


进阶使用界面主要是多了2个选项开关,一个是Specify image dimensions(就是指定输出图片的分辨率):

image.png

另一个是Inpainting Options:
image.png

Inpainting options(修复选项),下面只有一个开关Smoothen Mask(平滑蒙版)。在进行图像修复(inpainting)时,蒙版用于指定需要修改的区域。Smoothen Mask 的开关可以让蒙版的边缘变得更平滑,避免出现过于生硬或突兀的边缘。通过平滑处理,修复区域与周围未修改区域的过渡更加自然,从而减少明显的编辑痕迹,提高生成结果的视觉一致性。

如果需要精细化局部修改,例如修复细小的细节或对较复杂的背景进行修补(开启Smoothen Mask:适用于需要更柔和、无缝过渡的场景,例如修复人像、自然风景或复杂纹理;关闭Smoothen Mask:如果需要保留锐利的边缘,或在修改时需要清晰的边界,则可以选择关闭)。

此功能对生成结果的细节和一致性起到了辅助优化作用,尤其是在需要高质量修复时很有用。

实践一把,用下面这张猫猫照片为输入照片:

image.png

描述词用以下内容:

A cat is napping on the Floor,Cartoon style

参数设置如下:

image.png

指定包括输入强度在内的相关参数:
image.png

image.png

其他选项都有的默认值,最终结果如下:
image.png

或者一个更简单的处理,用梵高的风格:

image.png

还可以使用mask功能进行局部修改:
image.png

注:Input Strength(输入强度)很重要,大家可以尝试使用不同的输入强度来尝试不同风格的图片。

IIIusion generator(幻觉生成器)

生成具有超现实或视觉幻觉效果的图像。它利用扩散模型的能力,通过结合用户的提示词和内置的图像生成算法,创造出具有独特、艺术性强的超现实场景。

IIIusion generator的功能界面和之前的Text to image、Image to image功能类似,唯一一个有自己特色的条件参数是IIIusion generator,默认值是1,最大值是3:

image.png

该选项的作用是调节生成内容的强度和原始图像之间的融合程度:数值较低时,生成内容会更轻微地覆盖或融合到原图中,保持更多原图细节和风格;数值较高时,生成内容会更明显地改变原图,甚至完全覆盖原始图像,展示提示词指定的新内容。这个选项类似于 Image-to-Image 功能中的 Input Strength,但侧重于为现有图像添加幻觉般的效果,增强艺术创造力。

该功能很简单,这里不做更多描述,看一张实际效果即可:

image.png

Inpainting(修复)

功能简介

Diffusion Bee 中,Inpainting 功能的作用是对图像的指定部分进行编辑、修复或重生成,而不影响其他未选中的区域。这项功能非常适合修改图像的局部内容,比如修复瑕疵、替换某些元素或填补空白。

Inpainting 的具体作用

  1. 局部修复:用于修复图像中的损坏区域或删除不需要的部分。例如,去掉图中的文字或物体后填充合适的内容。
  2. 区域编辑:根据用户提供的提示词,对选定区域生成新的内容,同时尽量保持与周围区域的自然过渡。例如,将某个物体替换为另一个物体。
  3. 填补空白:对未完成或部分空白的图像进行补充,生成与现有画面风格一致的内容。
  4. 创意变换:在已有图像基础上,按照提示词重新生成指定区域的内容,实现局部风格化或创意调整。

实际应用场景

• 修复旧照片中的瑕疵或损坏部分。

• 修改现有设计中的局部内容,例如更改颜色、添加新元素。

• 为艺术作品增添新的创意细节。

功能实操

用我U的一张照片,把她变成金色的头发:

image.png

image.png

最终效果(金色头发的提示词太简单了,我应该写金色长发才对~):
image.png

感觉脸部略微有点变形,这可能是因为使用mask选择头发区域的时候不够细致所致,难怪鸟山明因为头发太麻烦不想画超级赛亚人3了,我连选个长发区域都很毛躁~。

InpaintingImage to Image功能中的 Mask 功能

Diffusion Bee 中,InpaintingImage to Image 中的 Mask 功能 有一定的相似性,但它们的设计目标和实际用途有所不同:

1. 功能定位的差别

Inpainting

  • 目标:对选定区域进行修复、替换或重生成
  • 应用场景:局部修复、内容替换、填补空白等局部编辑操作

Image to Image 的 Mask

  • 目标:对整个图像进行重生成,但允许保留部分内容
  • 应用场景:在较大范围内调整图像的风格或内容,且保留关键区域

2. Mask 作用的差别

Inpainting

  • 覆盖范围:仅影响用户手动绘制的区域,未选中的部分完全不变
  • 编辑强度:AI 对选中的区域进行完全的重新生成
  • 使用方式:手动绘制 Mask 后,输入提示词对该区域单独生成
  • 典型结果:生成的内容与未选中区域无缝融合(局部处理为主)

Image to Image的Mask

  • 覆盖范围:不同于传统的硬性遮盖,Mask 是为保留的区域指定较少的变化程度
  • 编辑强度:AI 根据图像整体的提示,调整未遮盖部分,并轻微影响 Mask 部分
  • 使用方式:提供初始图像,使用 Mask 来控制对某些区域的生成幅度
  • 典型结果:生成内容时,Mask部分通常作为参考或保持一致性(整体处理为主)

3. 实际使用的对比

Inpainting 的典型使用场景:

• 修复照片中的划痕、污点或缺损部分。

• 替换图像局部内容(如换脸、去除背景中的干扰物)。

• 用输入提示词对选中区域重新生成(如替换天空、添加装饰等)。

Image to Image Mask 的典型使用场景:

• 保留特定区域(如面部或关键物体)的同时,调整背景或其他部分的风格。

• 提高编辑过程中对整体图像的控制程度,例如避免覆盖已经满意的细节。

• 在风格迁移或图像增强时,保护重要区域免受大幅度的更改。

总结

Inpainting 专注于局部编辑,仅影响手动绘制的区域,非常适合小范围内容替换或修复。

Image to Image 中的 Mask 是整体图像生成中的一个辅助功能,目的是保留选定区域,同时对其余区域进行风格或内容调整。

二者功能互补,大家可根据需求选择最合适的工具。

Upscaler(放大器)

功能简介

Upscaler功能很单纯:对图像进行分辨率提升细节增强,以提高图像质量,使其适合更高分辨率的应用场景(例如打印、大屏展示或高质量保存):

  1. 分辨率提升:将低分辨率的图像放大为高分辨率,同时尽量避免像素化或失真;常用于生成后的图像,使其更加清晰,适配更高分辨率的设备。
  2. 细节增强:利用 AI 技术,补充图像中的纹理、边缘和细节,使放大后的图像更自然;减少图像放大过程中可能出现的模糊或细节丢失。
  3. 无损放大:使用深度学习模型(如Real-ESRGAN ),确保图像放大后保留尽可能多的原始细节。

功能实操

Upscaler功能没什么选项,直接选择照片然后点击”Upscaler”按钮即可:

image.png

上面那张图怕大家看不清楚实际效果,下面给大家看看原始图片效果。

原始图片(网上直接截图保存的效果):

image.png

使用upscaler处理之后的效果:
image.png

注:因为我上传到图床的图片已经经过了一次处理(在chevereto上限制了图片分辨率是1024 * 768),所以最终大家看到的和真实效果还是有较大差别的,不过即便这样,也能看出经过upsclaer处理过的图片细节更丰富,也更高清了(很合理,经过Upscaler处理过后,图片大小从1.2兆直接变成了26.4兆~)。

AI canvas

功能简介

AI Canvas 功能的主要作用是为用户提供一个交互式的画布,用于结合 AI 绘画技术进行创作。它的具体功能包括以下几个方面:

1. 局部编辑和绘制

用户可以手动在画布上绘制或遮盖区域(选区框),指定 AI 应该生成图像的具体位置或修改现有图像的区域。这种功能适用于局部修补、细节修改,或在已有画作基础上进行增强。

2. Inpainting(修复)功能

AI Canvas 通常支持”Inpainting”,即通过 AI 修复或重新生成被遮盖的区域。用户可以遮盖不满意的部分,让 AI 根据上下文重新绘制,完成自然过渡。

3. 草图或提示设计

用户可以用粗略的线条或形状在画布上绘制草图,然后让 AI基于这些草图生成更完整、更精细的作品。这种方式适合有特定构图或设计需求的用户。

4. 灵活调整生成区域

AI Canvas 提供了更大的控制权,允许用户选择部分或全部画布区域进行 AI 图像生成或改动,而不必每次都针对整个图像。

5. 增强用户创意表达

借助 AI Canvas,用户能够直接在视觉界面中与 AI 互动,提供了一种更直观的方式来调整图像生成过程,探索更多创意可能性。

常见应用场景:

• 图像局部修复(例如去除不需要的对象、补全画面)

• 创意绘画(基于用户草图进行AI绘制)

• 调整生成内容的细节与整体风格

这个功能通常用于需要细化修改或高交互性的生成场景,非常适合设计师和艺术创作者。

功能实操


注:我之所以把AI Canvas功能放到后面来讲,是因为这个功能也算是前面很多功能的组合体:包括文字生成图片、图片生成图片、修复等,所以把前面的功能讲清楚后,这里就可以节约不少口水了。


首次使用需要下载ControlNet Inpaint模型:

image.png

在右边画布区域的顶部,提供了一系列的工具,如下图(如果要使用画笔提供的修复功能,左边的大模型需要选择之前下载的”SD1.5_Inpainting”):
image.png

在上图左下方的Function部分,有3个选项:
image.png

这3个选项表示在右面画布的选区框里要用AI做哪种类型的工作,其中,”Text To Image”和”Image To Image”很好理解,我在文章前面也讲过,关键是第3个选项,也是默认选项”Generative Fill”,既生成填充:生成填充的功能是在已有图像或画布的基础上,通过输入文字描述生成并填充新的内容,如果是在空白画布使用生成填充,其实和文字生成图像很类似:
image.png

功能选择”Generative Fill”的效果:
image.png

功能选择”Text To Image”的效果:
image.png

这种方式使用”Generative Fill”属于特殊情况(空画布),而正常情况下,如果重新生成一张图片(从零开始),应该选择”Text to Image”更好;如果是希望基于现有内容(例如完善图像、去除多余部分或添加新元素),则选择 “Generative Fill”。

以下图的卡卡罗特为例,把他变成粉色头发,需要使用”Generative Fill”以及”SD1.5_Inpainting”模型:

image.png

最终效果如下:
image.png

可以看出其实就是Inpainting(修复)的功能,所以我之前才说AI Canvas是多个功能的组合体。另外,还有个Paintbrush(画笔)功能,研究了半天没研究出怎么玩,大家有知道怎么用的可以在评论区告诉我。

注:AI canvas的功能很强大,我这里只是最浅显的使用当做示范,具体应用技巧大家有需要可以慢慢研究。

总结

其实,Diffusion Bee最核心的除了基于”Stable Diffusion”的生成方面的功能(文字生成图片、图片生成图片),最重要的其实是对新人几乎没有任何学习成本的、开箱既可上手的易用性。如果真要比功能强大的话,Diffusion Bee肯定是比不过其他专业化的工具(例如Midjourney、基于专业UI的Stable Diffusion等),但是如果论上手速度,Diffusion Bee肯定是最快的:毕竟双击安装了就直接开始用(最多就是下默认的基础模型需要一点时间而已)。

而作为苹果电脑M系列芯片的用户,天然自带强大的GPU和神经网络芯片,这简直就是Diffusion Bee的最佳载体:不管需要不需要,不用一用简直相当于损失了几个亿!

可惜的是,网上关于Diffusion Bee的详细使用教程实在是太少(特别是高级选项涉及的参数的作用以及设置方法),所以查找这些参数的作用和验证设置之后的效果花了我不少的时间,还好最终在本文中覆盖得七七八八了,希望能或多或少的对那些需要使用Diffusion Bee的朋友有那么一点帮助吧(本来只是想随便水一篇文章来充数的,结果越写越不对,最后发现居然比平时更累了?)。

注1:在本文中我详细解释了不少基础设置项的含义以及设置效果,之后的相关文章中我不再重复解释(比如下篇关于Draw Things的文章)。

注2:本文中涉及的都是最初级的生成类应用,加上我本来对这些涉及细分领域的操作就不太行(有些技巧和经验是需要在反复的实战中积累的),所以大家不用拘泥于本文中我这些粗浅的演示(甚至文中我的有些说法未必准确),当个参考就行了。

博客内容均系原创,转载请注明出处!更多博客文章,可以移步至网站地图了解。博客的RSS地址为:https://blog.tangwudi.com/feed,欢迎订阅;如有需要,可以加入Telegram群一起讨论问题。
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇
       
error:
zh_CN
春节
快乐