Preface

随着对我对AI领域的接触越来越多，以前一些模糊的理解也在慢慢变得清晰，需求也从最简单的chat类使用，慢慢过渡到了到文字生成类(文字生成图片、文字生成语音、文字生成视频、文字生成代码等)。

如果基于此再对AI需求细分一下的话，可以更精确地将AI需求分为以下几个层次(这些层次的划分是基于应用场景中的”准确性”、”主观性”、”执行要求”，以及用户对AI的”信任度”的不同需求)：

层次1：信息查询与模糊解答

这一层次的AI需求在于快速提供模糊的信息或参考建议，类似搜索引擎的替代品。主要应用在日常问答、百科查询等场景，用户需要的只是大致可行的答案，而非严格准确的内容，比如旅游推荐或食谱建议。这类需求通常不需要经过严格验证，除非涉及健康或敏感领域。

层次2：开放性内容生成(主观性高，准确性低)

在这个层次，AI主要用于基于”用户给出的文字生成用户偏好的内容，用来满足主观性需求，而不是精确标准”。典型的应用包括图像生成、文本创作等，只要输出符合用户的审美或情感偏好即可，不需考虑内容的客观准确性，比如：基于文字生成艺术图片、视频或写作故事。

层次3：可运行的任务生成(基本准确性要求)

这个层次的AI需求是生成具备执行性和基本功能的内容，供机器或人直接使用，比如：代码生成或数据分析的初步脚本。生成的内容需要通过基本测试，能够实现某些功能要求，但并不追求绝对精准。因此，代码生成等任务需要满足一定的运行标准，但不必完全无误。

层次4：高精度生成与决策支持(精确性高，逻辑严密)

该层次要求AI生成严格准确和逻辑严密的内容，尤其适用于医学、法律等严谨领域。应用场景包括医学报告生成、法律条款起草等，生成的内容需达到较高的精度和逻辑性，通常还需要人工进一步验证，以确保不存在逻辑错误或模糊之处。

层次5：复杂、多步骤任务执行(自动化、多模态任务)

此层次涉及AI执行多步骤、多模态的任务，并在过程中保持逻辑一致性。智能客服、虚拟助理和自动驾驶等应用需要AI整合各种模态的数据输入，如语音、图像和文字，并根据上下文进行精确响应。这要求AI在连续步骤中保持高精度和一致性。

层次6：实时、动态决策与适应性任务

在这个层次，AI需要具备实时适应环境变化的能力，进行复杂的非结构化任务。典型应用包括自动驾驶中的实时路径调整或智能安防监控，AI不仅需要动态感知环境，还需在高精度和快速反应之间找到平衡，确保决策的可靠性与安全性。

层次7：完全自主的多模态协作与创造性任务

最高层次的AI需求是能够自主进行多模态协作和创造性任务，如复杂设计方案的生成、科学实验建议等。这类任务要求AI具备高度的创造力和自我评价能力，能够充当“协作者”的角色。AI在满足逻辑严密性的同时，还需兼顾创新性，例如自动化科研实验设计或新药分子组合生成。

这种从”简单到复杂”、”需求从模糊到精确”的AI使用分层，正好符合实际应用中对不同任务的要求：可以帮助我们理解在不同场景中AI的功能和输出要求是如何变化的。

注1：层次4到层次7属于AI的高级应用，我们普通人一般接触不到，所以，层次1到层次3才是我们最常接触的场景。

注2：从层次2起，就要涉及到一个重要的概念：AI的多模态。

AI的多模态

FBI warning：这部分内容较为枯燥，但是从文章结构来说又必不可少，对这些技术细节不感兴趣的朋友可以直接跳到后面的实操部分内容。

什么是AI的多模态？

AI的多模态(multimodal)指的是AI系统能够理解、处理和生成多种类型的数据，比如文本、图像、音频、视频等，并在不同数据模式之间建立关联。例如，一个多模态AI可以根据文字描述生成图像(文字到图像)，或者对视频中的场景生成文字描述(视频到文字)。这种能力让AI在处理复杂的、多样化的任务时更加灵活，可以更自然地模拟人类的多感官信息处理。

多模态的重要性及实现难点

多模态AI的重要性在于，它能够更全面地理解人类提供的信息。人类在交流时常常依赖多种模式，例如语言、表情、肢体动作、声音等，通过多个渠道传达信息。多模态AI可以整合这些不同的数据来源，形成对信息的更深层次理解，这在以下几个方面尤为重要：

1、增强理解能力：通过将不同模式的信息进行整合，AI可以更准确地理解上下文。例如，在自动驾驶中，AI系统需要同时处理视觉（道路图像）、声音（警报或周围车辆的声音）和雷达传感器数据，从而做出更安全的决策。

2、提高生成能力：多模态AI能够从一种模式生成另一种模式的内容，比如根据文字生成图片或根据图片生成描述。这种能力广泛应用于创意内容生成、辅助写作、设计等领域，帮助人们更轻松地实现创意想法。

3、实现更自然的人机交互：多模态AI让人机交互更接近人类之间的沟通，比如在虚拟助手中，结合语音、图像和文字理解，AI可以更全面地理解用户需求，提供更贴合实际的回答。

实现多模态AI的难点在于，不同数据模式在本质上差异较大，处理方式也不同。图像数据和文字数据的特征、结构完全不同，要让AI学会在它们之间建立关联是一大挑战。此外，如何将不同模态的信息有效融合，避免信息丢失和偏差，也是多模态AI研究中的重要课题。

多模态AI的典型应用

多模态AI应用正在丰富人机交互的方式，使得AI在处理多样化任务时更加灵活、智能，并且为艺术创意、影视制作、内容创作等行业带来了全新的可能，常见的多模态AI应用包含如下场景。

1、文字生成图像：多模态AI根据用户输入的文字描述生成对应的图像，例如用户输入“日落时分的海滩景色”，AI生成一张符合描述的图片。代表性模型有DALL-E、Stable Diffusion和Midjourney等，广泛应用于创意设计、数字艺术和广告行业。

2、文字生成视频：在这一应用中，AI根据文字描述生成视频片段。例如，输入“森林中的日出”，AI可以生成逐渐升起的太阳照亮森林的视频。这种应用目前处于早期阶段，但在娱乐、广告和教育等领域有巨大潜力。Imagen Video和Meta的Make-A-Video是该领域的前沿研究模型。

3、文字生成语音：这一应用根据文字描述生成自然语言的语音输出。典型应用包括虚拟助理（如Siri、Alexa等）和文字到语音的辅助技术。用户输入一段文字，AI会生成相应的语音，如News Anchor用来制作播报。该应用在客服、智能设备和辅助工具等场景中很普遍。

4、文字生成音乐：多模态AI根据文字描述或情感提示生成符合情境的音乐。用户可以输入“温暖而放松的背景音乐”，AI则会生成一段相应的旋律。比如Google的MusicLM通过学习音频和文字的关联，生成符合用户描述的音乐片段，适合用于短视频、播客背景音乐和创意音乐制作。

5、图像生成文字描述(图像标注)：AI根据图像内容生成文字描述或标签，帮助用户理解图像内容。例如在社交媒体平台中，自动为图片生成描述文字；在图像搜索中，通过文字描述让用户更方便找到相关图片。代表性模型包括OpenAI的CLIP和Google的Imagen。

6、图像生成音频：AI根据图像生成相应的音频效果，例如看到雷雨场景生成雷雨的声音。这项技术在增强现实（AR）、虚拟现实（VR）中非常有用，使得虚拟场景更具沉浸感，也可以应用于电影特效和多媒体内容制作。

7、视频生成文字描述（视频标注）：AI分析视频内容并生成概要性描述或逐帧文字标注，便于内容搜索和理解。例如，在新闻和纪录片中生成自动字幕，或为无障碍视频提供详细的音频描述。相关模型有Meta的VideoCLIP等。

8、音频生成文字：这一应用是语音识别系统的基础，AI将音频内容转换为文字内容，比如将演讲、会议内容实时转成文字。广泛应用在语音助手、视频字幕生成、电话客服等场景，典型系统有Google的Speech-to-Text和Apple的Siri。

9、音频生成图像：AI根据音频内容生成对应的图像或视觉效果，比如音乐生成动态图像或根据音频线索生成场景图。此类技术常用于音乐视频的制作、声音可视化等场景，增强音频的表现力和艺术性。

10、多模态信息综合生成：AI结合不同模态信息（如文本、图像、音频等）生成新的内容或提供复合服务。例如，自动驾驶AI系统在处理视觉、雷达、声音等多模态数据后生成决策；虚拟助手结合用户输入的文字和情景图像，提供定制化的回答。这类应用尤其适合复杂场景，如智能安防和智能客服等。

注：由于多模态应用领域太多，本文只总结我最感兴趣的”文字生成图片”、”文字生成视频”、”文字生成语音”、”文字生成音乐”这几个领域。

文字生成图片

在多模态AI的”文字生成图片”领域中，AI能够根据用户提供的文字描述生成对应的图像，通常用于创意、设计、广告和娱乐等场景。近年来，这一领域经历了迅速的发展，涌现出许多代表性模型，如OpenAI的DALL-E、Stability AI的Stable Diffusion和Midjourney等，对这一领域的简单介绍如下：

1. 主要模型和技术

• DALL-E：由OpenAI开发的DALL-E系列模型是这一领域的开创性项目之一。DALL-E使用深度学习中的变换器(Transformer)模型，训练大量的图像-文字对数据，使其能够根据输入的描述生成符合语义的图像。DALL-E 2和DALL-E 3在生成图像质量、细节表达和多样性方面取得了显著进步，DALL-E 3还进一步优化了对用户文字描述的理解和细化控制。

• Stable Diffusion：Stable Diffusion是一个基于扩散模型的开源系统，通过使用扩散过程生成图像。它可以在多种输入条件下工作，如图片、文字等，并在生成图像时提供了用户较强的定制能力。Stable Diffusion的开源特性使得它在创意社区广泛流行，用户可以自定义模型，甚至微调生成特定风格或主题的图片。

• Midjourney：Midjourney是一个专注于图像生成的AI平台，主要通过在线社群和Discord服务器提供服务。Midjourney以其艺术性和独特的风格著称，适合创意和艺术表达的场景，生成的图像往往具备独特的审美效果，深受设计师和艺术创作者欢迎。

DALL-E和Stable Diffusion都可以通过一些主流的本地大语言模型UI(如Lobechat)进行调用：

对于Stable Diffusion，由于其开源性质，还支持各种本地部署方式。

而Midjourney默认只能通过Discord(Discord 是一个即时消息和 VoIP 社交平台，允许通过语音通话、视频通话、短信和媒体进行交流)进行调用，用户必须通过加入其Discord社区来生成图片，且没有官方的API或本地部署选项。当然，网友的力量是无穷的：有开源项目通过proxy的方式来实现通过其他UI对mj的调用，这个后面我会讲到。

2. 技术原理

• Transformer模型：DALL-E等模型依赖于变换器模型，通过编码文字和图像的语义关系进行生成。变换器模型利用自注意力机制（self-attention）来捕捉文字描述中的上下文信息，再映射到图像空间，从而生成相应的图像。

• 扩散模型（Diffusion Models）：Stable Diffusion使用扩散模型的原理，即将随机噪声逐步转换为清晰的图像。通过不断降低噪声的过程，模型逐渐在图像中绘制出符合文字描述的形象。这一模型在生成清晰、细节丰富的图片方面表现突出，且生成过程具有较好的稳定性和灵活性。

注：Midjourney的技术细节没有公开披露，因此具体的架构尚不明确。然而，从其生成效果和一些已知的特性来看，Midjourney可能并未采用传统的Transformer模型(如DALL-E)或标准的扩散模型(如Stable Diffusion)。它的生成技术可能是基于某种自适应生成模型，属于一种创新的多模态生成方式，融合了扩散模型、风格迁移等技术来实现独特的艺术效果。

3. 应用场景

• 广告与市场营销：文字生成图片在广告创意领域大放异彩。市场人员可以利用这些模型快速生成符合品牌调性的图片，从而提升视觉效果并降低制作成本。

• 游戏与影视：在游戏、影视等需要大量视觉素材的行业中，AI生成图片能够帮助设计师快速生成场景概念图或角色设计，提高效率并探索多种视觉风格。

• 社交媒体与自媒体创作：许多自媒体创作者使用DALL-E、Midjourney等生成工具来制作独特的视觉内容，增强了社交媒体内容的吸引力。

4. 关联性技术:图片生成文字

图片生成文字，即图像描述生成，是通过AI自动分析图片内容并生成文字描述的一种技术，广泛应用于图像搜索、自动化标注、辅助盲人等场景。代表性模型包括OpenAI的CLIP、Google的Imagen Captioning以及微软的Azure Computer Vision等。图片生成文字技术通常利用深度神经网络提取图像特征，再通过文本生成模块生成符合图片内容的自然语言描述，特别适用于快速理解和索引图片的场景。

图片生成文字（图像描述）和文字生成图片（图像生成）在多模态AI领域中存在紧密的关联性，主要体现在以下几个方面：

• 共享的多模态表示空间：许多先进的模型（如CLIP、DALL-E）都将图片和文字表示在同一个多模态空间中，从而让图像和文字之间具有语义关联。这种关联使得模型不仅可以生成图片描述（图片生成文字），还可以根据文字生成符合语义的图片。这种通用的多模态表示是这两种任务的基础。

• 训练数据的相互支持：图片生成文字和文字生成图片模型通常都使用带有文字标签的图像数据进行训练。这样的数据可以帮助模型学会图像和文字之间的对应关系，即理解图片内容的同时理解文字描述。这一数据互通使得模型在一方任务上获得的进展（如更准确的图像描述）能够提升在另一方任务上的表现（如更符合描述的图片生成）。

• 应用场景的互补性：在实际应用中，图片生成文字和文字生成图片常常结合使用。例如，在电商领域，图片生成文字可以为商品自动生成描述，而文字生成图片则可以根据商品描述生成效果图或设计样例。这种互补性不仅提高了内容生产效率，也让两种模型相互配合，丰富了用户体验。

• 理解和生成能力的双向增强：图片生成文字可以让AI更好地理解图像内容，而文字生成图片则让AI学会从描述中构思图像。两者结合有助于增强模型的视觉-语言双向理解和生成能力，使得模型不仅可以通过图像识别生成描述，还能根据描述生成视觉内容，实现更自然的多模态交互。

通过这些关联，图片生成文字和文字生成图片在技术和应用上形成了双向互补的关系，共同推动了多模态AI的发展。

文字生成视频

在多模态AI的”文字生成视频”领域中，AI根据用户提供的文字描述生成符合要求的短视频。这项技术尚在发展阶段，但它已经展现出巨大的潜力，在娱乐、广告和教育等领域中得到广泛关注。主要的代表性模型包括Meta的Make-A-Video和Google的Imagen Video等。以下是这一领域的详细介绍。

1. 主要模型和技术

• Make-A-Video：由Meta推出的Make-A-Video是目前较为先进的文字生成视频模型之一。该模型在生成动态视觉内容上有明显优势，能够根据输入文字描述创建具有流畅过渡和细腻细节的视频片段。Make-A-Video通过使用基于图像-视频对数据集的预训练，结合生成性对抗网络（GANs）和扩散模型的方式，让生成的视频内容更加自然。

• Imagen Video：Google推出的Imagen Video是一种基于文字描述生成视频的多模态AI系统。Imagen Video采用了类似Stable Diffusion的扩散模型架构，并结合了文本编码技术，以生成分辨率更高、层次更丰富的视频。该模型可以生成多个场景元素和动态变化，适合生成短时间的视频内容。

• Luma：Luma Labs专注于高质量的3D内容生成，利用文字描述生成逼真的3D视频。该模型特别适用于需要精细视觉细节的场景生成，广泛用于虚拟现实、增强现实和影视制作领域，提供高度写实的视觉效果。

• Runway：Runway推出的Gen-2模型支持基于文本的多模态视频生成，能从简单的文字描述生成短视频。Runway以生成创意内容和短视频见长，提供高质量的特效和创意工具，广泛应用于创意内容制作、广告和短视频平台中。

• Pika Labs：Pika Labs提供快速生成视频的服务，能根据简短的文字描述生成内容丰富的视频片段。Pika模型在视频生成速度和效果上有明显优势，适合需要快速生成视频内容的场景，如社交媒体创作和电商广告。

• 可灵(Klein)：可灵模型是一款中文多模态生成模型，专注于中文语境下的文字生成视频功能。该模型能够根据中文描述生成贴近真实的视频内容，适用于国内短视频创作、广告和教育内容生成等场景，特别适合中文用户的创作需求。

这些模型在视频生成的表现上各有侧重，从写实的3D视频到快速生成的创意短视频，均能为多模态内容创作带来创新的解决方案。

目前文字生成视频领域的模型在使用方式上存在显著差异：一些模型提供了开放API(或者并未公开，但是却被第三方分析并成功模拟了请求)，允许通过第三方工具或代理服务集成到统一界面中进行调用，从而支持本地或自定义界面中的使用。而更多模型则未提供公开的API接口，仅限于在官方提供的平台或专用应用中使用。这种设计上的不同，使得各模型在灵活性和集成度上有所差异：支持API的模型适合多场景下的灵活集成，而仅限专用界面的模型则依赖官方平台，通常适合标准化应用。

当然，网友的力量依旧是无穷的，我后面会讲到。

2. 技术原理

1、扩散模型（Diffusion Models）：扩散模型逐渐成为视频生成领域的主流选择，尤其在生成高质量、连贯的视频内容方面表现出色。扩散模型的基本原理是通过逐步加入噪声，将视频内容进行编码，然后再反向生成去噪的过程，以此逐帧生成符合描述的内容。例如，Runway的Gen-2模型、Imagen VideoandPika Labs都采用了扩散模型，通过逐步减少噪声生成高质量的视频片段。扩散模型因其逐步生成的方式，可以在保持细节和稳定性上优于传统的生成对抗网络。

2、生成对抗网络（GANs）：GANs曾是图像和视频生成的主要技术之一，利用生成器（Generator）和判别器（Discriminator）之间的对抗训练来生成逼真的视频内容。Make-A-Video模型可能在其框架中引入了GAN结构，使生成的每一帧视频既具有连贯性，又能保持较高的视觉真实感。然而，GAN的挑战在于生成高分辨率视频时容易产生不稳定的效果，尤其是长时间连续帧的生成较为复杂，因而在纯视频生成领域逐渐被扩散模型超越。

3、自回归生成模型（Autoregressive Models）：一些模型通过自回归生成的方式逐帧或逐片段生成视频内容。自回归模型依赖前一帧或前几个片段的信息，按顺序生成视频内容，特别适合短视频和特定主题的视频生成。Luma模型在3D场景生成中可能引入了类似自回归的生成方式，使得视频内容在3D渲染细节上具有高一致性和清晰度。

4、多模态特征嵌入（Multimodal Embedding）：许多视频生成模型，包括可灵（Klein），都使用多模态特征嵌入技术，将文本描述中的情感、风格、场景等特征映射到视频特征中。这种方法允许模型根据中文语境生成符合文化和语言需求的内容，提高了视频生成与文本描述的契合度。可灵专注于中文用户的需求，通过优化中文文本到视频的映射，提升了生成内容的情感表达和主题一致性。

3. 应用场景

• 广告与营销：文字生成视频在广告领域有显著应用，能快速生成符合品牌调性的短视频片段，降低广告制作成本，并提供丰富的视觉内容创意。

• 社交媒体和内容创作：自媒体和短视频创作者可以通过这些工具生成短视频素材，如简单的场景切换或背景效果，增加内容的吸引力和多样性。

• 教育和培训：在教育领域，文字生成视频可以帮助讲解抽象概念，生成具有解释性的动态内容，便于理解。例如，可根据文字描述生成科学实验演示、物理过程等动画，帮助学生更好地理解复杂概念。

4. 关联性技术：视频生成文字

视频生成文字，即视频描述生成，是通过AI自动分析视频内容并生成文字描述的一种技术，广泛应用于视频搜索、自动化字幕生成、内容审核等场景。代表性模型包括Google的VideoBERT、微软的Azure Video Indexer以及Meta的VideoCLIP等。视频生成文字技术通常利用深度神经网络提取视频的时序和视觉特征，再通过文本生成模块生成符合视频内容的自然语言描述，特别适用于快速理解和索引视频的场景。未来发展方向包括多层次的情节描述、跨语言字幕生成以及更高的语义准确性。

视频生成文字（视频描述生成）和文字生成视频（文本驱动的视频生成）在多模态AI中具有紧密的关联性，主要体现在以下几个方面：

1、共享的多模态理解和生成能力：这两种技术都要求模型理解视频与文字之间的深层关联。视频生成文字需要将视觉和时序信息转化为语言描述，而文字生成视频则需要根据文字描述生成符合内容的视觉和时序信息。这种双向转换依赖于多模态模型对视频和文字的通用理解，使得模型既能解析内容，又能生成符合语义的表达。

2、数据集的双向支持：视频生成文字和文字生成视频通常使用相似的数据集，尤其是带有文字描述的视频数据集。这些数据集包含了视频与其文字描述的配对关系，使模型能够在学习生成描述的同时，掌握从文字生成视频的映射关系，从而促进两种任务的相互发展。

3、应用场景的相互增强：在许多应用场景中，视频生成文字和文字生成视频可以结合使用。例如，在内容创作中，用户可以通过文字生成视频快速得到初步画面，再用视频生成文字生成的自动描述进行内容检查和完善。此外，在教育、新闻等领域，文字生成视频可以生成视觉内容，而视频生成文字则可以生成字幕和描述，以便内容传播和理解。

4、跨领域应用的互补性：视频生成文字可以帮助提升文字生成视频的精准度。例如，在生成复杂情节视频时，视频生成文字模块生成的描述可以用来自动校对或优化生成的视频，确保文字与视频的内容一致性。

通过这些关联，视频生成文字和文字生成视频相互促进，形成了技术和应用上的互补关系，使多模态AI能够更全面地支持复杂的视频-文字交互需求。

文字生成语音(TTS)

在多模态AI的”文字生成语音”领域中，AI根据用户输入的文字生成自然流畅的语音。这项技术在语音助手、客服系统、教育等领域已得到广泛应用，能够根据需求生成不同音色、语速和情绪的语音内容。代表性模型包括Google的Tacotron、OpenAI的Whisper以及微软的Azure TTS等。以下是该领域的详细介绍，同时简要介绍“语音生成文字”技术。

1. 主要模型和技术

• Tacotron：Tacotron 由 Google 推出，是早期的一种端到端文字生成语音模型。Tacotron 可以将文字转化为自然的语音波形，甚至能够合成特定的语气和语调。Tacotron 2 进一步优化了音质和稳定性，为后续的 TTS 模型奠定了基础。

• Azure Text-to-Speech (TTS)：微软的 Azure TTS 提供了灵活的文字生成语音服务，支持多种语言、口音和情绪的合成语音输出。用户可以调整语音风格，以适应不同行业的需求，例如智能客服和教育播音等场景。

注：文字生成语音最常用的就是TTS了，可以直接在本地大模型UI中进行调用

2. 技术原理

• 序列到序列（Seq2Seq）模型：Tacotron和其他文字生成语音模型通常基于Seq2Seq模型架构，通过将文字编码为语音特征，再解码为音频波形。此类模型利用深度神经网络对文字和语音的对应关系进行学习。

• 波形生成技术：Tacotron 2、Whisper和Azure TTS使用高级的波形生成器（如WaveNet或WaveGlow）来产生更加自然、清晰的语音。这些波形生成器通过高频采样和滤波处理，使语音合成更加接近真人声音。

3. 应用场景

• 虚拟助手和智能设备：文字生成语音在虚拟助手中应用广泛，如Alexa、Siri等。AI能够根据用户指令生成自然语音，使智能设备具备互动功能。

• 电话客服和服务机器人：许多企业将AI语音用于客服场景，通过生成自然语音来提升服务效率。生成的语音能够模拟真人口音和语调，改善客户体验。

• 教育和媒体：文字生成语音在教育领域中被用于自动化播音和讲解，适用于语言学习、电子书朗读和课程音频制作等。媒体领域也广泛使用语音生成技术来自动生成新闻播报或音频内容。

4. 关联性技术:语音生成文字(ASR)

语音生成文字，是将音频中的语音内容转写成文字的一种技术，广泛应用于语音助手、字幕生成、电话客服等场景。代表性模型包括Google Speech-to-Text、Whisper以及Microsoft的Azure ASR等。ASR技术通常使用深度神经网络对音频特征进行分析和识别，将语音内容准确转录为文字，特别适用于需要文字记录的语音输入场景。未来发展方向包括多语种的支持、对噪音环境的适应性提升等。

注：Whisper 是 OpenAI 发布的模型，专注于”语音生成文字”（ASR）任务。它通过大量多语种、多情境的数据集进行训练，具备较高的语音识别能力，尤其适用于需要准确语义表达的场景，如语言学习或播音。需要注意的是，Whisper 并不生成语音，而是实现语音识别的核心技术。

在许多语音交互场景中，Whisper 和 TTS 经常组合使用：Whisper 负责语音识别，将用户的语音转成文字，AI 模型基于文本内容理解用户需求，再通过 TTS 模型将响应内容转为语音输出。这种流程实现了从语音到文本再到语音的完整闭环，适用于语音助手、客服系统等应用，以Lobechat的”语音服务”为例：

语音生成文字（ASR）和文字生成语音（TTS）在技术和应用上有很强的关联性，它们共同组成了”双向的语音文字转换系统”：

• 构建完整的语音交互闭环：ASR和TTS相辅相成，为语音助手、客服系统和智能设备等应用提供完整的交互体验。用户输入语音，系统通过ASR将其转为文字，理解意图后再通过TTS合成自然语音回复，从而实现全双工的语音交流。像Siri、Alexa等智能助手就依赖于这种交互闭环，让用户无需文字输入即可完成操作。

• 共享语音和文本的特征与训练数据：ASR和TTS技术通常使用相似的语音-文本配对数据进行训练。在多模态AI模型中，语音和文字的映射关系是关键。通过相同或相似的数据集，ASR能够从语音生成准确的文字，而TTS则使用这些文字生成合适的语音。双向训练数据的使用提升了模型的准确性和一致性。

• 提高人机交互的自然性和智能性：ASR和TTS的结合使人机交互体验更加自然、连贯。例如，在客服机器人中，用户的语音请求可以被准确地转录和理解，再通过TTS提供自然的语音回复，使得互动更加贴近人类对话。未来随着多模态AI模型的发展，ASR和TTS的集成可以让设备更智能地感知和理解用户的情绪和意图。

• 推动跨语言和多模态的翻译与转录：在跨语言应用中，ASR和TTS技术可以结合生成语音翻译系统。例如，一段语音用ASR转录为文字后，可以通过翻译模块将文字转成另一种语言，再使用TTS生成目标语言的语音输出。这一流程支持跨语言交流，也能帮助有听力障碍的人士在不同语言间进行更便捷的交流。

通过将语音生成文字和文字生成语音集成在多模态AI系统中，不仅拓展了两种技术的应用场景，还能构建更智能、更灵活的双向交互体验，为语音助手、翻译、客服等领域提供更具人性化的服务。

文字生成音乐

在多模态AI的”文字生成音乐”领域中，AI可以根据用户输入的文字或描述，生成符合特定情绪、风格的音乐。这项技术应用于音乐创作、游戏音效、电影配乐等场景，能够为不同场合提供个性化的音乐生成。代表性模型包括OpenAI的Jukebox、Google的MusicLM以及AIVA等。以下是这一领域的详细介绍。

1. 主要模型和技术

• Jukebox：由OpenAI推出的Jukebox模型是一种基于神经网络的音乐生成工具，能够根据文本描述生成多种风格的音乐，包括流行、摇滚、爵士等。Jukebox可以生成包含歌词的歌曲，甚至模仿特定歌手的风格。

• MusicLM：Google的MusicLM模型能够根据文字描述生成高度复杂、符合情绪的音乐。它可以生成不同长度的音乐片段，并且对音乐风格、情感表达具有高度的控制，适合多样化的创作需求。

• Bark：由 Suno 开发的 Bark 模型是一款生成式音频工具，能够基于文本描述生成多种类型的音频，包括音乐、人声、环境音效等。Bark 可以生成带有情绪和风格的音乐片段，支持多语言语音生成，适合用于创作不同场景的声音效果和丰富的音乐内容。

• AIVA：AIVA是一种以生成背景音乐和配乐为主要用途的AI模型，能够根据输入的情绪、风格描述生成古典音乐和轻音乐等。AIVA广泛用于电影配乐、游戏音乐的生成。

注：在文字生成音乐领域，OpenAI的Jukebox和Google的MusicLM都还只是实验性质，并未商用，Bark、AIVA是少数已经商业化的音乐生成 AI 平台之一。AIVA 是专注于商业化音乐生成的专业模型，适合商业音乐项目，如广告、影视配乐等。Bark 则更偏向于多样化音频生成，虽然也可用于商业场景，但在专业音乐创作领域的应用相对有限，主要用作音效和语音生成工具。

2. 技术原理

• 序列到序列（Seq2Seq）模型：大多数文字生成音乐模型采用Seq2Seq架构，通过将文字描述编码成特征向量，再解码成对应的音频序列。模型利用大量文本和音乐数据对情绪、风格等特征的关系进行学习，从而将文字内容转化为音乐。

• 自回归生成模型：Jukebox和MusicLM采用自回归生成方法，通过逐步预测音乐的频谱或波形来生成音乐片段。这种方法可以更细腻地控制音乐的连续性和细节，使生成的音乐更符合人类听觉习惯。

• 情感特征与音乐映射：为了实现音乐与情绪的一致性，模型通过对输入文字情绪的识别，生成具有相应情绪表达的音乐。模型使用情绪分类器或风格分类器帮助将文字与合适的音乐元素对应，从而生成契合主题的音乐内容。

3. 应用场景

• 影视和游戏配乐：文字生成音乐被广泛应用于影视和游戏的背景音乐生成。导演和开发者可以通过简单的文字描述生成符合情境的音乐，大大缩短了配乐的创作时间。

• 个性化音乐创作：AI生成的个性化音乐可以用于社交媒体、短视频平台，创作者可以根据文字描述生成专属的背景音乐，提升内容的感染力。

• 疗愈与冥想音乐：在健康和心理疗愈领域，文字生成音乐可以根据冥想和疗愈场景需求，生成舒缓的音乐，帮助用户放松和冥想。用户输入特定的情绪或主题描述，系统生成匹配的音乐，有助于提升治疗效果。

• 实时生成音效：在互动式应用中，文字生成音乐可以用于根据实时输入生成特定情绪的音乐。例如，在虚拟现实（VR）或增强现实（AR）体验中，AI可以根据用户当前的情绪或场景需求，生成动态音乐，提升沉浸感。

文字生成音乐的未来发展方向包括对特定风格和细节的高度控制，使AI生成的音乐更加符合创作者的需求，并支持多语言描述，进一步拓展其应用场景。

AI多模态UI工具：chatgpt-web-midjourney-proxy

文字生成类工具使用的苦恼

在文章前面提到的各种文字生成类多模态需求(文字生成图片、文字生成视频、文字生成语音，文字生成音乐，其实还包括文字生成代码，只不过这个不算是多模态需求，所以我没有提)，最大的问题其实在于如何方便的使用。

在这些多模态需求中，一些可以通过我们常用的本地大模型UI(比如Lobechat)来完成，例如文章前面提到的文字生成图片(OpenAI的dall-e-3模型)、文字生成语音(Azure TTS)，但是另外一些却只能通过专用的方式：比如文字生成图片时，dall-e-3和Stable Diffusion无法满足需求，必须使用Midjourney；或者文字生成视频，需要使用Luma、Runway、可灵等模型时，都不得不按照官方要求的方式来使用。单一使用某个模型还好，如果要使用多种模型，可能就会”东一榔头西一棒”，一会这里，一会那里，想着就头大。

那么，能不能在同一个UI界面中使用这些生成类的模型呢？还真有，那就是”chatgpt-web-midjourney-proxy”。

chatgpt-web-midjourney-proxy介绍

该项目的目的是将 ChatGPT与Midjourney集成，用于实现文字生成图片的功能(项目地址：github.com/Dooy/chatgpt-web-midjourney-proxy)。它主要作为代理接口，允许用户通过一个统一的UI去访问多个 API 服务，包括 OpenAI 的 ChatGPT、Midjourney 的图像生成，以及其他模型(如 Suno 的音频处理和 Runway 的视频生成)。这样，用户可以为 ChatGPT 创建一个定制化的前端，同时支持多种后端，例如用于生成图片的 Midjourney，以及用于多模态任务的其他 API(如音频到音频、图像到视频和文字到视频)：

支持MidJourney、dall-e、IdeoGram等多种文生图模型，其中MidJourney除了支持绘图之外，还支持换脸和混图：

该项目提供了灵活的部署方式，包括 Docker 和无服务器(Serverless)选项，适用于个人或服务器环境，此外，还支持 Vercel 部署，方便用户进行云端配置。

chatgpt-web-midjourney-proxy部署

Deployment in Docker mode

The docker run command format is as follows:

docker run --name chatgpt-web-midjourney-proxy -d --restart=always \
-p 6015:3002 \
ydlhero/chatgpt-web-midjourney-proxy

上面命令中其实可以直接通过参数-e来指定多模态服务供应商(或者针对某个服务供应商自建的proxy)的API地址和密钥(例如，通过添加以下代码指向MJ的proxy地址：

-e MJ_SERVER=https://your-mj-server:6013 \
-e MJ_API_SECRET=your-mj-api-secret \

如果要自建MJ_SERVER的proxy，可以使用如下docker run格式命令进行创建：

docker run --name mj6013 -d --restart=always \
-p 6013:8080  \
-e mj.discord.guild-id=discord服务ID  \
-e mj.discord.channel-id=discord服务组ID   \
-e mj.queue.timeout-minutes=6 \
-e mj.api-secret=abc123456 \
-e mj.discord.user-token=**********  \
novicezk/midjourney-proxy:2.5.5

类似的还有：

-e LUMA_SERVER=`https://your-luma-server:8000`  \
-e LUMA_KEY=your-luma-key  \
-e SUNO_SERVER=`https://your-suno-server:8000`  \
-e SUNO_KEY=you-suno-key \

注：LUMA_SERVER和SUNO_SERVER的proxy也有各自搭建的方法，我这里就不多说了。其实，也不一定非要在创建docker的时候就完成这些环境参数的配置，搭建完成之后也可以登录UI界面进行设定。

docker部署完成后，直接使用http://宿主机IP:6015进行访问。

Vercel一键部署

对于使用Vercel的朋友，可以直接点击以下链接进行一键部署：Vercel一键部署，相关的环境变量说明如下：

无服务器(serverless)个人桌面版安装

这种方式就是采用本地安装的方式代替通过docker或者vercel进行部署(下载链接：无服务器个人桌面版下载)，当前的最新版为”v2.21.9″：

chatgpt-web-midjourney-proxy的使用

前置知识：第三方API供应商:OpenAi-HK

在之前介绍Lobechat使用的文章中(参见:Home Data Center Series Unlock the full potential of Lobechat: A complete guide from setup to actual use)，我提到过性价比较高的第三方API供应商：OhMyGPT，如果仅仅是从Chat类及文字生成代码的需求来看，OhMyGPT完全足够了。

不过，如果涉及到文字生成图片，OhMyGPT仅仅支持OpenAI的dall-e-3就显得薄弱了许多，更别说还有文字生成视频、文字生成音乐等需求。所以，如果对文字生成图片和视频功能需求比较多，那么OhMyGPT就不是很适合了。这个时候，同时支持 GPT4.0、dall-e-3、GPTs多模态、 Claude，绘图Midjourney Flex Ideogram、音乐Suno、视频Luma Runway 可灵、舞蹈Viggle的第三方API供应商OpenAi-HK就成了很好的选择(openai-hk官网地址):

从上面两张图可以看出，OpenAi-HK的确有很大的优势，支持的多模态模型类型多不说，关键是不需要科学上网且充值门槛低，而且使用上无时间限制，用完为止，这还是非常友好的。

充值之后，在控制台的API KEY部分记录下自己的API key，API地址选一个对自己网络速度最快的：

注：为了本篇文章的截图我义无反顾的充了10元人民币的巨款～。

chatgpt-web-midjourney-proxy实际体验

访问并设置chatgpt-web-midjourney-proxy

我是使用docker方式部署的，所以使用http://宿主机IP:6015进行访问：

左下方进入设置界面：

“总览”部分可以设置下方头像图片的链接、名称，以及工作界面的语言、背景图片等：

“模型”部分可以设置chat类交流的模型和参数，一般选择gpt-4o-mini就行，上下文数量、回复数、角色设定这些按需设置即可(正常chat类需求我用Lobechat，所以这部分设置对我没啥用)：

“服务端”的设置最重要，是文字生成的多模态需求能正常完成的关键：

这些设置都完成后，就可以正式使用chatgpt-web-midjourney-proxy开始文字生成类的多模态类操作了。

文字生成图片

在”chatgpt-web-midjourney-proxy”中，文生图的模型有Midjourney、dall-e-3和IdeoGram。

DALL-E 和 Ideogram 是生成图像的 AI 模型，但它们的设计重点和应用场景有所不同。

DALL-E 由 OpenAI 开发，能够根据文本描述生成多种风格的图像，适用于从真实世界场景到抽象艺术等多样化需求。然而，DALL-E 在生成具象化的特定人物（如动漫角色）时有一定的限制，主要是出于版权和知识产权的考量。为了避免与特定版权角色过于相似，DALL-E 在生成这类内容时往往较为保守，可能导致图像在细节上稍显模糊或不完全符合特定的视觉要求。

Ideogram 则是一个更注重文字与图像融合的 AI 工具，非常适合用于生成包含文字的图像内容，如文字艺术、广告设计或品牌标识。它的优势在于处理图片与文字的融合效果，因此在需要生成含有清晰文字的图像时表现更佳。

相比之下，Midjourney 在生成特定风格的角色图像上有更大的自由度，尤其是带有幻想或个性化艺术风格的动漫或虚构角色。Midjourney 通常可以提供更具风格化和细节丰富的图像，在角色形象创作上更贴合用户的视觉预期。

从下图中可以看到选择Midjourney有丰富的选项：

而dall-e和IdeoGram的选项两相比较下，就显得很简陋了：

IdeoGram：

下面以使用MidJourney为例，生成一张”人造人18号穿着性感衣服的图片”。

首先找一张人造人18号的模板照片，以下图为例：

然后按如下参数进行图片生成：

默认会生成4张图片，点击下方的U1、U2、U3、U4按钮，可以选择一张你最喜欢的进行单独生成。

再用相同的参数生成布尔玛的图片(七龙珠第一集中的形象为模板)：

这次生成的形象如下：

总的来讲，这种以一张模板图片为蓝本进行生成的操作倒是简单，实际效果也让人挺满意的。但是如果我想画一张人造人18号变身超级赛亚人3的图片应该怎么办？我如何告诉AI什么是超级赛亚人3？头大，等以后有时间再研究研究～。

注1：界面上还有其他一些参数和选项，比如”自传垫图”、”sref”等我都还没来得及研究，大家有兴趣可以尝试下。

注2：MidJourney还可以换脸和混图(两张图混在一起)，以换脸为例，假如把我的女神周慧敏和微胖界女神洪真英进行换脸，如下：

然后：

最终效果还行，可以称之为”洪慧敏”：

另外，之前生成的图片都在”画廊”选项里，如下图红框所示：

注：感觉有时候提交”生成图片”的请求会有失败的情况，这时候一般多提交2次就好，也不知道是不是OpenAi-HK到MidJourney之间的什么速率限制导致。

文字生成音乐

该部分功能主要是通过Suno的bark模型来实现(固化的，不能自定义)，有2种模式，一种是描述模式，纯靠文字：

还有一种是定制模式，可以上传音乐样本：

最终生成的音乐：

大家可以试听一下，还是可以的：快乐的星期天.mp3.

文字生成视频

默认有4个模型：Luma、Runway、Pika、可灵，我以可灵为例生成视频：

感觉生成的视频不咋地，有点木楞，有点假，也不知道是不是我的提示词没掌握技巧，视频我就不上传了，大家有兴趣自己试试。

舞蹈

这个其实类似于换脸，只不过这里是使用角色照片把视频模板里的人整个换掉：

视频懒得上传了，就拿一张截图看吧，生成了一个16秒的视频：

感觉很假～。

Summarize

最后还有个功能模块是”实时语音对话”，其实就是whisper和TTS的结合应用，这个Lobechat里也能实现，我就不折腾了。

总的来说，chatgpt-web-midjourney-proxy中最实用的是通过Midjourney进行文字生成图片(否则，正常使用MJ就要折腾Discord了)，至于其他的文字生成音乐、文字生成视频、舞蹈，个人感觉chatgpt-web-midjourney-proxy中提供的功能太简单了，只能当玩票性质，真要用，还是老老实实通过专业服务提供商官方推荐的方式使用吧。

Preface

AI的多模态

什么是AI的多模态？

多模态的重要性及实现难点

多模态AI的典型应用

文字生成图片

文字生成视频

文字生成语音(TTS)

文字生成音乐

AI多模态UI工具：chatgpt-web-midjourney-proxy

文字生成类工具使用的苦恼

chatgpt-web-midjourney-proxy介绍

chatgpt-web-midjourney-proxy部署

Deployment in Docker mode

Vercel一键部署

无服务器(serverless)个人桌面版安装

chatgpt-web-midjourney-proxy的使用

前置知识：第三方API供应商:OpenAi-HK

chatgpt-web-midjourney-proxy实际体验

访问并设置chatgpt-web-midjourney-proxy

文字生成图片

文字生成音乐

文字生成视频

舞蹈

Summarize

Send Comment Edit Comment

Related Posts