Home Data Center Series Starts the AI Journey: A Detailed Introduction to Local Big Language Model UI and Big Language Model API Providers

Contents

Preface

如何开启自己的AI之旅?我相信这是很多人(尤其是那些只知道AI概念但未真正接触过AI技术的朋友们)感到迷茫的第一个问题。几周前的我也是如此,只是听说过AI的威力,但实际应用上并没有涉足太深。

在此之前,我的AI接触经验仅限于OpenAI的ChatGPT。像许多人一样,我享受着OpenAI官网提供的免费服务:要么是通过网页版,要么是在mac、iphone或者ipad上使用官方提供的app客户端。因为对ChatGPT的依赖不强,每天的免费额度对我来说基本都够用了(万一超额使用就停几个小时再用),然而,这种”白嫖”的方式并非长久之计~。既然AI技术在各个领域都变得越来越重要,我也需要更正统地深入了解并学习AI的应用,不能只是依赖某个单一平台或工具。

开始的时候,我完全不知道怎样开始学习AI,尤其是面对不同的大语言模型、种类繁多的API供应商以及如何将AI技术融入到实际工作和生活场景中诸如此类问题的时候,我完全是懵逼的(甚至都不知道很多名词是什么意思,听群里的朋友聊天我经常都听不懂~~)。

最后,我只能从最基础的概念入手,通过实践部署大语言模型UI应用(lobechat本地版、服务端数据库版、chatgpt-nextweb等)、对比各种API供应商(OpenAI、Azure OpenAI、claude等)的优势领域,最终,才把这些属于AI的入门级知识基本梳理清楚,并写成了这篇文章。

通过这篇文章,可以了解如何通过简单而实用的方式入门AI,掌握大语言模型的基础知识,认识市面上常用的API供应商,甚至动手搭建属于你自己的AI Chat应用环境。无论是出于个人兴趣还是为了在职业领域中利用AI,本篇文章都能提供一份清晰的入门指南。

Chat类大语言模型的使用

chatGPT的使用方式

我在前面也提到过,之前我也一直在使用chatGPT的官方提供的免费服务,有官方网页版(https://chatgpt.com):

image.png

还有MAC上APP版:
image.png

其实,通过官方网址访问的官方网页版和MAC本地的APP版都是我使用chatGPT的UI界面,只不过,免费版对应的UI后台绑定了OpenAI公司默认提供的GPT-4-turbo模型版本(该模型是一个经过优化、成本更低的版本,允许部分免费用户在一定额度内访问GPT-4o模型),当这些额度用完后,会切换回使用 “GPT-3.5-turbo”模型。

注1:mac版的chatGPT可以直接下载(chatGPT mac版官方下载地址),ios和ipad上也均有chatGPT的app,不过需要切换外区ID下载,且要正常使用均需要通过科学或者魔法。

注2:现在使用chatGPT很简单,只需要使用现成的google账号、Microsoft账号、apple账号登录即可,当然,也可以直接注册一个OpenAI账号。

其他chat类大语言模型的使用

除了OpenAI的chatGPT,我们也还有其他类似的大语言模型可以选择,只不过,可能没有提供类似chatGPT的官方网页版或者现成的APP作为访问UI,基本都只是提供的API访问方式。所以,要采用除了OpenAI之外的其他大语言模型供应商的服务,就需要一个支持各种供应商API的、通用的大语言模型UI作为访问API的工具。

通常来说,正常访问大语言模型需要2个功能组成:

  • 大语言模型UI

本质上就是一个精心设计的交互界面,它的主要作用是搭建一座桥梁,连接普通用户和强大但复杂的AI技术。想象一下,在你面前有一个友好的控制面板,而在这个面板背后,是由各种API供应商提供的庞大AI系统。UI的妙处在于,它隐藏了所有的技术复杂性,为你提供了一个简单、直观的操作方式。你不需要懂编程,也不用关心背后的API是如何工作的,只需要像日常聊天一样输入文字。UI会巧妙地将你的需求转化为API能理解的指令,然后又把API返回的结果转换成你容易理解的形式。它就像是一个翻译官,在你和AI系统之间来回传递信息。此外,这个界面还帮你管理对话历史,保存重要信息,甚至允许你调整一些设置来个性化你的AI助手。简而言之,大语言模型的UI就是让复杂的AI技术变得触手可及的关键工具,它使得每个人都能轻松地利用AI的力量,而无需了解其中的技术细节。

  • API Providers

在大语言模型UI的背后,API供应商扮演着至关重要的角色,就像是这个系统的”大脑”和”引擎”。想象一下,这些API供应商提供了一系列强大的工具箱,每个工具箱都专门用于完成特定的任务。有的工具箱擅长将你的想法变成栩栩如生的图像,仿佛有一位隐形的画家随时待命;另一些则可以”看懂”图片,为你描述图中的内容,就像有一位细心的观察者在为你解读视觉信息。还有些工具箱能够将你的语音变成文字,或者反过来,把文字转换成自然流畅的语音,仿佛有一位全天候的秘书在帮你记录和朗读。这些API就像是各种超能力的集合,它们能理解自然语言,回答复杂的问题,甚至能帮你写代码或者创作文章。API供应商不断更新和优化这些工具,使它们变得越来越智能和高效,通过这些多样化的API,UI就能为用户提供几乎无所不能的服务,从日常对话到复杂的创意工作,再到专业的分析任务,都能轻松应对。简而言之,API供应商就是在幕后默默工作的技术团队,为UI提供源源不断的智能动力,让用户能够通过简单的界面获得各种令人惊叹的AI能力。

本地大语言模型UI

适合个人使用的大语言模型UI

市面上大语言模型UI有很多选择,只不过,今天我只谈谈我认为适合常规个人场景使用的,一般有3种选择,分别是Lobechat,ChatGPT Next Web,Chatbot-UI.

注:关于Chatbot-UI,我看了下部署比较折腾(不像Lobechat和ChatGPT Next Web,只需一个docker run格式的命令就可以搞定),而又没有什么明显的优势,我就不推荐了,但是后面的描述我还是留着,大家有兴趣可以自行研究一下。

Lobechat

Lobechat UI介绍

Lobechat是一个功能丰富的开源本地大语言模型用户界面,专为易用性和灵活性而设计。部署难度相对较低,适合具有基本技术背景的用户。它支持Docker容器化部署,简化了安装过程,使得即使是非专业开发者也能快速搭建自己的AI助手。在扩展性方面,Lobechat提供了插件系统,允许用户根据需求添加新功能。它支持多种API供应商,包括OpenAI、Anthropic Claude、Azure OpenAI等,同时也兼容开源模型如llama.cpp和ChatGLM。Lobechat的界面设计简洁直观,支持多语言,并提供了丰富的对话管理功能,如对话导出、历史记录搜索等。对于注重数据隐私和希望完全控制AI交互过程的用户来说,Lobechat是一个理想的选择,其访问界面如下:

image.png

github官方链接如下:https://github.com/lobehub/lobe-chat.

Lobechat部署方式

Lobechat支持2种部署模式,以用户数据的存放位置不同,分为客户端数据库模式和服务端数据库模式。

  • Lobechat 客户端数据库模式

以该模式部署Lobechat,所有的数据(如用户的会话记录、模型配置等)都存储在用户的本地浏览器缓存或客户端数据库中。这种模式不需要依赖后端服务器,因此适合个人用户或小型项目,部署简单且不需要额外的服务器资源。用户数据完全由本地控制,隐私性较好,但由于存储在客户端,数据易受浏览器缓存清理或设备更换的影响,存在一定的数据丢失风险。此外,客户端模式不适合需要在多设备间同步数据的场景,比如,大多数都是从同一个PC客户端来访问Lobechat,所以没有多个客户端之间同步数据的需求(不需要PC客户端和手机客户端之间共享访问lobechat的会话数据)。

Lobechat客户端数据库模式部署命令可以参考如下:

docker run --name lobe-chat -d --restart=always \ -p 3210:3210 \ -e ACCESS_CODE=xxx \ lobehub/lobe-chat
  • Lobechat 服务端数据库模式

以该模式部署Lobechat,用户的会话数据、配置等存储在远程服务器的数据库中,这通常是通过托管的数据库服务实现。此模式适合多人或团队使用,支持多设备间数据同步和集中管理。它能够实现持久化存储,确保数据的长期安全与完整性,但部署较为复杂。

Lobechat服务端数据库模式的部署之所以复杂,因为除了Lobechat-database本身的部署,还涉及到了postgresql数据库、Minio COS(对象存储)、Logto(认证)这些组件,其中,Minio COS和Logto可以用其他第三方服务替代。

由于部署比较复杂,我这里就不多说了,感兴趣的朋友可以参看文章:Docker series based on the open source large language model UI framework: Lobechat detailed deployment tutorial.

ChatGPT Next Web

ChatGPT Next Web UI介绍

ChatGPT Next Web是一个高度可定制的大语言模型用户界面,以其强大的功能和灵活的部署选项而著称。部署难度中等,需要一定的技术知识,但提供了详细的文档和社区支持。它支持多种部署方式,包括Vercel一键部署、Docker容器化和传统的服务器部署。在扩展性方面,ChatGPT Next Web采用模块化设计,允许开发者轻松添加新功能或修改现有功能。它主要支持OpenAI的API,但通过其灵活的架构,也可以集成其他API供应商。值得注意的是,它提供了API代理功能,可以解决某些地区访问限制的问题。ChatGPT Next Web的特色功能包括多用户支持、自定义提示词库、对话导出为Markdown或图片等。它的界面设计现代化且响应迅速,支持深色模式和多语言界面,适合需要高度定制化AI助手的个人用户和小型团队,其访问界面如下:

image.png

github官方链接如下:https://github.com/ChatGPTNextWeb/ChatGPT-Next-Web.

ChatGPT Next Web部署

ChatGPT Next Web目前只支持客户端数据库模式,部署较为简单,部署命令可以参考如下:

docker run -d -p 3000:3000 \
   -e OPENAI_API_KEY=sk-xxxx \
   -e CODE=your-password \
   -e PROXY_URL=http://localhost:7890 \
   yidadaa/chatgpt-next-web

Note 1:-e PROXY_URL可以指定代理服务器(如果需要)。

注2:虽然ChatGPT Next Web不支持服务端数据库版的部署,但是提供其他方式间接实现同步数据的功能:WebDAV和UpStash。
WebDAV:

image.png

UpStash:
image.png

使用效果如何我就没有详细测试了,毕竟我常用的是Lobechat。

Chatbot UI:

Chatbot UI是一个专注于提供卓越用户体验的本地大语言模型界面。它的部署难度相对较低(说是这么说,但是没Lobechat和ChatGPT Next Web的客户端数据库版部署难度低),提供了详细的安装指南和多种部署选项,包括本地部署和云端部署。在扩展性方面,Chatbot UI采用了模块化的架构,允许开发者通过插件系统添加新功能。它支持多种API供应商,包括OpenAI、Anthropic、Cohere等,同时也支持通过Hugging Face集成开源模型。Chatbot UI的一大特色是其强大的对话管理功能,包括对话分类、标签系统和高级搜索功能。它还提供了详细的使用分析工具,帮助用户优化其AI交互。界面设计方面,Chatbot UI提供了多种主题和布局选项,允许用户根据个人喜好进行定制。此外,它还支持语音输入和文本转语音功能,大大提升了可访问性。Chatbot UI特别适合那些需要深入分析和管理AI对话的专业用户和研究人员,其访问界面如下:

image.png

github官方链接如下:https://github.com/mckaywrigley/chatbot-ui/.

注1:如前面所说的原因,部署部分跳过,我并不推荐新人使用Chatbot UI。

注2:除了以上3款本地大语言模型UI之外,其他其实还有不少,比如:GPT4All Web UI,Oobabooga Text Generation Web UI,StableLM Web UI,Vicuna Web UI,Langchain UI,Hugging Face Inference API UI等等,只不过,这些要么安装不够简单、要么需要较高的技术水平、要么功能较为复杂不适合一般的用户,所以对比一番之后我就不加入推荐名单之中了,但是,这些UI各有各的特点,适合不同需求的人群,大家如果觉得Lobechat或者ChatGPT Next Web功能不适合自己,也可以考察一下其他的UI。

2款UI默认支持的API供应商对比

其实只从外观上来说,是看不出本地大模型UI好不好用的(本质上就是一个聊天对话框而已),而一个非常关键的判断依据,是”默认内置支持”的API供应商数量以及对API供应商更新的模型版本的及时支持(API供应商经常都在新增模型版本,所以也要求UI能够及时更新来支持):支持的数量越多,说明可扩展性越强。

Lobechat

Lobechat是3款UI中对API供应商数量以及新增模型版本支持得最好的,支持多达30个API供应商:

image.png

image.png

image.png

关键在于,还支持众多国产大语言模型厂商,这对于使用者而言是非常友好的,选择面可以非常广。另外,Lobechat的语言模型设置默认就支持自定义API地址和模型列表:

image.png

注:能”自定义API地址和模型版本”这点非常好,大家mark一下,我后面会提到。

ChatGPT Next Web

这个和Lobechat比起来,chatGPT-next-web默认内置支持的API供应商就要少,目前只支持10个,不过也支持了常用的OpenAI、Azure OpenAI、Google、Anthropic:

image.png

image.png

image.png

image.png

从上面这几张图可以看出,默认ChatGPT Next Web的语言模型和模型版本是固化的,不像Lobechat那样是可以自定义的,所以灵活性较差,但是,却可以通过”Custom Endpoint”选项自定义API的地址的方式来支持更多的API供应商和模型版本:

image.png

image.png

Custom Endpoint” 选项允许用户配置自定义的 API 端点(或者模型版本),意味着你可以连接到除默认支持的 10个API供应商之外的其他模型提供商或本地运行的模型:启用 “Custom Endpoint” 后,你可以通过”OpenAI Endpoint”选项使用并连接到任何符合 API 调用规范的第三方大语言模型供应商的API地址,只要这些服务的接口和 OpenAI 的 API 兼容,你可以通过输入自定义的 URL 将 ChatGPT Next Web 连接到这些模型,该选项也算是一定程度上弥补了默认内置支持的API供应商数量不多的问题,只是,这种支持相比Lobechat的直接支持,兼容性上肯定要差一些。

注:该选项就是ChatGPT Next Web提供的”自定义API地址和模型版本”功能。

常见的大语言模型API供应商介绍

FBI warning:枯燥预警

这部分内容只是记录性质,较为枯燥,不感兴趣的朋友可以直接跳到最后的总结部分,我是为了以后查询方便所以整理得详细一点。

前置知识

Transformer架构

Transformer架构是一种专为自然语言处理(NLP)任务设计的深度学习模型架构,由 Vaswani 等人在 2017 年提出。它彻底改变了 NLP 领域的研究和应用,成为了包括 GPT 系列、BERT、T5 等许多现代语言模型的基础,其包括以下核心概念。

  1. Self-Attention 机制

Transformer 的核心是自注意力(Self-Attention)机制,它允许模型在处理一个句子时,关注句子中的所有单词,而不是依赖于固定的序列处理(如 RNN 的顺序结构)。每个词都可以通过自注意力机制理解句子中的其他词,从而捕捉词与词之间的关系。

  1. Encoder-Decoder 结构

Transformer 原本的设计由两个部分组成:

Encoder:处理输入序列,生成上下文相关的表示。
Decoder:基于编码器的输出以及之前的生成结果,逐步生成输出序列。

但在很多语言模型中(如 GPT),我们使用的只是编码器或解码器的一部分。例如 GPT 只使用了 Transformer 的解码器结构。

  1. 并行计算

Transformer 使用了完全基于注意力的机制,摒弃了循环神经网络(RNN)和长短期记忆网络(LSTM)中逐步计算的模式。其并行计算能力使得模型能够高效地处理长文本输入,显著提升了训练速度。

  1. 多头注意力(Multi-Head Attention)

Transformer 使用了多头注意力机制,使模型能够从不同的“角度”理解数据。通过多个独立的注意力头,模型可以在不同的语义层次上捕捉单词之间的关系,进一步增强模型的表达能力。

  1. 位置编码(Positional Encoding)

由于 Transformer 并不像 RNN 或 LSTM 那样依赖输入的顺序,因此它引入了位置编码来表示单词在句子中的相对位置。这使得模型能够保留句子的顺序信息。

Transformer 架构的应用和优势

1、扩展性强:相比于之前的 RNN、LSTM 模型,Transformer 可以更好地处理长序列数据,尤其在长句子或文档理解上表现优异。

2、高效并行化:由于自注意力机制和不依赖序列的处理方式,Transformer 可以并行处理整个输入序列,从而大大加快了训练速度,尤其在大规模数据上表现突出。

3、广泛应用:

GPT 系列:OpenAI 基于 Transformer 架构开发了 GPT 系列模型(如 GPT-3、GPT-4),应用于生成文本、对话系统等任务。

BERT:Google 开发的 BERT 也是基于 Transformer 的,擅长处理双向上下文关系的任务,如阅读理解和文本分类。

T5:Transformer-based Text-to-Text Transfer Transformer(T5)将所有 NLP 任务转换为文本生成问题,展示了 Transformer 架构的高度灵活性。

Transformer 架构凭借其自注意力机制、并行计算能力和广泛的应用范围,成为 NLP 领域的核心架构。它推动了大语言模型的发展,并在多个任务中取得了极大的成功,使得现代 AI 系统在处理语言时更加智能和高效。

GPT

GPT(Generative Pre-trained Transformer,生成式预训练变换模型)是一种基于 Transformer 架构的大型语言模型,由 OpenAI 开发。它能够生成类似人类的文本,并在许多自然语言处理任务中表现出色。GPT 的核心在于预训练和微调两个阶段,利用大规模文本数据进行学习,并通过少量的任务特定数据进行优化。自最早的版本问世以来,GPT 系列模型已经发展到了多个版本,包括 GPT-2、GPT-3、GPT-4 等。

GPT 的核心原理如下:

  1. 基于 Transformer 架构

GPT 基于 Transformer 的解码器部分,这意味着它可以通过自注意力机制来理解上下文,并生成新的文本。Transformer 架构允许 GPT 捕捉词与词之间的复杂依赖关系,处理长文本时表现出色。

  1. 预训练和微调

预训练:GPT 首先在海量的未标注文本数据上进行预训练。模型通过预测下一词的方式,学习语言中的句法、语义等规则。

微调:在特定任务上(如文本生成、翻译或问题回答),GPT 可以使用少量的标注数据进行微调,使其表现更符合特定任务需求。

  1. 自回归生成

GPT 是一种自回归模型,它会逐步生成文本,即根据已经生成的部分来预测下一个词,直到输出完整的文本。这使得 GPT 非常适合生成流畅、连贯的自然语言文本。

GPT 的主要功能:

  1. 自然语言生成

GPT 擅长生成与上下文高度一致、连贯性强的文本。它可以用于自动写作、内容创作、编剧、生成产品描述等任务。

  1. 对话与聊天机器人

GPT 可以理解用户的输入并生成适当的回复,成为许多对话系统和客服机器人的核心技术。

  1. 问答与信息提取

GPT 可以根据给定的文本或知识库,回答问题或提取相关信息,广泛用于问答系统、搜索引擎等场景。

  1. 零样本学习与少样本学习

GPT-3 和 GPT-4 展示了零样本和少样本学习的能力,即使没有专门为某个任务进行微调,它们也能够通过提示完成任务。

  1. 多领域应用:

GPT 能够跨越多个领域进行任务处理,包括但不限于编程代码生成、医学文本理解、法律文档分析、翻译等。GPT 可以生成富有创意的文本,甚至可以撰写文章、诗歌、故事等,展示出类似人类的创造力

模型和版本的演进

“模型”在大语言模型领域是一个普遍的概念,涉及到不同的组织和框架。除了出名的OpenAI的GPT-3,GPT-4模型,其他机构也在开发和发布自己的模型同时不停进行版本的迭代升级:

  • Google 的 BERT,从原版 BERT 到后续的改进版本(如 ALBERT、RoBERTa);Gemini 从1.0版到现在的1.5,2.0也即将发布。
  • Facebook AI Research (FAIR)的 RoBERTa,比原始 BERT 进行了更大规模的训练和优化。
  • Hugging Face 维护着 Transformers 库,支持多种模型和版本,包括 BERT、GPT、T5、XLNet 等。
  • Microsoft 推出的 DeBERTa,展示了前后的版本更新和性能提升。

在下面的文章中,我列举了市面上最常见的的大语言模型API供应商,由于实在是太多了,我只列举我觉得最常用的API供应商(不包括国内API供应商)及主要的模型版本。

OpenAI – ChatGPT

OpenAI ChatGPT介绍

什么是 OpenAI ChatGPT?

ChatGPT是 OpenAI 推出的基于GPT系列的大型语言模型产品,用于生成自然语言对话。ChatGPT 凭借其强大的语言理解和生成能力,能够与用户进行多轮对话,回答问题、生成创意文本、协助编写代码等,广泛应用于聊天机器人、客服系统、内容生成等场景。

ChatGPT 的核心特点:

1、基于 GPT 模型:ChatGPT 是基于 GPT(生成式预训练转换器)系列模型,尤其是 GPT-3.5 和 GPT-4 版本。GPT 是一种使用 Transformer 架构进行大规模预训练和微调的语言模型,擅长从上下文中学习模式并生成连贯的文本。

2、对话能力:ChatGPT 具备强大的对话生成能力,能够理解和回应用户的多种请求,无论是简单的聊天还是复杂的问题回答。它可以进行多轮对话,记住上下文并保持连贯性。

3、生成多种语言内容:ChatGPT 支持多种语言,用户可以使用英文、中文、法文、西班牙文等语言与 ChatGPT 进行交流。它不仅能生成文本,还可以根据提示创作诗歌、故事或进行代码编写。

4、高效的学习能力:ChatGPT 使用少样本学习(Few-Shot Learning)和零样本学习(Zero-Shot Learning)技术。用户只需提供少量例子,甚至不需要任何例子,ChatGPT 就能理解任务并生成准确的文本内容。

5、自适应性:ChatGPT 可以在多个领域提供帮助,从技术支持到文案创作再到学术讨论,展现出极高的适应性。这使得它可以应用于多种行业,包括教育、娱乐、商业等。

ChatGPT 的优势:

多任务处理:ChatGPT 可以轻松应对多种任务,如回答问题、生成对话、编写代码、语言翻译等,具备很强的泛用性。

响应速度快:通过 GPT-4 Turbo 等优化版本,ChatGPT 能在较短时间内提供高质量的文本生成。

广泛应用:无论是商业应用还是个人使用,ChatGPT 都能适应各类场景,用户可以快速集成 API 或者使用现成的应用进行部署。

主要模型版本及其功能

OpenAI API 提供了多个不同版本的语言模型,每个模型的性能、用途和成本有所不同:

GPT-4 系列模型

GPT-4 Turbo:

这是 GPT-4 的优化版本,提供了更快的响应速度和更高的性能,同时降低了使用成本。GPT-4 Turbo 适用于需要高效生成大量文本内容的场景。

GPT-4 (gpt-4o):

这是 OpenAI 最新、最强大的模型。它具有非常出色的语言理解和生成能力,能够处理复杂的文本任务:无论是生成长篇文章,还是处理上下文对话,GPT-4 都表现得极其优秀,适合高精度内容生成、复杂对话系统、技术文档写作等任务。它能理解长时间的上下文并生成与之前对话内容高度相关的回答,适合新闻媒体、学术研究、技术写作、客户支持等使用场景。

GPT-4-mini (gpt-4o-mini):

这是 GPT-4 的精简版本,虽然性能略低于标准的 GPT-4,但仍然具有强大的文本处理能力。相比 GPT-4,它的计算需求和使用成本更低,适合那些需要平衡性能和成本的场景。适用于中等复杂度的任务,比如聊天机器人、自动化客服等任务,它在速度和成本方面更具优势。中小型企业的客户服务、内容审核、日常文本生成等。

GPT-3.5 系列模型

GPT-3.5 (davinci):

GPT-3.5 是 GPT-4 的前一代版本,虽然在性能上略逊于 GPT-4,但它依然能够胜任大多数文本生成任务。它在生成内容的质量和速度之间达到了很好的平衡。适合多种任务,如内容生成、对话系统、文本翻译和代码生成。它处理复杂任务的能力仅次于 GPT-4。需要自动化生成或与客户互动的公司,如新闻平台、在线教育、技术支持等。

GPT-3.5-mini (curie):

这是一个轻量级版本,能够处理大多数日常文本任务。相比 davinci,它在处理复杂内容时稍显不足,但更适合需要高效处理大量简单任务的场景。非常适合基础的聊天机器人、文本摘要、简单内容创作等任务。它能够快速生成短文档或简单回答。电子商务、内容推荐系统、自动化邮件回复等。

OpenAI O1系列模型

OpenAI O1 是 GPT 模型家族中一个相对优化的版本,专为在不同场景下提供更高效的计算和更强大的生成能力而设计。O1 模型在保留大语言模型核心能力的同时,通过优化的架构和计算性能,提供了较高的效率和准确性,适用于多种任务,如对话生成、文本分析、内容创作等。

O1 模型的主要特点:

1、优化性能:O1 相较于传统的 GPT 模型,经过优化以实现更高的性能。它可以处理复杂的语言生成任务,如编写代码、长篇文本生成以及复杂的问答任务,同时保持高效的运行速度。

2、广泛的应用领域:O1 模型可以被应用于多个领域,包括商业服务、技术支持、内容生成、自然语言处理任务等。它能够适应更复杂的上下文要求,并在对话和生成任务中提供准确且连贯的输出。

3、高质量生成:与更轻量级的模型相比,O1 提供了更高的生成质量,特别是在需要理解上下文和复杂推理的任务中,它能够输出更符合人类语言逻辑的文本。

O1 模型的优势:

均衡的计算成本和性能:O1 模型在计算资源使用和生成质量之间找到了良好的平衡,既能够提供足够的推理能力,又不会像更大的模型(如 GPT-4)那样占用过多的计算资源。

适用于多任务处理:O1 能够处理从简单的文本生成到较为复杂的对话、代码编写等任务。无论是生成创意文案、处理技术文档还是应对实时对话需求,O1 都表现出色。

优化的响应速度:O1 通过架构优化,在提供高质量输出的同时,显著减少了响应延迟,特别适合需要较快生成和反馈的应用场景。

O1 与 O1-mini 的区别:

模型规模:O1 相较于 O1-mini 具有更多的参数,因此在处理复杂任务和提供精确生成方面表现更为优异。

生成能力:O1 的文本生成质量通常比 O1-mini 更高,尤其在上下文理解和复杂任务处理上。O1-mini 更适合轻量级任务,而 O1 更适合需要更高准确度和更复杂推理的任务。

计算成本:O1 尽管比 O1-mini 占用更多的计算资源,但其在高性能任务中的表现也更为优越,适合对生成质量要求较高的用户。

总体而言,OpenAI O1 是一个高效且功能强大的模型版本,适用于那些希望在多种自然语言任务中保持平衡、精确和快速生成的应用场景。

附加知识:knowledge cutoff(训练截止日期)

在OpenAI的官网报价页面,可以看到,不同的模型介绍时,都有一个”knowledge cutoff”,目前是2023年10月:

image.png

这意味着目前模型的知识范围只涵盖了这个日期之前的信息,这样写明的具体原因如下:

  1. 模型训练数据的限制:

像 GPT 这样的模型并不是实时接收信息的,而是基于大量预先收集和处理的训练数据生成的。每隔一段时间,OpenAI 会用新的数据集对模型进行训练(一次训练需要几个月的时间)。然而,模型在上线后并不会主动更新,直到下一个版本训练完成。因此,在给定的时间点,模型的知识只包括它最后一次训练时的数据。这是因为更新模型并非单纯加入新数据即可,模型更新后还需要大量的调试、优化和验证过程,确保其生成的内容准确性、合理性和可控性。如果频繁地引入新数据,模型的质量可能会不稳定。因此,模型更新往往需要周期性地进行,而不是实时更新。

  1. 保持透明性:

为了让用户了解模型的知识范围,OpenAI 会在文档和使用说明中注明模型的 知识截止时间(knowledge cutoff)。这样用户可以清楚地知道,模型在回答问题时,不会包含 2023年10月之后的最新信息,比如新技术、新闻事件、政策变化等。另一个原因是目前的 GPT 模型是离线训练的,它们无法实时获取或学习互联网上的新信息。这些模型需要从静态的预训练数据集中获取知识,因此无法像搜索引擎那样访问和处理最新的新闻、研究或动态信息。

  1. 避免误导:

这个提示也是为了避免用户产生误解,以为模型可以提供实时的信息或应对最新的情况。例如,用户询问2024年的最新事件时,模型可能无法准确作答,OpenAI 通过此提示提醒用户这一点。

  1. **模型版本稳定性:

OpenAI 在对外提供 API 和商用服务时,通常会使用经过严格验证的稳定版本。模型发布后,知识可能已经过时,但优先保证模型在多个任务上的表现稳定,并确保安全性和可靠性,这些因素优先于实时更新数据的能力。

因此,尽管知识截止日期可能看起来“落后”,但这在当前的大型语言模型领域是很常见的做法。

OpenAI 等公司可能会在未来通过技术进步(如增强的实时更新机制)缩短这一滞后时间,但目前这种“滞后”仍是比较常见的现象。

注:还有一个模型命名方式和时间相关,例如”gpt-4o-2024-08-06″,这个只是模型发布或者更新日期,和”knowledge cutoff”不一样,这点大家要注意。

价格计算单位:Token

在 OpenAI API 的定价中,Token 是计算使用成本的基础单位。理解 Token 对于正确估算 API 调用费用非常重要。

什么是 Token?

Token 的基本概念:

Token 是语言模型在处理文本时的最小单位,它可以是一个单词、一部分单词,甚至是标点符号。例如,英文中的 “chat” 是一个 Token,而像 “incredible” 这样的长词可能会被分成多个 Token。标点符号和空格也可能算作 Token。

Token 和字符的区别:

Token 并不是简单地与字符或字节一一对应。模型会对输入文本进行拆分和编码,生成多个 Token。因此,输入的文本越长,所用的 Token 数量就越多。

具体示例:例如,句子 “OpenAI is awesome!” 由 4 个 Token 组成:”OpenAI”、”is”、 “awesome”、“!”。而中文中的一句话可能会被拆解为更多的 Token。对于一些复杂的文本,Token 数量可能显著增加。

Token 在 OpenAI 定价中的作用

在 OpenAI API 中,每次调用 API 都会基于 Token 的数量计费。调用 API 生成文本或进行其他操作时,系统会计算输入和输出的 Token 总量,按照 Token 数量进行收费。

输入 Token:你发送给模型的文本。

输出 Token:模型生成的回复。

每个 API 调用的总 Token 数量 = 输入 Token 数量 + 输出 Token 数量.

Token 计费示例:假设你输入了一段包含 100 个 Token 的文本,并请求生成一段 50 个 Token 的回复,系统会按 150 个 Token 进行计费。根据所使用的具体模型(如 GPT-4 或 GPT-3.5),每个 Token 的价格有所不同。

目前OpenAI Token价格

目前官网GPT-4o价格如下:

image.png

GPT-4o mini价格如下:
image.png

可以看出,GPT-4o mini比GPT-4o却是便宜了很多。

OpenAI还有其他模型版本及功能,我就不一一介绍了。更多OpenAI的模型版本及价格参见官网:https://openai.com/api/pricing/.

Azure OpenAI

Azure OpenAI和上节内容讲过的OpenAI之间是什么关系呢?

Azure OpenAI 和 OpenAI 的关系可以描述为”微软 Azure 平台通过云服务提供 OpenAI 的模型”,从而让开发者能够在 Azure 环境中访问和使用 OpenAI 的先进人工智能模型。具体来说:

OpenAI 是一家独立的 AI 研究公司,开发了像 GPT-3、GPT-4、Codex 等大语言模型,广泛用于自然语言处理、文本生成、代码生成等任务。

Azure OpenAI 则是 微软 Azure 云平台 上的一个服务,提供了 OpenAI 的模型接口,使得用户可以在 Azure 环境中轻松集成和部署 OpenAI 的模型。

这两者的关系可以概括为:

  1. 技术合作:微软与 OpenAI 建立了深度的战略合作关系,微软提供云基础设施,OpenAI 专注于开发先进的 AI 模型。
  2. API 提供:通过 Azure OpenAI 服务,微软的云客户可以直接通过 API 访问 OpenAI 的 GPT 模型、Codex 以及其他前沿 AI 技术。用户可以利用 Azure 提供的集成优势(如安全、数据管理等)来构建和部署 AI 应用。
  3. 差异化平台:尽管 OpenAI 有自己的平台提供 API,Azure OpenAI 服务则是在 Azure 生态下的一部分,帮助用户将 OpenAI 的技术与微软的其他云产品(如 Azure 机器学习、存储、数据库等)无缝结合。

其实,最关键的点在于:OpenAI本身是限制大陆IP访问的,所以正常情况下要使用OpenAI必须使用科学或者魔法;并且如果是直接访问OpenAI官方API的方式,往往需要使用第三方代理来发起访问,稳定性难说之外,关键就是折腾。而Azure OpenAI提供的API,却是不需要使用科学或者魔法就可以直接访问的,这点非常之难得(目前国外API供应商能在国内不用科学或者魔法而直接使用的貌似就只有Azure OpenAI了)。

如果平时用户是使用本地大语言模型UI来访问OpenAI,那可选择的方法倒是很多,关键在于有些固化了OpenAI官方API地址的使用场景(比如wordpress的AI插件,具体设置步骤可以参看文章:Home Data Center Series WordPress Chatbot Plugin "AI Engine" Functional Exploration and Built-in Tools Research),在无法正常使用第三方API供应商的API地址的时候,有一个不需要科学或者魔法就可以直接使用的OpenAI API地址是非常重要的。

同时,Azure OpenAI相比其他API供应商的另一个优点,在于其API收费方式不是OpenAI官方的月租方式,而是按需使用付费,比如这个月就使用了1000个Token,那只需要付这1000个Token的使用费即可,这对于平时有其他的API供应商而只是需要一个备份的方案的朋友来说尤其适合。

注:Azure为新注册用户提供一个”价值 200 美元的免费试用额度”,用于在前 30 天内试用他们的各种云服务,这个优惠适用于首次注册 Azure 的用户,让他们可以体验和测试 Azure 的各种产品和服务,而无需立即支付费用(也就是说,OpenAI第一个月可以随便用了~)。


我在后面文章内容中提到的OpenAI同时包含”OpenAI”和”Azure OpenAI”,没有区分开来,因为本来就是不同渠道售卖的相同产品而已,不过,两者各有优势。

官方OpenAI:

  • 缺点:plus套餐是20美金月租,这对于用得少的人(比如我)来说很不友好(用不起~)。
  • 优点:每天有免费的GPT-4o额度可以白嫖(而且感觉训练知识库比较新,也不知是不是我的错觉),用完额度之后会切换到GPT-3.5-turbo,对于轻量用户来说,省着用还是够用的。

Azure OpenAI:

  • 缺点:没有每天的免费额度,对白嫖党很不友好。
  • 优点:没有月租费,用多少给多少,按需收费,可以作为备用手段。

Google Cloud AI – Gemini

Google Gemini介绍

Google Gemini 是 Google 最新发布的 AI 语言模型系列,代表着 Google 在生成式 AI 和自然语言处理领域的顶尖水平。Gemini 是 Google 的旗舰大语言模型,它被设计用于处理和生成自然语言,支持从文本分析到复杂对话等各种任务。通过 Gemini,Google 将大幅提升其在生成式 AI 领域的能力。

Google Gemini特性:

  1. 多模态支持:

Gemini 模型不仅支持文本生成和处理,还能够理解并生成图像、视频、代码等多种形式的内容。这种多模态能力使得 Gemini 在诸如自动生成图像注释、多媒体内容理解等应用中表现优异。

  1. 强大的语言理解与生成:

与 OpenAI 的 GPT-4 类似,Gemini 具备极高的自然语言理解与生成能力。它能够处理复杂的上下文,并生成符合语境的高质量文本,适用于对话机器人、文档自动生成、代码自动补全等任务。

  1. 广泛应用领域:

Gemini 能够被应用于多个行业和领域,包括医疗、法律、金融、客户服务等。无论是需要自动生成专业报告,还是进行大规模的数据分析,Gemini 都能够快速适应并提供智能解决方案。

  1. 高效的知识整合:

Google 利用了其庞大的数据资源和知识图谱,确保 Gemini 拥有强大的知识基础。这让它在生成答案、撰写文章等任务时,更加准确并能够结合最新的事实与知识。

市场占有率与应用广泛性:

Google 强大的生态系统:

Gemini 模型可以与 Google 的其他产品和服务(如 Google Cloud、Google Workspace)无缝集成,便于企业快速部署 AI 解决方案。

多模态能力:

相较于竞争对手,Gemini 的最大优势之一是其多模态处理能力。这让它不仅能处理文本,还能理解并生成多种形式的内容,适用于更多的场景和应用。

可扩展性与安全性:

依托 Google Cloud 的强大基础设施,Gemini 在处理大规模数据时表现稳定,并提供企业级的安全保护,适合从小型到大型企业的需求。

主要模型版本及其功能

Google 发布了多种版本的 Gemini 模型,每个版本都针对不同的使用场景和需求。以下是目前的主要版本及其对应的功能:

1. Gemini 1

Gemini 1 是最早期的模型版本,支持强大的语言生成能力,适用于基础的对话机器人、文本总结和内容生成等任务。支持自然语言处理与生成,适用于简单的对话系统、文章生成等应用。

2. Gemini 1.5

Gemini 1.5 是对初代模型的升级版本,提升了生成质量和推理能力,并优化了多模态处理,能够处理包括图像、代码在内的复杂任务。不仅支持文本处理,还能理解和生成图像、视频,适用于多模态应用场景,比如自动内容创作、代码生成等。

3. Gemini 2

即将推出的版本,Google 表示该版本会进一步加强多模态 AI 的能力,能够更精准地结合文字、图像、声音等数据,为企业和用户提供更加智能的解决方案。预计将大幅提高模型推理效率,并在更多复杂的行业场景中提供支持,如医疗诊断、法律分析等。

4. Gemini Pro 和 Gemini 1.5 Pro

Gemini Pro:这是为企业级用户量身定制的高端版本,提供更高的处理速度和更强的生成质量。适用于需要高准确性和高并发处理的大型企业。
Gemini 1.5 Pro:基于 Gemini 1.5 的增强版本,专注于企业应用场景下的高效处理与安全保障,特别适用于需要高性能推理和跨国数据分析的场景。

Gemini 模型的优势与对比

  1. Gemini 与 GPT-4 :

Gemini 的多模态支持和 Google 知识图谱的集成让它在复杂任务处理上占据优势。而 GPT-4 专注于语言生成,在文本生成质量和语言模型的精细化处理方面表现卓越。

  1. Gemini 与其他模型的差异:

Gemini 强调跨领域能力,它不仅能生成文本,还可以理解和生成图像、视频等多模态内容,而大多数语言模型则主要专注于文本生成。

注:除了 Gemini 这个大语言模型之外,Google 还有另一款非常强大的自然语言处理工具:Google Cloud Natural Language API,这两者各有所长,前者侧重于生成式 AI,后者则侧重于对文本的分析和理解。不过,Google Cloud Natural Language API主要是针对企业可开发者,和AI的个人用户一般没什么关系(除非是插件之类的调用,见下一节内容)。

附加知识:Google Cloud Natural Language API

Google Cloud Natural Language API 是一个基于云端的服务,目的在于帮助开发者和企业理解和处理文本信息。它可以自动分析文章、文档或对话,提取出关键的主题、情感和实体(如人名、地名、组织等)。简而言之,Google 的 Natural Language API 让计算机具备理解人类语言的能力,帮助企业从海量文本中挖掘出有用的信息。

Google Cloud Natural Language API 的产品特性:

  1. 情感分析:它能够自动判断一篇文章或一段文字的情感倾向,是积极的、消极的,还是中立的。这对于客户反馈、社交媒体监控非常有帮助。
  2. 实体识别:API 可以从文本中提取重要信息,比如提到的人、地点、组织、产品等。这对于内容分类、信息检索和文本结构化处理非常有用。
  3. 句法分析:它能够解析句子的结构,分析其中的词汇和语法关系。对于文本理解、自动翻译、语言学习等任务有很大的应用价值。
  4. 内容分类:API 能够将文本自动分类到不同的主题类别(如体育、科技、娱乐等),这在自动化内容管理、新闻分类等场景下非常实用。
  5. Multi-language support:Google Cloud Natural Language API 不仅支持英文,还支持多种语言的分析,包括中文、西班牙语、法语等,适合全球化的企业和用户。有一些翻译软件就可以通过调用该API完成多语言翻译,比如wordpress上的翻译插件”GTranslate”和”TranslatePress”,对这2款插件的使用感兴趣的朋友可以参看我的另一篇文章:Home Data Center Series WordPress Sites Implement Multilingual Automatic Translation and Multilingual SEO Best Practices (GTranslate and TranslatePress).

市场占有率与应用广泛性:

Google Cloud Natural Language API 在全球市场中处于领先地位,特别是在处理非结构化文本数据方面。它在数据分析、客服系统、金融服务、内容推荐等领域被广泛应用。依托于 Google 强大的云计算基础设施,企业能够轻松扩展 API 的使用,无论是分析数百万条用户评论,还是处理复杂的社交媒体数据。

最大的竞争优势:

深度集成 Google 生态系统:Google Cloud Natural Language API 与 Google 的其他云服务(如 BigQuery、Cloud Storage)无缝集成,方便数据存储、分析和可视化。
准确的语言理解:由于 Google 长期积累的自然语言处理技术,它的 API 在情感分析、实体识别和内容分类方面有着较高的准确性。
Scalability:Google 的云端基础设施确保了 API 可以处理从小规模文本到大规模数据集的各种需求,适合从小型企业到大型企业的使用。

Anthropic Claude API

Anthropic Claude API介绍

Anthropic Claude API 是由 Anthropic 公司推出的人工智能语言模型平台,旨在为开发者提供强大且安全的自然语言处理能力。通过 Claude API,用户可以在各种应用中使用这些模型进行文本生成、对话、问答、内容撰写、数据分析等任务。Claude 的命名源自信息论的创始人 Claude Shannon,它的设计理念特别注重安全性、可控性和可靠性,以确保输出的内容对用户和社会没有潜在的风险。

Claude API 强调safetyand道德规范,它被设计为尽可能减少生成不适当、误导性或有害内容的风险。这使得它非常适合在医疗、金融、教育等对输出质量要求高的领域使用。

Claude API 的另一大优势在于它的易用性and扩展性,开发者可以非常容易地将其集成到现有系统中,通过简单的 API 调用即可使用强大的自然语言处理功能。此外,Claude 模型还具有高度的stabilityand可调节性,能够根据需求调整生成的内容风格和复杂度。

主要模型版本及其功能

Anthropic 提供了多个不同的 Claude 版本,以适应不同的计算需求和任务类型。每个版本在性能、响应时间和功能集上有所不同,确保可以覆盖从轻量级任务到复杂文本生成的多样化应用。

1. Claude 3.5 Sonnet

Claude 3.5 Sonnet 是 Claude 3.5 版本的一个高性能变种,专门优化了在复杂文本处理、长篇文章生成中的表现。它能够生成更长、更连贯的文本,适合需要处理大量数据或长篇内容的任务,如报告生成、小说写作等。

Key Features:

• 提供高质量、连贯的长文本生成。

• 能够在复杂对话和多轮问答中保持上下文一致。

• 优化了处理时间较长的生成任务。

2. Claude 3.5 Lite

Claude 3.5 Lite 是一个轻量级版本,专门设计用于处理相对简单的文本生成任务,响应速度更快,适合对实时性能要求较高的应用,如智能客服、在线问答等场景。

Key Features:

• 提供快速响应的文本生成。

• 消耗较少的计算资源,适用于轻量级场景。

• 适合实时对话、用户互动等对速度有高要求的任务。

3. Claude 3.5 Chat

Claude 3.5 Chat 专门针对对话系统进行了优化,能够在对话生成和多轮交互中保持高效和一致的表现。它的应用场景包括智能客服、虚拟助理等需要与用户进行连续对话的场合。

Key Features:

• 高效处理多轮对话。
• 保持对话上下文的连贯性。
• 优化了对复杂问题的回答和对话生成。

4. Claude 3.0

Claude 3.0 是该系列的基础模型版本,适用于各种通用自然语言处理任务。它能够处理从文本生成、情感分析、到简单的问答系统等广泛的任务。

Key Features:

• 通用型自然语言生成和理解。
• 支持多轮对话和上下文保持。
• 在多数情况下可以提供高效且准确的文本生成。

模型版本之间的区别:

Claude 3.5 Sonnet 是针对高质量、长篇文本生成的模型,适用于需要长时间保持上下文一致性的场景,如复杂的报告撰写和长篇内容生成。

Claude 3.5 Lite 则是轻量级的版本,响应速度快,适合需要快速生成结果的应用,如客服系统或对话系统。

Claude 3.5 Chat 专门针对多轮对话进行优化,确保在复杂对话中保持流畅、自然的互动。

一般我们直接用最新的Claude 3.5版本即可。

附加知识:其他官方API供应商

除了 OpenAI、Azure OpenAI、Google Gemini和 Anthropic Claude之外,市面上还有其他几家常用的大语言模型 API 供应商。以下简要介绍一下这几家供应商及其特点和提供的模型版本的介绍,以便大家有个印象。

1. Cohere

Cohere 是一家提供大规模自然语言处理 API 的公司,专注于自然语言理解和生成,适用于文本分析、文档分类、情感分析等多种任务。Cohere 的模型针对开发者和企业,提供了灵活且高效的语言模型服务。

特点与优势:

文本生成和理解:Cohere 的 API 提供了强大的文本生成和理解功能,适合用于生成复杂文本、总结、翻译等任务。
Custom Model:Cohere 支持用户基于其模型进行微调,以适应特定的行业需求。
开放架构:允许用户自定义模型输出,支持不同的语言和风格,适合多语言应用。
安全与合规:Cohere 强调模型的安全性和对用户数据隐私的保护。

主要模型:

Command:Cohere 的旗舰模型,专注于指令式文本生成任务,适合文本撰写、回答问题和生成对话等。
Rerank:用于提高搜索结果的准确性,适合信息检索和排序任务。
Embed:专注于文本嵌入,适合文本分类、相似性分析等任务。

2. Hugging Face (Transformers API)

Hugging Face 是开源人工智能社区的领军者,提供了数百种自然语言处理模型。其 Transformers API 允许开发者调用各种预训练的大型语言模型,包括 GPT 系列、BERT、RoBERTa 等模型,满足各种自然语言处理任务需求。

特点与优势:

模型种类丰富:Hugging Face 提供了海量的开源模型库,开发者可以选择各种开源模型,并且可以微调现有模型以满足特定需求。
Community Support:Hugging Face 社区非常活跃,开发者可以通过社区资源快速学习并应用模型。
多任务支持:支持文本生成、翻译、情感分析、信息提取、对话系统等多种任务。
低成本和开源:多数模型可以免费使用,并且提供免费的微调和托管服务。

主要模型:

GPT-2/3:Hugging Face 提供了 GPT 系列的开源版本,支持文本生成、对话等任务。

BERT:适合文本分类、情感分析、问答系统等任务。

RoBERTa:BERT 的改进版,擅长文本理解和上下文分析。

3. Mistral

Mistral 是一家新兴的大语言模型提供商,专注于高性能的开源语言模型。其发布的模型在准确性和计算效率上都有极高的表现,适合需要高质量生成和文本处理的任务。Mistral 专注于提供灵活的开源模型,适合开发者和企业定制化使用。

特点与优势:

开源模式:Mistral 提供开源的大型语言模型,允许用户在本地或云端进行定制化应用。
高性能模型:其模型能够在不牺牲生成质量的情况下显著提升处理速度,适合大规模并发任务。
专注文本生成:Mistral 的模型特别擅长生成自然流畅的文本,适合内容创作、代码生成、问答系统等场景。

主要模型:

Mistral-7B:Mistral 旗下的旗舰模型,参数量为 7 亿,适合复杂的文本生成任务。相比其他同类模型,Mistral-7B 在性能和准确度上具有更高的性价比。

4. Meta (LLaMA API)

Meta(Facebook)推出了自己的大型语言模型 LLaMA,该模型主要用于研究和商业应用。LLaMA 提供了不同版本,适合各种自然语言处理任务,包括生成文本、理解上下文、问答等。

特点与优势:

轻量化:与其他大型语言模型相比,LLaMA 在保持高性能的同时,显著降低了计算资源的消耗。
开源模型:LLaMA 的模型开源,开发者可以基于 LLaMA 进行二次开发和微调。
研究驱动:LLaMA 主要面向学术界和研究机构,适合高级研究型任务。

主要模型:

LLaMA 2:LLaMA 2 是 Meta 推出的新一代语言模型,具备增强的上下文理解和文本生成能力,适合各类自然语言处理任务。
LLaMA 13B/65B:参数规模分别为 130 亿和 650 亿,专门用于处理复杂的自然语言任务。

第三方API供应商:OhMyGPT

OhMyGPT API 介绍

OhMyGPT API是一家专门提供多个大语言模型 API 对接服务的第三方平台(官方网址:https://www.ohmygpt.com/)。它的主要功能是帮助用户更方便、灵活地接入不同的大型语言模型 API,而无需单独配置和管理多个账户或平台。因此,用户可以通过 OhMyGPT 一站式调用 OpenAI、Anthropic、Google 等多家供应商的语言模型,从而减少管理和技术上的负担。

产品特性:

统一接口管理:OhMyGPT 为用户提供一个平台,整合多个语言模型的 API,通过一个统一的接口调用不同的模型,简化了开发流程。
价格透明:虽然 OhMyGPT 本身不提供模型,但它整合了市场上的 API 服务,并且通过打包定价或灵活计费的方式,帮助用户节省成本。
无缝切换供应商:通过 OhMyGPT,用户可以在不同的 API 供应商之间快速切换,便于比较不同模型的表现并选择最适合的方案。
开发者友好:OhMyGPT 提供简洁的文档和丰富的示例,适合技术背景各异的开发者轻松上手。

功能与市场竞争优势:

简化接入:开发者无需分别注册多个大语言模型 API 的账号,OhMyGPT 统一提供了 API 对接服务,简化了接入过程。
成本优化:通过打包不同 API 供应商的服务,OhMyGPT 为用户提供了更加灵活的付费方式,适合预算有限的开发者和中小型企业。
支持多供应商:无论是 OpenAI 还是 Anthropic Claude,OhMyGPT 允许用户快速对接,并根据需求灵活选择最适合的模型。

OhMyGPT 支持的主要 API 供应商及其功能

OhMyGPT 并没有自己的模型,它的作用是为用户提供一个平台,整合各大语言模型 API 供应商的服务。以下是 OhMyGPT 支持的主要语言模型 API 供应商及其功能:

  1. OpenAI API:支持 GPT-4、GPT-3.5 系列模型,擅长文本生成、对话系统和文本分析任务。
  2. Anthropic Claude API:支持 Claude 系列模型,擅长安全性高、稳健性好的对话和文本生成任务。
  3. Google Gemini API:提供强大的多模态处理能力,适合图像、文本等不同类型数据的综合处理。
  4. Azure OpenAI API:由微软提供,除了 OpenAI 模型的服务,还整合了 Azure 的云计算优势,适合企业级应用的场景。

所有支持的API供应商及模型如下:

image.png

image.png

image.png

OhMyGPT的优势

通过OhMyGPT来使用其他的API供应商的服务有以下几点优势:

跨平台使用:通过 OhMyGPT,用户只需一次付费,就可以在多个 API 供应商之间无缝切换,适应不同的使用场景(需要配合支持快速切换的本地大语言模型UI使用,例如Lobechat(ChatGPT Next Web应该也可以,只是我没试过):

image.png

一站式体验:简化了多平台 API 的管理,降低了使用难度,特别适合需要频繁切换不同模型的开发者,也就是说,可以通过一个API地址就能访问多个API供应商(和上面一条一样,需要APP或者UI支持)。同时,可以非常清楚的知道各个API的消费明细:

image.png

多个API地址可供选择:官方提供了多条API线路,适合国内、国外不同的网络环境使用

image.png

性价比高:OhMyGPT采用预付费积分制,提供每日免费积分,所以更适合小规模、不频繁的使用的朋友(比如我~),而最关键的是,基本使用费仅需20元人民币(我都勉强用得起):

image.png

注:还记得前面mark过的本地大语言模型UI支持的”自定义API地址和模型版本”功能吗?只要可以自定义,理论上就可以配合OhMyGPT来实现对多个API供应商及模型版本的访问。不过嘛,理想和现实是有差距的,理论是理论,实际上却不是都可以成功(涉及API格式的兼容性问题),所以只能说大家可以先试试。

Summarize

前文提到多个API供应商的不同的语言模型和版本,并且这些语言模型各自擅长的领域以及定价不尽相同,可能会在选择时搞得大家头昏脑胀。在日常生活中选择不同的 API 供应商和具体的模型版本时,取决于你对模型的”功能需求、速度要求、预算以及应用场景”的考量。

以下对常见的GPT-4o-mini,GPT-4o,OpenAI o1,Google Gemini 1.5、以及Anthropic Claude 3.5 Sonnet 的一些关键进行比较,以供大家参考。

GPT-4o-mini

这是 OpenAI 的一个优化版轻量模型,比标准版 GPT-4o 更快速和经济,但保留了 GPT-4 系列的强大推理能力。

Applicable scenarios:
• 适合日常对话、轻量级任务或需要快速响应的应用,如简单的客服系统、实时聊天等。

advantage:
• 更低的成本,适合预算有限的用户。
• 响应速度快,适合实时应用场景。

shortcoming:
• 相比 GPT-4o 完整版,在更复杂的任务上表现较弱。
• 语言理解和推理能力相对较低。

GPT-4o

标准的 GPT-4 优化版本,具备强大的语言理解和推理能力,处理复杂问题表现出色。

Applicable scenarios:
• 适合需要高精度、复杂语言处理的应用,如内容创作、技术问答、复杂客户支持等。

advantage:
• 强大的文本生成和推理能力,适合广泛的复杂任务。
• 在多任务处理上表现优越。

shortcoming:
• 相对较高的使用成本。
• 响应速度可能不如轻量版本。

OpenAI o1

OpenAI 系列中的另一个重要模型,强调多领域表现,擅长处理各种复杂的 NLP 任务。

Applicable scenarios:
• 适用于需要多领域知识和更高精度的应用,如法律、医学、教育等垂直领域的内容创作和技术分析。

advantage:
• 广泛的领域覆盖,擅长处理高难度问题。
• 在生成上下文复杂的文本时表现出色。

shortcoming:
• 价格相对较高。
• 对于简单任务可能显得过于强大和浪费资源。

Google Gemini 1.5

Google 的大语言模型系列,具有强大的多模态处理能力(文字、图片等),Gemini 系列特别强调与现实世界知识的结合。

Applicable scenarios:
• 适合需要跨模态处理的应用场景,如生成图文结合的内容、视觉与语言混合任务、知识推理等。

advantage:
• 多模态支持,适合需要图片和文本处理的任务。
• 深度集成了 Google 知识图谱,信息更加精确和可靠。

shortcoming:
• 成本较高,特别是对于中小型应用。
• 对于纯文本处理任务,可能没有明显的优势。

Anthropic Claude 3.5 Sonnet

Claude 系列模型以安全性、稳定性见长,专注于可控性和对话生成的优化,强调对敏感话题的安全处理和伦理问题。

Applicable scenarios:
• 适合需要对话系统、客户支持等应用,特别是对模型安全性和敏感内容管理要求较高的场合,如医疗、心理咨询等领域。

advantage:
• 对话生成能力强,专注于安全性,适合需要高伦理标准的场景。
• 在长对话中上下文理解能力突出。

shortcoming:
• 成本可能较高,特别是在广泛应用的情况下。
• 对比其他模型,可能在数据广度上略有局限。

如何选择呢?

1、预算有限,追求快速响应:
选择 GPT-4o-mini。它的性能足以应付大多数日常任务,且成本较低,响应速度较快。

2、需要高精度、复杂问题解决方案:
选择 GPT-4o 或 OpenAI o1(贵)。这两个模型能够处理复杂任务,如内容创作、深入的技术问答或多领域分析。

3、跨模态处理(文字+图片):
选择 Google Gemini 1.5。如果你的应用需要处理文字和图像的组合内容,这个模型更合适。

4、重视对话生成的安全性和稳定性:
选择 Claude 3.5 Sonnet。如果你的应用对伦理安全要求高,例如在医疗、心理健康等领域,这个模型的优势会更明显。

最后,不管选择以上哪个模型,都可以试试通过OhMyGPT来使用。

注1:据说从写代码的角度来说,OpenAI o1或者OpenAI o1-preview最好,但是太贵,而Claude 3.5 Sonnet相比OpenAI o1差别不大,但是价格却便宜很多,如有有朋友有用AI写代码的需求,可以验证下是否准确。

注2:除了以上这些我认为常用的API供应商及模型,还有很多在某些特定垂直领域有优势的API供应商及模型,只不过我现在孤陋寡闻,没听说过,自然没法一一整理出来,大家如果有非常规的需求,不用局限于本文中这些常规的API供应商,可以看看在特定领域有优势的其他API供应商,根据具体的需求权衡模型的能力、成本和应用场景的匹配度,最终来确认最合适的API供应商。

注3:据说一些国内的API供应商用起来也不错,有兴趣的朋友可以试试。

The content of the blog is original. Please indicate the source when reprinting! For more blog articles, you can go toSitemapUnderstand. The RSS address of the blog is:https://blog.tangwudi.com/feed, welcome to subscribe; if necessary, you can joinTelegram GroupDiscuss the problem together.
No Comments

Send Comment Edit Comment


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠(ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ°Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
Emoticons
Emoji
Little Dinosaur
flower!
Previous
Next
       

This site has disabled the right mouse button and various shortcut keys. The code block content can be copied directly by clicking the copy button in the upper right corner

en_US