声音的觉醒 · 基础篇(一):音高结构与听觉稳定性
本文最后更新于 161 天前,其中的信息可能已经有所发展或是发生改变,如有失效可到评论区留言。
文章摘要
本文探讨声音感知的底层机制,揭示音高并非单一频率,而是由泛音结构决定。通过分析八度音程的泛音重合特性,解释为何不同高度的音会被听成“同一音”,并论证五度音程在音阶构建中的稳定性来源。研究指出,听觉系统通过识别泛音比例关系建立声音统一感,而十二平均律作为工程折中方案,平衡了音程纯度与音阶闭环需求。这些发现为理解音乐和谐原理、声学设计及演唱实践提供了基础认知框架,揭示了声音稳定感与音程关系的物理本质。
Qwen3-14B · 2026-06-18

1 我为什么写这篇文章?


写这篇文章的目的,不是做声乐教程,也不是完整的音乐理论综述。它更像是我自己的一次思考记录——试图回答一个简单又复杂的问题:我到底在听什么?以及这些声音为什么会以这样的方式被我听见。

如果你跟我一样,对声音和音乐有好奇,那就请跟着我一起进行本次探索之旅吧。


在之前的一篇文章中,我为了让唱歌“好听”这种高度主观的判断,尽量具备一些可讨论、可比较的基础,引入了“三维理论”框架(参见文章:一首歌为什么好听:三维理论解析唱歌的秘密),这个框架适合站在整首歌、整体表现的层面,对演唱结果进行分析与判断。

但随着不断使用它去拆解具体演唱,我逐渐意识到:三维理论本身也有非常明确的适用边界。一旦继续向下拆分,比如把第一维中所关注的“声音”单独拎出来分析,新的问题就会立刻出现,比如:为什么有些人的声音会让人觉得“很干净”?为什么有些声音听起来并不规整,却反而呈现出一种独特的“凌乱的美”?这些问题,已经明显超出了三维理论所能解释的范围。

因为此时我们所讨论的对象,已经不再是“一首歌唱得好不好”,而是更底层的层面——声音本身是如何被产生、被感知、被理解的。换句话说,问题已经从“音乐审美评价”,转移到了声学结构与听觉感知机制上。

也正是在不断追问这些问题的过程中,我逐渐意识到:我此时的困扰,并不真正属于唱法或技巧,甚至也不完全属于音乐理论,而是指向了一个更基础、却常被忽略的层面——声音的物理结构,以及人类是如何在听觉层面理解“音高”、“音程”和“稳定感”的。 比如:当我们说一个声音“干净”或“浑浊”时,究竟在听什么?当两个声音音高不同,却被认为是“同一个音的不同高度”(八度)时,这种判断从何而来?为什么某些音程天然让人感到稳定、舒适,而另一些则更容易带来紧张甚至刺耳的感觉?

这些现象并不是后天约定出来的规则,而是与声音的频率结构、内部关系,以及人类听觉系统的工作方式密切相关。因此,接下来的讨论将刻意避开那些以记忆规则、掌握技巧为起点的常见切入方式,而是尝试沿着一条更底层的路径,重新理解我们所熟悉的音乐概念:从声音的物理结构出发 → 到听觉感知的形成 → 再到音程与音阶为何会以今天这种方式被建立。

在这个过程中,简谱、音名、调号等记谱系统,将不再被视为音乐理解的起点,而更像是人类在长期听觉经验基础上,对复杂声学现实所做的一种抽象与压缩。

2 声音并不是一个频率

2.1 音高并非单一频率的感知结果

在谈论音程、调性或音阶之前,我们几乎都会不自觉地接受一个前提:一个音,对应一个音高;而音高,本质上就是一个频率。 这个前提在记谱系统中看起来非常合理:无论是简谱里的“1、2、3”,还是五线谱上的音符位置,它们都在不断强化一种直觉——音乐是由一系列明确、稳定的“点”构成的,每一个点都可以被精确地标记、命名和复现。

但一旦回到真实的听觉体验,这种直觉就会立刻开始动摇:同样一个音高,用钢琴弹出来、用小提琴拉出来、用人声唱出来,听感差异巨大;同样是人声,不同的人唱在同一个音上,有人让你觉得“稳”“干净”,有人却让你觉得“飘”“散”;甚至在音准完全正确的前提下,我们依然会本能地判断:这个声音“不对劲”。

如果“音高 = 频率”真的足以描述我们听到的东西,那么这些差异就很难解释。因为在这个模型里,只要频率对了,听起来就应该是“同一个音”。现实显然并非如此。这也是很多人在学习音乐或唱歌时会遇到的一种隐性困惑:明明知道自己唱的是哪个音,甚至在简谱或调音器的意义上也没有唱错,但脑子里对“这个音到底听起来应该是什么样”的想象却始终是模糊的。这种模糊感,并不是理解能力的问题,而是来自一个被过度简化的假设——我们以为自己在听“音高”,但实际上,听觉从来不是只面对一个孤立的频率。

当一个声音被发出来时,无论是乐器还是人声,它都不是一个“点”,而更像是一个在频谱上展开的整体。音高只是这个整体中最容易被我们命名、也最容易被记谱系统捕捉到的部分,却并不是全部。

也正因为如此,我们才会在现实听感中不断使用一些与“频率”无关的词汇:干净、浑浊、厚、薄、亮、暗、沙、糙……这些词并不是修辞上的附会,而是在试图描述某种超出单一音高之外的听觉差异。只不过,在还没有合适的概念之前,我们只能用感觉去指代它。

所以,在继续讨论音程、音阶,甚至调性之前,有一个问题必须先被正视:如果我们听到的并不只是“音高”,那么我们究竟在听什么?

2.2 音高相同,却听感不同的原因

如果说上一节解决的是一个直觉层面的问题——我们并不是只在听音高,那么接下来就必须面对一个更现实的事实:即便音高完全一致,声音之间的差异依然真实而巨大。

这种差异并不是在音乐学习之后才出现的“高级感受”,因为哪怕没有任何乐理背景,大多数人也能在第一时间分辨出某些声音更“稳”,某些声音更“飘”;有些声音显得集中、清晰,而有些则边界模糊、难以抓住。更重要的是,这种判断往往发生在“是否跑调”之前,也就是说,在音高尚未被明确判定为对或错时,听觉已经对声音做出了另一层评价。

这说明,我们在听音高的同时,必然还在接收其他信息,而这些信息恰恰决定了声音的整体听感。如果“音高 = 频率”足以描述我们所听到的一切,那么只要频率相同,听感就不该存在如此显著的差异。现实却反复提醒我们,差异并不来自音高本身,而来自音高之外的部分。在日常讨论中,人们往往用“音色不同”来概括这种差异,但这个说法本身更像是一个结果标签,而不是解释——它并没有回答一个更根本的问题:既然音高相同,那究竟是什么在让这些声音听起来如此不同?

当两个声音在音高这一维度上完全一致时,听觉所感知到的差异,只可能来自于声音内部的其他特征。这些特征不会被简谱或音名标注出来,却始终真实地存在于发声过程中:有些声音听起来像是集中在一个明确的位置,整体轮廓清晰;有些声音则显得发散,边界模糊,难以形成稳定的听觉形象。

这种差异,往往会被我们直觉地描述为“稳定”或“不稳定”。这里的稳定感,并不是心理层面的安心或放松,而是一种非常直接的听觉体验:声音是否呈现出一个清晰、可持续的整体形态。当一个声音内部的变化过于频繁,某些成分忽强忽弱、难以预测时,听觉就很难为它建立一个稳定的对象。结果便是,即便音高正确,声音依然会被感知为“站不住”。

与之相对,当一个声音在时间和结构上呈现出某种内部一致性时,听觉系统就能迅速接受它,并将其视为一个完整的声音单位。即便这个声音并不“漂亮”,甚至带着明显的粗糙感,它依然可能被认为是稳定、可信的。这也是为什么在现实听感中,有些带有明显“沙感”或粗糙质地的声音,反而比某些表面干净却飘忽不定的声音更容易被接受。

这也引出了另一个常被提及,却很少被认真拆解的现象——噪声感。当声音中不规则的成分逐渐增多时,听觉往往会感觉音高变得模糊,声音边界开始松散,整体听感也更容易让人疲劳。问题并不在于声音中是否“含有噪声”,而在于这些不规则成分是否开始干扰听觉对整体结构的判断。一旦这种干扰达到一定程度,听觉系统就难以稳定地抓住那个本应作为锚点的部分,音高感自然也就随之动摇。

到这里,其实已经可以明确一件事:同一个音高之所以会听起来完全不一样,并不是因为我们听错了音高,而是因为我们在听的,从来就不只有音高。差异来自于声音内部结构的不同,而这些结构性的差异,正是决定“稳”、“散”、“干净”、“粗糙”等听感的根源。

问题也因此变得更加具体了。如果这些听感差异并非主观臆想,而是源自声音内部的真实结构,那么这些结构究竟是什么?它们又是如何共同作用,构成我们所感知到的那个“声音整体”的?

2.3 泛音:声音得以被“听成一个音”的原因

在前面的讨论中,其实已经反复触及一个事实:现实中的声音,从来都不是一个“单一频率”。无论是人声、钢琴还是吉他,只要它不是电子合成的纯正弦波,在物理层面上就必然是多个频率同时存在的结果。只是大多数时候,我们并不会有意识地去感知这一点。

问题也正是从这里开始出现的。如果每一个真实声音内部都包含着大量不同频率,那么人类的听觉系统究竟是如何,在这样复杂的声学现实中,依然稳定地判断出“这是一个音”“它大概有多高”“它是否稳定、是否好听”?换句话说,听觉系统真正需要的,从来不是更多的细节信息,而是一种能够被统一理解的结构——“泛音”,正是这种统一结构的核心。

从物理角度来看,当一个声源以某个基础频率振动时,它几乎不可能只进行单一而理想的振动。真实的振动过程会自然地产生一系列附加的振动成分,这些成分的频率并不是随意出现的,而是严格地以基频为单位,按照整数倍关系排列:2 倍、3 倍、4 倍……这些与基频共存、并遵循规则出现的频率成分,就是泛音:

image.png

而我们平时听到的任何一个单音,实际上都是包含基音和泛音的一个复合音。

不过,如果只停留在这个定义层面,泛音很容易被误解为一种“让声音变复杂的因素”,仿佛本来已经够难分辨的音高,又被塞进了一堆额外的频率信息。但实际上,泛音的存在,恰恰是让听觉世界变得可理解的关键。

可以设想一种极端情况:如果一个声音内部的频率成分是完全杂乱、毫无规律的,那么在听觉上,它只会被感知为噪声。它没有明确的音高中心,也无法带来稳定感,更不可能被自然地纳入音乐系统之中。泛音之所以重要,不是因为它“多”,而是因为它“有秩序”。

这种秩序体现在一个非常简单、却极其关键的特征上:所有泛音,都是基频的整数倍。正是这种高度规则的比例关系,使得听觉系统可以把原本复杂的频率集合,压缩理解为一个整体。我们并不会逐个感知“我现在听到了 440Hz、880Hz、1320Hz……”,而是直接形成一种直觉判断:这是一个有明确音高、内部结构稳定的声音。

也正因为泛音结构是统一而可预测的,听觉系统才会自然地把注意力锚定在某一个“核心”上,这个核心,就是我们日常所说的音高感。换句话说,音高并不是某一个频率被单独“听出来”的结果,而是整个泛音结构共同指向的感知中心。

从这个角度再回头看,我们常说的“这是一个完整的音”,含义就会变得清晰得多。所谓完整,并不是指它只包含一个频率,恰恰相反,它是因为内部包含了一整套符合规则的泛音结构,才显得集中、稳定、站得住。

这也解释了一个经常被忽略的事实:一个声音是否“好听”,并不取决于它是否足够简单,而取决于它是否足够统一。泛音排列清晰、比例稳定,听感就会显得干净而集中;泛音存在但分布混乱,听感就会变得粗糙、模糊;而当泛音被刻意扭曲或破坏时,声音则会呈现出怪异、紧张甚至失真的感觉。

这些差异并不是纯粹的审美偏好,而是听觉系统在面对不同内部结构时的自然反应。因此,当我们真正把“泛音”放回它应有的位置时,它不再是一个附加的声学名词,而是一把理解听觉秩序的钥匙。正是借助这把钥匙,我们才能进一步理解作为现代音乐源头的乐器,究竟为何能够发出如此多样的声音。*

从物理层面看,任何乐器的发声都源自振动;只要存在稳定的音高感知,就必然伴随着一整套泛音结构。不同乐器由于发声原理各异,振动方式也随之不同,从而形成了各自独特的泛音分布。这些差异最终体现为我们所感知到的音色差别,也构成了“同样一个音,却听起来完全不同”的根本原因。

在多数音乐实践中,人们并不需要显式地理解泛音这一概念。但当我们试图解释音色差异、音程稳定性,乃至音阶为何会以今天这种形式存在时,泛音就成为一个无法绕开的底层机制。


这里有必要稍作一个名词层面的补充说明——前文中使用的“基音”、“泛音”,属于音乐领域中更常见的表述方式;而在物理声学中,同样的现象通常会被描述为谐波

在物理语境下,物体振动所产生的最低频率被称为一次谐波,其后的二次谐波、三次谐波,则依次对应更高倍数的频率成分。也正因为这两套命名体系的并存,在音乐领域中,为了更清楚地区分“音高中心”与“附属结构”,往往会将物理意义上的一次谐波单独称为基音,而从二次谐波开始,则依次称为第一泛音、第二泛音,以此类推:

image.png

无论采用哪一种命名方式,它们所指向的,其实都是同一套客观存在的频率结构。理解这一点之后,前文所讨论的音高感、稳定感以及“声音为何会被听成一个音”等问题,也就不再是抽象或人为设定的概念,而是建立在这套有序振动结构之上的自然结果。


3 声音之间的秩序:从单音到多音的感知

3.1 为什么八度会被听成“同一个音的不同高度”

在日常的音乐经验中,有一个现象几乎所有人都会默认接受,却很少真正被追问:当一个音的频率翻倍时,比如从 440Hz 变成 880Hz、再变成 1320Hz,我们会毫不犹豫地说——“这是同一个音,只是高了一个八度”。


为了让八度这一听觉概念在物理层面上变得更直观,下图展示了十二平均律中各个音名(C 至 B)在不同八度下所对应的实际频率:

image.png


这种判断看起来像是一条音乐理论规则,仿佛是人为规定出来的。但如果回到前面关于泛音的讨论,就会发现,这种听觉上的“归类”,其实有着非常明确的物理与感知基础。

先从声音的内部结构来看,假设有一个基频为 f 的声音,它的泛音会自然地排列在 2f、3f、4f……这些整数倍位置上(这一点,在前一节中已经反复提到)。而当这个声音整体升高一个八度,基频变成 2f 时,它的泛音结构并不会“重新洗牌”,而是整体向上平移:新的泛音将出现在 4f、6f、8f……的位置。

这里的关键点在于:原来声音中的大量泛音,会与新声音中的泛音发生高度重合:原本的 2f,正好变成了新的基音;原本的 4f,对应新的第二泛音;原本的 8f,也依然存在于新的结构中。也就是说,从频谱结构上看,这两个声音并不是彼此陌生的两个对象,而是在内部组成上高度相似、只是整体尺度不同的同一类结构

正是这种高度一致的泛音排列,让人类听觉系统产生了一种非常稳定的判断:“它们属于同一类音高,只是处在不同的高度层级上”。因为从听觉感知的角度来说,人耳并不会逐条去分析“这个声音包含了哪些具体频率”,而是会迅速抓住结构中的稳定模式。当两个声音的泛音结构在比例关系上高度一致时,听觉系统就会自动将它们归为同一类,并在此基础上附加一个简单的维度差异——高或低。

这也解释了一个有趣的现象:八度之所以特殊,并不是因为频率“翻倍”这个数学关系本身有多神秘,而是因为在所有音程关系中,只有八度能够最大程度地保留原始泛音结构的整体形态。其他音程,即便同样遵循简单的整数比例,也不可避免地会引入更多不重合的频率成分,从而在听感上产生更明显的“分离感”。

因此,当我们说“八度是同一个音的不同高度”时,并不是在使用一种比喻性的说法,而是在描述一种真实存在的听觉压缩结果。听觉系统在面对两个高度相似的泛音结构时,选择忽略绝对频率的差异,而强调结构本身的统一性。

从这个角度再回头看“音名”的设计,也会显得顺理成章。C2、C3、C4、C5······ 之所以共用同一个音名,并不是为了简化记谱,而是因为它们在听觉层面上,本来就被感知为同一类声音的不同展开方式。

更进一步说,八度并不是音乐系统的起点,而是听觉系统主动给出的一个答案。在人类开始构建音阶、命名音高之前,听觉已经先一步完成了对声音结构的分类。而音乐理论,只是顺着这条已经存在的感知路径,把它固定、抽象、记录了下来。

理解了这一点之后,“八度感”就不再是一条需要死记硬背的规则,而成为了一种可以被直觉理解的现象:当两个声音在内部结构上足够统一,人类自然会把它们听成“同一个音”。

3.2 当多个声音同时出现:听觉如何建立统一感

在真实的音乐场景中,我们几乎不可能只听到一个孤立的声音。无论是听一首歌、弹一段钢琴,还是简单地用吉他给人声伴奏,多个声音同时出现,才是音乐中更常见、也更自然的状态。

当多个声音同时被听到时,听觉系统所面对的情况,就不再只是“这是一个什么音”,而是悄然发生了变化:这些声音,是会彼此融合在一起,还是会相互干扰、彼此拉扯?

在物理层面上,这意味着多套各自完整的频率结构被叠加在同一时间轴上:每一个声音内部,都包含着自己的基音与一整组泛音;当它们同时存在时,这些频率成分会共同作用于听觉系统。如果只从数量上看,这显然比单音更加复杂。但对听觉来说,真正棘手的问题并不是“频率变多了”,而是:这些频率能否被组织成一个可以理解的整体

听觉系统并不会把这些声音的结构当作完全独立的信息源逐条分析,而是会迅速判断,它们之间是否存在某种可被统一的关系。这种判断的核心,并不在于某一个具体频率,而在于多套泛音结构之间是否存在规则性的对应

当多个声音的泛音结构之间,能够找到清晰、稳定的比例关系时(比如八度音高之间的 2:1 比例,或者常见和弦中三度、五度音程的频率关系),听觉系统会倾向于把它们视为同一个整体中的不同组成部分。即便这些声音在音高上并不完全相同,听感上也会显得自然、稳定,仿佛“本就应该同时存在”。这种比例关系就像泛音之间的整数倍规律一样,为听觉系统提供了一个可依赖的结构锚点。

相反,如果这些泛音结构之间缺乏这样的对应关系,听觉就很难建立统一的理解框架。此时,声音并不会真正融合,而是呈现出一种分离、紧张,甚至杂乱的感觉。换句话说,当多个声音同时出现时,人耳并不是在简单地“听到了很多音”,而是在下意识地比较:这些结构是否能够被放进同一个感知系统中

这种比较几乎是瞬间完成的。听觉系统会自动寻找是否存在可以对齐的频率成分,是否存在简单而稳定的比例关系。只要找到足够多的锚点,听感就会趋于稳定;一旦这些锚点不足,紧张感便会随之出现。

从这个角度来看,音程并不是几个音高之间抽象的距离,而是多套泛音结构之间的相似程度与协同方式。所谓“和谐”与“冲突”,本质上都是听觉系统对这种结构关系的直接反馈。也正是在这样的比较机制下,人类才逐渐形成了对某些音程的稳定直觉。这些音程之所以在音乐中频繁出现,并不是偶然,而是因为它们的泛音结构容易被听觉系统整合、易于形成统一感。

当理解了这一点之后,再观察那些在音乐中频繁使用的和弦与音程,就会发现,它们之所以显得特殊,并不是人为规定,而是恰好符合听觉最容易达成统一的位置——这也是音乐和谐感的根源。

3.3 五度与音阶:比例关系如何构建音乐框架

在上一节中,我们讨论了当多个声音同时出现时,听觉系统会如何寻找清晰、稳定的比例关系,从而把复杂的振动整合为一个可理解的整体。在所有音程关系中,五度正是这种稳定比例在音乐实践中最典型、也最容易被感知的一种。

所谓纯五度,指的是两个音高之间存在一种非常简单而稳定的频率关系:既上方音的频率,约为下方音的 3/2 倍。也就是说,如果某个音的基频为 f,那么比它高一个纯五度的音,其频率大约为 f × 3/2。

这个比例并不是人为规定出来的,而是直接来源于声音的泛音结构。以 C 和 G 为例,C 的泛音序列中,第三泛音恰好与 G 的基频高度接近;而 G 的泛音序列中,又有多个成分可以与 C 的泛音形成简单的整数倍对应。正因为两套泛音结构之间存在大量重合与匹配,听觉系统在处理这两个音时,几乎不需要额外“计算”,就能把它们自然地整合为一个稳定、和谐的整体。

换句话说,五度之所以听起来“稳”,并不是因为我们学过乐理,而是因为在泛音层面,它本身就是一种最容易被听觉系统理解的结构关系

如果把这种关系放到实际频率中来看,会更加直观。以常见的中央 C(C4)为例,它的频率约为 261.63 Hz。向上叠加一个纯五度,对应的频率应为:261.63 × 3 / 2 ≈ 392 Hz,而这个数值,正好落在 G4 的频率范围内(约 392 Hz)。也就是说,C4 → G4 这一对音高,在物理频率上天然接近 2/3的关系,而不是后天“调出来”的结果。

沿着同样的逻辑继续向上叠加纯五度,就会得到一条连续的五度链:C → G → D → A → E → B → …

在这条链中,每一步的含义都是一致的:下一个音的频率,大约是前一个音的 3/2。例如,G 向上叠加五度得到 D,D 再向上叠加五度得到 A。大家如果对照前文列出的各音频率表,进行简单计算,就会发现这些音之间的关系在数值上是连续且一致的,而不是零散或偶然的。

需要注意的是,这种“连续五度”的逻辑,并不要求所有音高必须落在同一个八度之内。在实际音乐中,音高常常会通过升降八度的方式被拉回到合适的范围,但听觉系统判断五度关系时,关注的始终是泛音之间的比例匹配,而不是绝对频率的高低。因此,即使两个音相隔一个或多个八度,只要它们在频率比例上接近 3/2,五度的稳定感依然能够被清晰地感知。

从这个角度看,五度的重要性并不只是一个“音程名称”,而是一种贯穿单音、多音乃至音阶构建的底层逻辑。正是这种在泛音结构中高度稳定、易于整合的比例关系,使五度成为音乐感知中不可替代的一块基础拼图,也为后续音阶体系的形成,提供了清晰而自然的出发点。

顺带一提,五度关系描述的是音高之间在听觉上的亲疏远近,例如 C 与 G、G 与 D 在听感上天然接近;而钢琴键盘,则并不是按照这种听觉顺序来排列音高,而是将这些音名(C、D、E、F、G、A、B)以符合双手演奏与记忆的方式,投影到一条线性的键位结构中——键盘优先保留了七个最常用、最容易被听觉整合的音名作为白键的基本骨架,而将其余音高插入为黑键,从而在有限的物理空间内,同时满足了可演奏性与音阶完整性的需求:

image.png

两者看似冲突,实则各自服务于完全不同的认知与实践需求。也正是在这种听觉结构与表达工具之间的张力中,当人类试图构建一个完整而封闭的音阶体系时,新的问题才真正出现。


附加知识:十二平均律与五度溢出

在前一部分中,我们讨论了连续五度叠加如何自然地构建出一条稳定的音高序列。每一次向上叠加纯五度,都会得到一个在听觉上高度和谐的音程;泛音结构之间的匹配,使这种关系几乎无需学习就能被感知和接受。从单个音程的角度看,这条由五度组成的链条,几乎是“完美”的。

但问题恰恰出现在这里:这条完美的五度链,在现实中并不能自然闭合成一个有限的音阶体系——如果我们从 C 出发,反复向上叠加纯五度,就会得到这样一条序列: C → G → D → A → E → B → F# → C# → G# → D# → A# → F → > C′(高八度)

在这个过程中,每一步的逻辑都是一致的:下一个音的频率,大约是前一个音的 3/2,听觉上,这些相邻音之间依然保持着熟悉而稳定的五度关系。

然而,当我们完成十二次这样的叠加后,理论上回到的那个 高八度的 C(C′),在频率上并不能与起点处那个 C 的精确八度关系完全重合。这种“差了一点点,却怎么也对不齐”的现象,被称为五度溢出(Pythagorean comma)。它揭示了一个非常关键的事实:纯粹依赖完美比例的五度链,无法在有限的音阶中形成一个自洽的闭环

image.png

换句话说,如果我们既想保留五度的稳定性,又希望音阶能够在一个八度内完整循环,就必须在某个地方做出让步。

十二平均律,正是在这样的现实限制下诞生的折中方案——它不再试图让每一个音程都保持最“纯正”的整数比例,而是选择从整体出发:把一个八度(频率翻倍的区间)等比分成十二个步骤,让从任何音出发,经过十二次相同的音程变化,都能准确回到八度的起点,如果以顺时针方向的一个圆来表示如下图:

image.png

这样做的代价是显而易见的:在十二平均律中,五度不再是绝对纯正的 3:2,三度也不再完全贴合自然泛音比例。每一个音程,都被“轻微地调过”。但这些偏差被平均分摊到整个音阶中,小到足以让听觉系统依然能够顺利整合泛音结构,不会产生明显的不适或冲突。

从听觉结果来看,这是一种非常聪明的工程式妥协:八度关系仍然保持清晰;大多数五度依然非常接近理想比例;整个音阶体系却获得了前所未有的统一性和灵活性。

正因如此,十二平均律并不是为了“更纯”,而是为了“更可用”。它让音乐可以自由转调,让键盘乐器在所有调性中保持可演奏性,也为复杂和声与多声部写作提供了稳定的基础。

从这个角度看,十二平均律并不是对自然比例的否定,而是一种承认现实限制之后的理性选择。它把人类对和谐音程的听觉偏好,与音乐实践中对统一性和可操作性的需求,折中地连接在了一起,也由此奠定了我们今天所熟悉的现代音乐框架。


3.4 从八度到和弦的听觉逻辑

在前几节中,我们重点分析了八度和五度的特殊性:它们在泛音结构中保持高度的整数倍关系,因此极易被听觉系统整合为稳定、自然的音程。而除了八度和五度,音乐中还存在许多其他常用音程,如四度、三度、以及各种大、小三度,它们在泛音匹配上也有各自的特点。

以四度为例,其频率比约为 4:3,三度则约为 5:4 或 6:5(大三度和小三度)。这些比例虽然不如八度或五度那样完美整齐,但仍然形成相对简单的整数倍关系。在听觉上,这意味着它们的泛音序列之间仍能找到部分对应点,从而产生一定的稳定感和融合感。正是这种匹配度,让四度、三度在和声构建和旋律进行中可以自然出现,而不会引发明显的紧张或杂乱感。

进一步来看,和声与和弦的感知本质上也是对多套泛音结构匹配的直觉判断。当多个音一起响起时,听觉系统会自动寻找频率间的整数比例关系,并以此形成统一的感知整体。比例关系越简单、匹配越清晰,听感就越稳定和和谐;比例复杂或泛音冲突严重时,听感就会显得紧张或不稳定。这就是为什么某些和弦在不同文化和音乐体系中被广泛使用,而一些极端的音程组合会被听起来“刺耳”或难以融入整体。

综上所述,八度和五度只是音程世界中最极端、最直观的例子,它们让我们容易理解听觉如何整合泛音。而其他音程的存在,则显示出听觉系统在面对复杂声音时的灵活性:它并不要求完美整齐的整数倍匹配,而是依赖相对清晰的比例关系,形成可被理解的和声结构。这种机制不仅解释了常用音程的稳定感,也为和弦、调式、旋律的感知提供了生理和物理基础。

4 声乐的历史与音阶探索

4.1 从演唱实践到音阶体系

在早期人类的声乐实践中,并不存在固定的音名、音阶或成体系的理论描述。无论是演唱还是乐器使用,核心依据始终只有一个——听感是否成立。人们在长期实践中逐渐发现:某些音程组合听起来稳定、自然,容易被接受和记忆;而另一些组合则会带来紧张、不适甚至刺耳的感受。这种看似“经验性”的判断,并非纯粹的审美偏好,而是与人类听觉系统对声音内部结构的感知方式密切相关。

从听觉机制的角度看,当两个声音的频率关系呈现出较为简单、稳定的比例时,它们所产生的泛音结构更容易被人耳整合为一个整体,从而形成“和谐”“稳定”的听感。相反,比例复杂、泛音冲突较多的组合,则更容易引发紧张和不稳定感。正是在这种反复的听觉反馈中,早期的声乐实践逐渐形成了一套无需命名、却高度一致的判断标准:什么样的声音是“对的”,什么样的组合是“顺的”。

在这一阶段,音乐的传承方式也并非依赖抽象规则或明确概念,而更多建立在听觉共识与身体模仿之上。演唱者并不会说明“这是某个音程”或“这里符合某种比例”,而是通过示范、跟唱、反复修正,让声音逐渐逼近一个被群体共同认可的稳定结果。也正因为人类听觉系统在判断稳定泛音结构时具有高度一致性,这种以听感为核心的口传方式,反而能够在没有理论支撑的情况下长期有效地延续下来。

中国古代的宫、商、角、徵、羽体系(读音为gōng shāng jué zhǐ yǔ,是中国五声音阶中五个不同音的名称,分别相当于现在简谱中的1、2、3、5、6),正是这种以听觉稳定性为核心的声乐实践长期沉淀后的结果:

image.png

一个看似简单却极其关键的事实是:这个体系中只保留了 1、2、3、5、6,而刻意缺少了 4 和 7。 这并不是因为古人“不知道”这两个音,而是因为,在以听觉稳定为首要目标的声乐实践中,它们并不是最优的选择。

如果从声音的物理结构出发,这一筛选过程其实非常自然。早期的音高关系,并不是从抽象音阶开始构建的,而是源自对纯五度关系(频率比 3:2)的不断叠加与比较。当一个音被反复向上或向下叠加纯五度时,会优先生成一组在泛音结构上高度匹配、彼此容易融合的音高。把这些音压回到同一个八度中,就会自然得到一组稳定的音:1、2、3、5、6

相比之下,4 与 7 并不是通过这条“纯五度路径”自然生成的音。它们在泛音比例上与主音和核心稳定音的匹配度较低,更容易产生张力与不稳定感。尤其是 7,它在听觉上会强烈“指向”主音,迫使旋律产生回归;而 4 也往往在 3 与 5 之间制造拉扯。这类音在后来的调性音乐中成为推动旋律发展的重要动力,但在以平稳流动和听觉舒适为核心的早期声乐实践中,却并不适合长期停留。

因此,宫商角徵羽并不是一个“简化的音阶”,而是一种对听觉最稳定音高关系的主动筛选:它保留了那些在泛音结构上最容易被整合、最不制造内在冲突的音,从而形成一个可以自由流动、又不强迫回归的声音空间。正是在这种空间中,旋律可以自然展开,而不会被过强的张力所牵制。

这套体系并非源自对绝对频率的精确计算,而是通过无数次的试唱、修正与模仿,让声音逐渐逼近那些“最顺、最稳”的位置。从这个意义上说,宫商角徵羽所记录的,并不是某种抽象规则,而是人类听觉系统在长期实践中,对泛音稳定性所作出的集体选择。

在西方音乐的发展过程中,也可以看到一条与宫商角徵羽高度相似、但走向不同终点的路径。早期的教会调式与民间旋律,同样建立在纯五度与泛音稳定关系之上:通过不断叠加与回收五度,形成一组在人耳中高度融合、彼此协调的音高集合。这一过程与东方通过五度生成五声音阶在本质上并无区别。

真正的分叉,出现在多声部音乐成为核心表达方式之后。随着和声、复调与功能性伴奏的出现,音乐不再只是“旋律如何顺畅流动”,而开始承担一个新的任务:如何在多个声部同时存在时,构建方向感与归属感。这时,仅由 1、2、3、5、6 构成的五声音体系已经不够用了,因为它缺乏足够强的“拉力”和“回归机制”。

正是在这一需求下,原本在听觉上较为不稳定的 4 与 7 被系统性地引入进来。它们在泛音结构上与主音形成更复杂的比例关系,会产生明显的张力:4 倾向于向 3 或 5 释放,7 则强烈指向主音 1。正是这种“不稳定”,为多声部音乐提供了清晰的方向性,使和声进行能够形成“出发—偏离—回归”的结构。这一机制最终在大调与小调体系中被固定下来,构成了现代调性音乐的骨架。

从这个角度看,西方的七声音阶并不是对五声音阶的简单“扩展”,而是一种为了和声与调性而做出的结构性选择:它保留了由五度生成的稳定核心(1、2、3、5、6),同时引入了用于制造张力与指向的 4 与 7,从而形成一个既能稳定停留、又能被持续推动的声音系统。

因此,无论是东方的宫商角徵羽,还是西方的大调与小调,它们都不是理论先行的设计产物,而是在人类听觉系统与音乐实践的双重约束下,被自然筛选出的两种不同“平衡解”——一个偏向旋律流动的稳定性,一个偏向和声结构的方向性。

4.2 大调与小调在听觉中的呈现

上一节中我们提到,大调与小调并不是被设计出来的体系,而是在长期演唱实践中逐渐稳定下来的结果。那么,当这些结构真正被唱出来、被听到时,耳朵究竟在感知什么?要回答这个问题,我们需要暂时放下历史和命名本身,回到最直接的听觉经验。

在现代声乐中,大调和小调几乎无处不在。当旋律被唱出、被聆听时,大调音阶中的音高排列通常会被耳朵整合为一种明亮、稳定而开放的整体感受;而小调音阶由于部分音程关系的变化,则更容易呈现出柔和、略带内省的听觉色彩。这些差异并非来自情绪标签的附加,而是源于音高排列在泛音匹配程度上的不同,以及听觉系统对稳定结构的天然响应。

以最常见的 C 大调为例,音阶由 “C D E F G A B C” 八个音组成,其中半音出现在 E-F 和 B-C 之间,其余为全音,刚好和钢琴上的一组白键对应:

image.png

这样排列的音高关系,使得八度、五度、四度甚至三度之间的比例都高度匹配泛音序列,因此听起来稳定而自然。

相比之下,C 小调则由 “C D E♭ F G A♭ B♭ C” 八个音组成(其中带 ♭ 的音与前一个音形成半音)。这样的音阶排列让音程之间的比例略有变化,听感上就显得柔和、略带忧郁或内省,与大调形成鲜明对比。这种微妙差异也是作曲家在旋律和和声创作中调动情绪的重要工具。

大调和小调的魅力不仅体现在单纯旋律的进行上,还体现在和声和和弦的构建中。通过选择不同的音程组合,声乐和乐器演奏可以在同一调性下营造出丰富的情感层次:简单的三和弦就能传达明朗或温暖的感觉,而扩展和弦与进行中的调式变化则可以带来紧张、期待或神秘的效果。这一切都依赖于音阶中各音与泛音结构的匹配关系。

正因如此,大调和小调成为现代西方声乐创作和表演的主要框架:无论是歌剧、艺术歌曲,还是流行音乐作品,大部分旋律与和声都基于这两种调式。它们既是历史探索的成果,也是听觉感知与音乐实践相结合的自然产物。

5 总结与思考

回过头来看,我们一路从声音的物理特性聊起,慢慢延伸到听觉如何感知音高、音程,以及多个声音之间的关系。单个声音内部的泛音结构,使我们能够把一整套复杂振动“听成一个音”;而八度、五度等特殊音程,则依靠稳定而简单的频率比例,让听觉系统几乎不需要额外判断,就能把不同音高整合为一个自然的整体。正是这种结构上的稳定性,让某些音程听起来格外和谐,带来一种近乎本能的舒适感。

当把视角拉回到历史的声乐实践中,你会发现这一机制并非抽象理论,而是被人类反复验证过的经验结果。无论是中国的宫商角徵羽,还是西方逐渐形成的大调与小调体系,人类在千百年的演唱与乐器尝试中,始终在筛选那些容易被听觉整合、容易被记住、也更容易被传承的音程组合。现代声乐体系并不是凭空设计出来的规则集合,而是在长期实践中,顺着听觉系统的天然偏好逐渐沉淀下来的结果——不是“谁规定了什么好听”,而是我们的耳朵一次次做出了相似的选择。

值得注意的是,这些规律并不依赖于文化背景或理论知识,而是源于声音本身的物理结构,以及人类听觉系统的工作方式。正因为如此,某些音程和结构才能跨越地域和时代,在不同音乐体系中反复出现,并被不同的人以相似的方式感知和理解。

所以,这篇文章真正想传达的,并不是一套新的声乐结论,而是一种理解音乐的视角:音乐中的和谐与美感,并非偶然的审美偏好,而是深植于声音的物理特性和我们自身的听觉机制之中。当你意识到这一点,再回头去练声、听歌,甚至创作旋律时,那些原本只能凭“感觉”判断的细微差异,往往会变得更加清晰、更加可信——不是因为感觉被取代了,而是因为你开始知道,为什么感觉会这样。


写完这篇文章,我想重申一下:它不是声乐教程,也不是音乐理论大全,而更像是一条我个人的探索路径——试图弄清楚,我们在听音乐时,到底在听什么。对于专业人士,这里面有些内容可能过于基础;对于普通读者,也许有些细节略显晦涩。但无论如何,如果你愿意耐心读完,你会看到:声音、音程、音阶的发展,其实与物理结构、听觉心理和历史实践紧密相连。

这篇文章的价值,或许不在于你马上能唱得更好,或者马上懂得所有乐理,而在于它提供了一条思路:把零散的音乐现象和知识,尝试串联成一个更完整、更“可理解”的整体。希望它能为你对声音的好奇心,提供一点线索或者启发。


📚 系列文章:声音的觉醒 · 基础篇(1 / 3)

📌 内容结构提示:
这篇内容属于「音乐与声音认知专题地图」的一部分,你可以从这里查看完整内容路径: 音乐与声音认知专题地图
查看相关分类·3个匹配
分享这篇文章
博客内容均系原创,转载请注明出处!博客的RSS地址为:https://blog.tangwudi.com/feed,欢迎订阅;如有需要,可以加入Telegram群一起讨论问题。
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇