音频、大脑与人工智能产品初探

1 评论 1559 浏览 3 收藏 28 分钟

随着大模型对的发展,AI技术在音频、视频上都已经开始得到广泛的应用。这篇文章,作者给大家分享了音频的一些基础知识,以及人工智能与音频技术结合,如何赋能脑科学产品进行探讨。

在人类五感中,听觉扮演着至关重要的角色。它不仅让我们欣赏美妙的音乐,感受大自然的声音,还帮助我们与他人沟通,获取信息。听觉与大脑之间密不可分。

现实中有部分人听到不同的声音身体会有过敏反应,声波在一定程度上可以影响人们的身体反应。我们知道,当一个物体振动时,它会导致周围介质(如空气、水或固体)中的粒子产生振动。这些振动的粒子将能量传递给相邻的粒子,形成一个振动的传播链,即声波。

音频是声音的频率范围,通常指的是人类可以听到的声音频率范围,大约从20赫兹到20,000赫兹。这个范围内的声波当被耳朵捕捉并传达到大脑时,会被识别为声音。由于声波也是一种能量传播方式,因此我们通过耳朵捕捉到的声波,会以能量的方式传输至我们的大脑,从而转化为可识别的音频。

在本文中,我们将人可以听到的各种声音都归入音频讨论的范围,通过声波种类的介绍,构成原理,声波与音频的关系,音频的属性与相关参数,音频与大脑的相互作用以及人工智能与音频技术结合,如何赋能脑科学产品进行探讨。

一、声波基础

1. 波的种类

我们知道,波是一种传播的扰动;是一种通过介质传递能量的方式。不同的波在不同的介质中传播,如:声波、机械波和水波等。

声音是由物体振动产生的波动现象,通过介质(如空气、水等)传播。根据振动方式的不同,声波可以分为纵波和横波。

纵波是沿着波的传播方向进行的压缩和稀疏交替的过程,而横波则是沿着与传播方向垂直的方向进行的左右摆动。声波的频率决定了音调的高低,振幅决定了音量的大小,而波形则决定了音色的特点。

著名科学家们,如伽利略·伽利莱、罗伯特·波义耳和艾萨克·牛顿,都在“波”这一领域有了自己的发现,但直到18世纪达朗贝(d’Alembert)推导出了波动方程,才使得这一领域变得清晰,从而可以解释波动现象。

声音的产生来自于振动产生的声波。通常而言,波的种类分为纵波和横波。以质点为参照:

  • 质点被扰动的方向与波传播的方向平行形成的波就是纵波。
  • 质点被扰动的方向与波传播的方向垂直形成的波就是横波。

2. 波的属性

波的属性主要包括波长、频率、振幅、波形、速度和能量。波的这些属性不仅定义了波的特性,而且它们相互之间通过数学关系紧密相连。理解这些基本的属性和公式对于探索和利用波在不同领域(如声学、光学、量子物理等)中的应用至关重要。

(1)频率(f,Frequency)

单位时间内,通过某一固定点的完整波形的数量。它反映了波的时间周期性,通常以赫兹(Hz)为单位。在声波中,频率决定了声音的音调高低。

公式:f = 1 / T

其中,T 是波的周期,即一个完整的波形通过一个点所需的时间。

(2)波长(λ,Lambda)

具有相同相位的两个点之间的距离,或者说是波在一个周期内传播的距离,以米(m)为单位。波长与频率成反比,即波长越长,频率越低,反之亦然。

公式:λ = v / f

其中,v 是波速,f 是波的频率。

(3)振幅(A,Amplitude)

波的峰值,是波的振动强度的量度,它表示质点离开平衡位置的最大距离。在声波中,振幅与音量感觉的强度相关;在光波中,振幅与亮度相关。在声波中,振幅决定了声音的音量大小。

公式:A = ψmax

其中,ψmax 是波的最大位移或偏移。

(4)波形(Waveform)

波形是指波的形状,特别是随时间或空间的变化方式。常见的波形有正弦波、方波、三角波等。波形决定了波的特性和应用。

(5)速度(v,Velocity)

波速是指波的传播速度,它取决于介质的性质。在固体中波速通常比在液体和气体中快。

公式:v = λf波速是波长和频率的乘积。

(6)能量(E,Energy)

波的能量与其振幅的平方成正比。在物理学中,波的能量是传递能量的量度,尤其是在研究声波和光波时尤为重要。

公式:E ∝ A^2能量与振幅的平方成正比。

二、音频基础

1. 音频理论

音频是指声波的频率范围,通常用赫兹(Hz)表示。人类的听觉范围大约在20Hz至20kHz之间,这意味着我们可以听到这个频率范围内的声音。音频的属性包括音调(高低音)、音量(大小)、音色(特色)等,这些属性可以通过相关参数来衡量,如频率、振幅、波形等。

音频技术,作为现代科技领域中的一个重要分支,其理论基础涉及声学、物理学、电子学及信号处理等多个方面。在实际应用中,音频技术广泛应用于通信、娱乐、医疗等各个领域,对人类社会的发展起到了重要的推动作用。

声学是音频技术的理论基础之一。声学主要研究声波的产生、传播和接收过程,以及声波与介质之间的相互作用。声波是一种机械波,由物体的振动引起,通过介质(如空气、水等)进行传播。

声波的频率、振幅和波形是描述声波特征的三个重要参数。频率是指单位时间内振动的次数,单位为赫兹(Hz)。振幅是指振动的幅度,即声波能量的大小。波形则是指振动的形态,如正弦波、方波等。

物理学是另一个与音频技术密切相关的领域。物理学中的许多原理和定律都可以用于解释声波的行为和特性。

例如,牛顿第三定律描述了作用力和反作用力的关系,这在分析扬声器的工作原理时非常有用。再比如,欧姆定律描述了电流、电压和电阻之间的关系,这对于理解音频电路的设计和分析具有重要意义。

电子学则是音频技术中不可或缺的一部分。电子学主要研究电子在导体中的运动规律及其应用。在音频技术中,电子学主要用于音频信号的放大、滤波和处理等。

例如,在音频放大器中,电子学的原理被用于将微弱的音频信号进行放大,以驱动扬声器发出声音。

信号处理是音频技术中的一个关键步骤。信号处理主要包括信号的采集、分析和处理等环节。在信号采集阶段,麦克风等设备将声音转化为电信号;在信号分析阶段,通过对电信号的分析提取声音的特征和信息;在信号处理阶段,根据需求对电信号进行处理,如降噪、均衡等。

基于音频理论对音频信号处理的目的是提高音频信号的质量和可懂度,以满足不同应用场景的需求。

2. 音频参数

对于本文而言,我们希望基于AI(Artificial Intelligence,人工智能)可以实时生成适用于每个人的大脑音频,这就需要使用到数字音频技术。

音频的基本参数对于音频的生成、编辑和播放都至关重要。我们从采样率、帧、采样个数、编码、音高、音量、音色和音长,这几个参数进行简要说明。

(1)采样率

定义:采样率是指每秒钟采样的次数,用于将模拟信号转换为数字信号。

公式:采样率(f_s)= 1 / T 其中T是采样间隔。

案例:CD音质的标准采样率为44.1 kHz,意味着每秒钟记录44100个样本。

(2)帧

定义:在音频处理中,帧是一段短时间内的音频样本集合,用于音频编码和解码。

案例:当使用MP3格式编码时,音频通常被分成多个帧,每个帧包含一定数量的采样,并添加了用于错误检测和纠正的额外数据。

(3)采样个数

定义:采样个数是指在一个特定时间段内的样本数量。

案例:如果采样率为44.1 kHz,那么一秒钟的音频包含44100个样本。

(4)编码

定义:编码是将模拟音频信号转换成数字信号的过程,常用的格式包括PCM、MP3、AAC等。

案例:MP3是一种流行的有损压缩格式,它通过舍弃人耳不易察觉的音频信息来减少文件大小。

(5)音高

定义:音高是声音的频率,以赫兹(Hz)计量。

公式:f = 音高

案例:A4音符的标准音高为440 Hz,这意味着它的波形每秒钟振动440次。

(6)音量

定义:音量是声音的响度,与声波的振幅相关。

公式:L = 20 * log10(p/p0) 其中L是声压级(分贝),p是测量声压,p0是参考声压。

案例:对话的典型录音音量约为-20 dB,而音乐会则可能在+4 dB左右。

(7)音色

定义:音色是由音频波形的形状决定的,它区分了具有相同音高和音量的两个不同的声音。

案例:钢琴和小提琴即使演奏相同音高的音符,它们的音色也明显不同,因为波形的形状和谐波内容不同。

(8)音长

定义:音长是音符持续的时间长度。

公式:T = 音长

案例:在音乐制作中,调整音符的持续时间可以影响节奏和旋律的感觉。

音频的参数决定了音频的质量和特性,我们掌握了基本的音频参数,接下来可以根据脑科学产品的特性,为用户提供实时可定制化的音频,用户可利用产品功能DIY(Do It Yourself,自己动手)自己喜欢的音频文件,从而达到产品生成的音频适用于不同的用户偏好。

三、音频与大脑

1. 关联关系

当我们听到声音时,声波首先被耳朵捕捉到,然后通过听神经传递给大脑进行处理。大脑对音频的处理涉及到多个区域,如颞叶、额叶和顶叶等。

研究表明,音乐可以刺激大脑产生多巴胺,这是一种与愉悦感相关的神经递质。此外,音频还可以影响我们的情绪、记忆和认知能力。

听音乐能够刺激多巴胺、皮质醇的分泌。这类物质能够调节情绪,降低抑郁,提高睡眠质量。通过一定的音乐训练还可广泛提升人们各方面的学习和记忆能力。

例如,柔和的音乐可以帮助我们放松,激昂的音乐可以激发斗志,而某些音频还可以改善睡眠质量、提高注意力等。

人类大脑对音频的感知与处理是一个复杂而精密的过程,涉及多个学科领域的知识,如神经科学、心理学、生物学和物理学等。从声音传入耳朵的那一刻起,到大脑最终对其解读和做出反应,整个流程展现了人类听觉系统的奇妙之处。

首先,当声波到达人耳时,它首先通过外耳道进入,然后触动鼓膜。鼓膜的振动通过中耳的三个小耳骨——锤骨、砧骨和镫骨——传递到内耳。这些振动使内耳的耳蜗中的液体移动,进而刺激位于耳蜗内部的毛细胞。毛细胞是感觉声音的关键细胞,它们将振动转换成神经信号,通过听神经传送到大脑。

(1)公式:F = ma

这里F代表力,m代表质量,a代表加速度。这个公式虽然直接来自牛顿的第二定律,但它对于理解声音如何通过振动传递到我们的内耳具有参考价值。

一旦音频信号作为电脉冲到达大脑,它会分裂成多条路径,分别通往负责不同听觉处理的大脑区域。这些区域包括听觉皮层和丘脑等。不同的大脑区域会处理音调(频率)、音量(振幅)、音色(波形)以及声音的定位和时长等不同属性。

具体来说,音调的感知主要由大脑的颞叶进行处理。音量的感知则涉及到大脑的多个区域,包括听觉皮层和额叶。音色的识别则需要更高层次的认知处理,往往牵涉到大脑的顶叶和前额叶区域。

(2)公式:F = 2 / T

此公式用于计算音频信号的频率(F),其中T是周期的持续时间。这表明大脑处理的是周期性的振动信号,并将其转换为我们感知到的具体音调。

大脑不仅处理这些音频属性,还会存储与声音相关的记忆,以及生成对声音的情感反应。例如,一段熟悉的旋律可能会唤起特定的记忆,而某种声音的音色可能会引发特定的情绪反应。

2. 相关研究

全球有很多音频对大脑的影响相关研究的论文和应用案例。

在天津医科大学生物医学工程学院《An aberrant link between gamma oscillation and functional connectivity in Aβ(1–42)-mediated memory deficits in rats》这篇论文中,研究发现γ振荡和记忆缺陷之间的关系。

对照组的γ振荡和功能连接在工作记忆过程中增强,功能连接的峰值出现在γ振荡的峰值之前,表明功能连接和γ振荡之间存在精确的时间联系。然而,Aβ组的γ振荡和功能连接较弱,功能连接与γ振荡之间的联系异常。间接证明γ振荡对阿尔茨海默病 (AD) 的恢复有一定作用。也就意味着,音频对提认知水平有一定积极影响。

在Department of Neuroscience, Canadian Centre for Behavioural Neuroscience, University of Lethbridge的《Neural oscillations and brain stimulation in Alzheimer’s disease》这篇学术论文中,研究证实衰老与认知处理和大脑神经生理学的改变有关。

虽然遗忘性轻度认知障碍 (aMCI) 的主要症状是记忆问题比同龄和同教育程度的正常情况更严重,但阿尔茨海默病 (AD) 患者除了记忆功能障碍外,还表现出其他认知领域的障碍。生理衰老的静息状态脑电图 (rsEEG) 研究表明,低频振荡功率整体增加,α 活动减少和减慢。

然而,慢速振荡的增强和快速振荡的减少以及大脑功能连接的中断是 AD 中 rsEEG 的主要变化。最近的啮齿动物研究也支持人类证据,即与年龄和 AD 相关的静息状态脑振荡变化,以及通过伽马波段刺激的脑刺激技术具有神经保护作用。也就意味着40Hz的音频可以改善AD患者的认知障碍和记忆障碍。

在麻省理工和哈佛学者发表在nature上的《Gamma frequency entrainment attenuates amyloid load and modifies microglia》论文研究显示,γ振荡与高级认知功能和感觉反应相关。40Hz的γ振荡可以减少小鼠大脑中的淀粉样蛋白,并诱导小胶质细胞形态变化相关的基因表达,促进大脑的神经保护反应。

这一研究提供了对γ振荡在神经系统疾病中作用的新见解。表明在阿尔茨海默病早期阶段,γ振荡的减少可能是一种早期生物标志物。通过光遗传学技术刺激特定的中间神经元可以降低有害的Aβ蛋白水平。

这不仅为理解γ振荡在健康和疾病状态下的作用提供了新的视角,而且为阿尔茨海默病的治疗干预提供了潜在的新途径。此外,研究中开发的非侵入性40赫兹光闪烁方案为未来临床应用提供了一种可能的方法,这种方法可能会减缓或预防阿尔茨海默病的进展。也就意味着可以通过音频诱导大脑的神经保护反应,来保护脑部健康。

四、AI赋能

1. 脑电波

在认知科学和神经生物学中,理解这些脑电波的频率和振幅变化对研究大脑的功能状态至关重要。例如,通过观察β波和γ波的变化,研究者可以探索认知负荷对大脑活动的影响。当人们进行思维密集型任务时,γ波的活动通常会增加,显示大脑在积极地处理信息。

脑电波是大脑神经元活动的总体电信号表现,通常按照频率范围分为几种类型,各类型与不同的大脑状态和认知活动相关联。

(1)δ波(Delta Waves)

  • 频率:0.5 – 4 Hz
  • 出现时段:深睡眠阶段
  • 功能:与深度休息和恢复有关,也关联于愈合和再生过程。

(2)θ波(Theta Waves)

  • 频率:4 – 8 Hz
  • 出现时段:冥想、浅睡眠或清醒时的放松状态
  • 功能:与创造力、感知和梦境相关,也可能涉及记忆的形成。

(3)α波(Alpha Waves)

  • 频率:8 – 13 Hz
  • 出现时段:放松、闭眼休息时
  • 功能:代表大脑处于放松、平静状态,有助于减少压力和提高专注力。

(4)β波(Beta Waves)

  • 频率:13 – 30 Hz
  • 出现时段:日常警觉状态、思考和工作
  • 功能:与集中注意力、分析和解决问题相关,是意识清醒和忙碌状态的标志。

(5)γ波(Gamma Waves)

  • 频率:30 – 100 Hz
  • 出现时段:处理复杂任务、学习新信息
  • 功能:与知觉、问题解决、记忆、学习和意识有关,是大脑进行高层次信息处理的关键指标。

脑电波的分析还用于诊断和治疗各种神经系统疾病。例如,异常的β波活动可能表明焦虑或过度的精神活动,而调节α波可以帮助缓解压力和改善放松状态。

脑电波提供了一种监测和理解大脑活动的有效方式,通过分析不同频率的脑电波,科学家可以更好地理解大脑在不同状态下的工作方式,从而为改善认知健康和治疗神经性疾病提供重要的依据。

2. 产品应用

随着人工智能(AI)技术的迅速发展,其在音频技术领域的应用也日益广泛。在脑科学领域,人工智能与音频技术的结合更是为研究和应用带来了新的可能性。

例如,通过分析大脑对音频的反应,可以更好地理解大脑的功能和机制;利用音频刺激来干预大脑活动,可以辅助治疗一些神经系统疾病;将音频技术应用于脑机接口,可以实现人脑与外部设备的直接交互等。

在本文中,我们结合声波和音频的基础理论,以及音频与大脑目前的相关研究成果,已经非常明确音频会对大脑产生影响。结合AI的赋能,使得未来通过音频对大脑相关疾病(如:自闭症、抑郁症、焦虑症、阿尔兹海默症等)的预防与康复成为可能。

目前有许一些基于音频的脑科学相关产品,很多都是基于白噪声原理,通过对现场音频采集实现音频制作,需要耗费大量的时间、人力和物力,也无法根据用户偏好实时生成音频。

AI的出现,结合大模型技术,可以实时生成并且以多种形式生成用户喜欢的音频。可以基于音频参数,用户实时调整,也可以通过对用户文本、图形、语音的输入,生成实时音频。

作者目前基于以上理念,进行了此类产品的初步探索,完成了基本产品的框架。具体产品样例,可访问http://sleep.jjyc.org 希望搭建一个音频、脑科学与人工智能相结合的平台。基于音频对大脑的正向影响展开理论和实战研究。

五、结语

本文探讨了音频技术及其与大脑相互作用的多方面内容。介绍了声波的基本物理属性,如波长、频率、振幅、波形、速度和能量,并通过公式展示这些属性之间的关系。基于音频理论,讨论了音频的属性(音调、音量、音色等)以及它们如何通过相关参数进行衡量。

在技术层面,通过声学、电子学和信号处理基本原理的结合,解释了音频技术在通信、娱乐和医疗等领域的应用。提出了一种基于AI技术的脑科学产品概念,该产品能够利用大模型技术实时生成个性化音频,以适应不同用户的需求。

我们对音频与大脑之间的关联进行探讨,如音乐对大脑的刺激作用、大脑如何处理音频信号,以及特定音频如何影响情绪、记忆和认知能力。通过引用相关研究和案例,证实音频技术在改善认知功能、治疗神经性疾病方面的潜力。

结合AI技术和音频理论的脑科学产品将会有非常阔的应用前景,特别是在脑电波的研究和应用领域。随着技术的进步,未来音频产品有望在提高生活质量、促进健康和康复方面发挥更大的作用。

最后,非常希望喜欢脑科学与AI相结合的产品爱好者们探讨交流,同时非常欢迎对这个产品方向感兴趣的投资人进行初期产品投资。感谢大家阅读!

专栏作家

王佳亮,微信公众号:佳佳原创。人人都是产品经理专栏作家,年度优秀作者。《产品经理知识栈》作者。中国计算机学会高级会员(CCF Senior Member)。专注于互联网产品、金融产品、人工智能产品的设计理念分享。

本文原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 省流:说了一堆废话

    来自广东 回复