当前位置: 首页 > news >正文

高斯分布的加权和 vs. 加权混合

这两个概念虽然都基于高斯分布,但代表着两种完全不同的数学操作和思维方式。简单来说,高斯分布的加权和产生的是一个新的高斯分布,而高斯分布的加权混合描述的是一个复杂的多模态分布

维度高斯分布的加权和高斯混合模型
数学本质随机变量的线性组合概率密度函数的凸组合
结果分布仍然是高斯分布通常不是高斯分布
参数计算直接计算(解析解)迭代优化(如EM算法)
可解释性参数有直接物理意义分量代表数据中的子群体
典型形态单峰多峰(可拟合复杂形状)
计算复杂度低(封闭形式解)高(需要迭代优化)

一、高斯分布基础

高斯分布(又称正态分布)是最重要的概率分布之一,其概率密度函数呈钟形曲线:

N(x∣μ,σ2)=12πσe−(x−μ)22σ2\mathcal{N}(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}N(xμ,σ2)=2πσ1e2σ2(xμ)2

其中,μ\muμ是均值,决定了分布的中心位置;σ2\sigma^2σ2是方差,决定了分布的宽度。高斯分布之所以无处不在,很大程度上归功于中心极限定理:大量独立同分布的随机变量之和趋近于高斯分布。

二、高斯分布的加权和

核心思想:高斯随机变量的线性组合仍然是高斯随机变量。
假设有两个独立的高斯随机变量:
X1∼N(μ1,σ12)X_1 \sim \mathcal{N}(\mu_1, \sigma_1^2)X1N(μ1,σ12)
X2∼N(μ2,σ22)X_2 \sim \mathcal{N}(\mu_2, \sigma_2^2)X2N(μ2,σ22)

它们的加权和定义为:

Y=aX1+bX2Y = aX_1 + bX_2Y=aX1+bX2
其中aaabbb是权重系数。根据高斯分布的性质,YYY也是一个高斯随机变量:
Y∼N(aμ1+bμ2,a2σ12+b2σ22)Y \sim \mathcal{N}(a\mu_1 + b\mu_2, a^2\sigma_1^2 + b^2\sigma_2^2)YN(aμ1+bμ2,a2σ12+b2σ22)

关键特性

  1. 封闭性:这是高斯分布最优雅的性质之一。无论你如何线性组合高斯随机变量,结果仍然是高斯分布。
  2. 参数可计算:结果分布的参数可以直接从原始分布的参数和权重计算得出,无需复杂迭代。
  3. 可扩展到多维:对于多维高斯分布,类似的性质同样成立。如果X1∼N(μ1,Σ1)X_1 \sim \mathcal{N}(\mu_1, \Sigma_1)X1N(μ1,Σ1)X2∼N(μ2,Σ2)X_2 \sim \mathcal{N}(\mu_2, \Sigma_2)X2N(μ2,Σ2)是独立的多维高斯向量,那么Y=AX1+BX2Y = AX_1 + BX_2Y=AX1+BX2也是一个高斯向量,其参数为:
    Y∼N(Aμ1+Bμ2,AΣ1AT+BΣ2BT)Y \sim \mathcal{N}(A\mu_1 + B\mu_2, A\Sigma_1A^T + B\Sigma_2B^T)YN(Aμ1+Bμ2,AΣ1AT+BΣ2BT)

这就像是调配一种新的颜色:

  • 红色油漆(高斯分布1)
  • 蓝色油漆(高斯分布2)
  • 按比例混合后,你得到一种全新的、均匀的紫色油漆(仍然是高斯分布,但参数不同)

三、高斯混合模型(GMM)

核心思想:用多个高斯分布的加权平均来近似任意复杂的概率分布。
高斯混合模型的概率密度函数定义为:
p(x)=∑k=1KπkN(x∣μk,Σk)p(x) = \sum_{k=1}^{K} \pi_k \mathcal{N}(x|\mu_k, \Sigma_k)p(x)=k=1KπkN(xμk,Σk)

其中:

  • KKK是高斯分量的数量
  • πk\pi_kπk是第kkk个分量的混合权重,满足0≤πk≤10 \leq \pi_k \leq 10πk1∑k=1Kπk=1\sum_{k=1}^{K} \pi_k = 1k=1Kπk=1
  • N(x∣μk,Σk)\mathcal{N}(x|\mu_k, \Sigma_k)N(xμk,Σk)是第kkk个高斯分量的概率密度函数

关键特性

  1. 多模态性:高斯混合模型可以描述具有多个峰值(模式)的复杂分布
  2. 万能逼近:理论上,足够多的高斯分量可以逼近任何连续概率分布
  3. 软分配:每个数据点可以同时以不同概率属于多个分量
  4. 需要迭代学习:模型参数通常通过EM算法等迭代方法从数据中学习

回到颜色混合的比喻,高斯混合模型不是将颜色均匀混合,而是:

  • 红色糖果(高斯分布1)
  • 蓝色糖果(高斯分布2)
  • 将它们放入同一个袋子,每次随机抓取一颗

你得到的不再是一种均匀的颜色,而是一个概率过程:抓到红色糖果的概率是p1p_1p1,抓到蓝色糖果的概率是p2p_2p2。从整体上看,这个袋子中的颜色分布是双峰的。

四、具体示例

假设我们有两种投资策略:

  • 策略A:收益服从N(5%,2%2)N(5\%, 2\%^2)N(5%,2%2)
  • 策略B:收益服从N(8%,4%2)N(8\%, 4\%^2)N(8%,4%2)

情形1:加权和
如果你将资金的60%投入策略A,40%投入策略B,那么投资组合的收益分布是:

0.6×N(5%,2%2)+0.4×N(8%,4%2)=N(0.6×5%+0.4×8%,0.62×2%2+0.42×4%2) 0.6 \times N(5\%, 2\%^2) + 0.4 \times N(8\%, 4\%^2) = N(0.6\times5\%+0.4\times8\%, 0.6^2\times2\%^2+0.4^2\times4\%^2)0.6×N(5%,2%2)+0.4×N(8%,4%2)=N(0.6×5%+0.4×8%,0.62×2%2+0.42×4%2)

结果是单一的高斯分布N(6.2%,0.0144%2)N(6.2\%, 0.0144\%^2)N(6.2%,0.0144%2)

情形2:混合模型

如果你在策略A和策略B之间随机切换,60%的时间使用策略A,40%的时间使用策略B,那么你的收益分布是:

p(x)=0.6×N(x∣5%,2%2)+0.4×N(x∣8%,4%2)p(x) = 0.6 \times N(x|5\%, 2\%^2) + 0.4 \times N(x|8\%, 4\%^2)p(x)=0.6×N(x∣5%,2%2)+0.4×N(x∣8%,4%2)

这是一个双峰分布,在5%和8%附近各有一个峰值。

http://www.hn-smt.com/news/219204/

相关文章:

  • 深化软件技术产业发展 助力我省打造国际一流数字经济高地的建议
  • 一行命令踩坑?Step-Audio-EditX 中 Git LFS 报错的完整解决方案
  • 基于微信小程序的毕业设计项目:个性化英语学习小程序+毕业论文+答辩ppt全套
  • java垃圾收集 minorgc majargc fullgc
  • 学霸同款2026TOP10AI论文网站:本科生毕业论文神器测评
  • AI+IoT双轮驱动:构建风电设备预测性维护数字孪生体的全栈技术实践
  • CSDN技术变现指南:从0到1开启知识创富之路
  • 学网络安全,一张清单就够了!五大核心技术通俗解析与入门路径
  • 《深入剖析 NumPy ndarray:为何比 Python List 快 50~100 倍?》
  • 《深入剖析 NumPy ndarray:为何比 Python List 快 50~100 倍?》
  • 智能体工程全指南:从概念到落地,深度复盘发展现状,收藏这一篇就够了!
  • 文献综述轻松搞定:百考通AI智能助手是如何成为科研工作者的“学术地图”?
  • 双管齐下:百考通AI如何破解论文“查重”与“查AI”的双重困境
  • 强烈安利专科生必用TOP10 AI论文平台
  • Springboot健身管理系统85ws5(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • 如何通过模具智能管理降低汽车生产线的停机时间?
  • 2核2G3M的云服务器有哪些用途?适合部署小型网站或博客吗?
  • 2027 年 1 月 1 日起施行!GB46864 新规落地,二手电子产品信息清除有了 “铁规矩”,你的隐私不再 “裸奔”
  • AI智能戒指问世,可录制会议并生成转录
  • a标签中的javascript:;是什么
  • 【毕业设计】机器学习基于python-CNN的常见鱼类分类识别
  • 写给开发者、内容创作者:当你“快做完了”却开始崩,这不是技术问题
  • 《波段很赚米》指标 通达信 主图/副图 源码 贴图 说明 无未来
  • springboot疫苗发布和接种预约系统(11650)
  • 将银行账单文字转为语音播报,帮助视障用户了解收支情况。
  • 【计算机毕业设计案例】基于卷神经网络的训练形状识别
  • 2026想布局大模型推理工程师?一定要看这份核心能力架构图:系统掌握7大技术维度与高阶拓展方向(含实战解析)
  • 2026届校园招聘大战开启!阿里、京东、字节等大厂争抢哪类人才?揭秘校招最新趋势!
  • AI 技术在CRM 系统中的应用
  • 51405098-100 逻辑控制器模块