当前位置: 首页 > news >正文

优秀高端网站建设企业网站底部有很多图标

优秀高端网站建设企业,网站底部有很多图标,邢台信息港人力资源首页,网站seo哪家公司好目录 1.Encoder 1.1简单理解Attention 1.2.什么是self-attention 1.3.怎么计算self-attention 1.4.multi-headed 1.5.位置信息表达 2.decorder#xff08;待补充#xff09; 参考文献 1.Encoder 1.1简单理解Attention 比方说#xff0c;下图中的热度图中我们希望专注于…目录 1.Encoder 1.1简单理解Attention 1.2.什么是self-attention 1.3.怎么计算self-attention 1.4.multi-headed 1.5.位置信息表达 2.decorder待补充 参考文献 1.Encoder 1.1简单理解Attention 比方说下图中的热度图中我们希望专注于小鸟而不关注背景信息。那么如何关注文本和图像中的重点呢。 具体而然比方说下面的文本she is eating a green用不同的颜色表示其向量然后对每一个向量进行重构比方说she本来由红色向量表示重构之后其向量包含上下文其他向量的部分按照相关程度比重各不相同其实这一块就是算出权值每个词对其他词的贡献再根据这个权值整合每个词自身的向量。 1.2.什么是self-attention 如下图所示两句话中的it根据上下文语句不同指代前面的名词也不同所以希望用注意力机制来专注他们之间的关系。 自注意力机制如下图所示有两句话以it为例只计算本句中每个词和自己的关系 注意力机制如下图所示it会计算其他句和自己的关系。 同样如下图右侧所示以it为例线条越深和自身关系越强 1.3.怎么计算self-attention 如下图所示有两个文本ThinkingMachines在进行计算时我们要知道每一个词和自己的关系以及和其他词的关系也就是说要计算Thinking和自身的关系以及和Machines的关系以及Machines和自身的关系以及和Thinking的关系然后将其向量化表示为x1和x2。接下来为了实现注意力机制我们提供了三个向量qkv以Thinking为例当Thinking想要寻找和自己的关系以及和Machines的关系时必须要知道它要查什么所以需要一个查找对象也就是q同样Thinking和Machines自身作为被查找的单位当被查询时也需要提供我有或者没有被查东西的证据也就是k具象化理解可以理解为古代官府追查杀手必然会拿着杀手画像q那么每家每户都要提供自己的身份信息k证明自己是不是杀手。v后面补充。 再看一下qkv是咋来的对于单词向量x1和x2用一个权重矩阵w分别得到qkv。 再看一下词与词之间的匹配程度如何确定先说一个概念内积相乘越大两者关系越近所以当计算Thinking和自己的匹配程度时用q1*k1112计算Thinking和Machines匹配程度时用q1*k296计算很明显和自己的匹配程度更高 再进一步计算 首先看softmaxQ*K/*V,这样理解当高维Q*K的结果必然比低维相乘大但在实际应用中维数并不应该对结果产生影响所以用消除维度影响。对照下图左侧的公式来看下图右侧在得到112和96之后进行维度消除操作得到14和12然后得到彼此的影响概率0.88和0.12再利用v对x重构得到v。 流程如下图所示Q和每一个K相乘再结合相应的V最后加权得到Attention Value 1.4.multi-headed 上面我们发现一个x只能得到一个z现在希望一个x可以得到不同z所以用不同的w得到不同的qkv。假设一个x最后得到8个不同的z将其拼接在一起太大了所以用全连接层再对其降维。 举个例子 1.5.位置信息表达 前面我们发现计算时会对每一个单词进行计算所以没考虑位置因素但在这里希望把位置因素考虑进去位置用p表示最后加入到重构后的z中 2.decoder待补充 前面是处理输入得到不同的组合z这回需要对z进行输出操作。 此时输出层提供q查询模型需要啥。k和v由输入提供。具体我们可以看下图右侧流程图左为Encoder输入K,V。右下为decoder输入Q。 再说一下MASK机制简单理解此时标签出了I am a那么对于a可以利用前三个词但对于第四个没出的不能使用所以要给它掩盖起来。 3.BERT 替代encoder 参考文献 1.Transformer原理精讲_哔哩哔哩_bilibili 2.67 自注意力【动手学深度学习v2】_哔哩哔哩_bilibili  3. 68 Transformer【动手学深度学习v2】_哔哩哔哩_bilibili 4.(重点)2023年AI爆火方向基于Transformer模型的计算机视觉实战集锦【医疗图像分割、VIT算法、swintransformer、DETR目标检测...】_哔哩哔哩_bilibili
http://www.hn-smt.com/news/72174/

相关文章:

  • 2025高性价比管理咨询公司哪家好+企业咨询培训公司推荐清单
  • AutoVEI Truck Explorer Locksmith 2025: 700 Tokens for Truck Programming Diagnostics
  • 4433
  • Arista EOS平台安全漏洞分析与修复指南
  • 上海国际学科哪家好?2025 IB 培训机构权威榜单
  • 痞子衡嵌入式:i.MXRT中FlexSPI外设速度上限的三个影响因子(数据手册里的纠结)
  • 金融科技中网络安全的关键作用
  • Go语言设计模式:适配器模式详解 - 实践
  • 空间够造+花钱够省!红旗HS6霸榜家用大五座混动推荐
  • Codeforces Round 1066 (Div. 1 + Div. 2) 比赛总结
  • 【机器学习】突破分类瓶颈:用逻辑回归与Softmax回归解锁多分类世界 - 指南
  • 2025.11.27
  • 云斗学院 NOIP 考前练手公益赛 Round 1 题目分析
  • ABC386 VP总结
  • 编程中的枚举法与数学上的穷举法有何区别?
  • C# 图片加载引发的内存溢出异常
  • acme证书申请
  • 从被动审查到主动风控:文档抽取技术驱动合同管理范式转移
  • 2025年11月GEO公司推荐:全链路破局企业流量困境,AI驱动搜索优化实力全解析
  • 人工智能之数据分析 Matplotlib:第二章 Pyplot
  • NOIP 2025 游记(?
  • 2025年Q4痔疮膏品牌哪家好?TOP10测评榜单,内痔便血/外痔肉球/术后修护全适配推荐
  • 第五篇 Scrum 冲刺博客
  • 2025 年 11 月二手车市场权威推荐榜:昆山二手车,上海二手车,浙江二手车,太仓二手车,精选车源与高性价比购车指南
  • 【NCS随笔】NCS如何修改连接间隔
  • 算法竞赛备考冲刺必刷题(C++) | 洛谷 B3639 T2点亮灯笼 - 详解
  • CMTI测试为何成为半导体隔离器件的“必考题”?苏州永创PPS-CMTIX系统给出专业答案 - FORCREAT
  • 数组的重塑
  • rust关键字unsafe
  • 【水印检查】字符串处理和矩阵的存入