当前位置: 首页 > news >正文

MM-SAM

image

SAM的局限性:

image

1、依赖用户手动提示,用户在输入一张图片后,还需要给予手动提示,模型才能分割。**

2、当用户未提供输入掩码时,则掩码嵌入将被随机初始化的嵌入替换,导致性能下降。

MM-SAM的结构:

image

(1)将BLIP用于图像caption任务,以自动为每个输入图像生成描述
(2)使用LLM或文本编码器(Mamba)从生成的描述中提取文本嵌入
(3)图像通过BLIP的图像编码器(VIT)得到视觉嵌入
(4)上面生成的文本嵌入和视觉嵌入相结合,作为SAM解码器的视觉语言提示;
(5)在SAM图像编码器中,来自每个transformer块的视觉嵌入来自BLIP的视觉嵌入相结合,用于训练用于微调SAM图像编码器的Adapter

下面分别讲一下每一块:

(1)生成caption

BLIP作为caption生成器,为图片生成一段文字描述(不提供模板指令)。

image

(2)得到文本嵌入

使用LLM-Mamba从上面生成的描述中提取文本嵌入。

image

(3)生成视觉嵌入

BLIP的图像编码器为输入图像生成对应的视觉嵌入。

image

(4)将上面生成的文本嵌入和视觉嵌入连接起来,作为SAM Decorder的输入token。

image

(5)多级特征Adapter

image

transformer层的输出视觉嵌入相结合作为Adapter的输入:

image

Adapter的输出transformer层的输出相结合作为下一层transformer块的输入(为了减少参数量,所有Adapter共享相同的权重系数):

image

最后一部分:

image

图像嵌入:来自原始SAM的图像编码器。

image

密集嵌入图像嵌入经过全连接层调整维度、GELU激活函数增强非线性得到。

image

image

稀疏嵌入:由视觉嵌入(BLIP的图像编码器得到)文本嵌入相结合得到。

图像嵌入包含全局图像特征密集嵌入由图像嵌入得到,是对图像嵌入中“目标相关特征”的强化(基于全局特征生成的纹理差异)。二者相加 = 全局上下文 + 目标细节

稀疏嵌入负责语义层面的目标指引,告诉解码器“我们要找的东西是什么”。

三者一起输入进SAM Decoder,用于预测最终的分割掩码。

也就是说,现在的视觉嵌入 + 文本嵌入代替了原来的稀疏嵌入(现在也叫稀疏嵌入)。

也就是说,现在的图像嵌入 + 密集嵌入代替了原来的密集嵌入(虚线方框内)。

image

实验:

数据集(3个):COD10K、CHAMELEON、CAMO

评估方式(4个):

image

与当前最优的伪装检测方法比较(9个)(table 1):SINet、RankNet、JCOD、PFNet、FBNet、SAM、SCOD、SAM-Adapter、GenSAM

image

image

总结一下:

原来的SAM是稀疏嵌入 + 密集嵌入,但两个嵌入都有问题:稀疏嵌入依赖用户手动提示(方框、点击等),密集嵌入缺失时会被随机初始化。

改进后,稀疏嵌入 = 文本嵌入(BLIP文本解码器 + Mamba) + 视觉嵌入(BLIP Encoder),不再依赖用户手动提示;密集嵌入 = 来自原始SAM的图像嵌入(全连接、GELU),然后将密集嵌入 + 图像嵌入实现全局 + 细节。最后密集嵌入 + 图像嵌入稀疏嵌入一起作为SAM Decoder的输入,结束。

http://www.hn-smt.com/news/72/

相关文章:

  • 2025年半自动冲芯机生产厂家权威推荐榜单:半自动矽钢片冲芯机/半自动铁芯冲压机/半自动冲芯设备源头厂家精选
  • 告别手动埋点!Android 无侵入式数据采集方案深度解析
  • writing sentences task1
  • bao
  • 2025年贝特曼咨询:权威解析美国高端身份规划的专业服务与法律保障
  • 2025年10月美国投资移民机构推荐榜:五大权威机构深度对比分析
  • 2025年10月美国投资移民机构推荐榜单:权威评价与综合对比分析
  • 2025年10月美国投资移民机构推荐榜:五家权威机构全方位对比分析
  • 构建AI智能体:五十、ModelScope MCP广场 MCP协议 Cherry Studio:AI应用生产线 - 指南
  • zerofs nfs 协议当前的一些限制
  • 2025年10月移民美国机构推荐榜单:五大权威机构对比分析
  • 2025 年 8 卡 RTX 风扇 GPU 服务器,GPU 智算服务器,AI 训练 GPU 服务器厂家最新推荐,聚焦资质、案例、售后的优质机构深度解读
  • 2025 年精选知识管理工具:15 款融合 AI 能力的智能知识库深度对比
  • 2025年10月EB5投资移民中介推荐榜:权威机构对比与选择指南
  • 软件测试哲学:从单元测试到端到端测试的完整指南
  • flume+kafka+flink整合
  • 2025年松木猫砂厂家权威推荐榜单:无尘矿砂/膨润土猫砂/水晶猫砂源头厂家精选
  • 2025年,如何选择Python Web框架:Django, Flask还是FastAPI? - 详解