【NOP-013】銉嶃偑銉戙兂銈广儓銉曘偋銉嗐偅銉冦偡銉er.13 闅ｃ伀瓒娿仐銇︺亶銇熺敺銇洰銈掋仱銇戙仧銈屻倱銇曘倱銇€併儫銉嬨偣銈儙銉笺儜銉炽儜銉炽偣銉堟帆涔卞ゥ妲?妗滄湪銈屻倱 Meta「分割一切」进化2.0！一键追踪畅通物体，代码权重数据集全开源，网友：实在的OpenAI

发布日期：2024-07-31 19:21 点击次数：162

又是发布即开源！【NOP-013】銉嶃偑銉戙兂銈广儓銉曘偋銉嗐偅銉冦偡銉er.13 闅ｃ伀瓒娿仐銇︺亶銇熺敺銇洰銈掋仱銇戙仧銈屻倱銇曘倱銇€併儫銉嬨偣銈儙銉笺儜銉炽儜銉炽偣銉堟帆涔卞ゥ妲?妗滄湪銈屻倱

Meta“分割一切AI”二代SAM2在SIGGRAPH上刚刚亮相。

相较于上一代，它的身手从图像分割拓展到视频分割。

可及时处理轻易长视频，视频中没见过的对象也能搪塞分割追踪。

更要害的是，模子代码、权重以及数据集通通开源！

它和Llama系列相通罢免Apache 2.0许可条约，并把柄BSD-3许可共享评估代码。

网友yygq：我就问OpenAI窘态不窘态。

Meta示意，这次开源的数据集包含51000个的确寰宇视频和600000个时空掩码（masklets，spatio-temporal masks)，范围远超此前最大同类数据集。

可在线试玩的demo也同步上线，全球齐能来体验。

在SAM之上加入顾虑模块

相较于SAM一代，SAM2的身手升级主要有：

维持轻易长视频及时辰割

完结zero-shot泛化

分割和追踪准确性进步

惩处装潢问题

它进行交互式分割的经由主要分为两步：聘请和细化。

在第一帧中，用户通过点击来聘请宗旨对象，SAM2把柄点击自动将分割传播到后续帧，造成时空掩码。

若是SAM2在某些帧中丢失了宗旨对象，用户可以通过在新一帧中提供稀奇的辅导来进行纠正。

若是在第三帧中需要需要复原对象，只需在该帧中点击即可。

SAM2的中枢念念路是将图像视作单帧视频，因此可以从SAM径直扩张至视频领域【NOP-013】銉嶃偑銉戙兂銈广儓銉曘偋銉嗐偅銉冦偡銉er.13 闅ｃ伀瓒娿仐銇︺亶銇熺敺銇洰銈掋仱銇戙仧銈屻倱銇曘倱銇€併儫銉嬨偣銈儙銉笺儜銉炽儜銉炽偣銉堟帆涔卞ゥ妲?妗滄湪銈屻倱，同期维持图像和视频输入。

处理视频独一的分裂在于，模子需要依赖内存往复忆处理过的信息，以便在现时手艺步长上准确分割对象。

与图像分割比较，视频分割中，物体的畅通、变形、装潢和后光等齐会发生厉害变化。同期分割视频中的对象需要了解实体卓绝空间和手艺的位置。

是以Meta主要作念了三部单干作：

盘算一个可辅导的视觉分割任务

在SAM基础上盘算新模子

构建SA-V数据集

领先，团队盘算了一个视觉分割任务，将图像分割任务施行到视频领域。

SAM被试验成以图像中的输入点、框或掩码来界说宗旨并展望分割掩码(segmentation mask)。

然后试验SAM在视频的轻易帧中接收prompt来界说要展望的时空掩码(masklet)。

SAM2把柄输入辅导对现时帧上的掩码进行即时展望，并进行临时传播，在总计帧上齐可生成宗旨对象的掩码。

一朝展望到启动掩码，就可以通过任何帧中向SAM2提供稀奇辅导来进行迭代革命，它可以把柄需要重迭屡次，直到赢得到总计掩码。

通过引入流式顾虑（streaming memory），模子可以及时处理视频，还能愈加准确分割和追踪宗旨对象。

它由顾虑编码器、顾虑库和顾虑安适力模块构成。让模子一次只处理一帧图像，掌握先前帧信息扶植现时帧的分割任务。

分割图像时，内存组件为空，模子和SAM近似。分割视频时，顾虑组件大要存储对象信息以及先前的交互信息，从而使得SAM2可以在通盘视频中进行掩码展望。

若是在其他帧上有了稀奇辅导，SAM2可以把柄宗旨对象的存储顾虑进行纠错。

顾虑编码器把柄现时展望创建顾虑，橘梨纱吧顾虑库保留研究视频宗旨对象夙昔展望的信息。顾虑安适力机制通过要求化现时帧特征，并把柄夙昔帧的特征调整以产生镶嵌，然后将其传递到掩码解码器以生成该帧的掩码展望，后续帧不休重迭此操作。

这种盘算也允许模子可以处理轻易时长的视频，不仅关于SA-V数据集的注目收罗很紧迫，也关于机器东说念主等领域应有有影响。

若是被分割对象比较马虎，SAM2还会输出多个灵验掩码。比如用户点击了自行车的轮胎，模子可以将此清爽为多种掩码，可能是指轮胎、可能是指自行车一说念，并输出多个展望。

在视频中，若是在一帧图像中仅有轮胎可见，那么可能需要分割的是轮胎；若是视频后续帧中许多齐出现了自行车，那么可能需要分割的是自行车。

若是如故不行判断用户到底想分割哪个部分，模子会按照置信度进行聘请。

此外，视频中还容易出现分割对象被装潢的情况。为了惩处这个新情况，SAM2还增多了一个稀奇的模子输出“装潢头”（occlusion head），用来展望对象是否出当今现时帧上。

此外，在数据集方面。

SA-V中包含的视频数目是现存最大同类数据集的4.5倍，注目量则是53倍。

为了收罗到如斯多的数据，经营团队构建了一个数据引擎。东说念主工会掌握SAM2在视频中注目时空掩码，然后将新的注目用来更新SAM2。屡次重迭这一轮回，就能不休迭代数据集和模子。

和SAM相似，经营团队不合注目的时空掩码进行语义拘谨，而是愈加存眷完好的物体。

叔叔偷玩侄女

这一枢纽让收罗视频对象分割掩码速率也大幅进步，比SAM快8.4倍。

惩处过度分割、超越SOTA

对比来看，使用SAM2可以很好惩处过度分割的问题。

实验数据露出，和半监督SOTA枢纽比较，SAM2各项性能齐发达可以。

不外经营团队也示意，SAM2还有不及，

比如可能会跟丢对象。若是相机视角变化大、在比较拥堵的场景里，就容易出现这类情况。是以他们盘算了及时交互的方式，维持手动修正。

以及宗旨对象迁徙过快，可能会细节上有缺失。

临了，模子不仅开源维持免费使用，并已在Amazon SageMaker 等平台上托管。

值得一提的是，有东说念主发现论文中提到SAM2试验是在256块A100上耗时108小时完成，对比SAM1则花了68小时。

从图像分割扩张到视频领域，本钱如斯低？

— 完 —【NOP-013】銉嶃偑銉戙兂銈广儓銉曘偋銉嗐偅銉冦偡銉er.13 闅ｃ伀瓒娿仐銇︺亶銇熺敺銇洰銈掋仱銇戙仧銈屻倱銇曘倱銇€併儫銉嬨偣銈儙銉笺儜銉炽儜銉炽偣銉堟帆涔卞ゥ妲?妗滄湪銈屻倱