开云「中国」Kaiyun官网登录入口“细分一切”SAM 2不错识别视频中的特定对象-开云「中国」Kaiyun官网登录入口

(原标题:从“抠图”到“抠视频” Meta上新AI用具SAM 2) 21世纪经济报说念记者孔海丽、实习生王甜 北京报说念 继2023年4月初次推出SAM,兑现对图像的精确分割后,Meta于北京时候7月30日推出了粗略分割视频的新模子SAM 2(Segment Anything Model 2)。SAM 2将图像分割和视频分割功能整合到一个模子中。所谓“分割”,是指区别视频中的特定对象与配景,并不错追踪规划。 SAM 2将图像分割能力泛化到了视频限制,其反应能力和准确度是一代的6倍,亦然咫尺最优...


(原标题:从“抠图”到“抠视频” Meta上新AI用具SAM 2)

21世纪经济报说念记者孔海丽、实习生王甜 北京报说念

继2023年4月初次推出SAM,兑现对图像的精确分割后,Meta于北京时候7月30日推出了粗略分割视频的新模子SAM 2(Segment Anything Model 2)。SAM 2将图像分割和视频分割功能整合到一个模子中。所谓“分割”,是指区别视频中的特定对象与配景,并不错追踪规划。

SAM 2将图像分割能力泛化到了视频限制,其反应能力和准确度是一代的6倍,亦然咫尺最优秀的视觉分割模子。Meta AI发布此版块时强调:“服气咱们的数据、模子和视力将成为视频分割和相关感知任务的抨击里程碑。”

同日,扎克伯格在与黄仁勋的对谈中,浮现出更多Meta 的AI进展,包括将推出一款基于Llama3.1模子构建的名为AI Studio的新用具,允许用户创建、共享和遐想个性化的AI聊天机器东说念主,用户还不错在外交媒体平台上共享他们的东说念主工智能变装。

“细分一切”

SAM 2不错识别视频中的特定对象,并及时兑现该对象的追踪与索求,在视频编著与殊效制作中,不错高效辅助使命。该模子也不错把柄用户具体诉求,选拔分割某个物体或某个区域,使截至愈加精确。

与其他模子不同的是,SAM 2领有对不熟习物体和图像的零样本泛化能力,无需独特试验,只需单击一帧视频中的任何物体,即可兑现对规划对象的及时追踪,快速处理异日每一帧。

除此除外,该模子还不错集成到更大的系统中,它善于从其他智能系统中得回辅导,使系统之间完成互助。举例,SAM 2粗略在AR/VR穿着式开采中选拔用户注视对象,也不错读取分割对象的规模框辅导,完成文本辅导到视频图像分割的滚动。

为了试验SAM 2,Meta我方建构了一个数据引擎——SA-V数据集,有用集聚多半千般化的视频分割数据集并诈欺其去迭代模子。SA-V数据集包含5.1万个视频和64.3万个时空分割掩码(即masklet),是迄今为止最大的数据集,集聚了47个国度/地区地舆漫衍折柳的信得过寰宇场景的视频。SAM 2就在Meta开源的SA-V数据集上进行试验,为SAM 2提供的扫视包括通盘这个词物体、部分物体和物体被讳饰的情况。

SAM 2模子辅助东说念主类标注规划对象的掩码,与此同期,SAM 2将标注的掩码传播到视频其他帧,生成时空掩码,接管辅导的SAM 2受益于对象在时候维度上的缅念念,生成掩码揣度。如斯日中必移,使SAM 2得到握住更新。业内不雅点觉得,SAM 2为视觉数据提供更快的扫视用具,有望被用来试验下一代磋磨机视觉系统。

关于视频中的动态物体,SAM 2奈何精确识别呢?Meta为SAM引入了一种缅念念机制。关于视频,缅念念组件不错存储对象的相关交互信息和之前处理过的信息,使SAM 2粗略在通盘这个词视频中兑现揣度行径。把柄其辅导式遐想理念,要是在其他帧上提供了相关辅导,SAM 2还不错把柄存储的对象缅念念潦倒文(前后帧)有用地校正其揣度,权贵减少东说念主工标注时候。

Meta官网提供了一个例子,规划对象被讳饰或从视线中灭亡。为了向模子诠释注解这种新的时势,在SAM 2里新应用了“讳饰头”模子,用于揣度现时帧中是否存在规划对象,判断物体是否可见,即使在物体暂时被讳饰时也有助于分割物体,使SAM 2粗略有用地处理讳饰。

不外,当遭受万古候讳饰或者场景中有多个同样对象等情况时,SAM 2可能会丢失对物体的追踪或是羞耻物体。但同期,以上情况不错通过东说念主为干扰提供细化辅导来处理。

尽管Meta自曝了SAM 2的不及,用户对该模子的异日照旧奉求厚望。

在以往的视频编著本领中,视频抠图需要一帧一帧地编著。比如,国内明星真东说念主秀节目数次遭受的“因某明星个东说念主危险,需再行裁剪一齐画面”问题,可能不再需要视频裁剪连明连夜、衔接加班。

SAM 2的应用范围世俗,在很多需要及时反馈的应用场景中将发扬其作用,包括自动驾驶、医学、视频拍摄裁剪、监控等。比如,捕捉动态对象兑试验时交互,普及车载磋磨机视觉系统的机敏性;在辅助医学治疗中,定位腹腔镜录像机锚定的区域;在追踪照相中,匡助无东说念主机镜头跟班追踪濒危动物;在机场、车站东说念主流密度大的区域及时监控东说念主群,预警荒谬情况;也为视频骨子博主提供了更多视频创意创作的可能性。

更好的开源生态

SAM 2也为新模子的出现埋下伏笔。SAM 2的分割生成效果不错输出给其他AI系统(举例当代视频生成模子),SAM 2自身也不错接管其他AI系统的输入辅导,兑现与规划对象的及时交互,比如,应用于直播时的AI公众形象搭建,自动驾驶路况分析等。

为了使学术界粗略在咫尺的基础上不绝有计划,Meta公开发布了事先试验的SAM 2模子、SA-V数据集、演示和代码。值得精通的是,尽管需要巨大算力扶植,SAM 2仍坚合手开源,并允许遍及用户免费使用(在Amazon SageMaker平台上托管)。这让Meta雄壮的透明开源生态又添一员。

近期,扎克伯格多番强调了东说念主工智能开源的意旨,他曾撰写的长文中默示:“开源东说念主工智能比任何其他当代本领齐更具有后劲,不错普及手类的坐褥力、创造力和生存质地,同期还能加快经济增长并鼓吹冲破性的医学和科学有计划。”

“现在大多数逾越的科技公司和科学有计划齐是开采在开源软件之上的。最抨击的是,开源东说念主工智能代表了寰宇上诈欺这项本领为每个东说念主创造最大经济契机和安全的最好契机。”扎克伯格补充说。

在与黄仁勋的对谈中,扎克伯格也再次抒发了“但愿下一代磋磨机发展回到绽开生态系统见效的地点”。

fund开云「中国」Kaiyun官网登录入口



相关资讯