VV游戏

 找回密码
 立即注册
查看: 108|回复: 1

港科大最新!You Only Label Once:半监督下的点云到图像 ...

[复制链接]

4

主题

8

帖子

16

积分

新手上路

Rank: 1

积分
16
发表于 2022-12-9 20:45:03 | 显示全部楼层 |阅读模式
关注“FightingCV”公众号
回复“AI”即可获得超100G人工智能的教程
点击进入→FightingCV交流群

作者|王汝嘉 编辑|汽车人 From|自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/587542491

论文:https://arxiv.org/pdf/2211.09302.pdf
1论文思路:

基于图像的三维目标检测任务要求预测的三维bounding box具有“紧密”投影(也称为长方体),在保持三维空间几何属性(如物理尺寸、两两正交等)的同时,很好地拟合图像上的目标轮廓,这些要求给标注带来了重大挑战。简单地将Lidar Labeled三维方框投影到图像上会导致严重的不对齐,而直接在图像上绘制长方体则无法获得原始的三维信息。在这项工作中,本文提出了一种基于学习的三维框自适应方法,该方法自动调整360°激光雷达三维bounding box的最小参数,以完美地适应全景相机的图像外观。在训练阶段,只需少量的二维方框标注作为指导,本文的网络就可以从激光雷达方框中产生精确的具有三维属性的图像级长方体标注。本文把本文的方法叫做“你只标注一次”(you only label once),意思是在点云上标注一次,自动适应周围所有摄像头。据本文所知,本文是第一个专注于图像级的长方体细化,它很好地平衡了精度和效率,大大减少了精确的长方体标注的标注工作量。在Waymo和Nuscenes公共数据集上的大量实验表明,该方法可以在不需要人工调整的情况下对图像进行人眼级的长方体标注。
2主要贡献:


  • 引入碰撞关系解决基于激光雷达bounding box的3D-2D对齐问题,使长方体精化过程以端到端的方式运行。
  • 提出了一种训练精化网络的半监督方法,以减少训练过程中对groud truth标注的要求。
  • 本文的方法是第一个专注于图像级的长方体自适应。该精化结果可作为基于二维图像的单目三维检测等感知任务的groud truth。
3论文设计:



图3。本文网络的框架。本文使用Faster-RCNN骨干(RESNET50)从输入的2D图像中提取金字塔特征图,并使用3D激光雷达标注作为剪裁相应特征的建议。然后,这些特征被馈送到两个独立的分支,用于精炼的2D boxes 和精炼的3D长方体。2D分支仅用于辅助训练,不会参与最终推断。
图5。左:本文将相机-目标关系划分为八个不同的视图,并通过投影的2D框计算视图。右:投影的2D框和3D视图3之间的对应关系。二维框的x坐标被三维角3、7和角1、5分割。






4实验结果:



图6。Waymo数据集上的精化结果。本文用红色标记细化前的3D边界框,用绿色显示优化后的结果。为了更好地显示精化前后的比较,本文在优化的三维长方体上额外绘制了原始的三维投影。本文还在BEV视图中画出了结果,以表明本文改进的boxes在几何上仍然是合理的。从上到下,本文显示了来自前、左、右、左后和右后摄像头的结果。






5参考

[1] You Only Label Once: 3D Box Adaptation from Point Cloud to Image via Semi-Supervised Learning
往期回顾

基础知识
【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇
【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇 (超多图警告)


最新论文解析
ECCV2022 Oral | 微软提出UNICORN,统一文本生成与边框预测任务
NeurIPS 2022 | VideoMAE:南大&腾讯联合提出第一个视频版MAE框架,遮盖率达到90%
NeurIPS 2022 | 清华大学提出OrdinalCLIP,基于序数提示学习的语言引导有序回归

SlowFast Network:用于计算机视觉视频理解的双模CNN
WACV2022 | 一张图片只值五句话吗?UAB提出图像-文本匹配语义的新视角!
CVPR2022 | Attention机制是为了找最相关的item?中科大团队反其道而行之!
ECCV2022 Oral | SeqTR:一个简单而通用的 Visual Grounding网络
如何训练用于图像检索的Vision Transformer?Facebook研究员解决了这个问题!
ICLR22 Workshop | 用两个模型解决一个任务,意大利学者提出维基百科上的高效检索模型

See Finer, See More!腾讯&上交提出IVT,越看越精细,进行精细全面的跨模态对比!
MM2022|兼具低级和高级表征,百度提出利用显式高级语义增强视频文本检索
MM2022 | 用StyleGAN进行数据增强,真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022|只能11%的参数就能优于Swin,微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍!人大提出交互协同的双流视觉语言预训练模型COTS,又快又好!

CVPR2022 Oral|通过多尺度token聚合分流自注意力,代码已开源

CVPR Oral | 谷歌&斯坦福(李飞飞组)提出TIRG,用组合的文本和图像来进行图像检索
回复

使用道具 举报

0

主题

2

帖子

3

积分

新手上路

Rank: 1

积分
3
发表于 5 天前 | 显示全部楼层
打酱油的人拉,回复下赚取积分
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|VV游戏

GMT+8, 2025-4-14 03:14 , Processed in 0.082226 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表