【4】【高晋】论文合集
- https://people.ucas.edu.cn/~jgao
- https://scholar.google.com/citations?hl=zh-CN&user=z3Z1ZsUAAAAJ&view_op=list_works&sortby=pubdate 主要
- 邮件 jin.gao@nlpr.ia.ac.cn
课题组
胡卫明
| 辅导学生 | |||
|---|---|---|---|
| Hanshi Wang | https://openreview.net/profile?id=~Hanshi_Wang2 | https://github.com/VERITAS12 | |
| Yiwei Zhang | https://scholar.google.com/citations?user=P8M_orkAAAAJ&hl=zh-CN |
工作经历 教育背景
2024-09~现在, 中国科学院自动化研究所, 研究员 博导
2019-10~2020-04,微软亚洲研究院, “铸星计划”访问研究员
2018-10~2024-09,中国科学院自动化研究所, 副研究员
2015-07~2018-10,中国科学院自动化研究所, 助理研究员
2014-02--2014-06 美国天普大学计算机与信息科学系 访问学生
2010-09--2015-07 中国科学院自动化研究所 模式识别与智能系统专业博士
2006-09--2010-07 北京航空航天大学 自动化(自动控制与信息技术)专业学士
文章
| 中文+英文题目(年份)(期刊) | 作者英文全名 | 要解决的问题 | 解决方法 | 解决效果 | 链接 |
|---|---|---|---|---|---|
| 将多样化分配策略整合进 DETR Integrating Diverse Assignment Strategies into DETRs(2026)(arXiv preprint arXiv:2601.09247) |
Yiwei Zhang, Jin Gao, Hanshi Wang, Fudong Ge, Guan Luo, Weiming Hu, Zhipeng Zhang | DETR 的一对一匹配监督稀疏、收敛慢,而现有一对多方案又常较复杂。 | 提出 LoRA-DETR,在训练期通过多个低秩分支注入多样化一对多分配监督。 | 在不增加推理开销的前提下获得更强检测性能,体现了多样分配策略的价值。 | 链接 |
| SoLA-Vision:细粒度分层线性-Softmax 混合注意力 SoLA-Vision: Fine-grained Layer-wise Linear Softmax Hybrid Attention(2026)(arXiv preprint arXiv:2601.11164) |
Ruibang Li, Guan Luo, Yiwei Zhang, Jin Gao, Bing Li, Weiming Hu | Softmax 注意力精度高但计算量大,线性注意力高效但表示能力偏弱。 | 通过细粒度逐层混合线性与 softmax 注意力,只在少量关键层使用全局 softmax。 | 在保持较低计算成本的同时提升了 ImageNet 与密集预测任务性能。 | 链接 |
| MI-DETR:结合生物启发运动整合的运动红外小目标检测强基线 MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration(2026)(arXiv preprint arXiv:2603.05071) |
Nian Liu, Jin Gao, Shubo Lin, Yutong Kou, Sikui Zhang, Fudong Ge, Zhiqiang Pu, Liang Li, Gang Wang, Yizheng Wang, Weiming Hu | 运动红外小目标检测中,目标极小、对比度低、背景动态复杂,显式运动建模不足。 | 用视网膜启发的运动图生成双通路外观/运动特征,并通过 PMI 模块与 RT-DETR 解码器联合检测。 | 在 IRDST-H 上达到 70.3% mAP@50、72.7% F1,较最佳多帧基线提升 26.35 mAP@50,并在 DAUB-R、ITSDT-15K 上表现强劲。 | 链接 |
| DeepTAGE:用于优化脉冲神经网络的深度时序对齐梯度增强 DeepTAGE: Deep Temporal-Aligned Gradient Enhancement for Optimizing Spiking Neural Networks(2025)(The Thirteenth International Conference on Learning Representations) |
Wei Liu, Li Yang, Mingxuan Zhao, Shuxun Wang, Jin Gao, Wenjuan Li, Bing Li, Weiming Hu | SNN 训练中膜电位随时间偏移,易造成梯度消失和优化失衡。 | 设计时序对齐梯度增强与时空深监督,改善不同时间步的梯度流。 | 在 CIFAR10、CIFAR100、ImageNet-1k 和 DVS-CIFAR10 上优于现有 SNN 方法,且不增加推理成本。 | 链接 |
| 高度保真的稠密全局融合用于多模态三维目标检测 Height-Fidelity Dense Global Fusion for Multi-modal 3D Object Detection(2025)(Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV 2025)) |
Hanshi Wang, Jin Gao, Weiming Hu, Zhipeng Zhang | 相机-激光融合难同时兼顾全局建模、效率与高度信息保真。 | 提出高度保真的 LiDAR 编码和 Hybrid Mamba Block 做稠密全局融合。 | 在 nuScenes 验证集达到 75.0 NDS,并且推理速度快于多数 SOTA 方法。 | 链接 |
| PFSD:面向半结构化环境丰富任务的多模态行人聚焦场景数据集 PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments(2025)(arXiv preprint arXiv:2502.15342) |
Yueting Liu, Hanshi Wang, Zhengjun Zha, Weiming Hu, Jin Gao | 半结构化场景中行人运动更复杂,但缺少高质量多模态数据集。 | 构建 PFSD 数据集,并提出 HMFN 作为基线检测模型。 | 数据集包含超过 13 万个行人实例,基线实验显示能有效提升复杂场景行人检测表现。 | 链接 |
| 基于时序自擦除监督的更具判别性的脉冲神经网络特征学习 Towards More Discriminative Feature Learning in SNNs with Temporal-Self-Erasing Supervision(2025)(Proceedings of the AAAI Conference on Artificial Intelligence 39(2), 1420-1428) |
Wei Liu, Li Yang, Mingxuan Zhao, Dengfeng Xue, Shuxun Wang, Boyu Cai, Jin Gao, Wenjuan Li, Bing Li, Weiming Hu | SNN 在多个时间步共享监督时,容易产生冗余激活,判别特征不足。 | 通过时序自擦除监督抑制重复关注,鼓励不同时间步学习互补特征。 | 提升了 SNN 的判别性,在多项基准上优于已有方法。 | 链接 |
| 带信使机制的双流 Transformer 跟踪 Two-stream Transformer Tracking with Messengers(2025)(Image and Vision Computing 158, 105510) |
Meng Qiu, Wenbo Luo, Tongfei Liu, Yu Jiang, Jiaming Yan, Wenjuan Li, Jin Gao, Weiming Hu, Stephen Maybank | 单流 Transformer 跟踪难兼顾表征丰富性和信息交互效率。 | 用双流结构分别建模不同信息流,并用 messenger 单元进行跨流通信。 | 提升了跟踪鲁棒性与准确率。 | 链接 |
| 通过掩码图像建模预训练探索强轻量视觉 Transformer 的实验研究 An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-training(2025)(International Journal of Computer Vision 133(7), 3918-3950) |
Jin Gao, Shubo Lin, Shaoru Wang, Yutong Kou, Zeming Li, Liang Li, Congxuan Zhang, Xiaoqin Zhang, Yizheng Wang, Weiming Hu | 轻量级 ViT 上的 MIM 预训练收益不足、尤其高层语义学习偏弱。 | 通过“观察-分析-改进”流程,提出预训练阶段蒸馏策略。 | 在 ImageNet-1K 上达到 79.4% top-1,在 ADE20K 上达 42.8% mIoU,在 LaSOT 上达 66.1% AUC。 | 链接 |
| SSTrack:用于轻量级视觉目标跟踪的采样间隔调度 SSTrack: Sample-interval Scheduling for Lightweight Visual Object Tracking(2025)(Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence) |
Yutong Kou, Shubo Lin, Liang Li, Bing Li, Weiming Hu, Jin Gao | 轻量级 CPU 跟踪器在单模板设定下难以兼顾训练难度和性能。 | 提出由易到难的训练日程、成功感知样本调度和梯度缩放。 | 在 5 个 UAV 跟踪基准和 5 个通用跟踪基准上取得 CPU 实时 SOTA 精度。 | 链接 |
| 面向图模型跨视角多目标跟踪的双头特征增强 Dual-Head Feature Enhancement for Graph-Based Cross-View Multi-object Tracking(2025)(International Conference on Artificial Neural Networks, 643-655) |
Yunfei Zhang, Jin Gao, Wenjuan Li, Weiming Hu | 跨视角多目标跟踪中的图特征表达不足,易影响跨视角身份关联。 | 提出双头特征增强机制,加强图模型中的判别表示与关联建模。 | 改善了跨视角身份保持和整体多目标跟踪效果。 | 链接 |
| Agentic Lybic:具有分层推理与编排能力的多智能体执行系统 Agentic Lybic: Multi-Agent Execution System with Tiered Reasoning and Orchestration(2025)(arXiv preprint arXiv:2509.11067) |
Liangxuan Guo, Bin Zhu, Qingqian Tao, Kangning Liu, Xun Zhao, Xianzhe Qin, Jin Gao, Guangfu Hao | 桌面自动化智能体在复杂多步任务中缺乏协调与质量控制。 | 将系统整体设计为 FSM 驱动的多智能体架构,含 Controller、Manager、Workers 与 Evaluator。 | 在 OSWorld 基准的 50 步设置上达到 57.07% 成功率,取得 SOTA 表现。 | 链接 |
| AutoPrune:不同复杂度应匹配不同剪枝策略 AutoPrune: Each Complexity Deserves a Pruning Policy(2025)(arXiv preprint arXiv:2509.23931) |
Hanshi Wang, Yuhao Xu, Zekun Xu, Jin Gao, Yufan Liu, Weiming Hu, Ke Wang, Zhipeng Zhang | 视觉语言模型固定剪枝日程无法适应不同样本和任务复杂度。 | 用视觉-文本 token 互信息估计复杂度,并映射为受预算约束的自适应保留曲线。 | 在 LLaVA-1.5-7B 上可剪去 89% 视觉 token、减少 76.8% FLOPs,同时保留 96.7% 原始精度。 | 链接 |
| 将在线三维“分割一切”重构为实例跟踪 Online Segment Any 3D Thing as Instance Tracking(2025)(arXiv preprint arXiv:2512.07599) |
Hanshi Wang, Zijian Cai, Jin Gao, Yiwei Zhang, Weiming Hu, Ke Wang, Zhipeng Zhang | 在线 3D 分割方法通常缺少时间维度建模,难以保持实例一致性。 | 将在线 3D 分割重构为实例跟踪问题,引入时间查询传播与空间一致性学习。 | 在 ScanNet200 上超过 ESAM 2.8 AP,并在多个数据集上取得一致提升。 | 链接 |
| Animate3D:利用多视角视频扩散实现任意 3D 模型动画化 Animate3D: Animating Any 3D Model with Multi-view Video Diffusion(2024)(Advances in Neural Information Processing Systems 37, 125879-125906) |
Yanqin Jiang, Chenjie Cao, Fan Wang, Weiming Hu, Jin Gao | 任意 3D 模型动画生成往往缺少高质量动态约束,结果不稳定。 | 用多视角视频扩散模型为 3D 模型提供一致的动态驱动。 | 能生成更自然、更稳定的 3D 动画效果。 | 链接 |
| VQ-Map:通过向量量化在离散空间中进行鸟瞰图地图布局估计 VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization(2024)(Advances in Neural Information Processing Systems 37, 70453-70475) |
Yiwei Zhang, Jin Gao, Fudong Ge, Guan Luo, Bing Li, Zhaoxiang Zhang, Haibin Ling, Weiming Hu | BEV 地图布局估计在连续空间中建模复杂、成本高。 | 用向量量化将布局表示为离散 token,再进行布局建模。 | 提升了地图布局估计的表示效率与准确性。 | 链接 |
| SynCL:面向端到端多相机 3D 跟踪的实例感知对比学习协同训练策略 SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking(2024)(arXiv preprint arXiv:2411.06780) |
Shubo Lin, Yutong Kou, Zirui Wu, Shaoru Wang, Bing Li, Weiming Hu, Jin Gao | 查询式 3D 跟踪中,检测和跟踪共享参数会产生优化冲突。 | 提出任务特定混合匹配、代价过滤和实例感知对比学习的协同训练框架。 | 在无额外推理开销下,将 PF-Track 在 nuScenes 上提升到 +3.9% AMOTA、+2.0% NDS。 | 链接 |
| NFT1000:用于非同质化代币检索的跨模态数据集 NFT1000: A Cross-Modal Dataset for Non-Fungible Token Retrieval(2024)(Proceedings of the 32nd ACM International Conference on Multimedia, 2214-2222) |
Shuxun Wang, Yunfei Lei, Ziqi Zhang, Wei Liu, Haowei Liu, Li Yang, Wenjuan Li, Bing Li, Weiming Hu | NFT 检索缺少大规模、高质量跨模态数据和统一基准。 | 构建包含 756 万图文对的数据集,并提出动态 masking 微调方案。 | 仅用约 13% 训练数据即取得 top-1 精度提升 7.4%。 | 链接 |
| BEV²PR:融合结构线索的鸟瞰增强视觉地点识别 BEV²PR: BEV-Enhanced Visual Place Recognition with Structural Cues(2024)(2024 IEEE/RSJ International Conference on Intelligent Robots and Systems) |
Fudong Ge, Yiwei Zhang, Shuhan Shen, Yue Wang, Weiming Hu, Jin Gao | 纯图像地点识别缺少明确结构信息,而 LiDAR 方案成本较高。 | 用单目相机生成 BEV 结构特征,并与视觉流联合构建全局描述子。 | 在 VPR-NuScenes 上相对强基线实现 Recall@1 绝对提升 2.47%,困难集提升 18.06%。 | 链接 |
| 结合可变形局部注意力与任务感知预测的单阶段无锚框在线多目标跟踪 One-Stage Anchor-Free Online Multiple Target Tracking With Deformable Local Attention and Task-Aware Prediction(2024)(IEEE Transactions on Pattern Analysis and Machine Intelligence) |
Weiming Hu, Shaoru Wang, Zongwei Zhou, Jin Gao, Yangxi Li, Stephen J. Maybank | 单阶段 MOT 往往难兼顾局部关联建模和检测/跟踪任务协同。 | 在无锚框框架中引入可变形局部注意力和任务感知预测模块。 | 提升了在线多目标跟踪的精度与实时性平衡。 | 链接 |
| 受生物启发的大细胞通路计算模型引导的视频微小无人机目标检测 Tiny Drone Object Detection in Videos Guided by the Bio-inspired Magnocellular Computation Model(2024)(Applied Soft Computing 163, 111892) |
Gang Wang, Xin Yang, Liang Li, Kai Gao, Jin Gao, Jiayi Zhang, Dajun Xing, Yizheng Wang | 视频中微小无人机目标低对比、低分辨,极易被背景淹没。 | 借鉴生物视觉中的大细胞通路机制强化运动敏感建模。 | 提升了复杂背景下的微小无人机检测性能。 | 链接 |
| 时序相关性与嵌入相结合:迈向第二代 JDE 实时多目标跟踪 Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking(2024)(arXiv preprint arXiv:2407.14086) |
Yunfei Zhang, Chao Liang, Jin Gao, Zhipeng Zhang, Weiming Hu, Stephen J. Maybank, Zhou Xue, Liang Li | JDE 类实时 MOT 对时序相关性的显式建模不足。 | 将时序相关性与嵌入学习结合,增强关联表示。 | 提升了实时多目标跟踪中的身份保持与整体精度。 | 链接 |
| DCFNet:面向视觉跟踪的判别相关滤波网络(期刊版) DCFNet: Discriminant Correlation Filters Network for Visual Tracking(2024)(Journal of Computer Science and Technology 39(3), 691-714) |
Weiming Hu, Qiang Wang, Jin Gao, Bing Li, Stephen J. Maybank | 需要兼顾相关滤波速度优势与深度学习表示能力。 | 将 DCF 以网络化方式端到端训练并系统扩展分析。 | 继续验证了该类方法在高效视觉跟踪中的强竞争力。 | 链接 |
| A-Teacher:面向三维半监督目标检测的非对称网络 A-Teacher: Asymmetric Network for 3D Semi-Supervised Object Detection(2024)(Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition) |
Hanshi Wang, Zhipeng Zhang, Jin Gao, Weiming Hu | 3D 检测标注代价高,半监督学习效果仍受限。 | 提出非对称 teacher-student 结构,提高伪标签质量和利用率。 | 在有限标注下显著提升 3D 检测性能。 | 链接 |
| 基于对偶误差的脉冲神经网络多目标检测方法 Multi-object Detection Method for Spiking Neural Networks Based on Dual Errors(2023)(电子与信息学报 45(12), 4469-4476) |
Wei Liu, Wenjuan Li, Jin Gao, Liang Li | 脉冲神经网络用于目标检测时,误差传播与表示能力不足。 | 基于“对偶误差”设计训练/优化策略,提高 SNN 的检测能力。 | 提升了多目标检测精度,同时保留了 SNN 的低功耗潜力。 | 链接 |
| ZoomTrack:面向高效视觉跟踪的目标感知非均匀缩放 ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual Tracking(2023)(Advances in Neural Information Processing Systems 36, 50959-50977) |
Yutong Kou, Jin Gao, Bing Li, Gang Wang, Weiming Hu, Yizheng Wang, Liang Li | 统一缩放会压缩目标细节,轻量级跟踪器难兼顾效率与精度。 | 提出目标感知的非均匀缩放策略,让目标区域保留更多分辨率。 | 在轻量级和高效跟踪设置下取得很强表现。 | 链接 |
| Consistent4D:从单目视频生成一致的 360° 动态物体 Consistent4D: Consistent 360° Dynamic Object Generation from Monocular Video(2023)(arXiv preprint arXiv:2311.02848) |
Yanqin Jiang, Li Zhang, Jin Gao, Weiming Hu, Yao Yao | 单目视频生成 4D 动态物体通常依赖多视角数据和相机标定。 | 以 3D-aware 扩散模型监督 Cascade DyNeRF,并加入插值一致性损失。 | 在无需多视角采集和标定的条件下取得有竞争力结果。 | 链接 |
| 带密集连接的多相关孪生 Transformer 三维单目标跟踪网络 Multi-Correlation Siamese Transformer Network With Dense Connection for 3D Single Object Tracking(2023)(IEEE Robotics and Automation Letters 8(12), 8066-8073) |
Shihao Feng, Pengpeng Liang, Jin Gao, Erkang Cheng | 3D 单目标跟踪中,多尺度相关性与长程依赖建模不足。 | 以孪生 Transformer 建模多相关信息,并加入密集连接增强特征传播。 | 提升了 3D 单目标跟踪的鲁棒性与精度。 | 链接 |
| 重新审视自监督轻量级视觉 Transformer A Closer Look at Self-Supervised Lightweight Vision Transformers(2023)(International Conference on Machine Learning, 35624-35641) |
Shaoru Wang, Jin Gao, Zeming Li, Xiaoqin Zhang, Weiming Hu | 自监督预训练对轻量级 ViT 的真实收益仍不清楚。 | 系统比较多种自监督方法,分析层表示、注意力与轻量模型行为,并设计蒸馏改进。 | 证明轻量级 vanilla ViT 也能达到强性能,并进一步提升下游表现。 | 链接 |
| PolarFormer:基于极坐标 Transformer 的多相机三维目标检测 PolarFormer: Multi-Camera 3D Object Detection with Polar Transformer(2023)(Proceedings of the AAAI Conference on Artificial Intelligence 37(1), 1042-1050) |
Yanqin Jiang, Li Zhang, Zhenwei Miao, Xiatian Zhu, Jin Gao, Weiming Hu, Yu-Gang Jiang | 多相机 3D 检测中透视变化与几何建模困难。 | 将场景投影到更适合建模的极坐标空间,并用 Transformer 融合信息。 | 提升了多相机 3D 检测的几何表达能力和检测效果。 | 链接 |
| 基于红外与反转红外图像的双分支无人机目标跟踪算法 Dual-Branch UAV Target Tracking Algorithm Based on Infrared and Inverted-Infrared Images(2023)(火力与指挥控制 48(6), 19-27) |
Shaogang Li, Jin Gao, Lie Wang, Yizheng Wang, Liang Li | 红外无人机目标弱小、低对比,易受背景干扰。 | 采用双分支结构分别建模原始红外与增强或反转红外信息。 | 提高了弱小无人机目标的可分性和跟踪鲁棒性。 | 链接 |
| 时空运动信息引导的视频微小目标检测 Video Tiny-Object Detection Guided by the Spatial-Temporal Motion Information(2023)(Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops) |
Xin Yang, Gang Wang, Weiming Hu, Jin Gao, Shubo Lin, Liang Li, Kai Gao, Yizheng Wang | 视频中的微小目标纹理弱、尺寸小,单帧检测困难。 | 借助时空运动信息引导特征提取与检测。 | 明显改善了视频微小目标检测效果。 | 链接 |
| 分层视觉-语言知识蒸馏的开放词汇单阶段检测 Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation(2022)(Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition) |
Zongyang Ma, Guan Luo, Jin Gao, Liang Li, Yuxin Chen, Shaoru Wang, Congxuan Zhang, Weiming Hu | 封闭类别检测器无法识别开放词汇中的新类别。 | 用分层视觉语言知识蒸馏,把开放词汇能力迁移到单阶段检测器。 | 提升了开放词汇检测性能,同时保留了单阶段方法的效率优势。 | 链接 |
| 利用运动信息抑制干扰物的视觉跟踪 Exploring Motion Information for Distractor Suppression in Visual Tracking(2022)(Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops) |
Kaiwen Liu, Jin Gao, Haowei Liu, Liang Li, Bing Li, Weiming Hu | 外观相似的干扰物容易误导跟踪器。 | 将运动信息显式引入目标与干扰区分过程。 | 提升了复杂背景和相似干扰场景下的鲁棒性。 | 链接 |
| 基于判别式自监督学习的可伸缩预训练网络 DSPNet: Towards Slimmable Pretrained Networks based on Discriminative Self-supervised Learning(2022)(arXiv preprint arXiv:2207.06075) |
Shaoru Wang, Zeming Li, Jin Gao, Liang Li, Weiming Hu | 可伸缩网络在预训练后往往难兼顾不同宽度下的表示质量。 | 提出面向 slimmable 网络的判别式自监督预训练框架。 | 改善了不同模型宽度下的精度与效率权衡。 | 链接 |
| 缩小差距:带噪位置标注下的改进检测器训练 Narrowing the Gap: Improved Detector Training With Noisy Location Annotations(2022)(IEEE Transactions on Image Processing 31, 6369-6380) |
Shaoru Wang, Jin Gao, Bing Li, Weiming Hu | 框位置标注噪声会显著损害检测器训练效果。 | 设计更稳健的训练策略,减小噪声标注与干净标注之间的性能差距。 | 在噪声框条件下显著改善检测性能。 | 链接 |
| 基于深度卷积神经网络的小型民用无人机检测研究进展 Research Progress on Small Civilian UAV Detection Based on Deep Convolutional Neural Networks(2022)(红外技术 44(11), 1119-1131) |
Dong Yang, Gang Wang, Dong Li, Jin Gao, Yizheng Wang | 小型民用无人机目标小、背景复杂、公开综述不足。 | 系统梳理深度卷积网络在无人机检测中的数据、方法与挑战。 | 为后续研究提供了较完整的技术路线和问题总结。 | 链接 |
| 面向孪生视觉跟踪的通用目标攻击强基线 A Simple and Strong Baseline for Universal Targeted Attacks on Siamese Visual Tracking(2021)(IEEE Transactions on Circuits and Systems for Video Technology 32(6), 3880-3894) |
Zhenbang Li, Yaya Shi, Jin Gao, Shaoru Wang, Bing Li, Pengpeng Liang, Weiming Hu | 缺少针对孪生跟踪器的统一、强力、可泛化目标攻击基线。 | 构建简单而强的通用目标攻击框架,分析模型脆弱性。 | 证明了孪生跟踪器在攻击场景下的明显风险,并提供了强基准。 | 链接 |
| 递归最小二乘估计辅助的视觉跟踪在线学习 Recursive Least-Squares Estimator-Aided Online Learning for Visual Tracking(2020)(Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition) |
Jin Gao, Weiming Hu, Yan Lu | 在线更新容易受噪声样本干扰,造成模型漂移。 | 用递归最小二乘估计辅助在线学习,稳定参数更新。 | 增强了模型自适应能力和长期跟踪稳定性。 | 链接 |
| 通过模板像素操控实现孪生视觉跟踪模型自适应 Manipulating Template Pixels for Model Adaptation of Siamese Visual Tracking(2020)(IEEE Signal Processing Letters 27, 1690-1694) |
Zhenbang Li, Bing Li, Jin Gao, Liang Li, Weiming Hu | 孪生跟踪器通常只用初始模板,难以适应后续外观变化。 | 直接操控或优化模板像素,在测试时实现轻量级模型自适应。 | 提升了跨场景和大外观变化下的跟踪准确率。 | 链接 |
| 无锚框单阶段在线多目标跟踪 Anchor-Free One-Stage Online Multi-object Tracking(2020)(Chinese Conference on Pattern Recognition and Computer Vision (PRCV), 55-68) |
Zongwei Zhou, Yangxi Li, Jin Gao, Junliang Xing, Liang Li, Weiming Hu | 多目标跟踪中的 anchor 设计复杂,影响效率和简洁性。 | 采用 anchor-free 的单阶段框架统一完成检测与跟踪。 | 在保持高效率的同时获得了有竞争力的多目标跟踪效果。 | 链接 |
| 全局时空感知:一种长时跟踪系统 Globally Spatial-Temporal Perception: A Long-Term Tracking System(2020)(2020 IEEE International Conference on Image Processing (ICIP), 2066-2070) |
Zhenbang Li, Qiang Wang, Jin Gao, Bing Li, Weiming Hu | 长时跟踪中目标会消失、重现和严重形变,容易丢失。 | 建立全局时空感知机制,增强历史记忆与再发现能力。 | 提升了长时间、复杂场景下的跟踪连续性。 | 链接 |
| 面向孪生跟踪器的端到端时序特征聚合 End-to-End Temporal Feature Aggregation for Siamese Trackers(2020)(2020 IEEE International Conference on Image Processing (ICIP), 2056-2060) |
Zhenbang Li, Qiang Wang, Jin Gao, Bing Li, Weiming Hu | 孪生跟踪器主要依赖当前帧,时序信息利用不足。 | 端到端聚合多帧时序特征,增强目标动态建模。 | 对遮挡和外观变化更稳健,跟踪效果更好。 | 链接 |