MyPaper

相关领域
多标签图像分类
Training-Free Open-Vocabulary Semantic Segmentation
Training Open-Vocabulary Semantic Segmentation
Zero-Shot Open-Vocabulary Semantic Segmentation
Few-Shot Open-Vocabulary Semantic Segmentation
Supervised Semantic Segmentation
Weakly Supervised Semantic Segmentation
Semi-Supervised Semantic Segmentation
Unsupervised Semantic Segmentation
检索
老师提供暂存

Hover Image Scaled Example (Damping Effect)

暂存

[2024 ECCV] E-SD³: Fine-Grained Confidence-Aware Fusion of SD3 for Zero-Shot Semantic Matching [code]

[2026 ICLR] MULTI-LEVEL CLIP TRANSFER FOR OPEN VOCABULARYOBJECTDETECTION [paper]

[2026 ICLR] COPATCH: ZERO-SHOTREFERRINGIMAGESEGMEN TATIONBYLEVERAGINGUNTAPPEDSPATIALKNOWL EDGEINCLIP [paper]

[2026 ICLR] IMPROVING VISUAL DISCRIMINABILITY OF CLIP FORTRAINING-FREEOPEN-VOCABULARYSEMANTIC SEGMENTATION [paper]

[2026 ICLR] TIDES:TRAINING-FREEINSTANCEDETECTIONFROM SEMANTICS [paper]

[2026 ICLR] BEYONDOPEN-WORLD:COSRA,ATRAINING-FREE SELF-REFININGAPPROACHTOOPEN-ENDEDOBJECT DETECTION [paper]

[2026 ICLR] GRAPH-REFINEDREPRESENTATIONLEARNINGFOR FEW-SHOTCLASSIFICATIONVIACLIPADAPTATION [paper]

多标签图像分类

[2022 IJCV] Learning to Prompt for Vision-Language Models[paper][code]

CoOp：通过可学习向量对Prompt上下文词进行建模，并在固定预训练模型参数的同时，利用分类损失进行优化。为自动化此过程，本文提出了Context Optimization (CoOp) 方法，通过可学习向量对Prompt上下文词进行建模，并在固定预训练模型参数的同时，利用分类损失进行优化。

[2023 ICCV] PatchCT: Aligning Patch Set and Label Set with Conditional Transport for Multi-Label Image Classification[paper] [code]

PatchCT：将图像表示为视觉块嵌入和文本标签嵌入的离散分布，通过逐层最小化双向CT成本来学习并对齐这两个语义集合，同时引入稀疏的标签引导式补丁选择和提示学习。

[2023 ICCV] Cdul: Clip-driven unsupervised learning for multi-label image classification[paper][code]

CDUL：通过将图像分割成片段并利用 CLIP 模型聚合全局与局部图像-文本相似性，生成高质量的初始伪标签，随后采用梯度对齐优化框架递归更新分类网络参数并精炼伪标签。

[2024 ICML] Language-driven Cross-modal Classifier for Zero-shot Multi-label Image Recognition[paper][code]

CoMC：该框架利用大型语言模型（LLM）生成高质量多标签文本数据来训练分类器，并引入了一种高效的跨模态映射方法，将图像嵌入映射到语言模态以弥合模态差距，同时融合原始视觉信息。大模型LLM（GPT-3）生成图像文本描述

[2024 AAAI] TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP Without Training[paper][code]

TagCLIP：CLIP最后一层注意力操作会破坏空间信息。通过Patch级分类获取粗分数，继而采用双掩码注意力细化（DMAR）模块进行优化，并通过类别重识别（CWR）模块从全局视角校正预测。忽略CLIP-ViT模型最后一个自注意力操作，直接从倒数第二层获取 dense token 输出。

[2024 ICLR] A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation[paper][code]

研究者重新审视高斯判别分析（GDA），通过从训练数据中估计类别均值和协方差来直接构建分类器，并将其与CLIP的零样本分类器融合以整合多模态知识。

[2025 CVPR] SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models[paper][code]

SPARC：将VLM视为黑盒，利用大语言模型洞察对象共现关系构建复合提示，并通过去偏算法和自适应分数融合技术，纠正了图像偏见并发现次高复合得分比最高得分更具区分性。复合提示生成，排序融合。

[2025 CVPR] Classifier-guided CLIP Distillation for Unsupervised Multi-label Classification[paper][code]

CCD：利用分类器引导的类别激活图（CAM）自适应地选择并生成局部视图伪标签，并引入去偏机制校正CLIP的预测偏差，同时结合一致性损失处理噪声。

[2025 CVPR] Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal Transport[paper][code]

RAM：该框架引入Ladder Local Adapter (LLA) 来恢复CLIP的局部语义，并通过Knowledge-Constrained Optimal Transport (KCOT) 将区域-标签匹配建模为知识约束的最优传输问题，从而抑制了对非目标标签的无效匹配。

[2025 CVPR] Correlative and Discriminative Label Grouping for Multi-Label Visual Prompt Tuning[paper][code]

ML-VPT：该框架引入Ladder Local Adapter (LLA) 来恢复CLIP的局部语义，并通过Knowledge-Constrained Optimal Transport (KCOT) 将区域-标签匹配建模为知识约束的最优传输问题，从而抑制了对非目标标签的无效匹配。

[2025 ICML] From Local Details to Global Context:Advancing Vision-Language Models with Attention-Based Selection[paper][code]

ABS：一种无需训练的注意力引导选择方法，它利用DINO注意力图在原始图像和特征空间进行裁剪，以同时捕获局部特征和补充全局语义信息。

[2025 ICCV] Category-Specific Selective Feature Enhancement for Long-Tailed Multi Label Image Classification
[2025 ICCV]MambaML: Exploring State Space Models for Multi-Label Image Classification
[2025 ICCV]Category-Specific Selective Feature Enhancement for Long-Tailed Multi-Label Image Classification
[2025 ICCV] More Reliable Pseudo-labels, Better Performance: A Generalized Approach to Single Positive Multi-label Learning[paper][code]

AEVLP：框架包含广义伪标签鲁棒损失（GPR Loss），旨在有效处理各种伪标签并减轻其噪声影响，同时引入动态增强多焦点伪标签（DAMP）技术，利用视觉-语言模型生成更可靠且动态变化的伪标签。

[2025 ICCV] Language-Driven Multi-Label Zero-Shot Learning with Semantic Granularity [code]

无需训练”的CLIP模型自适应新方法

2025年10月7日添加

[2024 ECCV] Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection [paper] [code]

Grounding DINO：通过在特征增强、语言引导查询选择和跨模态解码器三个阶段进行紧密的多模态融合，并引入子句级文本特征进行大规模 grounded pre-training，有效融合了语言和视觉模态。

2025年10月13日添加

[2025 IEEE] Modeling Cross-Modal Semantic Transformations from Coarse to Fine in CLIP [paper]

HIVE：通过超球面变分适配器（HVA）使用von Mises-Fisher (vMF) 分布来建模CLIP特征的超球面几何特性，并结合潜在超球面空间插值（LHSI）机制，利用球面线性插值（SLERP）从图像和粗粒度文本特征中生成精细粒度文本特征。旨在通过建模跨模态语义转换，实现从粗粒度到细粒度的语义建模。

Few-Shot Classification

[2022 ECCV] Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [paper][code]

Tip-Adapter：通过从少量训练集构建一个非参数化的键值缓存模型，并结合CLIP的预训练知识进行特征检索，实现了与需训练方法相媲美的少样本分类性能。“基于缓存模型”的机制：通过“距离”进行知识检索和融合

[2026 ICLR] GRAPH-REFINEDREPRESENTATIONLEARNINGFOR FEW-SHOTCLASSIFICATIONVIACLIPADAPTATION [paper]

为解决少样本图像分类中CLIP模型适应性受限的问题，提出一个新颖的图驱动缓存细化框架，旨在通过任务特定表示学习增强CLIP的先验知识。包含两个阶段：归纳统计子空间聚合（ISSA）将CLIP特征划分为子空间并捕获局部依赖，随后特征子空间传播（FSP）全局扩散上下文信号，生成更丰富的嵌入。

Training-Free Open-Vocabulary Semantic Segmentation

[2024 CVPR] Clip-diy: Clip dense inference yields open-vocabulary semantic segmentation for-free [paper][code]

原始图像被分割成不同大小,每一个使用CLIP得到特征向量，不同尺度下的相似度图会被平均聚合，生成一个最终的多尺度CLIP相似度图，原始输入图像也会被送入一个现成的、无监督的前景/背景分割器FOUND引导式分割得到最终分割图。

[2024 CVPR] Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [paper] [code]

离线原型生成阶段:使用 Stable Diffusion 模型,结合大量的文本描述提取局部化掩码,采用 DINOv2视觉原型提取,CLIP 文本键提取,每个文本键都与一个视觉原型相关联,构建一个大规模的文本-视觉原型集合无训练掩码预测阶段:给定一组文本类别,检索到的原型取平均得到视觉原型.超像素的局部区域分割Felzenszwalb,CLIP的全局相似性加权。

[2024 ECCV] Diffusion Models for Open-Vocabulary Segmentation [paper] [code]

使用Stable Diffusion，得到类特征向量质量高生成：输入类别Stable Diffusion生成图片。表示：DINO、CLIP提取特征，利用扩散模型中的交叉注意力图，CutLER来辅助生成更精确的物体掩码，平均获得原型。匹配：使用CLIP先过滤类，在与原型精确计算余弦相似度。

[2024 ECCV] ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [paper] [code]

CLIP产生了具有错误分割区域的嘈杂分割图，去除残差连接、实现自注意力和丢弃前馈网络。ClearCLIP 始终如一地生成更清晰、更准确的分割图

[2024 ECCV] SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [paper] [code]

CLIP的分割性能不佳是由斑块表示的空间错位引起的，而不是无法提取密集的视觉特征,问题出在CLIP的自注意力模块,使用 CSA 模块代替 CLIP 视觉编码器中的原始自注意力块

[2024 ECCV] Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [paper] [code]

NACLIP: 一个非归一化多元（2D）高斯核叠加到自注意力机制的 logits 上,关注邻居。将相似性度量从 $qk^T$更改为 k k^T。移除了最后一个编码器块中的前馈网络和相应的跳跃连接。

[2024 ECCV] Proxyclip: Proxy attention improves clip for open-vocabulary segmentation [paper] [code]

ProxyCLIP:利用VFMs的空间特征对应作为代理注意力来增强CLIP,使用CLIP分割。

[2024 ECCV] Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation [paper] [code]

CLIPtrase:最后一层qkv,每一个计算余弦相似度，然后求平均w。聚类：对归一化的w使用基于密度的聚类DBSCAN(不要cls)，对每一类求平均值。去噪: (平均他注意力) — (自注意力)

[2024 arXiv] CLIPer: Hierarchically Improving Spatial Representation of CLIP for Open-Vocabulary Semantic Segmentation [paper] [code]

将CLIP前N−1层（除了最后一层）的注意力图进行平均,替换最后一层原始的自注意力图。多个输出嵌入与文本嵌入的余弦相似度。CLIP分割粗糙，利用 Stable Diffusion 模型的自注意力图来补偿和细化这些局部细节。

[2024 CVPR] Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models [paper] [code]

PnP-OVSS：一种无需训练即可从现成视觉-语言模型中提取开放词汇语义分割能力的有效技术。 PnP-OVSS通过结合GradCAM锐化交叉注意力图和Salience DropOut迭代完善分割掩膜，并创新性地采用基于CLIP的弱监督奖励函数进行无像素级标注的超参数调优。GPT4o 过滤出图像中可能出现的类别，GradCAM 锐化，高斯核进行平滑与 Dense CRF分割掩码进行细粒度调整。

[2024 CVPR] Image-to-Image Matching via Foundation Models: A New Perspective for Open-Vocabulary Semantic Segmentation [paper]

RIM：利用Stable Diffusion模型生成图像模态参考特征，并结合SAM模型通过交叉注意力图精炼前景分割，从而将区域分类从文本-图像匹配转换为对齐更佳的图像-图像匹配。

[2024 ECCV] In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [paper] [code]

LaVG采用两阶段无监督策略：首先通过对DINO ViT特征进行迭代Normalized cut（称为Panoptic cut）发现图像中的所有对象掩码，然后利用CLIP的跨模态相似性，以“延迟交互”方式为这些发现的掩码分配文本类别。“延迟视觉基准”（late text interaction），即首先仅凭视觉输入发现图像中的对象掩码，然后才将文本描述分配给这些已发现的对象。这种方法避免了像素级基准可能带来的噪声和不精确边缘问题，并旨在生成更清晰、更精确的对象边界。

[2025 CVPR] LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation [paper] [code]

LPOSS:

[2025 CVPR] ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [paper] [code]

残差互相关自注意力（RCS）和语义反馈细化（SFR）模块。这两个模块可以纠正最后一层的注意力，以捕获特定类的特征和局部一致性，从而改进密集视觉语言预测任务的CLIP模型。

[2025 CVPR] Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [paper] [code]

CASS:移除CLIP最后一层的残差连接、前馈网络和自注意力层。学习矩阵，把VFM图蒸馏到CLIP文本聚类，可以在语义相似的文本类别组中，识别出图像中最可能存在的对象。

[2025 CVPR] Cheb-GR: Rethinking k-nearest neighbor search in Re-ranking for Person Re-identification [paper] [code]

Cheb-GR :通过切比雪夫定理指导的自适应邻居搜索，高效地筛选相似图像并构建图，随后利用参数无关的图卷积操作精炼图像特征以提升重排序性能。

[2025 CVPR] ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements [paper] [code]

对 ViT 架构进行调整，采用q-q,k-k注意力机制、移除最后一层的前馈网络并融合中间层注意力图(平均值)；数据增强分为两类：第一类保持空间结构不变（如高斯模糊、灰度化），第二类改变空间结构（如水平翻转、垂直翻转）；利用大型语言模型LLaMa 3为类别名称生成定义和同义词，以扩展文本特征。

[2025 CVPR] Search and Detect: Training-Free Long Tail Object Detection via Web-Image Retrieval [paper] [code]

SearchDet：基于Web图像检索的支持图像获取目标的正向和负向网络图像并进行嵌入，利用注意力机制生成加权查询，再结合SAM区域提议、频率自适应阈值和像素级热图，实现精确的目标定位与边界细化。

[2025 CVPR] Shift the Lens: Environment-Aware Unsupervised Camouflaged Object Detection [paper] [code]

EASE：EASE利用DiffPro模块自动构建环境原型库，该模块整合了大型多模态、扩散及视觉基础模型，并辅以KDE-AT、G2L和SR等多元检索机制高效提取环境特征。

[2025 ICCV] LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scene [paper] [code]

WildSeg3D：引入了动态全局对齐（DGA）来解决多视图3D对齐误差，并通过多视图群组映射（MGM）利用预处理的掩码缓存实现快速多视图分割融合。

[2025 ICCV] WildSeg3D: Segment Any 3D Objects in the Wild from 2D Images [paper]

EASE：简化的特征聚合技术实现2D到3D特征的映射，并利用图扩散机制结合3D几何信息及DINOv2特征相似性来精炼三维特征。

[2025 ICCV] Harnessing Vision Foundation Models for High-Performance, Training-Free Open Vocabulary Segmentation [paper] [code]

Trident：DINO与SAM辅助CLIP构建更好的特征向量通过拼接CLIP和DINO从子图像提取的特征，并利用SAM编码器生成相关矩阵进行全局聚合，同时设计了一种将CLIP粗分割输出转换为SAM提示的细化策略以进一步提升性能。

[2025 ICCV] E-SAM: Training-Free Segment Every Entity Model [paper]

E-SAM：多级掩码生成（MMG）用于分层处理SAM输出以获得可靠对象级掩码；实体级掩码细化（EMR）通过分离重叠和融合相似掩码进行精确细化；欠分割细化（USR）则通过生成和融合额外的高置信度掩码来弥补遗漏区域。

[2025 ICCV] ReME: A Data-Centric Framework for Training-Free Open-Vocabulary Segmentation [paper] [code]

其核心在于从真实图像中构建一个高质量、对齐良好、语义丰富且上下文相关的片段-文本对参考集，并通过简单的相似度检索机制，在不进行任何模型微调的情况下，显著提升 OVS 性能。测试片段与参考集标签相似度 * 参考集标签与测试类别的相似度 = 测试片段与测试类别的相似度只是简单的线性变换

[2025 ICCV] CorrCLIP: Reconstructing Patch Correlations in CLIP for Open-Vocabulary Semantic Segmentation [paper] [code]

CorrCLIP:引入SAM进行范围重建以限定Patch交互区域，并利用DINO进行值重建来计算更一致的相似度值，从而显著减少类间关联。对CLIP：SAM生成区域掩码,明确补丁交互的范围,DINO来构建更连贯的相似度矩阵，从而降低类间关联的权重。

[2025 ICCV] CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting [paper] [code]

CCL-LGS:结合SAM生成的2D掩码、零样本跟踪进行跨视图对齐，并引入对比码本学习CCL模块，来强制执行视图一致的语义监督，从而提炼出具有类内紧凑性和类间区分性的判别性语义特征。

[2025 ICCV] Auto-Vocabulary Semantic Segmentation [paper]

AutoSeg：利用名为BBoost的方法，通过语义增强的BLIP嵌入生成图像特定词汇，进而指导预训练的开放词汇分割（OVS）模型进行高分辨率分割。

[2025 ICCV] Understanding Personal Concept in Open-Vocabulary Semantic Segmentation [paper]

即插即用，模型能理解“我的马克杯”等个人概念。通过文本提示微调现有OVSS模型，并结合“负掩码提议”以减少误报，同时注入视觉嵌入以丰富提示表示。可学习的文本嵌入拼接到文本向量，负掩码嵌入使用可学习的线性层。

[2025 ICCV] Training-Free Class Purification for Open-Vocabulary Semantic Segmentation [paper] [code]

FreeCP通过分析精炼前后类激活图的空间一致性，分两阶段进行类别净化：首先滤除冗余类别，然后结合大型语言模型（LLM）生成的细粒度描述来消除视觉-语言歧义。即插即用

[2025 ICCV] DIH-CLIP: Unleashing the Diversity of Multi-Head Self-Attention for Training-Free Open-Vocabulary Semantic Segmentation
[2025 ICCV] Correspondence as Video: Test-Time Adaption on SAM2 for Reference Segmentation in the Wild [paper][code]

CAV-SAM(野外下游任务)：扩散模型,驱动的语义转换（DBST）模块，用于构建图像间平滑的语义变换序列；以及测试时几何对齐（TTGA）模块，通过轻量级微调实现几何变化对齐并为SAM2提供额外提示。

[2025 ICCV] Feature Purification Matters: Suppressing Outlier Propagation for Training-Free Open-Vocabulary Semantic Segmentation
[2025 ICCV] Plug-in Feedback Self-adaptive Attention in CLIP for Training-free Open-Vocabulary Segmentation [paper][code]

FSA：一种免训练的即插即用反馈自适应注意力框架，它将模型输出层面的补丁级预测作为强大的语义线索，并将其反馈回中间注意力进行调整。(vit最后一层)

[2025 ICCV] Test-Time Retrieval-Augmented Adaptation for Vision-Language Models [paper] [code]

RA-TTA：检索增强型测试时自适应（RA-TTA）方法，它通过利用VLM的双模态性，从海量图像数据库中自适应地检索与测试图像关键特征相关的外部图像，并结合细粒度文本描述来完善预测。

[2025 ICCV] Images as Noisy Labels: Unleashing the Potential of the Diffusion Model for Open-Vocabulary Semantic Segmentation
[2025 AAAI] Training-free Open-Vocabulary Semantic Segmentation via Diverse Prototype Construction and Sub-region Matching [paper]
[2025 arXiv] Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [paper] [code]

SC-CLIP：通过识别并解决异常tokens，利用CLIP中间层特征的语义一致性增强特征判别力和注意力相关性，并有效融合多级特征来校准模型。

[2025 arXiv] Test-Time Adaptation of Vision-Language Models for Open-Vocabulary Semantic Segmentation [paper] [code]

MLMP：通过自适应整合视觉编码器中间层特征和利用不同文本提示模板进行多提示熵最小化，同时优化全局CLS token和局部像素级别的预测，有效捕获互补且对偏移具有鲁棒性的特征。

[2025 arXiv] FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation [paper] [code]

FLOSS：类别专家，找到每一个类的最佳模板从而为每个类别生成一个更精准、更具辨识度的文本表示，来提高像素级的分割性能。

[2025 arXiv] TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models [paper] [code]

TextRegion：SAM2与图像-文本模型(CLIP SigLIP2 PE)结合，在图像-文本模型最后一个注意力层，不使用模型原生的 [CLS]token 的注意力权重，而是用下采样后的软掩码来引导注意力池化。

[2025 arXiv] A Survey on Training-free Open-Vocabulary Semantic Segmentation [paper]

总结30余种OVSS方法分为纯粹基于CLIP的方法、结合CLIP与DINO或SAM等辅助视觉基础模型的方法，以及利用Stable Diffusion等生成模型以增强密集预测和定位能力的方法。

[2025 arXiv] No time to train! Training-Free Reference-Based Instance Segmentation [paper] [code]

DINOv2与SAM2结合少样本，使用DINOv2提取特征，求类平均值特征。

2025年10月7日添加

[2024 arXiv] There is no SAMantics! Exploring SAM as a Backbone for Visual Understanding Tasks [paper] [code]

量化发现SAM的特征表示缺乏显著的语义区分性。研究进一步尝试通过轻量级微调和in-context学习为SAM注入语义信息，但结果显示模型对已知类别存在过拟合，对未见类别泛化能力有限。作者由此发布后续作品 No time to train! Training-Free Reference-Based Instance Segmentation

[2025 arXiv] Rethinking the Global Knowledge of CLIP in Training-Free Open-Vocabulary Semantic Segmentation [paper]

GCLIP：针对现有训练无关开放词汇语义分割（TF-OVSS）方法因过度局部化而削弱CLIP全局上下文的问题，提出了GCLIP框架以重新利用CLIP的有益全局知识。两种创新策略：“注意力图融合”（AMF）将全局token涌现块的注意力图与最终块的Query-Query注意力融合，赋予其图像级全局属性；“通道抑制”（CS）则通过抑制FFN异常权重范数，增强最终块Value嵌入的语义相关性。

[2025 arXiv] Seg2Track-SAM2: SAM2-based Multi-object Tracking and Segmentation for Zero-shot Generalization [paper] [code]

Seg2Track-SAM2：“Zero-Shot" 和 "Training-Free"，基于 SAM2 的多对象跟踪与分割（MOTS）框架，通过集成预训练检测器和新型 Seg2Track 模块，旨在实现零样本泛化能力和增强跟踪鲁棒性

[2024 arXiv] FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [paper] [code]

FreeSeg-Diff：该方法利用冻结的Stable Diffusion模型提取内部视觉特征，结合BLIP生成图像描述，通过聚类创建与类别无关的掩码，再使用CLIP模型进行文本-掩码匹配和精修。对图片使用BLIP生成描述文本，利用NLP提取关键词给CLIP。

[2024 arXiv] TAG: Guidance-free Open-Vocabulary Semantic Segmentation [paper] [code]

TAG：利用预训练的CLIP和DINOv2模型提取图像的像素级语义特征，并通过从外部数据库检索的方式，为图像中的每个语义区域分配开放词汇类别。使用DINOv2分割，聚类得到mask，利用外部数据库来检索最匹配的类别。

[2025 arXiv] What Holds Back Open-Vocabulary Segmentation? [paper]

即使拥有完美的分割边界，CLIP模型在区域级分类方面仍表现不佳，且远低于领域内基线（in-domain baselines）。当提供完美分类时，证实了识别能力是性能瓶颈的主要组成部分，尤其对于未见类别。然而，即使分类完美，整体性能仍低于典型的领域内基线，这表明剩余的限制在于掩码提议（mask proposals）的质量。模型内部生成了许多有效的掩码提议，但由于“无对象”嵌入的校准不良或被其他掩码掩盖而被错误丢弃。特别是，未见类别的显著提升表明模型能够成功定位并分配正确的语义类别，但这些准确的掩码在推理时被错误地排除了。揭示了标注策略冲突是主要障碍。COCO与ADE20K标注冲突。

2025年10月13添加

[2025 NeurIPS] Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [paper] [code]

Seg4Diff：系统性地分析了多模态扩散Transformer (MM-DiT) 中文本到图像的跨模态注意力机制，并发现了MM-DiT块中存在“语义基础专家层”，这些层能够将文本概念与连贯的图像区域进行高质量对齐。这些专家层的注意力图可直接用于零样本开放词汇语义分割和无监督分割，并且通过对I2T注意力图进行分析，揭示了其多粒度语义分组能力，甚至无语义的token也能形成有意义的区域。基于此，引入了轻量级微调方案MAGNET，通过掩码对齐进一步强化了专家层的语义分组能力，不仅显著提升了分割性能，也同时改善了生成图像的质量和文本-图像对齐效果，为统一生成与感知的模型开辟了道路。 Image-to-Text (I2T) 注意力图来生成分割掩码。Stable Diffusion 3来识别。

[2025 arXiv] SeMoBridge: Semantic Modality Bridge for Efficient Few-Shot Adaptation of CLIP [paper] [code]

SeMoBridge：通过语义模态桥将图像嵌入投影到文本模态，以实现更准确的模态间比较。采用闭合形式的转换，并提供一个训练版本SeMoBridge-T，该版本通过结合图像和文本对齐损失的多模态监督进行优化，仅需更新轻量级桥接参数，保持CLIP模型冻结。旨在解决 CLIP 在 Few-shot 分类中由于模态间隙（modality gap）导致的模态内失准（intra-modal misalignment）问题。

[2025 arXiv] Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP [paper] [code]

TIMO：文本-图像互指导机制,校正文本提示质量缓解图像模态的异常匹配(不同类别图像特征之间可能存在高相似度)通过引入图像引导文本(IGT)和文本引导图像(TGI)组件，构建了跨模态互引导机制，以协同解决现有免训练的CLIP少样本分类方法独立处理图像和文本模态，导致图像模态中严重的异常匹配和生成文本提示质量不一的问题。

Training Open-Vocabulary Semantic Segmentation

[2022 CVPR] GroupViT: Semantic Segmentation Emerges from Text Supervision [paper] [code]

GroupViT：通过在大型图像-文本数据集上进行对比学习训练，并集成新颖的分组块和多标签对比损失，使其能将图像区域逐步聚合成任意形状的语义片段。仅使用文本监督来学习语义分割，而无需任何像素级别的标注。

[2023 CVPR] Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive Learning [paper]

PACL：CLIP训练视觉编码器中的patch token与文本编码器中的CLS token之间的对齐关系。这种对齐使模型能够识别图像中与给定文本输入相对应的区域，从而无需任何分割标注即可无缝迁移到开放词汇语义分割任务。

[2023 CVPR] Learning to Generate Text-grounded Mask for Open-world Semantic Segmentation from Only Image-Text Pairs [paper] [code]

TCL：对CLIP学习区域—文本对齐文本引导对比学习，通过生成文本引导的分割掩码，并直接对掩码区域与文本嵌入进行对齐，从而端到端地学习区域-文本对齐。

[2023 ICCV] Exploring Open-Vocabulary Semantic Segmentation from CLIP Vision Encoder Distillation Only [paper]

ZeroSeg：提出一种新颖的零样本开放词汇语义分割方法，将输入图像划分为多尺度视图以提取区域视觉概念，并通过多尺度特征蒸馏损失和段匹配损失，将这些概念有效传递给结合了掩码自编码器骨干的ZeroSeg模型。

[2023 ICML] SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation [paper] [code]

SegCLIP：语义分组模块利用ViT架构和可学习的语义中心，通过跨注意力机制动态捕获语义分组，并引入重建损失和基于超像素的KL损失来增强视觉表示。

[2023 NIPS] Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic Segmentation [paper] [code]

SegCLIP：语义分组模块利用ViT架构和可学习的语义中心，通过跨注意力机制动态捕获语义分组，并引入重建损失和基于超像素的KL损失来增强视觉表示。

[2024 CVPR] SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation [paper] [code]

SED：提出了一个包含层次化编码器生成代价图和渐进融合解码器（带类别早期拒绝）的简单编解码器架构。利用分层编码器生成像素级图像-文本成本图，并采用渐进融合解码器结合多层特征图来输出高分辨率的分割结果，有效捕捉局部空间信息。

[2024 CVPR] Not All Classes Stand on Same Embeddings: Calibrating a Semantic Distance with Metric Tensor [paper]

本文提出了一种基于度量张量的一致性正则化方法。该方法通过引入全局度量张量来估计整体的类不变几何结构，并利用局部度量张量捕获每个类别的类变异几何结构，通过弱增强和强增强策略进行协同优化。

[2024 CVPR] USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [paper]

USE：框架包含一个数据管线，该管线利用多模态大语言模型和短语 grounding 模型，自动生成多粒度的mask-文本对；以及一个轻量级通用Segment嵌入模型，该模型基于预训练的CLIP和DINOv2模型，生成与文本描述对齐的Segment嵌入。

[2024 CVPR] CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [paper] [code]

CAT-Seg：针对开放词汇语义分割，提出了一种创新的成本聚合（cost aggregation）框架，旨在通过微调（fine-tuning）视觉-语言模型CLIP的编码器，以适应像素级的分割任务。该方法通过聚合CLIP图像与文本嵌入之间的余弦相似度，并采用空间和类别聚合模块进行精炼，有效解决了现有方法在处理未见类别时遇到的过拟合挑战。

[2024 CVPR] SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding [paper]

SAM-CLIP：旨在通过融合CLIP和SAM两大视觉基础模型，高效地将它们的语义理解和空间理解能力整合到单一架构中。该方法采用多任务学习、持续学习及知识蒸馏技术，并通过记忆回放有效避免了灾难性遗忘。将SAM的图像编码器和CLIP的图像编码器融合为单一的共享骨干网络。

[2024 ECCV] CLIP-DINOiser: Teaching CLIP a few DINO tricks for open-vocabulary semantic segmentation [paper] [code]

CLIP-DINOiser：一种新颖的开放词汇语义分割方法，旨在通过将自监督DINO模型的局部化优势赋予CLIP，克服CLIP在密集视觉任务中缺乏空间感知能力的不足。该方法通过训练两个轻量级卷积层，仅利用1k张未标注图像，便能直接从CLIP特征中学习到DINO风格的patch相关性与目标性信息，进而优化MaskCLIP生成的密集特征。利用 DINO 模型的局部化先验（localization priors）来指导和改善 MaskCLIP（一种将 CLIP 的全局池化层转换为 1x1 卷积层以提取密集特征的方法）所生成的特征。

[2024 ICLR] CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction [paper] [code]

图像裁剪 (Image Crop) 方法（将局部区域裁剪出来作为独立图像输入 CLIP，并使用其图像级特征进行分类）时，CLIP ViT 能达到令人满意的区域识别精度。

CLIPSelf：自蒸馏方法，通过将“学生”ViT的密集特征图中的区域表示与“教师”ViT相应图像裁剪的图像级表示进行对齐，从而在无需区域-文本对的情况下提升ViT的局部视觉-语言对齐能力。需依赖额外的区域-文本配对数据。

[2024 NIPS] Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [paper] [code]
[2024 NIPS] Relationship Prompt Learning is Enough for Open-Vocabulary Semantic Segmentation [paper]
[2024 arXiv] DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [paper]
[2025 CVPR] Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation [paper]
[2025 CVPR] Your ViT is Secretly an Image Segmentation Model [paper] [code]
[2025 CVPR] Exploring Simple Open-Vocabulary Semantic Segmentation [paper]
[2025 CVPR] Dual Semantic Guidance for Open Vocabulary Semantic Segmentation [paper]
[2025 CVPR] Multi-Label Prototype Visual Spatial Search for Weakly Supervised Semantic Segmentation [paper]
[2025 CVPR] DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception [paper] [code]

DeCLIP 通过解耦自注意力模块并分别对内容特征和上下文特征进行蒸馏，有效地解决了 CLIP 在开放词汇密集感知任务中局部特征辨别力不足和空间一致性差的问题。

[2025 ICCV] Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation [paper] [code]

映射函数，CLIP文本映射到DINOv2特征向量，训练矩阵，DINOv2特征向量直接映射到CLIP提取的文本特征

[2025 ICLR] Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion [paper] [code]
[2025 ICCV] Text-guided Visual Prompt DINO for Generic Segmentation [paper][code]

Prompt-DINO：

[2025 ICCV] SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation [paper] [code]

SCORE：通过“区域感知集成（RAI）”利用区域上下文增强视觉表示，并通过“全局上下文适应（GCA）”模块注入遥感领域全局上下文以丰富文本嵌入。开放词汇分割模型应用于遥感领域。

2025年10月7日添加

[2024 arXiv] Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision [paper] [code]

MGCA：框架，通过巧妙构建对象、区域和像素级的伪语义对应关系，结合难采样策略，实现了无需密集标注的细粒度跨模态对比学习。

2025年10月8日添加

[2024 arXiv] High-Quality Mask Tuning Matters for Open-Vocabulary Segmentation [paper] [code]

MaskCLIP++：通过使用高质量的真实掩码而非生成掩码来微调 CLIP，以增强其掩码分类能力，并引入“一致性对齐”原则来缓解对微调数据集的过拟合问题。

[2025 CVPR] Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [paper] [code]

DeCLIP：通过解耦CLIP的自注意力模块为“内容”和“上下文”特征，并分别利用Vision Foundation Models (VFMs)的语义相关性和扩散模型的对象完整性线索进行蒸馏来增强其密集表征。

[2025 CVPR] Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation [paper] [code]

Mask-Adapter：通过从建议掩码和CLIP特征中提取语义激活图，聚合更丰富的上下文信息，并确保掩码与CLIP的对齐，显著提升了分类性能。掩码裁剪方法未能考虑掩码图像与 CLIP 预训练所使用的自然图像之间的显著差异，而掩码池化方法则未能捕获语义细节和上下文信息，这都限制了 OVS 性能的上限。掩码和 CLIP 特征中提取语义激活图，另一种方法mask与CLIP结合提取特征。

2025年10月14日添加

[2025 arXiv] SegMASt3R: Geometry Grounded Segment Matching [paper] [code]

SegMASt3R：利用预训练的3D基础模型MASt3R的几何感知归纳偏置，通过轻量级段特征头生成鲁棒的段级描述符，并通过可微分最优传输层实现图像对间的端到端段匹配。利用 3D 基础模型 (3DFM) MASt3R 进行宽基线 (wide-baseline) 图像段匹配的方法。几何接地的图像分割匹配

Zero-Shot Open-Vocabulary Semantic Segmentation

[2023 ICML] Grounding Everything: Emerging Localization Properties in Vision-Language Transformers [paper] [code]

GEM：修改CLIP内部结构通过将价值-价值注意力推广为广义的自-自注意力，并结合L2归一化、自适应温度及迭代机制，有效促进视觉特征聚类并保持与语言空间的对齐

[2024 CVPR] On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning? [paper] [code]
[2024 CVPR] Exploring Regional Clues in CLIP for Zero-Shot Semantic Segmentation [paper] [code]
[2024 CVPR] Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion [paper] [code]
[2024 ECCV] OTSeg: Multi-prompt Sinkhorn Attention for Zero-Shot Semantic Segmentation [paper] [code]
[2024 ICCV] Zero-guidance Segmentation Using Zero Segment Labels [paper] [code]

DINO-ViT 模型提取图像的深层像素级特征，聚类得到分割掩码，输入图像和通过聚类得到的二值掩码会被同时送入CLIP，新颖的注意力掩码（Attention Masking）技术，特别是全局消减（Global Subtraction），使用 ZeroCap 把图像生成文本，相似度分数是视觉嵌入和预测文本嵌入（通过 CLIP 文本编码器计算）的余弦相似度的平均值

[2024 NIPS] DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [paper] [code]
[2025 ICLR] Efficient and Context-Aware Label Propagation for Zero-/Few-Shot Training-Free Adaptation of Vision-Language Model [paper] [code]

Few-Shot Open-Vocabulary Semantic Segmentation

[2024 NIPS] Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts [paper]
[2024 NIPS] A Surprisingly Simple Approach to Generalized Few-Shot Semantic Segmentation [paper] [code]
[2024 NIPS] Renovating Names in Open-Vocabulary Segmentation Benchmarks [paper] [code]
[2025 CVPR] Hyperbolic Uncertainty-Aware Few-Shot Incremental Point Cloud Segmentation [paper]
[2025 ICCV] Probabilistic Prototype Calibration of Vision-language Models for Generalized Few-shot Semantic Segmentation [paper] [code]
[2025 MICCAI] Realistic Adaptation of Medical Vision-Language Models [paper] [code]

Supervised Semantic Segmentation

[2021 ICCV] Vision Transformers for Dense Prediction [paper] [code]
[2021 ICCV] Segmenter: Transformer for Semantic Segmentation [paper] [code]
[2022 ICLR] Language-driven Semantic Segmentation [paper] [code]
[2025 CVPV] Your ViT is Secretly an Image Segmentation Model [paper] [code]

Weakly Supervised Semantic Segmentation

[2022 CVPR] Learning Affinity from Attention: End-to-End Weakly-Supervised Semantic Segmentation with Transformers [paper] [code]
[2022 CVPR] MCTFormer:Multi-Class Token Transformer for Weakly Supervised Semantic Segmentation [paper] [code]
[2023 CVPR] Learning Multi-Modal Class-Specific Tokens for Weakly Supervised Dense Object Localization [paper] [code]
[2023 ICCV] Spatial-Aware Token for Weakly Supervised Object Localization [paper] [code]
[2023 CVPR] Boundary-enhanced Co-training for Weakly Supervised Semantic Segmentatio [paper] [code]
[2023 CVPR] ToCo:Token Contrast for Weakly-Supervised Semantic Segmentation [paper] [code]
[2023 CVPR] CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly Supervised Semantic Segmentation [paper] [code]
[2023 arXiv] MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic Segmentation [paper] [code]
[2024 CVPR] Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [paper] [code]
[2024 CVPR] CorrMatch: Label Propagation via Correlation Matching for Semi-Supervised Semantic Segmentation [paper] [code]
[2024 CVPR] DuPL: Dual Student with Trustworthy Progressive Learning for Robust Weakly Supervised Semantic Segmentation [paper] [code]
[2024 CVPR] Hunting Attributes: Context Prototype-Aware Learning for Weakly Supervised Semantic Segmentation [paper] [code]
[2024 CVPR] Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation [paper]
[2024 CVPR] Official code for Class Tokens Infusion for Weakly Supervised Semantic Segmentation [paper] [code]
[2024 CVPR] Separate and Conquer: Decoupling Co-occurrence via Decomposition and Representation for Weakly Supervised Semantic Segmentation [paper] [code]
[2024 CVPR] Class Tokens Infusion for Weakly Supervised Semantic Segmentation [paper] [code]
[2024 CVPR] SFC: Shared Feature Calibration in Weakly Supervised Semantic Segmentation [paper] [code]
[2024 CVPR] PSDPM:Prototype-based Secondary Discriminative Pixels Mining for Weakly Supervised Semantic Segmentation [paper] [code]
[2024 ECCV] DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [paper]
[2024 ECCV] CoSa:Weakly Supervised Co-training with Swapping Assignments for Semantic Segmentation [paper] [code]
[2024 AAAI] Progressive Feature Self-Reinforcement for Weakly Supervised Semantic Segmentation [paper] [code]
[2024 arXiv] A Realistic Protocol for Evaluation of Weakly Supervised Object Localization [paper] [code]
[2024 IEEE] SSC:Spatial Structure Constraints for Weakly Supervised Semantic Segmentation [paper] [code]
[2025 CVPR] POT: Prototypical Optimal Transport for Weakly Supervised Semantic Segmentation [paper] [code]
[2025 CVPR] PROMPT-CAM: A Simpler Interpretable Transformer for Fine-Grained Analysis [paper] [code]
[2025 CVPR] Exploring CLIP’s Dense Knowledge for Weakly Supervised Semantic Segmentation [paper] [code]
[2025 CVPR] GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [paper] [code]
[2025 CVPR] Multi-Label Prototype Visual Spatial Search for Weakly Supervised Semantic Segmentation [paper]
[2025 CVPR] Prompt Categories Cluster for Weakly Supervised Semantic Segmentation [paper]
[2025 ICCV] Class Token as Proxy: Optimal Transport-assisted Proxy Learning for Weakly Supervised Semantic Segmentation
[2025 ICCV] Know Your Attention Maps: Class-specific Token Masking for Weakly Supervised Semantic Segmentation
[2025 ICCV] Bias-Resilient Weakly Supervised Semantic Segmentation Using Normalizing Flows
[2025 ICCV] OVA-Fields: Weakly Supervised Open-Vocabulary Affordance Fields for Robot Operational Part Detection
[2025 AAAI] MoRe: Class Patch Attention Needs Regularization for Weakly Supervised Semantic Segmentation [paper] [code]
[2025 arXiv] TeD-Loc: Text Distillation for Weakly Supervised Object Localization [paper] [code]
[2025 arXiv] Image Augmentation Agent for Weakly Supervised Semantic Segmentation [paper]

Semi-Supervised Semantic Segmentation

[2025 ICCV] ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction [paper] [code]

Unsupervised Semantic Segmentation

[2021 ICCV] Emerging Properties in Self-Supervised Vision Transformers [paper] [code] [note]
[2022 CVPR] Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised Semantic Segmentation and Localization [paper] [code]
[2022 CVPR] Freesolo: Learning to segment objects without annotations [paper] [code]
[2022 ECCV] Extract Free Dense Labels from CLIP [paper] [code] [note]
[2023 CVPR] ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [paper] [code]
[2024 CVPR] Guided Slot Attention for Unsupervised Video Object Segmentation [paper] [code]
[2024 CVPR] ReCLIP++:Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation [paper] [code]
[2024 CVPR] CuVLER: Enhanced Unsupervised Object Discoveries through Exhaustive Self-Supervised Transformers [paper] [code]
[2024 CVPR] EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation [paper] [code]
[2024 ECCV] Unsupervised Dense Prediction using Differentiable Normalized Cuts [paper]
[2024 NIPS] PaintSeg: Training-free Segmentation via Painting [paper]
[2025 ICCV] DIP: Unsupervised Dense In-Context Post-training of Visual Representations [paper] [code]

检索

[2024 ICML] Cluster-Aware Similarity Diffusion for Instance Retrieval[paper]
[2025 CVPR] Cheb-GR: Rethinking k-nearest neighbor search in Re-ranking for Person
Re-identification[paper]
[2025 NEIGHBOR] Neighbor-aware Geodesic Transportation for Neighborhood Refinery[paper]
[2021 NIPS] Contextual Similarity Aggregation with Self-attention for Visual Re-ranking[paper]
[2027 AAAI] Regularized diffusion process for visual retrieval
[2025 arXiv] Global-to-Local or Local-to-Global? Enhancing Image Retrieval with Efficient Local Search and Effective Global Re-ranking[paper]

老师提供暂存

[2025 arXiv] POT: Prototypical Optimal Transport for Weakly Supervised Semantic Segmentation [paper]
[2025CVPR] Multi-Label Prototype Visual Spatial Search for Weakly Supervised Semantic Segmentation [paper]
[2024 arXiv]Toward Modality Gap: Vision Prototype Learning for Weakly-supervised Semantic Segmentation with CLIP [paper]
[2025 arXiv] 2025-NIPS-Disentangling CLIP for Multi-Object Perception [paper]
[2021 ICLR] A Trainable Optimal Transport Embedding for Feature Aggregation and its Relationship to Attention[paper]
[2025 ICCV] Interpretable point cloud classification using multiple instance learning

MyPaper

相关领域

多标签图像分类

Few-Shot Classification

Training-Free Open-Vocabulary Semantic Segmentation

Training Open-Vocabulary Semantic Segmentation

Zero-Shot Open-Vocabulary Semantic Segmentation

Few-Shot Open-Vocabulary Semantic Segmentation

Supervised Semantic Segmentation

Weakly Supervised Semantic Segmentation

Semi-Supervised Semantic Segmentation

Unsupervised Semantic Segmentation

检索

老师提供暂存