arxiv:2505.22943

Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates

Published on May 28

· Submitted by

ahnpersie on May 30

Upvote

Authors:

Jaewoo Ahn ,

Abstract

A benchmark using deceptive text samples to evaluate compositional vulnerabilities in multimodal representations is introduced, and a self-training approach improves zero-shot methods by enhancing attack success and sample diversity.

AI-generated summary

While pre-trained multimodal representations (e.g., CLIP) have shown impressive capabilities, they exhibit significant compositional vulnerabilities leading to counterintuitive judgments. We introduce Multimodal Adversarial Compositionality (MAC), a benchmark that leverages large language models (LLMs) to generate deceptive text samples to exploit these vulnerabilities across different modalities and evaluates them through both sample-wise attack success rate and group-wise entropy-based diversity. To improve zero-shot methods, we propose a self-training approach that leverages rejection-sampling fine-tuning with diversity-promoting filtering, which enhances both attack success rate and sample diversity. Using smaller language models like Llama-3.1-8B, our approach demonstrates superior performance in revealing compositional vulnerabilities across various multimodal representations, including images, videos, and audios.

View arXiv page View PDF GitHub repository Add to collection

Community

ahnpersie

Paper author Paper submitter 5 days ago

•

edited 5 days ago

[ACL 2025 Main] We introduce (1) MAC, a benchmark for evaluating compositional vulnerabilities in pre-trained multimodal representations (e.g., CLIP, SigLIP, LLaVA, LanguageBind, CLAP) via deceptive text generation, and (2) a LLM-based diversity-promoting self-training approach that enhances attack success and diversity.