IEEE International Conference on Multimedia and Expo, ICME 2024, Niagara Falls, ON, Canada, July 15-19, 2024

researchr

You are not signed in
Sign in
Sign up

IEEE International Conference on Multimedia and Expo, ICME 2024, Niagara Falls, ON, Canada, July 15-19, 2024. IEEE, 2024. [doi]

Conference: icmcs2024

Abstract is missing.

ASQuery: A Query-based Model for Action SegmentationZiliang Gan, Lei Jin 0003, Lei Nie, Zheng Wang, Li Zhou, Liang Li, Zhecan Wang, Jianshu Li, Junliang Xing, Jian Zhao 0006. [doi]

Inferring the effectiveness of epidemic prevention measures based on spatial heterogeneity modelingMingyu Wu, Zhiyi Tan 0002, Bing-Kun Bao. 1-6 [doi]

Shapley Ensemble Adversarial AttackZheng Wang, Bowen Tang, Yi Bin, Lei Zhu, Guoqing Wang, Yang Yang. 1-6 [doi]

SSETPAN: Spatial-Spectral Enhanced Transformer based network for pansharpeningHuanting Zhang, Mengting Ma, Xinyu Wang, Jiawei Yang, Xiangdong Li, Wei Zhang. 1-6 [doi]

A Novel Decoupled Prototype Completion Network for Incomplete Multimodal Emotion RecognitionZhangfeng Hu, Wenming Zheng, Yuan Zong, Mengting Wei, Xingxun Jiang, Mengxin Shi. 1-6 [doi]

Heterogeneous Hypergraph Structure Learning for Multimedia RecommendationYanchao Tan, Zhenghong Lin, Sujie Pan, Siying Xu, Weiming Liu 0005, Guofang Ma, Shiping Wang. 1-6 [doi]

Training-free Neural Architectural Search on Transformer via Evaluating Expressivity and TrainabilityYi Fan, Yu-Bin Yang. 1-6 [doi]

Coarse-to-fine Alignment Makes Better Speech-image RetrievalLiFeng Zhou, Yuke Li. 1-6 [doi]

Learning Motion Priors with DETR for Visual TrackingQingmao Wei, Bi Zeng, Guotian Zeng. 1-6 [doi]

Reconstructing Prototype From Contaminated Face With Variations Across Heterogeneous DomainsMeng Pang, Binghui Wang, Nanrun Zhou, Yintao Zhou, Wei Huang 0013. 1-6 [doi]

IterInv: Iterative Inversion for Pixel-Level T2I ModelsChuanming Tang, Kai Wang, Joost van de Weijer 0001. 1-6 [doi]

Deep Bi-directional Attention Network for Image Super-Resolution Quality AssessmentYixiao Li, Xiaoyuan Yang 0003, Jun Fu 0007, Guanghui Yue 0001, Wei Zhou 0021. 1-6 [doi]

HIDD: Human-perception-centric Incremental Deepfake DetectionXiaorong Ma, Jiahe Tian, Yu Cai, Yesheng Chai, Zhaoxing Li, Jiao Dai, Liangjun Zang, Jizhong Han. 1-6 [doi]

Adaptive Oriented Adversarial Attacks on Visible and Infrared Image Fusion ModelsYuchen Wang, Xiaoguang Li, Li Yang, Lu Zhou, Jianfeng Ma 0001, Hui Li. 1-6 [doi]

A Lightweight CNN and Spatial-Channel Transformer Hybrid Network for Image Super-ResolutionSumei Li, Xiaoxuan Chen, Peiming Lin. 1-6 [doi]

Efficient U-Shape Invertible Neural Network for Image SteganographyLe Zhang, Tong Li, Yao Lu, Mixiao Hou, Guangming Lu. 1-7 [doi]

Saliency Dataset and Predictive Model for Areas of Interest in VVC Perceptual CodingJorge Kessler-Martín, Pablo Fernández-Lagos, David García-Lucas, Gabriel Cebrián-Márquez, Belen Ríos-Sánchez, Guillermo Vigueras, Antonio Jesús Díaz-Honrubia. 1-6 [doi]

Rotation Exploration Transformer for Aerial Person Re-identificationLei Wang, Quan Zhang, Junyang Qiu, Jianhuang Lai. 1-6 [doi]

A Channel-Wise Guidance Sparse Transformer for Effective Dark Image EnhancementHaiyan Jin, Yifan Shuai, Fengyuan Zuo, Haonan Su, Zhaolin Xiao, Bin Wang, Yuanlin Zhang 0003. 1-6 [doi]

Graph Attention Convolutional Network for 3D Human Pose and Shape Estimation from Point CloudsYung-Wei Fan, Sheng-Chun Huang, Shao-Yi Chien. 1-6 [doi]

Public-Domain Locator for Boosting Attack Transferability on VideosSongping Wang, Hanqing Liu, Haochen Zhao. 1-6 [doi]

From 3D to 4D: Fixing the Erroneous Coupling between IoU and Angle for Optimizing 3D Object DetectionHengsheng Lun, Ke Lu, Liping Hou, Shuhua Wang, Jian Xue. 1-6 [doi]

Cooperative Students: Navigating Unsupervised Domain Adaptation in Nighttime Object DetectionJicheng Yuan, Anh Le-Tuan, Manfred Hauswirth, Danh Le Phuoc. 1-6 [doi]

Towards Real-world Continuous Super-Resolution: Benchmark and MethodXingbei Guo, Ziping Ma 0002, Qing Wang 0006, Pengxu Wei. 1-6 [doi]

Multi-batch Nuclear-norm Adversarial Network for Unsupervised Domain AdaptationPei Wang, Yun Yang 0003, Zhenyu Yu. 1-6 [doi]

DNAF: Diffusion with Noise-Aware Feature for Pose-Guided Person Image SynthesisLiyan Guo, Kaiyu Song, Mengying Xu, Hanjiang Lai. 1-6 [doi]

Enabling Practical and Pervasive Content Delivery from Emerging LEO Mega-ConstellationsSongshi Dou, Xianhao Chen, Kwan L. Yeung. 1-6 [doi]

Do Keypoints Contain Crucial Information? Mining Keypoint Information to Enhance Cross-View Geo-LocalizationYanchao liang, Xiangqian Wu. 1-6 [doi]

Beyond Global Cues: Unveiling the Power of Fine Details in Image MatchingDongyue Li, Songlin Du. 1-6 [doi]

Mining Similarity Relationships for Unsupervised Cross-Modal HashingYou Wu, Zhixin Li 0001. 1-6 [doi]

Tutor Assisted Feature DistillationShenghao Chen, Zhe Liu, Jun Chen, Yuqing Song 0001, Yi Liu, Qiaoying Teng. 1-6 [doi]

Visual-guided Query with Temporal Interaction for Video Object SegementationJiaxin Qiu, Guoyu Yang, Jie Lei 0002, Zunlei Feng, Ronghua Liang. 1-6 [doi]

Build a Cross-modality Bridge for Image-to-Point Cloud RegistrationLin Bie, Shouan Pan, Kai Cheng, Li Han. 1-6 [doi]

Unsupervised Multi-Modal Medical Image Registration via query-selected attention and decoupled Contrastive LearningZhenrong Huang, Bin Chen. 1-6 [doi]

Efficient Guided Query Network for Human-Object Interaction DetectionJunkai Li, Huicheng Lai, Jun Ma, Tongguan Wang, Hutuo Quan, Dongji Chen. 1-6 [doi]

DPP-Net: Difficulty Perception-Processing Heterogeneous Network for Semi-supervised Medical Image SegmentationQiqin Lin, Weixing Xie, Rongzhou Zhou, Xianpeng Cao, Jingze Chen, Junfeng Yao, Qingqi Hong. 1-6 [doi]

Disentangling and Aggregating: A Data-Centric Training Framework for Cross-Domain Few-Shot ClassificationZhaochen Li, Kedian Mu. 1-6 [doi]

A Multimodal Transformer for Live Streaming Highlight PredictionJiaxin Deng, Shiyao Wang, Dong Shen, Liqin Zhao, Fan Yang, Guorui Zhou, Gaofeng Meng. 1-6 [doi]

Agnostic Feature Compression with Semantic Guided Channel Importance AnalysisYing Tang, Wei Yang 0034, Junqing Yu, Zikai Song. 1-6 [doi]

STUI-NET: Semi-Supervised Transformer for Underwater Information EnhancementZhenqiang Zhang, Chuantao Li, Jian Song, Jialiang Lv, Chunxiao Wang, Zhigang Zhao, Jidong Huo. 1-6 [doi]

Unsupervised Object Discovery Via Object-Centric RepresentationBingfei Fu, Xiangyang Xue 0001. 1-6 [doi]

Cross-Lingual Transfer for Natural Language Inference via Multilingual Prompt TranslatorXiaoyu Qiu, Yuechen Wang, Jiaxin Shi, Wengang Zhou, Houqiang Li. 1-6 [doi]

A Coarse-to-Fine Reconstruction Framework for Non-Lambertian Photometric StereoZhigang Wang, Yunpeng Gao, Xun Li, Peipei Gu, Bin Zhao, Xuelong Li 0001. 1-6 [doi]

CoVLR: Coordinating Cross-Modal Consistency and Intra-Modal Relations for Vision-Language RetrievalFengqiang Wan, Xiangyu Wu, Zhihao Guan, Yang Yang 0074. 1-6 [doi]

Align-RDW: Alignment-based Redirected Walking for Multi-User VR scenariosTianyang Dong, Huanbo Zhang, Hubin Kong, Shuqian Lv, Fenghao Li. 1-6 [doi]

Dynamic Multi-Modal Representation Learning For Topic ModelingHongzhang Mu, Shuili Zhang, Quangang Li, Tingwen Liu, Hongbo Xu. 1-6 [doi]

Common-Memory Bridged Cross-Modal Adaptive Graph Embedding for Image-Text RetrievalZheng Cui, Yongli Hu, Jiapu Wang, Junbin Gao, Yanfeng Sun, Baocai Yin. 1-6 [doi]

GRPSNET: Multi-Class Part Parsing Based on Graph ReasoningNjuod Alsudays, Jing Wu 0004, Yu-Kun Lai, Ze Ji. 1-10 [doi]

The Correlation Analysis Between Cybersickness and Postural Behavior in Immersive VR ExperienceYing Zhong, Ke-Ao Zhao, Leping Zhang, Fangming Zhao, Wentao Wei, Feilin Han. 1-6 [doi]

HQOD: Harmonious Quantization for Object DetectionLong Huang, Zhiwei Dong, Song-Lu Chen, Ruiyao Zhang, Shutong Ti, Feng Chen 0040, Xu-Cheng Yin. 1-6 [doi]

Annotation-Free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain ConfusionGakusei Sato, Taketo Akama. 1-6 [doi]

Cascaded Network with Hierarchical Self-Distillation for Sparse Point Cloud ClassificationKaiyue Zhou, Ming Dong 0001, Peiyuan Zhi, Shengjin Wang. 1-6 [doi]

SADA: Self-Adaptive Domain Adaptation From Black-Box PredictorsJiayang Liu, Kai Wang, Zheng Wang, Xing Xu. 1-6 [doi]

PVRF: Single-Plane and Single-Vector for Memory-Efficient Radiance FieldsChenqu Ren, Yeheng Shao, Haolei Qiu. 1-6 [doi]

Learning Efficient Interaction Anchor for HOI DetectionLirong Xue, Kang-Yang Huang, Rong Chao, Jhih-Ciang Wu, Hong-Han Shuai, Yung-hui Li, Wen-Huang Cheng. 1-6 [doi]

ClipComb: Global-Local Composition Network based on CLIP for Composed Image RetrievalYingying Zhu 0005, Dafeng Li, Zhihang Liu, Hong Zhou. 1-6 [doi]

Edge-Guided Detector-Free Network for Robust and Accurate Visible-Thermal Image MatchingYanping Li, Zhaoshuai Qi, Xiuwei Zhang, Tao Zhuo, Yue Liang, Yanning Zhang. 1-6 [doi]

2CL-ANE: A Novel Attribute Network Embedding based on Intra-Inter View Contrastive LearningZeqi Wu, Yuefeng Ma. 1-6 [doi]

A Tri-Branch Network with Prototype-aware Matching for Universal Category DiscoveryHaonan Lin, Wenbin An, Yan Chen, Feng Tian, Yuzhe Yao, Wei Ding, QianYing Wang, Ping Chen. 1-6 [doi]

HQ-Avatar: Towards High-Quality 3D Avatar Generation via Point-based RepresentationWeitian Zhang, Sijing Wu, Yichao Yan, Ben Xue, Wenhan Zhu, Xiaokang Yang. 1-6 [doi]

Block-Wise Compression Of The Quantum Gray-Scale Image Using Lossy Preparation ApproachMd. Ershadul Haque, Manoranjan Paul. 1-6 [doi]

ELiTe: Efficient Image-to-LiDAR Knowledge Transfer for Semantic SegmentationZhibo Zhang, Ximing Yang, Weizhong Zhang, Cheng Jin 0001. 1-6 [doi]

Dirichlet-Based Coarse-to-Fine Example Selection For Open-Set AnnotationYe-Wen Wang, Chen-Chen Zong, Ming-Kun Xie, Sheng-Jun Huang. 1-6 [doi]

ExpertODE: Continuous Diagnosis Prediction with Expert Enhanced Neural Ordinary Differential EquationsHengyu Zhang, Hang Lv 0010, Yanchao Tan, Guofang Ma, Fan Wang, Carl Yang 0001. 1-6 [doi]

Multi-Scale Heterogeneity-Aware Hypergraph Representation for Histopathology Whole Slide ImagesMinghao Han, Xukun Zhang, Dingkang Yang, Tao Liu, Haopeng Kuang, Jinghui Feng, Lihua Zhang. 1-6 [doi]

CAPformer: Compression-Aware Pre-trained Transformer for Low-Light Image EnhancementWei Wang, Zhi Jin. 1-6 [doi]

CosDiff: Code-Switching TTS Model Based on A Multi-Task DDIMKe Chen, Zhihua Huang, Kexin Lu, Yonghong Yan 0002. 1-6 [doi]

Weakly-Supervised Action Localization by Hierarchical Attention Mechanism with Multi-Scale Fusion StrategiesYu Wang, Shengjie Zhao. 1-6 [doi]

Multi-Modal Document Presentation Attack Detection with Forensics Trace DisentanglementChangsheng Chen, Yongyi Deng, Liangwei Lin, Zitong Yu, Zhimao Lai. 1-8 [doi]

ICFRNet: Image Complexity Prior Guided Feature Refinement for Real-time Semantic SegmentationXin Zhang, Teodor Boyadzhiev, Jinglei Shi, Jufeng Yang. 1-6 [doi]

TGMAE: Self-supervised Micro-Expression Recognition with Temporal Gaussian Masked AutoencoderShifeng Liu, Xinglong Mao, Sirui Zhao, Chaoyou Fu, Ying Yu, Tong Xu 0001, Enhong Chen. 1-6 [doi]

SDViT: Towards Efficient Visual Foundation Model via Unifying Sparse and Dense Representation LearningYin Tang, Guang Yang, Xili Wan. 1-6 [doi]

Free-view Rendering of Dynamic Human from Monocular Video Via Modeling Temporal Information Globally and Locally among Adjacent FramesCheng Shang, Jidong Tian, Jiannan Ye, Xubo Yang. 1-6 [doi]

Second-Order Self-Supervised Learning for Breast Cancer ClassificationHaitao Yao, Zhenwei Wang, Mingli Zhang, Wen Zhu, LiZhi Zhang, Lijun He, Jianxin Zhang. 1-6 [doi]

DA-LGNet: Enhancing Spatial-Spectral feature representation with Dual-Attention Local-General Network for Hyperspectral images and Multispectral images FusionHaozheng Zhang, Yanhong Yang, Zhixuan Jing, Shengyong Chen. 1-6 [doi]

Focal Stack Alignment Enhancement Network For Light Field Salient Object DetectionZiyi Huang, Binbin Yan, Shuo Chen, Dongliang Wang, Lu Yang. 1-6 [doi]

Manga109Dialog: A Large-Scale Dialogue Dataset for Comics Speaker DetectionYingxuan Li, Kiyoharu Aizawa, Yusuke Matsui. 1-6 [doi]

Multi-head multi-scale pixel localization network for crowd counting with highly dense and small-scale samplesHao-Yuan Ma, Li Zhang. 1-5 [doi]

M2Depth: A Novel Self-Supervised Multi-Camera Depth Estimation with Multi-Level SupervisionRuihang Li, Shanding Ye, Zhe Yin, Tao Li, Zehua Zhang, KaiKai Xiao, Zhijie Pan. 1-6 [doi]

Fast label prediction based on shrunk anchor graph for semi-supervised incomplete multiview classificationGuosheng Cui, Fusheng Hao, Dan Wu, Ye Li. 1-6 [doi]

Hydraformer: One Encoder for All Subsampling RatesYaoxun Xu, Xingchen Song, Zhiyong Wu 0001, Di Wu 0061, Zhendong Peng, Binbin Zhang. 1-6 [doi]

Enhancing Multimodal Sentiment Recognition Based on Cross-Modal Contrastive LearningLichao Cui, Shanliang Yang. 1-6 [doi]

Unveiling the Significance of Width Dimension in Bird's-Eye View SegmentationYiru Wang, Qianqian Li, Xinyue Wang, Qiao Yang, Shunli Zhang. 1-6 [doi]

Focusing on All Refined Attention Regions for Noisy Label Facial Expression RecognitionWenjing Wang, Si Li. 1-6 [doi]

Transferable and high-quality adversarial example generation leveraging diffusion modelKangze Xu, Ziqiang He, Xiangui Kang, Z. Jane Wang 0001. 1-6 [doi]

A Cascade Multimodal Fine-Grained MRI Image Grading Network For Preoperative Microvascular Invasion In Hepatocellular CarcinomaXinyu Liu, Yong Yi, Ye Luo. 1-6 [doi]

Sliced Maximal Information Coefficient: A Training-Free Approach for Image Quality Assessment EnhancementKang Xiao, Xu Wang, Yulin He, Baoliang Chen, Xuelin Shen. 1-6 [doi]

Robust Knowledge Distillation and Self-Contrast Reasoning for Debiased Visual Question AnsweringKe Ning, Rongrong Shen, Zhixin Li. 1-6 [doi]

FE-VAD: High-Low Frequency Enhanced Weakly Supervised Video Anomaly DetectionRuoyan Pi, Jinglin Xu, Yuxin Peng. 1-6 [doi]

FedCA: Federated learning based on classification layer alignmentGang Liu, Jing Jia, Rui Mao 0001, Yan Ji. 1-6 [doi]

SCSim: A Realistic Spike Cameras SimulatorLiwen Hu, Lei Ma 0008, Yijia Guo, Tiejun Huang 0001. 1-6 [doi]

3D Nodule Content-Based Metric Learning for Evidence-Based Lung Cancer ScreeningXiaoXi Lu, Xingyue Wang, Jiansheng Fang, Na Zeng, Jingqi Huang, Chuangguang Huang, Jingfeng Zhang, Jianjun Zheng, Heng Meng, Jiang Liu 0001. 1-7 [doi]

DuCoFPan: Dual-Condition Flow-based Network for Pan-sharpeningMengjiao Zhao, Mengting Ma, Xiangdong Li, Xiaowen Ma, Xinyu Wang, Ao Gao, Wei Zhang. 1-6 [doi]

PSPU: Enhanced Positive and Unlabeled Learning by Leveraging Pseudo SupervisionChengjie Wang, Chengming Xu 0003, Zhenye Gan, Yuxi Li, Jianlong Hu, Wenbing Zhu, Lizhuang Ma. 1-6 [doi]

X-ReID: Cross-Instance Transformer for Identity-Level Person Re-IdentificationLeqi Shen, Tao He, Sicheng Zhao, Zhelun Shen, Yuchen Guo, Tianshi Xu, Guiguang Ding. 1-6 [doi]

DynamicTrack: Advancing Gigapixel Tracking in Crowded ScenesYunqi Zhao, Yuchen Guo, Zheng Cao, Kai Ni, Ruqi Huang, Lu Fang 0001. 1-6 [doi]

Leveraging Hybrid Referring Expressions for Referring Video Object SegmentationYan Li, Qiong Wang. 1-6 [doi]

Fusion of Short-term and Long-term Attention for Video Mirror DetectionMingchen Xu, Jing Wu 0004, Yu-Kun Lai, Ze Ji. 1-9 [doi]

LayoutDM: Precision Multi-Scale Diffusion for Layout-to-ImageMingzhe Yu, Lei Wu, Changshuo Wang 0003, Lei Meng, Xiangxu Meng. 1-6 [doi]

Point Cloud Compression via Constrained Optimal TransportZezeng Li, Weimin Wang, Ziliang Wang, Na Lei. 1-6 [doi]

Fuzzy Boundary-Guided Network for Camouflaged Object DetectionQi Jia, Shuilian Yao, Youcan Xu, Yu Liu 0012, Dehao Kong, Longin Jan Latecki. 1-6 [doi]

RoIRTC: Toward Region-of-Interest Reinforced Real-Time Video CommunicationShuoqian Wang, Mengbai Xiao, Yao Liu 0001. 1-6 [doi]

Multi-granular Semantic Mining for Composed Image RetrievalXiaotong Chen, Shikui Wei, Gangjian Zhang, Yao Zhao 0001. 1-6 [doi]

COCO is "ALL" You Need for Visual Instruction Fine-tuningXiaotian Han, Yiqi Wang, Bohan Zhai, Quanzeng You, Hongxia Yang. 1-5 [doi]

Lightweight Camouflaged Object Detection Network Based on Feature Complementation and EnhancementKangwei Liu, Xiuhong Li, Boyuan Li, Yuye Zhang, Chao Che. 1-6 [doi]

Convolutional Modulation Feature Distillation Network for Image Super-resolutionXuan Wu, Liang Chen, Ming Tan, Yi Wu. 1-6 [doi]

Robust 3D Face Alignment with Multi-Path Neural Architecture SearchZhichao Jiang, Hongsong Wang, Xi Teng, Baopu Li. 1-6 [doi]

Deviation Wing Loss for High-Performance 2D Pose EstimationLing Li, Junliang Xing, Xinchun Yu, Xiao-Ping Zhang 0002. 1-6 [doi]

Illumination Enlightened Spatial-temporal Inconsistency for Deepfake Video DetectionKaiyue Tian, Chen Chen 0036, Yichao Zhou, Xiyuan Hu. 1-6 [doi]

Intensity Confusion Matters: An Intensity-Distance Guided Loss For Bronchus SegmentationHaifan Gong, Wenhao Huang, Huan Zhang, Yu Wang, Xiang Wan, Hong Shen, Guanbin Li, Haofeng Li. 1-6 [doi]

Relating CNN-Transformer Fusion Network for Remote Sensing Change DetectionYuhao Gao, Gensheng Pei, Mengmeng Sheng, Zeren Sun, Tao Chen 0012, Yazhou Yao. 1-6 [doi]

Exploring Warping-Guided Features via Adaptive Latent Diffusion Model for Virtual try-onBo Gao, Junchi Ren, Fei Shen, Mengwan Wei, Zijun Huang. 1-6 [doi]

Minutes to Seconds: Speeded-up DDPM-based Image Inpainting with Coarse-to-Fine SamplingLintao Zhang, Xiangcheng Du, LeoWu TomyEnrique, Yiqun Wang, Yingbin Zheng, Cheng Jin 0001. 1-6 [doi]

Robust VQA via Internal and External Interaction of Modal Information and Question TransformationDahe Peng, Rongrong Shen, Zhixin Li 0001. 1-6 [doi]

Tina: Think, Interaction, and Action Framework for Zero-Shot Vision Language NavigationDingbang Li, Wenzhou Chen, Xin Lin. 1-6 [doi]

Attentive Modeling and Distillation for Out-of-Distribution Generalization of Federated LearningZhuang Qi, Weihao He, Xiangxu Meng, Lei Meng. 1-6 [doi]

AuxSegCount: Auxiliary Seg-Attention Based Network for Wheat Ears Counting in Field ConditionsJie Zhang, Hao Xiong, Hecang Zang, Meng Zhou, Dong Liu, Zhonghua Liu, Hualei Shen. 1-6 [doi]

Three-Stage Temporal Deformable Network for Blurry Video Frame InterpolationPengcheng Lei, Zaoming Yan, Tingting Wang, Faming Fang, Guixu Zhang. 1-6 [doi]

LAIP: Learning Local Alignment from Image-Phrase Modeling for Text-based Person SearchYu Wu, Haiguang Wang, Mengxia Wu, Min Cao, Min Zhang. 1-10 [doi]

RISC: Boosting High-quality Referring Image Segmentation via Foundation Model CLIPZongyuan Jiang, Jiayu Chen, Chongyu Liu, Ning Zhang, Jun Huang, Xue Gao, Lianwen Jin. 1-6 [doi]

Enhancing the Transferability of Adversarial Examples with Noise Injection AugmentationYiheng Duan, Yunjie Ge, Zixuan Wang, Jiayi Yu, Shenyi Zhang, Libing Wu. 1-6 [doi]

Enhancing Consistent Federated Learning Objectives Through Uniform Feature DistributionsSiqi Deng, Liu Yang. 1-6 [doi]

SingAvatar: High-fidelity Audio-driven Singing Avatar SynthesisWentao Ma, Anni Tang, Jun Ling, Han Xue, Huiheng Liao, Yunhui Zhu, Li Song. 1-6 [doi]

Ambiguity Consistency and Uncertainty Minimization for Semi-Supervised Medical Image SegmentationXiaolin Huang, Biqing Zeng, Jiahui Pan, Yujiang Yao, Zheng Zhou, Bingzhi Chen. 1-6 [doi]

Omni Spatial-Angular Correlations Exploration for Light Field Image Super-ResolutionWang Xia, Yao Lu, Shunzhou Wang, Wenjing Wang, Ziqi Wang, Peiqi Xia. 1-6 [doi]

RRE: A Relevance Relation Extraction Framework for Cross-domain Recommender System at AlipayJiayang Gu, Xovee Xu, Yulu Tian, Yurun Hu, Jiadong Huang, Wenliang Zhong, Fan Zhou 0002, Lianli Gao. 1-6 [doi]

Enhancing Shape Perception and Segmentation Consistency for Industrial Image InspectionGuoxuan Mao, Ting Cao, Ziyang Li, Yuan Dong. 1-6 [doi]

Delve into Source and Target Collaboration in Semi-supervised Domain Adaptation for Semantic SegmentationYuan Gao, Zilei Wang, Yixin Zhang. 1-6 [doi]

On the Higher Moment Disparity of Backdoor AttacksChing-Chia Kao, Cheng-Yi Lee, Chun-Shien Lu, Chia-Mu Yu, Chu-Song Chen. 1-6 [doi]

An Images Regeneration Method for CG Anti-Forensics Based on Sensor Device TraceYihong Lu, Jianyi Liu, Ru Zhang. 1-6 [doi]

Towards Omni-supervised Referring Expression SegmentationMinglang Huang, Yiyi Zhou, Gen Luo, Guannan Jiang, Weilin Zhuang, Xiaoshuai Sun. 1-6 [doi]

Multi-Attentional Distance for Zero-Shot Classification with Text-to-Image Diffusion ModelKailai Feng, Minheng Ni, Jiaxiu Jiang, Zhilu Zhang, Wangmeng Zuo. 1-6 [doi]

AdaStyleSpeech: A Fast Stylized Speech Synthesis Model Based on Adaptive Instance NormalizationYuming Yang, Dongsheng Zou. 1-6 [doi]

Neighborhood-Adaptive Context Enhancement Learning For Scene Graph GenerationBowen Zhao, Licheng Zhang, Lei Zhang, Zhendong Mao. 1-6 [doi]

Distinguishing Visually Similar Images: Triplet Contrastive Learning Framework for Image-text RetrievalPengxiang Ouyang, Jianan Chen, Qing Ma, Zheng Wang, Cong Bai. 1-6 [doi]

Enhancing Zero-shot 3D Photography via Mesh-represented Image InpaintingYuejian Fang, Xiaodong Wang. 1-6 [doi]

Memory-guided Network with Uncertainty-based Feature Augmentation for Few-shot Semantic SegmentationXinyue Chen, Miaojing Shi. 1-6 [doi]

MVTexGen: Synthesising 3D Textures Using Multi-View DiffusionJinyi Wang, Fei Ben, Huangjie Zheng, Jiangchao Yao, Ya Zhang, Yanfeng Wang. 1-6 [doi]

3D Point Cloud Pre-Training with Knowledge Distilled from 2D ImagesYuan Yao, Yuanhan Zhang, Zhenfei Yin, Jiebo Luo, Wanli Ouyang, Xiaoshui Huang. 1-6 [doi]

COM3D: Leveraging Cross-View Correspondence and Cross-Modal Mining for 3D RetrievalHao Wu, Ruochong Li, Hao Wang, Hui Xiong. 1-6 [doi]

Dynamic Scene Graph Generation with Unified Temporal ModelingSisi You, Bing-Kun Bao. 1-6 [doi]

LR-MAE: Locate while Reconstructing with Masked Autoencoders for Point Cloud Self-supervised LearningHuizhen Ji, Yaohua Zha, Qingmin Liao. 1-6 [doi]

Noise Adaptive Fine-grained Speech Intelligibility Enhancement With Soft-label Guided DiffusionChenyi Zhu, Dengshi Li, Aolei Chen, Yu Gao, Wei Li, Xi Wang. 1-6 [doi]

Diffusion based Coarse-to-Fine Network for 3D Human Pose and Shape Estimation from monocular videoChuqiao Wu, Haitao Huang, Wenming Yang. 1-6 [doi]

ESR-DDLN : Enhanced Single Image Super-Resolution Via Dual-Domain Learning NetworkZihao He, Shengchuan Zhang. 1-6 [doi]

Progressive Multi-Modality Learning for Inverse Protein FoldingJiangbin Zheng, Stan Z. Li. 1-6 [doi]

Counterfactual Explanations for Face Forgery Detection via Adversarial Removal of ArtifactsYang Li, Songlin Yang, Wei Wang 0025, Ziwen He, Bo Peng, Jing Dong 0003. 1-6 [doi]

Q-Refine: A Perceptual Quality Refiner for AI-Generated ImageChunyi Li, Haoning Wu 0001, Zicheng Zhang, Hongkun Hao, Kaiwei Zhang, Lei Bai 0001, Xiaohong Liu, Xiongkuo Min, Weisi Lin, Guangtao Zhai. 1-6 [doi]

Document Image Dewarping Guided by 3D Geometry and Layout PriorsQingfeng Wang, Lingyu Liang, Shuangping Huang. 1-6 [doi]

Multi-Stage Fusion for Event-based Multimodal TrackerXinyu Zhang, Hefei Huang, Xu Jia, Wenyue Chen, Dong Wang 0004, Shengming Li, Huchuan Lu. 1-6 [doi]

A Benchmark of Zero-Shot Cross-Lingual Task-Oriented Dialogue Based on Adversarial Contrastive Representation LearningShuang Cheng, Zhanyu Ma, Jian Ye. 1-6 [doi]

Omni-Granularity Embedding Network for Text-to-Image Person RetrievalChengji Wang, Zhiming Luo, Shaozi Li. 1-6 [doi]

Task-Aware Lipschitz Confidence Data Augmentation in Visual Reinforcement Learning From ImagesBiao Wu, Haitao Wang 0026, Hejun Wu. 1-6 [doi]

Temporal Feature Aggregation for Efficient 2D Video GroundingMoHan Chen, Yiren Zhang, Jueqi Wei, Yuejie Zhang, Rui Feng, Tao Zhang, Shang Gao 0003. 1-6 [doi]

Picking watermarks from noise (PWFN): an improved robust watermarking model against intensive distortionsSijing Xie, Chengxin Zhao, Nan Sun, Wei Li 0151, Hefei Ling. 1-6 [doi]

Intermediate Domain Meets Natural Hazy TrackingYuwei Feng, Gang Zhou, Sen Yang, Jiang Zhang, Jing Ma, Zhenhong Jia. 1-6 [doi]

MALIP: Improving Few-Shot Image Classification with Multimodal Fusion EnhancementKaifen Cai, Kaiyu Song, Yan Pan, Hanjiang Lai. 1-6 [doi]

Hierarchical Local Temporal Feature Enhancing for Transformer-Based 3D Human Pose EstimationXin Yan, Chi-Man Pun, Haolun Li, Mengqi Liu, Hao Gao 0005. 1-6 [doi]

Mask Matching Network for Self-supervised Few-shot Medical Image SegmentationZeyun Zhao, Rong Wang, Jianzhe Gao, Zhiming Luo, Shaozi Li. 1-6 [doi]

Multi-modal Intent Detection with LVAMoE: the Language-Visual-Audio Mixture of ExpertsTingyu Li, Junpeng Bao, Jiaqi Qin, Yuping Liang, Ruijiang Zhang, Jason Wang. 1-6 [doi]

ODNet: Orthogonal-Perception and Dense-dilation Enhanced Network for Segmenting Complex Tree Branch StructuresXin Zhou, Tianyang Dong, Jing Fan, Wenyuan Ying, Hubin Kong. 1-6 [doi]

Two-Stage Facial Expression Spotting with Spectrum-Based Post-ProcessingLei Wang, Tianfu Cai, Pinyi Huang, Xiyao Liu 0001, Wangyang Cai. 1-6 [doi]

High-Order Differential Regularizing Implicit Surface Representation of Point CloudYuhang Cheng, Ziyang Fan, Hongyu Wu, Xiaogang Wang 0001. 1-6 [doi]

CMSCL: Cross-Modal Spatial Contrastive Learning for 3D Medical Image ClassificationYuxuan Chen, Chengbo Wang, Xiuying Wang. 1-6 [doi]

Efficient Speech-to-Text Translation: Progressive Pruning for Accelerated Speech Pre-trained ModelNan Chen, Yonghe Wang, Xiangdong Su, Feilong Bao. 1-6 [doi]

MTDM-MS: A Malicious Traffic Detection Model Based on Multi-Category SignalsZiang Li, Chengxiang Si, Zhenyu Cheng 0001, Shuyuan Zhao, Yong Ding. 1-6 [doi]

One-Class HEVC Double Compression Detection with Same Coding ParametersYulin Zhao, Xiangling Ding. 1-6 [doi]

Continual Semantic Segmentation via Mask-Based Class RebalancingYongjie Guo, Siya Chen, Hongjian You. 1-6 [doi]

Multimodal Image-Text Representation Learning for Sketch-Less Facial Image RetrievalDawei Dai, Yingge Liu, Shiyu Fu, Guoyin Wang 0001. 1-6 [doi]

Region Attention Fine-tuning with CLIP for Few-shot ClassificationGuangxing Wu, Junxi Chen, Qiu Li, Wentao Zhang, Wei-Shi Zheng 0001, Ruixuan Wang. 1-6 [doi]

Salient Part-Aligned and Keypoint Disentangling Transformer for Person Re-Identification in Aerial ImageryJunyang Qiu, Zhanxiang Feng, Lei Wang, Jianhuang Lai. 1-6 [doi]

Overcoming Language Priors for Visual Question Answering Based on Knowledge DistillationDaowan Peng, Wei Wei 0002. 1-6 [doi]

BFD: Binarized Frequency-enhanced Distillation for Vision TransformerHanglin Li, Peng Yin, Xiaosu Zhu, Lianli Gao, Jingkuan Song. 1-6 [doi]

Don't Turn a Blind Eye to Localization Noise: Localization Pseudo-label Correction and Learning for Semi-Supervised Object DetectionYulin He, Wei Chen, Zhengfa Liang, Ke Liang 0006, Yusong Tan, Tianrui Liu, Yulan Guo. 1-6 [doi]

DualCOS: Query-Efficient Data-Free Model Stealing with Dual Clone Networks and Optimal SamplesYunfei Yang, Xiaojun Chen 0004, Yuexin Xuan, Zhendong Zhao. 1-6 [doi]

Fragile Model Watermark for integrity protection: leveraging boundary volatility and sensitive sample-pairingZhenzhe Gao, Zhenjun Tang, Zhaoxia Yin, Baoyuan Wu, Yue Lu 0001. 1-6 [doi]

MISTA: A Large-Scale Dataset for Multi-Modal Instruction Tuning on Aerial ImagesHao Wu, Ke Lu, Yuqiu Li, Junhao Huang, Jian Xue. 1-6 [doi]

Research on Image Aesthetic Assessment based on Graph Convolutional NetworkYanyu Li, Jiangbo Xu, Ruoyu Zou. 1-6 [doi]

Distillation Excluding Positives for Few-Shot Class-Incremental LearningDuo Liu, Linglan Zhao, Zhongqiang Zhang, Fuhan Cai, Xiangzhong Fang. 1-6 [doi]

Coherentice: Invertible Concept-Based Explainability Framework for CNNs beyond FidelityUgochukwu Ejike Akpudo, Yongsheng Gao 0001, Jun Zhou 0001, Andrew Lewis. 1-6 [doi]

Recognizing Cognitive Load by a Multi-instance Causal Learning Model from Multi-channel Physiological DataZhengyang Li, Shanshan Huang 0004, Jiawei Liu, Laiming Jiang, Shen Chen, Yi Zhang, Jun Liao, Shu Wang, Li Liu. 1-6 [doi]

DeformingNet: Deforming Multiple Uniform 3D Priors for 3D Point Cloud CompletionJingjing Lu, Yunchuan Qin, Fan Wu, Zhizhong Liu, Kenli Li 0001, Ruihui Li. 1-6 [doi]

Camera Bias Regularization for Person Re-identificationTao He, Leqi Shen, Guiguang Ding, Zhiheng Zhou, Tianshi Xu, Xiaofeng Jin, Yuheng Huang. 1-6 [doi]

Exploiting Self-Supervised Constraints in image Super-ResolutionGang Wu 0010, Junjun Jiang, Kui Jiang, Xianming Liu. 1-6 [doi]

SVT: Spectral Video Transformer for Video Restoration in Under-Display CameraXuanxi Chen, Ziqian Shao, Tong Lu. 1-6 [doi]

Reference-conditional Makeup-aware Discrimination for Face Image BeautificationZhenping Li, Si Wu 0002, XinDian Wei, Qianfen Jiao, Cheng Liu, Rui Li 0045. 1-6 [doi]

Color-SD: Stable Diffusion Model Already has a Color Style Noisy Latent SpaceJiancheng Huang, Mingfu Yan, Yifan Liu, Shifeng Chen. 1-6 [doi]

No-Reference MRI Quality Assessment via Contrastive Representation: Spatial and Frequency Domain PerspectivesYiwei Lou, Jiayu Zhang, Dexuan Xu, Yongzhi Cao, Hanpin Wang, Yu Huang 0004. 1-6 [doi]

ESTME: Event-driven Spatio-temporal Motion Enhancement for Micro-Expression RecognitionPeilin Xiao, Yueyi Zhang, Dachun Kai, Yansong Peng, Zheyu Zhang 0002, Xiaoyan Sun 0001. 1-6 [doi]

TS-SAM: Two Small Steps for SAM, One Giant Leap for Abnormal detectionsDongyang Gao, Chen Chen 0036, Yichao Zhou, Haotian Zhang, Xiyuan Hu. 1-6 [doi]

Ghost-in-Wave: How Speaker-Irrelative Features Interfere DeepFake Voice DetectorsXuan Hai, Xin Liu 0050, Zhaorun Chen, yuan Tan, Song Li, Weina Niu, Gang Liu, Rui Zhou, Qingguo Zhou. 1-6 [doi]

Noisy-Residual Continuous Diffusion Models for Real Image DenoisingXuan Long, Meiqin Liu, Qi Tang, Chao Yao, Jian Jin, Yao Zhao. 1-6 [doi]

Ultralight-weight Binary Neural Network with 1K Parameters for Image Super-ResolutionZhijian Wu, Dingjiang Huang. 1-6 [doi]

Attention in Attention for PET-CT Modality Consensus Lung Tumor SegmentationYuzhou Zhao, Xinyu Zhou, Haijing Guo, Qianyu Guo, Yan Zuo, Shaoli Song, Shuyong Gao, Wenqiang Zhang. 1-7 [doi]

Out-of-Distribution Generalization via Style and Spuriousness EliminatingKaiyu Jin, Chenwang Wu, Defu Lian. 1-6 [doi]

Client-Supervised Federated Learning: Towards One-Model-for-All PersonalizationPeng Yan, Guodong Long. 1-6 [doi]

Person Re-identification utilizing Text to Search VideoShunkai Zhou, Canlong Zhang, Zhixin Li, Zhiwen Wang, Chunrong Wei. 1-6 [doi]

Sentiment Confidence Separation: A Trust-Optimized Framework for Multimodal Sentiment ClassificationZemin Tang, Min Shi, ZhiBang Yang, Xu Zhou, Cen Chen, Joey Tianyi Zhou. 1-6 [doi]

SVASTIN: Sparse Video Adversarial Attack via Spatio-Temporal Invertible Neural NetworksYi Pan, Jun-Jie Huang, Zihan Chen, Wentao Zhao, Ziyue Wang. 1-6 [doi]

Multi-Scale Position-Aware Cell Nucleus Mask Attention for Tumor Budding DetectionWenwen Zhang, Jie Lian, Bingying Dong. 1-6 [doi]

GaitMA: Pose-guided Multi-modal Feature Fusion for Gait RecognitionFanxu Min, Shaoxiang Guo, Hao Fan 0004, Junyu Dong. 1-6 [doi]

Fast Textile Pilling Classification Based on a Lightweight Network and 3D Point CloudsYu Lu, Yizhou Jin, Yuyu Chen, Gang Zhou, Zhenghui Hu, Qingjie Liu, Di Huang, Yunhong Wang. 1-6 [doi]

Facial Action Unit Detection with the Semantic PromptChenyue Liang, Jiabei Zeng, Mingjie He, Dongmei Jiang, Shiguang Shan. 1-6 [doi]

LDNET: Semantic Segmentation Of High-Resolution Images Via Learnable Patch Proposal And Dynamic RefinementYuyang Ji, Lianlei Shan. 1-6 [doi]

Discriminative Pedestrian Features and Gated Channel Attention for Clothes-Changing Person Re-IdentificationYongkang Ding, Rui Mao 0014, Hanyue Zhu, Anqi Wang, Liyan Zhang 0001. 1-6 [doi]

Training-free Neural Architecture Search on Hybrid Convolution-attention NetworksYi Fan, Yu-Bin Yang. 1-6 [doi]

Balanced Active Sampling for Person Re-identificationTao He, Leqi Shen, Guiguang Ding, Zhiheng Zhou, Tianshi Xu, Xiaofeng Jin, Yuheng Huang. 1-6 [doi]

Bi-directional Boundary-object interaction and refinement network for Camouflaged Object DetectionJicheng Yang, Qing Zhang, Yilin Zhao, Yuetong Li, Zeming Liu. 1-6 [doi]

LMGSNet: A Lightweight Multi-scale Group Shift Fusion Network for Low-quality 3D Face RecognitionYuting Hu, Yue Ming 0001, Panzi Zhao, Boyang Lyu, Kai Hong. 1-6 [doi]

Adaptive Feature Fusion Network for Infrared Small Target DetectionBoyuan Li, Xiuhong Li, Songlin Li, Yuye Zhang, Kangwei Liu. 1-6 [doi]

Multi-Modal Gait Recognition with Unidirectional Cross-modal AlignmentHengda Li, Yinglin Zheng, Qifeng Dai, Jintai Wang, Liang Song, Ming Zeng 0008. 1-6 [doi]

AS-NeRF: Learning Auxiliary Sampling for Generalizable Novel View Synthesis from Sparse ViewsJilin Tang, Lincheng Li, Xingqun Qi, Yingfeng Chen, Changjie Fan, Xin Yu 0002. 1-6 [doi]

Rumor Detection Framework Based on Multi-source Knowledge AdaptationNing Xu 0003, Jingqiu Li, Lanjun Wang, Anan Liu. 1-6 [doi]

EVAN: Evolutional Video Streaming Adaptation via Neural RepresentationMufan Liu, Le Yang 0001, Yiling Xu, Ye-Kui Wang, Jenq-Neng Hwang. 1-6 [doi]

FedGCA: Global Consistent Augmentation Based Single-Source Federated Domain GeneralizationYuan Liu, Shu Wang, Zhe Qu, Xingyu Li, Shichao Kan, Jianxin Wang. 1-6 [doi]

PortraitNeRF: A Single Neural Radiance Field for Complete and Coordinated Talking Portrait GenerationPengfei Hu, Xiuzhe Wu, Yang Wu 0001, Wenming Yang. 1-6 [doi]

Diff-IFL: Towards General Image Forgery Localization using Diffusion Probabilistic ModelPing Xu, Jiangqun Ni, Jian Zhang, Yulin Zhang, Shiyuan Tang. 1-6 [doi]

Uncertainty-Debiased Multimodal Fusion: Learning Deterministic Joint Representation for Multimodal Sentiment AnalysisZixian Gao, Xun Jiang, Hua Chen, Yujie Li, Yang Yang, Xing Xu. 1-6 [doi]

Interpretable Function Embedding and Module in Convolutional Neural NetworksWei Han 0009, Zhili Qin, Junming Shao. 1-6 [doi]

FREQFORMER: Efficient Polyp Segmentation via Wavelet TransformXudong Zhou, Tianxiang Chen. 1-6 [doi]

Unsupervised Multi-Target Domain Adaptation Incremental Method Based on Contrastive LearningXing Wei, Zhaoxin Ji, Bin Wen, Fan Yang, Chong Zhao, Yang Lu 0015. 1-6 [doi]

Multi-Scale and Multi-Patch Aggregation Network Based on Dual-Column Vision Fusion for Image Aesthetics AssessmentSumei Li, Hangwei Liang, Mingxuan Xie, Xiaofei He. 1-6 [doi]

Source-Free Domain Adaptation for Point Cloud Semantic SegmentationJianshe Duan, Yachao Zhang 0001, Yanyun Qu. 1-6 [doi]

Prompt-Guided Generation of Structured Chest X-Ray Report Using a Pre-trained LLMHongzhao Li, Hongyu Wang, Xia Sun, Hua He, Jun Feng 0003. 1-6 [doi]

Completely Unpaired Cross-Modal Hashing Based on Coupled SubspaceXuening Zhang, Xingbo Liu, Xiao Kang, Wen Xue, Xiushan Nie, Shaohua Wang, Yilong Yin. 1-6 [doi]

MACFAN: A multi-channel fusion network for subjective aesthetic attributes with automated comments labeling pipelineLi Keyao, Kai Liu, Min Peng, Bo Zhao, Li Jiangyuanhong, Jiahui Zhu. 1-6 [doi]

US-SAM: An Automatic Prompt Sam For Ultrasound ImageYuteng Wang, Xing Wu, Zhongshi He, Peng Wang, Haidong Wang, Hongqian Wang. 1-6 [doi]

Prompt Fusion Interaction Transformer For Aspect-Based Multimodal Sentiment AnalysisDan Yang, Xiuhong Li, Zhe Li, Chenyu Zhou, Xiaofan Wang, Fan Chen. 1-6 [doi]

Enhancing Out-of-Distribution Generalization in VQA through Gini Impurity-guided Adaptive Margin LossShuwen Yang, Tianyu Huai, Anran Wu, Xingjiao Wu, Wenxin Hu, Liang He 0001. 1-6 [doi]

Powerful Lossy Compression for Noisy ImagesShilv Cai, Xiaoguo Liang, Shuning Cao, Luxin Yan, Sheng Zhong 0001, Liqun Chen, Xu Zou. 1-6 [doi]

FT-CSR: Cascaded Frequency-Time Method for Coded Speech RestorationLiang Wen, Lizhong Wang, Yuxing Zheng, Weijing Shi, Kwang-Pyo Choi. 1-6 [doi]

Enhancing Human Action Recognition with Fine-grained Body Movement AttentionRui Zhang, Junxiao Xue, Feng Lin, Qing Zhang, Pavel Smirnov, Xiao Ma, Xiaoran Yan. 1-6 [doi]

RevNet: A Review Network with Group Aggregation Fusion for Singing Melody ExtractionShuai Yu, Xiaoliang He, Yanting Zhang. 1-6 [doi]

Improving Transferability of Adversarial Examples with Adversaries CompetitionShuai Zhao, Tuo Li, Boyuan Zhang, Yang Zhai, Ziyi Liu, Yahong Han. 1-6 [doi]

Video Object Segmentation with Dynamic Query ModulationHantao Zhou, Runze Hu, Xiu Li 0001. 1-6 [doi]

Understanding Impacts of Electromagnetic Signal Injection Attacks on Object DetectionYouqian Zhang, Chunxi Yang, Eugene Yujun Fu, Qinhong Jiang, Chen Yan 0001, Sze Yiu Chau, Grace Ngai, Hong Va Leong, Xiapu Luo, Wenyuan Xu. 1-6 [doi]

Geo GCN: Geometric-based Graph CNN for Learning on Point CloudHao Deng, Shengmei Chen, Cheng Liu, Bo Jiang, Lin Wang 0026. 1-6 [doi]

Dense Voxel Representation Network for Implicit Scene CompletionFan Dai, Yun Zhu, Yaqi Shen, Jin Xie 0001, Jianjun Qian. 1-6 [doi]

Unknown Instance Learning for Person SearchLan Yan, Kenli Li 0001. 1-6 [doi]

FedStyle: Style-Based Federated Learning Crowdsourcing Framework for Art CommissionsChangjuan Ran, Yeting Guo, Fang Liu 0002, Shenglan Cui, Yunfan Ye. 1-6 [doi]

Frequency-regularized Neural Representation Method for Sparse-view Tomographic ReconstructionJingmou Xian, Jian Zhu, Haolin Liao, Si Li. 1-6 [doi]

ICR-Net: Semi-Supervised Medical Image Segmentation Guided By Intra-Sample Cross ReconstructionXianpeng Cao, Weixing Xie, Xianxing Cao, Qiqin Lin, Rongzhou Zhou, Junfeng Yao, Qingqi Hong. 1-6 [doi]

Single Free-Hand Sketch Guided Free-Form Deformation For 3D Shape GenerationFei Wang, Jianqiang Sheng, Kai Jiang, Zhineng Zhang, Juepeng Zheng, Baoquan Zhao. 1-6 [doi]

Parameter Efficient Fine-Tuning on Selective Parameters for Transformer-Based Pre-Trained ModelsQi Li. 1-6 [doi]

Towards Low-resource License Plate Recognition via Feature ShufflingYuan-yuan Liu, Song-Lu Chen, Qi Liu, Feng Chen, Xu-Cheng Yin. 1-6 [doi]

Multimodal Knowledge Graph Embeddings via Lorentz-based Contrastive LearningRuizhou Liu, Zongsheng Cao, Zhe Wu 0006, Qianqian Xu, Qingming Huang. 1-6 [doi]

Contour-Guided Modality Mitigation Network for Visible-Infrared Person Re-IdentificationQilong Xu, Xiuyang Zhao. 1-6 [doi]

Edge-Guided Mural Image Inpainting by Integrating Local and Global Information and Multiple Color SpacesGuodong Li, Letu Qingge, Qingyi Pan, Pei Yang. 1-6 [doi]

Jointly Learn the Base Clustering and Ensemble for Deep Image ClusteringChen Liang, Zhiqian Dong, Sheng Yang, Peng Zhou. 1-6 [doi]

Local-to-Global Self-Consistency Learning for Temporal Action LocalizationXinyu Xiao, Yun Hu, Eryun Liu. 1-6 [doi]

I-Matting: Improved Trimap-Free Image MattingZichuan Liu, Ke Wang, Mingyuan Wu, Lantao Yu, Klara Nahrstedt, Xin Lu. 1-6 [doi]

Facial Region-Based Ensembling for Unsupervised Temporal Deepfake LocalizationNesryne Mejri, Pavel Chernakov, Polina Kuleshova, Enjie Ghorbel, Djamila Aouada. 1-6 [doi]

How Does Textual Information Selection Influence Time Series Forecasting? A Cross-modal Perspective on Financial Volatility PredictionHao Niu, Yun Xiong, Xiaosu Wang, Biao Yang, Yao Zhang. 1-6 [doi]

MC-PCGC: A Space-Channel Mixed Contextual Coding for Point Cloud Geometry CompressionXueqiang Sun, Jin Wang, Jiade Chen, Yunhui Shi, Nam Ling, Baocai Yin. 1-6 [doi]

High-Fidelity Lake Extraction Via Two-Stage Prompt Enhancement: Establishing A Novel Baseline and BenchmarkBen Chen, Xuechao Zou, Kai Li, Yu Zhang, Junliang Xing, Pin Tao. 1-6 [doi]

SMAE: A Split Masked Graph AutoencoderRuiting Wang, Enguang Zuo, Chen Chen, Cheng Chen, Junyi Yan, Jie Zhong, Ziwei Yan, Xiaoyi Lv. 1-6 [doi]

PointELM: Fast Point Cloud Classification Using Deep Random Mapping Based Extreme Learning MachinesZhuangzi Li, Shan Liu, Ge Li 0002. 1-6 [doi]

Reputation Defender: Local Black-Box Adversarial Attack against Image-Translation-Based DeepFakeWang Yang, Lingchen Zhao, Dengpan Ye. 1-6 [doi]

ForecasterFlexOBM: A Multi-View Audio-Visual Dataset for Flexible Object-Based Media ProductionDavide Berghi, Craig Cieciura, Farshad Einabadi, Maxine Glancy, Oliver C. Camilleri, Philip Foster, Asmar Nadeem, Faegheh Sardari, Jinzheng Zhao, Marco Volino, Armin Mustafa, Philip J. B. Jackson, Adrian Hilton 0001. 1-6 [doi]

Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence DetectionShengyang Sun, Xiaojin Gong. 1-6 [doi]

IIPC: Intra-Inter Patch Correlations for Garment Collision HandlingRuisheng Yuan, Minzhe Tang, Dongliang Kou, Mingyang Sun, Dingkang Yang, Xiao Zhao, Lihua Zhang. 1-6 [doi]

DeCMG: Denoise with Cross-modality Guidance Makes Better Text-Video RetrievalRui Deng, Yuke Li. 1-6 [doi]

ETAU: Towards Emotional Talking Head Generation Via Facial Action UnitJiayi Lyu, Xing Lan, Guohong Hu, Hanyu Jiang, Wei Gan, Jian Xue. 1-6 [doi]

Language-Guided Semantic Alignment for Co-saliency DetectionChuang Ding, Yang Wu, Huihui Song, Kaihua Zhang, Xu Zhang, Zhenhua Guo. 1-6 [doi]

2SN: Adaptive and Dynamic Multi-modal Shortcut Network Architecture for Latency-Aware ApplicationsYifei Pu, Chi Wang, Xiaofeng Hou, Cheng Xu, Jiacheng Liu 0001, Jing Wang, Minyi Guo, Chao Li. 1-6 [doi]

When Skeleton Meets Motion: Adaptive Multimodal Graph Representation Fusion for Action RecognitionXiao Liu, Guan Yuan, Rui Bing, Zhuo Cai 0002, Shengshen Fu, Yonghao Yu. 1-6 [doi]

Dual Space Embedding Learning For Weakly Supervised Audio-Visual Violence DetectionYiran Liu, Zhanjie Wu, Mengjingcheng Mo, Ji Gan, Jiaxu Leng, Xinbo Gao 0001. 1-6 [doi]

Rethinking Image Deraining via Text-guided Detail ReconstructionChen Wu, Zhuoran Zheng, Pengwen Dai, Chenggang Shan, Xiuyi Jia. 1-6 [doi]

TBU: A Large-scale Multi-mask Video Dataset for Teacher Behavior UnderstandingTing Cai, Yu Xiong, Chengyang He, Chao Wu, Song Zhou. 1-6 [doi]

Photorealistic image style transfer based on explicit affine transformationJunjie Kang, Jinsong Wu, Shiqi Jiang. 1-8 [doi]

DDLNet: Boosting Remote Sensing Change Detection with Dual-Domain LearningXiaowen Ma, Jiawei Yang, Rui Che, Huanting Zhang, Wei Zhang 0021. 1-6 [doi]

HURDNet: Heterogeneous UNet Structure With Range-Null Space Decomposition for Hyperspectral Image ReconstructionYeheng Zhu, Zhijian Wu, Jun Li, Jianhua Xu. 1-6 [doi]

MFITrack: Multi-Frame Integration Strategy for Enhanced Motion-Centric Single Object TrackingPochun Chen, Nan Zhang 0015, Guoqing Liu, Ge Li. 1-6 [doi]

Exploring Iterative Refinement with Diffusion Models for Video GroundingXiao Liang, Tao Shi, Yaoyuan Liang, Te Tao, Shao-Luo Huang. 1-6 [doi]

CUS3D: Clip-Based Unsupervised 3D Segmentation via Object-Level DenoiseFuyang Yu, Runze Tian, Zhen Wang, Xiaochuan Wang, Xiaohui Liang. 1-6 [doi]

Boundary Contrast Domain Adaptation for Cross-modality Medical Image SegmentationHaoran Zhang, Xi Lin, Suxian Xiang, Chenxi Huang, Lvqing Yang, Yan Wang. 1-6 [doi]

DomainVoyager: Embracing The Unknown Domain by Prompting for Automatic AugmentationChuang Liu, Haogang Zhu, Xiu Su. 1-7 [doi]

Multi-Modal Fusion and Query Refinement Network for Video Moment Retrieval and Highlight DetectionYifang Xu, Yunzhuo Sun, Benxiang Zhai, Zien Xie, Youyao Jia, Sidan Du. 1-6 [doi]

VG-Annotator: Vision-Language Models as Query Annotators for Unsupervised Visual GroundingJiabo Ye, Junfeng Tian, Xiaoshan Yang, Zhenru Zhang, Anwen Hu, Ming Yan, Ji Zhang, Liang He, Xin Lin. 1-6 [doi]

Lightweight Video Denoising Using a Classic Bayesian BackboneClement Bled, François Pitié. 1-6 [doi]

HpEIS: Learning Hand Pose Embeddings for Multimedia Interactive SystemsSongpei Xu, Xuri Ge, Chaitanya Kaul, Roderick Murray-Smith. 1-6 [doi]

Enhancing Sequential Recommendation Modeling Via Adversarial TrainingYabin Zhang, Xu Chen. 1-6 [doi]

Low Bitrate Light Field Video Compression with Two-step Refinement ReconstructionHuan Li, Xinpeng Huang, Ping An. 1-6 [doi]

Dual Guidance Enhancing Camouflaged Object Detection via Focusing Boundary and Localization RepresentationSonglin Li, Xiuhong Li, Zhe Li, Hongbing Ma, Jiabao Sheng, Boyuan Li. 1-6 [doi]

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text GuidanceYongkang Cheng, Mingjiang Liang, Shaoli Huang, Jifeng Ning, Wei Liu. 1-6 [doi]

Out-of-Distribution Detection by Principal Component CorrespondenceXiaoyuan Guan, Zhiyong Gan, Ling Deng, Wei Shi, Jiankang Chen, Shenshen Bu, Chunliang Zhao, Jianfang Hu, Yuren Zhou, Wei-Shi Zheng 0001, Ruixuan Wang. 1-6 [doi]

Unsupervised Monte Carlo Denoising via Learning Contrastive Disentanglement RepresentationXiao Liang, Siyuan Duan, Lijie Zheng, Yuqian Zeng. 1-6 [doi]

Improving Drum Source Separation with Temporal-Frequency Statistical DescriptorsSi Li, Jiaxing Liu, Peilin Li, Dichucheng Li, Xinlu Liu, Yongwei Gao, Wei Li 0012. 1-6 [doi]

Shadow Constrained DEM Refinement Based on Differentiable RenderingFan Tian, Peichi Zhou, Chen Li 0035, Changbo Wang. 1-6 [doi]

Voice-to-Face Generation: Couple of Self-Supervised Representation Learning with Diffusion ModelWuyang Chen, Kele Xu, Yong Dou, Tian Gao. 1-6 [doi]

Multi-scale Transformer with Prompt Learning for Remote Sensing Image DehazingJingru Wang, Xinguang Xiang. 1-6 [doi]

Latent Distribution Alignment for Domain Generalizable Person Re-identificationRen Nie, Jin Ding, Lingxiao He, Xue Zhou. 1-6 [doi]

FedMMR: Multi-Modal Federated Learning via Missing Modality ReconstructionShu Wang, Zhe Qu, Yuan Liu, Shichao Kan, Yixiong Liang, Jianxin Wang. 1-6 [doi]

Automatic Fusion for Multimodal Entity Alignment: A New Perspective from Automatic Architecture SearchChenyang Bu, Yunpeng Hong, Shiji Zang, Guojie Chang, Xindong Wu 0001. 1-6 [doi]

STformer: Advancing Video Deraining Network Integrating with Spatial Transformers and Multiscale Feature ExtractionFengqi Li, Mengchao Guo, Fengqiang Xu, Renxuan Xiong, Xiaohong Yan, Qian Sun, Deguang Wang. 1-6 [doi]

BFMEF: Brightness-Free Multi-exposure Image Fusion via Adaptive CorrectionPan Mu, Binjia Zhou, Qirui Wang, Zhiying Du, Xiaoyan Wang. 1-6 [doi]

Artistry in Pixels: FVS - A Framework for Evaluating Visual Elegance and Sentiment Resonance in Generated ImagesWeijie Li, Luwei Xiao, Xingjiao Wu, Tianlong Ma, Jiabao Zhao, Liang He. 1-6 [doi]

Beimin: Serverless-based Adaptive Real-Time Video ProcessingJiaye Zhang, Zili Meng, Mingwei Xu. 1-6 [doi]

A Self-Attention Network for Stereo MatchingMenglong Yang, Hanyong Wang, Yang Ren. 1-10 [doi]

The Balanced Multi-Modal Spiking Neural Networks with Online Loss Adjustment and Time AlignmentJianing Han, Jiangrong Shen, Qi Xu, Jian Liu, Huajin Tang. 1-6 [doi]

Theoretical Bound-Guided Hierarchical Vae For Neural Image CodecsYichi Zhang, Zhihao Duan, Yuning Huang, Fengqing Zhu 0001. 1-6 [doi]

ICF-Loc: An Infrared-Based Coarse-to-Fine Approach for UAV Visual Geolocation under GPS-Denied EnvironmentsZhen Wang, Dianxi Shi, Chunping Qiu, Songchang Jin, Tongyue Li, Yanyan Shi. 1-6 [doi]

Context-Aware Text-Assisted Multimodal Framework for Cervical Cytology Cell Diagnosis and ChattingYuxuan Sun, Chenglu Zhu, Sunyi Zheng, YunLong Zhang, Honglin Li 0001, Lin Yang. 1-6 [doi]

Spot the Difference! Temporal Coarse to Fine to Finer Difference Spotting for Action Recognition in VideosYaoxin Li, Deepak Sridhar, Hanwen Liang, Alexander Wong. 1-6 [doi]

Customized Cross-device Neural Architecture Search with ImagesYang Yao 0003, Xin Wang, Yijian Qin, Ziwei Zhang, Wenwu Zhu 0001, Hong Mei 0001. 1-6 [doi]

Alternating Direction Method of Multipliers for Negative Binomial Model with the Weighted Difference of Anisotropic and Isotropic Total VariationYu Lu, Kevin Bui, Roummel F. Marcia. 1-6 [doi]

Mixed 3D Gaussian for Dynamic Scenes Representation and RenderingJunyuan Guo, Teng Wang, Chao Wang. 1-6 [doi]

EventTrojan: Manipulating Non-Intrusive Speech Quality Assessment via Imperceptible EventsYing Ren, Kailai Shen, Zhe Ye, Diqun Yan. 1-6 [doi]

Hierarchical Attention Feature Fusion and Refinement Network for Point Cloud UpsamplingYaori Zhang, Shujin Lin, Fan Zhou 0001, Ruomei Wang. 1-8 [doi]

A Multi-View Double Alignment Hashing Network with Weighted Contrastive LearningTianlong Zhang, Zhe Xue, Yuchen Dong, Junping Du, MeiYu Liang. 1-6 [doi]

STRA: A Simple Token Replacement Strategy Alleviating Exposure Bias in Text GenerationShaoyao Huang, Luozheng Qin, Ziqiang Cao, Qian Qiao. 1-6 [doi]

TLVC: Temporal Bit-rate Allocation for Learned Video CompressionYifan Zhang, Meiqin Liu, Chenming Xu, Qi Tang, Chao Yao, Yao Zhao. 1-6 [doi]

Heuristic Action-aware and Priority Communication for Multi-agent Path FindingDongming Zhou, Zhengbin Pang. 1-6 [doi]

MaFreeI2P: A Matching-Free Image-to-Point Cloud Registration Paradigm with Active Camera Pose RetrievalGongxin Yao, Xinyang Li, Yixin Xuan, Yu Pan 0001. 1-6 [doi]

Adversarial Training with OCR modality Perturbation for Scene-Text Visual Question AnsweringZhixuan Shen, Haonan Luo, Sijia Li, Tianrui Li 0001. 1-6 [doi]

EGLA-Net: Edge Guided with Lesion Aware Network for Medical image segmentationRuixue Qi, Chen Pang, Mengyang Zhang, Lei Lyu. 1-6 [doi]

VIP-FSCIL: A More Robust Approach for FSCILZhihang Wei, Jinxin Shi, Jing Yang, Jiabao Zhao. 1-6 [doi]

Learning Semantic-aware Retinex Network with Spatial-Frequency Interaction for Low-light Image EnhancementHao Li, JinLong Wang, Hanxiang Yang, Xiongxin Tang, Fanjiang Xu. 1-6 [doi]

FENet: Focusing Enhanced Network for Lane DetectionLiman Wang, Hanyang Zhong. 1-6 [doi]

HARIS: Human-Like Attention for Reference Image SegmentationMengxi Zhang, Heqing Lian, Yiming Liu, Jie Chen. 1-6 [doi]

An Aesthetic-Guided Multimodal Framework for Video SummarizationJiehang Xie, Xuanbai Chen, Shao-Ping Lu. 1-6 [doi]

Analyzing Behavior and Intention in Multi-Agent Systems Using Graph Neural NetworksJintai Du, JinLong Wang, Jiansheng Chen, Xinlong Ding, Jiehui Wu, Tianyu Hu, Huimin Ma 0001. 1-6 [doi]

Densely Connected Transformer with Frequency Awareness and Sam Guidance for Semi-Supervised Hyperspectral Image ClassificationYutao Rao, Liwei Sun, Junjie Zhang 0002, Haoran Jiang, Jian Zhang, Dan Zeng 0001. 1-6 [doi]

Diffimpute: Tabular Data Imputation with Denoising Diffusion Probabilistic ModelYizhu Wen, Yiwei Wang, Kai Yi, Jing Ke, Yiqing Shen 0003. 1-6 [doi]

RotoGBML: Towards Out-of-distribution Generalization for Gradient-based Meta-learningMin Zhang, Zifeng Zhuang, Zhitao Wang, Donglin Wang. 1-6 [doi]

Proposal Feature Learning Using Proposal Relations for Weakly Supervised Object DetectionZhaofei Wang, Weijia Zhang, Min-Ling Zhang. 1-6 [doi]

Chain-of-Thought Prompting for Demographic Inference with Large Multimodal ModelsYongsheng Yu, Jiebo Luo. 1-7 [doi]

Invisible Pedestrians: Synthesizing Adversarial Clothing Textures To Evade Industrial Camera-Based 3D DetectionXinlong Ding, Hongwei Yu, Jiansheng Chen, JinLong Wang, Jintai Du, Huimin Ma 0001. 1-6 [doi]

Fast Multi-view Clustering With Binary Anchor GraphWen Xue, Xingbo Liu, Xiao Kang, Xuening Zhang, Xiushan Nie, Shaohua Wang, Yilong Yin. 1-6 [doi]

Expanding Crack Segmentation Dataset with Crack Growth Simulation and Feature Space DiversityQin Lei, Rui Yang, Jiang Zhong, Rongzhen Li, Muyang He, Mianxiong Dong, Kaoru Ota. 1-6 [doi]

TEAdapter: Supply Vivid Guidance for Controllable Text-to-Music GenerationJialing Zou, Jiahao Mei, Xudong Nan, Jinghua Li, Daoguo Dong, Liang He. 1-6 [doi]

Multimodal Semantic Fusion for Zero-Shot LearningYan Feng, Tian Jiang, Yunqi Liu, Zijian Huang, Xiaohui Cui. 1-6 [doi]

Hierarchically Aggregated Identification Transformer Network for Camouflaged Object DetectionThanh Hai Phung, Hung-Jen Chen, Hong-Han Shuai. 1-6 [doi]

TS-SAM: Fine-Tuning Segment-Anything Model for Downstream TasksYang Yu, Chen Xu, Kai Wang. 1-6 [doi]

G-MIMO: Empowering GNNs with Diverse Sub-Networks for Graph ClassificationQipeng Zhu, Jie Chen, Junping Zhang, Jian Pu. 1-6 [doi]

Unsupervised Online Cross-modal Hashing With Multiple Association ExploitationXiao Kang, Xingbo Liu, Xuening Zhang, Wen Xue, Xiushan Nie, Shaohua Wang, Yilong Yin. 1-6 [doi]

A Study On Incorporating Whisper For Robust Speech AssessmentRyandhimas E. Zezario, Yu-Wen Chen, Szu-Wei Fu, Yu Tsao 0001, Hsin-Min Wang, Chiou-Shann Fuh. 1-6 [doi]

Adaptive Learning via a Negative Selection Strategy for Few-Shot Bioacoustic Event DetectionYaxiong Chen, Xueping Zhang, Yunfei Zi, Shengwu Xiong. 1-6 [doi]

DepthRefiner: Adapting RGB Trackers to RGBD Scenes via Depth-Fused RefinementSimiao Lai, Dong Wang 0004, Huchuan Lu. 1-6 [doi]

A Lightweight Multi-Level Relation Network for Few-shot Action RecognitionEnqi Liu, Liyuan Pan. 1-6 [doi]

HMDST: A Hybrid Model-Data Driven Approach for Spatio-Temporally Consistent Video InpaintingLi Fang, Kaijun Zou, Zhiye Chen, Long Ye. 1-6 [doi]

VLUReID: Exploiting Vision-Language Knowledge for Unsupervised Person Re-IdentificationDongmei Zhang, Ray Zhang 0002, Fan Yang, Yuan Li, Huizhu Jia, Xiaodong Xie, Shanghang Zhang. 1-6 [doi]

Clothing Sampling Based on Active Learning For Cloth-Changing Person Re-identificationYujie Liu, Mingyue Li, Jiansen Jing, Yante Li, Guoying Zhao 0001. 1-6 [doi]

Collaborative Edge Caching in LEO Satellites Networks: A MAPPO Based ApproachMingzhou Wu, Shiqi Dai, Han Hu, Zhi Wang 0001. 1-6 [doi]

InFusionSurf: Refining Neural RGB-D Surface Reconstruction Using Per-Frame Intrinsic Refinement and TSDF Fusion Prior LearningSeunghwan Lee, Gwanmo Park, Hyewon Son, Jiwon Ryu, Han Joo Chae. 1-6 [doi]

RLVC: Robust and Lightweight Voice Conversion Using Cross-Adaptive Instance NormalizationYewei Gu, Xianfeng Zhao, Xiaowei Yi. 1-6 [doi]

Tackling Feature Skew in Heterogeneous Federated Learning with Semantic EnhancementQi Li, Yucan Zhou, Jiang Zhou, Xiaoyan Gu, Bo Li. 1-6 [doi]

EyebrowNet: High-Precision Eyebrow Reconstruction and MattingYufeng Wang, WenSen Feng, Haoqian Wang. 1-6 [doi]

Cross-Modality Consistency Mining For Continuous Sign Language Recognition with Text-Domain EquivalentsZhenghao Ke, Sheng Liu, Chengyuan Ke, Yuan Feng, Shengyong Chen. 1-6 [doi]

Jointly Recognizing Speech and Singing Voices Based on Multi-Task Audio Source SeparationYe Bai, Chenxing Li, Hao Li, Yuanyuan Zhao, Xiaorui Wang. 1-6 [doi]

Fractional Order Spectrum in SAR Image RegistrationJianjun Sun, Yan Zhao, Xinbo Li, Shigang Wang, Jian Wei, Shibo Wang. 1-6 [doi]

Multi-granularity Correlation Refinement for Semantic CorrespondenceZhen Liang, Enyu Che, Guoqiang Xiao, Jingwei Qu. 1-6 [doi]

Maths: Multimodal Transformer-Based Human-Readable SolverYicheng Pan 0004, Zhenrong Zhang, Jiefeng Ma, Pengfei Hu, Jun Du, Qing Wang, Jianshu Zhang, Dan Liu 0008, Si Wei. 1-6 [doi]

Unbiased Image Synthesis via Manifold Guidance in Diffusion ModelsXingzhe Su, Daixi Jia, Fengge Wu, Junsuo Zhao, Changwen Zheng, Wenwen Qiang. 1-6 [doi]

Multimedia Generative Modelling with High-Order Langevin DynamicsZiqiang Shi, Rujie Liu. 1-6 [doi]

Universal Organizer of Segment Anything Model for Unsupervised Semantic SegmentationTingting Li, Gensheng Pei, Xinhao Cai, Qiong Wang 0003, Huafeng Liu, Yazhou Yao. 1-6 [doi]

Improving the Sar Image Adversarial Transferability Through Dual-Loop Ensemble Gradient AttackXin Liu, Yue Xu, Kun He. 1-6 [doi]

DrivingGen: Efficient Safety-Critical Driving Video Generation with Latent Diffusion ModelsZipeng Guo, Yuchen Zhou, Chao Gou. 1-6 [doi]

Cross-Evaluation and Re-weighting for Multi-Source-Free Domain AdaptationBingxin Li, Ying Li, Shihui Ying. 1-6 [doi]

Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head GenerationJintao Tan, Xize Cheng, Lingyu Xiong, Lei Zhu, Xiandong Li, Xianjia Wu, Kai Gong, Minglei Li, Yi Cai. 1-6 [doi]

Unpaired image despeckling based on adversarial speckle generationXu Wang, Yanxia Wu, Ye Yuan, Yan Fu, Xue Zhang. 1-6 [doi]

DiffuStra: A Diffusion Model for Dialog Strategy in Non-Collaborative Dialog SystemsHaixiang Zhu, Jing Ye, Jianbing Tang, Yiping Song. 1-6 [doi]

Anchor Based Multi-view Clustering for Partially View-Aligned DataLiang Zhao, Yukun Yuan 0002, Qiongjie Xie, Ziyue Wang. 1-5 [doi]

GIE : Gradient Inversion with EmbeddingsZenghao Guan, Yucan Zhou, Xiaoyan Gu, Bo Li. 1-6 [doi]

Enhancing Vital Sign Monitoring with Reinforcement Learning and Wavelet Analysis in Sleep DisordersHaoyu Wang, Zilong Yin, Hangling Sun, Xin Guo. 1-6 [doi]

Optimizing Projection-Based Point Cloud Quality Assessment with Human Preferred Viewpoints SelectionZicheng Zhang, Yu Fan, Wei Sun, Xiongkuo Min, Xiaohong Liu, Chunyi Li, Haoning Wu 0001, Weisi Lin, Ning Liu, Guangtao Zhai. 1-6 [doi]

Talking Portrait with Discrete Motion Priors in Neural Radiation FieldDaowu Yang, Ying Liu, Qiyun Yang, Ruihui Li. 1-6 [doi]

FFnsr: Fast and Fine Neural Surface ReconstructionChuanfeng Yang, Kaiheng Li, Jiahui Chen, Qingqi Hong. 1-6 [doi]

PA-SAM: Prompt Adapter SAM for High-Quality Image SegmentationZhaozhi Xie, Bochen Guan, Weihao Jiang, Muyang Yi, Yue Ding 0001, Hongtao Lu, Lei Zhang 0006. 1-6 [doi]

Two-phase Parametric Registration for Retinal ImagesXinxin Zhang 0004, Xiankai Lu, Jizhou Li, Yongshun Gong, Qiangchang Wang, Yilong Yin. 1-6 [doi]

VTR: Bidirectional Video-Textual Transmission Rail for CLIP-based Video RecognitionShaoqi Yu, Lili Chen, Xiaolin Zhang, Jiamao Li. 1-6 [doi]

MSFGNet: Multi-Scale Features Gathering Network for Change Detection of Remote Sensing ImagesJunqing Huang, Xiaochen Yuan, Chan-Tong Lam, Wei Ke 0001. 1-6 [doi]

Positive Label Is All You Need for Multi-Label ClassificationZhixiang Yuan, Kaixin Zhang, Tao Huang. 1-6 [doi]

Semantic-Visual Graph Reasoning for Visual DialogDongze Hao, Qunbo Wang, Jing Liu 0001. 1-6 [doi]

Modeling Scene-Agent Interaction for Pedestrian Trajectory PredictionPengfei Yao, Yinglong Zhu, Tianlu Mao, Hao Jiang, Zhaoqi Wang. 1-6 [doi]

Improving Image Reconstruction and Synthesis by Balancing the Optimization from Frequency PerspectiveXuan Dang, Guolong Wang, Xun Wu, Zheng Qin 0003. 1-6 [doi]

Contextual Interaction Enhancement Network for Smoke DetectionJiefeng Lin, Chenlin Fu, Qiang Huang, Yingying Zhu 0001. 1-6 [doi]

PianoBART: Symbolic Piano Music Generation and Understanding with Large-Scale Pre-TrainingXiao Liang, Zijian Zhao, Weichao Zeng, Yutong He, Fupeng He, Yiyi Wang, Chengying Gao. 1-6 [doi]

SD4Privacy: Exploiting Stable Diffusion for Protecting Facial PrivacyJinyang An, Wanqian Zhang, Dayan Wu, Zheng Lin 0001, Jingzi Gu, Weiping Wang 0005. 1-6 [doi]

Enhanced Speech Emotion Recognition Incorporating Speaker-Sensitive Interactions in ConversationsJiachen Luo, Huy Phan, Lin Wang, Joshua D. Reiss. 1-6 [doi]

InstructVid2Vid: Controllable Video Editing with Natural Language InstructionsBosheng Qin, Juncheng Li 0006, Siliang Tang, Tat-Seng Chua, Yueting Zhuang. 1-6 [doi]

Mix background and foreground separately: Transformer-based Augmentation Strategies for Domain GeneralizationZhongqiang Zhang, Fuhan Cai, Duo Liu, Ge Liu, Xiangzhong Fang. 1-6 [doi]

Space-time Reinforcement Network for Video Object SegmentationYadang Chen, Wentao Zhu, Zhi-Xin Yang, Enhua Wu. 1-6 [doi]

Combining Soft and Hard Attentions for high-quality single-stage instance segmentationQiong Chen, Yaochi Zhao, Yujia Chen, He Zhang, Zhuhua Hu. 1-5 [doi]

No-Reference Segmentation Annotation Quality AssessmentZheng Lin 0005, Zheng-Peng Duan, Xuying Zhang, Luojun Lin. 1-6 [doi]

NIR-VIS Image Translation for the Cross-Spectral and Cross-Distance Face RecognitionDa Ai, Kai Jia, Yunqiao Wang, Ying Liu 0026. 1-6 [doi]

Audio-driven High-resolution Seamless Talking Head Video Editing via StyleGANJiacheng Su, KunHong Liu 0001, Liyan Chen, Junfeng Yao, Qingsong Liu, Dongdong Lv. 1-6 [doi]

Exploring Audio-Visual Information Fusion for Sound Event Localization and Detection In Low-Resource Realistic ScenariosYa Jiang, Qing Wang, Jun Du, Maocheng Hu, Pengfei Hu, Zeyan Liu, Shi Cheng, Zhaoxu Nian, Yuxuan Dong, Mingqi Cai, Xin Fang, Chin-Hui Lee 0001. 1-6 [doi]

SC-HVPPNet: Spatial and Channel Hybrid-Attention Video Post-Processing Network with CNN and TransformerTong Zhang, Wenxue Cui, Shaohui Liu, Feng Jiang. 1-6 [doi]

Multi-feature and Multi-branch Action Segmentation Framework for Modeling Long-Short-Term DependenciesJunkun Hong, Yitian Long, Yueyi Luo, Qianqian Qi, Jun Long. 1-6 [doi]

Focal-Guided Multi-Consistency for Unsupervised Partial-to-Partial Point Cloud RegistrationYucheng Shu, Longjin Cheng, Bin Xiao 0002, Lihong Qiao, Weisheng Li 0001, Xinbo Gao 0001. 1-6 [doi]

Common Sense Language-Guided Exploration and Hierarchical Dense Perception for Instruction Following Embodied AgentsYuanwen Chen, Xinyao Zhang, Yaran Chen, Dongbin Zhao, Yunzhen Zhao, Zhe Zhao, Pengfei Hu. 1-6 [doi]

Multi-contrast MRI Reconstruction with Deformable Attention and Invertible NetworkTiancheng Zhang, Xinyi Zhang. 1-6 [doi]

A Region-Growing Supervised Geometry-Weighted Transformer for Normal EstimationRao Fu, Qian Li, Cheng Wen, Ning An 0002, Fulin Tang. 1-6 [doi]

SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech RecognitionHongfei Xue, Qijie Shao, Kaixun Huang, Peikun Chen, Jie Liu, Lei Xie. 1-6 [doi]

Structure-aware Residual-center Representation for Self-Supervised Open-set 3D Cross-modal RetrievalYang Xu, Yifan Feng, Yu Jiang. 1-6 [doi]

Orthogonal Hyper-category Guided Multi-interest Elicitation for Micro-video MatchingBeibei Li 0001, Beihong Jin, Yisong Yu, Yiyuan Zheng, Jiageng Song, Wei Zhuo 0002, Tao Xiang 0001. 1-6 [doi]

An Empirical Study of Parameter Efficient Fine-tuning on Vision-Language Pre-train ModelYuxin Tian, Mouxing Yang, Yunfan Li 0003, Dayiheng Liu, Xingzhang Ren, Xi Peng 0001, Jiancheng Lv 0001. 1-6 [doi]

Crowd Counting and Localization in Haze and RainWeijun Yuan, Zhan Li, Xiaohan Li, Liangda Fang, Qingfeng Zhang, Zhixiang Qiu. 1-6 [doi]

Multi-source Knowledge Enhanced Graph Attention Networks for Multimodal Fact VerificationHan Cao, Lingwei Wei, Wei Zhou, Songlin Hu. 1-6 [doi]

CLIPER: A Unified Vision-Language Framework for In-the-Wild Facial Expression RecognitionHanting Li, Hongjing Niu, Zhaoqing Zhu, Feng Zhao 0004. 1-6 [doi]

FIA-TE: Feature Inference Attack on Decision Tree Ensembles in Vertical Federated LearningXiaolin Chen, Daoguang Zan, Wei Li, Bei Guan, Yongji Wang. 1-6 [doi]

Text-Based Vector Sketch Editing with Image Editing Diffusion PriorHaoran Mo, Xusheng Lin, Chengying Gao, Ruomei Wang 0001. 1-6 [doi]

Enhancing Multimodal Sentiment Analysis via Learning from Large Language ModelNing Pang, Wansen Wu, Yue Hu, Kai Xu, Quanjun Yin, Long Qin. 1-6 [doi]

Structural Highlight Network for Camouflaged Object DetectionZheng Wang, Junkun Zhao, BiFan Lai, XingHuai Zheng. 1-6 [doi]

Dual-View Multimodal Interaction in Multimodal Sentiment AnalysisKang Zhu, Cunhang Fan, Jianhua Tao 0001, Jun Xue, Heng Xie, Xuefei Liu, Yongwei Li, Zhengqi Wen, Zhao Lv. 1-6 [doi]

Causal Fusion of Convolutional Neural Network and Vision Transformer for Image Anomaly Detection and LocalizationShuo Zhang, Xiongpeng Hu, Jing Liu. 1-6 [doi]

Two-Step Temporal Divisive Clustering for Unsupervised Action SegmentationYule Liu, Zhuben Dong, Shenglan Liu, Wujun Wen, Lin Feng 0001. 1-6 [doi]

K-Face Net: A Two-Stage Framework for Balanced Feature Space in Facial Expression RecognitionZhongzhu Yang, Liang Luo, Yu Gu 0003, Fuji Ren. 1-6 [doi]

Flexible Mixed Precision Quantization for Learne Image CompressionMd Adnan Faisal Hossain, Zhihao Duan, Fengqing Zhu 0001. 1-8 [doi]

The Prospect of Enhancing Large-Scale Heterogeneous Federated Learning with Foundation ModelsYulan Gao, Zhaoxiang Hou, Chengyi Yang, Zengxiang Li, Han Yu 0001, Xiaoxiao Li. 1-6 [doi]

2GSRnet: Iterative Interaction Guidance Network for Stereo Image Super-ResolutionPeiming Lin, Sumei Li, Zilin Zhao, Huilin Zhang. 1-6 [doi]

TrafficScene: A Multi-modal Dataset including Light Field for Semantic Segmentation of Traffic ScenesJie Luo, Xin Jin, Mingyu Liu, Yihui Fan. 1-6 [doi]

Reference Prompted Model Adaptation for Referring Camouflaged Object DetectionXuewei Liu, Shaofei Huang 0001, Ruipu Wu, Hengyuan Zhao, Duo Xu, Xiaoming Wei, Jizhong Han, Si Liu 0001. 1-6 [doi]

ScribbleEditor: Guided Photo-realistic and Identity-preserving Image Editing with Interactive ScribbleHaotian Hu, Bin Jiang, Chao Yang 0015, Xinjiao Zhou, Xiaofei Huo. 1-6 [doi]

NeRVA: Joint Implicit Neural Representations for Videos and AudiosAnustup Choudhury, Praneet Singh, Guan-Ming Su. 1-6 [doi]

Trident Transformer for Light Field Image Super-ResolutionZiqi Wang, Yao Lu, Shunzhou Wang, Wang Xia, Peiqi Xia, Wenjing Wang. 1-6 [doi]

DARA: Domain- and Relation-Aware Adapters Make Parameter-Efficient Tuning for Visual GroundingTing Liu, Xuyang Liu, Siteng Huang, Honggang Chen, Quanjun Yin, Long Qin, Donglin Wang, Yue Hu. 1-6 [doi]

Self-Supervised Federated Learning for Personalized Human Activity RecognitionShizhuo Deng, Da Teng, Zhubao Guo, Jiaqi Chen, Dongyue Chen, Tong Jia, Hao Wang. 1-6 [doi]

CRNet: Cross-Reconstruction Network for Inconsistent Point Cloud RegistrationYunzhe Xiao, Xueqiong Li, Shaowu Yang, Wenjing Yang 0002, Yong Dou. 1-6 [doi]

HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object DetectionShibiao Xu, ShuChen Zheng, Wenhao Xu, Rongtao Xu, Changwei Wang, Jiguang Zhang, Xiaoqiang Teng, Ao Li 0002, Li Guo 0004. 1-6 [doi]

Full-Reference Motion Quality Assessment Based on Efficient Monocular Parametric 3D Human Body ReconstructionYuxin Huang, Yiwei Yuan, Xiangyu Zeng, Ling Xie, Yiyu Fu, Guanghui Yue 0001, Baoquan Zhao. 1-6 [doi]

ReCo-CXR: A Self-Supervised Pre-Training Framework for Pulmonary Nodule Detection in X-Ray ImagesChenglin Liu, Binquan Wang, Ming Zhu. 1-6 [doi]

Mutual Compromised Multi-feature Fusion Method for Cross-modal Hashing RetrievalKangnan Bai, Pengyi Gao, Kai Chen, Xin Nie, Shenghui Li, Bingqian Li. 1-7 [doi]

MysticMask: Adversarial Mask for Impersonation Attack Against Face Recognition SystemsChaoxiang He, Yimiao Zeng, Xiaojing Ma 0002, Bin Benjamin Zhu, Zewei Li, Shixin Li, Hai Jin 0001. 1-6 [doi]

CAM-Guided Translation for Unpaired Weakly-Supervised Medical Image SegmentationYuebin Xie, Xiaochen He, Baoyao Yang, Fei Lyu 0004, Siqi Liu. 1-6 [doi]

Quantitative Analysis of Eye-Tracking Data Based on Information-Theoretic Tools for Measuring Driver DrowsinessYueming Zhu, Qing Xu 0002, Kai Zhen, Runlin Zhang, Shunbo Wang. 1-6 [doi]

Local-to-Global Perception Network for Point Cloud SegmentationHaoxuan Wang, Ping Wei 0001, Shuaijia Chen, Zhimin Liao, Jialu Qin. 1-6 [doi]

FedMDC: Enabling Communication-Efficient Federated Learning over Packet Lossy Networks via Multiple Description CodingYixuan Guan, Xuefeng Liu, Tao Ren 0001, Jianwei Niu 0002. 1-7 [doi]

Domain Adaptive Pose Estimation Via Multi-level AlignmentYugan Chen, Lin Zhao, Yalong Xu, Honglei Zu, Xiaoqi An, Guangyu Li. 1-6 [doi]

Towards Accurate 3D Face Alignment Under Extreme Scenarios Via Multi-Granularity Perturbation RelearningXinyu Li, Xing Wang, Xiaoxiao Yang, Suping Wu, Xiangzheng Li, Xitie Zhang, Zhiyuan Zhou, Xiang Zhang. 1-6 [doi]

Boosting Disfluency Detection with Large Language Model as Disfluency GeneratorZhenrong Cheng, Jiayan Guo, Hao Sun, Yan Zhang. 1-6 [doi]

RACon: Retrieval-Augmented Simulated Character Locomotion ControlYuxuan Mu, Shihao Zou, Kangning Yin, Zheng Tian 0002, Li Cheng, Weinan Zhang 0001, Jun Wang 0012. 1-6 [doi]

JIGSAW: Edge-based Streaming Perception over Spatially Overlapped Multi-Camera DeploymentsIla Gokarn, Yigong Hu, Tarek F. Abdelzaher, Archan Misra. 1-6 [doi]

Camera Chameleon - The Creative Impact of Tracked Tangible Interfaces for Virtual Film Pre-ProductionWill Kerr, Crescent Jicol, Tom S. F. Haines, Wenbin Li 0002. 1-6 [doi]

Boosting Node Injection Attack with Graph Local SparsityWenxin Liang, Bingkai Liu, Han Liu, Hong Yu 0005. 1-6 [doi]

Robust Principal Component Analysis via High-Order Self-Learning Transform Tensor Nuclear NormHonghui Xu, Yueqian Quan, Chuangjie Fang, Jianwei Zheng 0001. 1-6 [doi]

Diverse Embedding Modeling with Adaptive Noise Filter for Text-based Person RetrievalChen He, Shenshen Li, Zheng Wang, Fumin Shen, Yang Yang, Xing Xu. 1-6 [doi]

SPformer: Hybrid Sequential-Parallel Architectures for Automatic Speech RecognitionMingdong Yu, Xiaofeng Jin, Guirong Wang, Bo Wang, Jiaqi Chen. 1-5 [doi]

Inverse Optimization for Multi-View Multiple ClusteringXiaolong Xiong, Jinhan Cui, Jiaxiong Liu, Shuzhan Guo, Jun Zhou. 1-6 [doi]

Speaker Recognition Based on Pre-Trained Model and Deep ClusteringLiang He, Zhida Song, Shuanghong Liu, Mengqi Niu, Ying Hu, Hao Huang. 1-6 [doi]

Cross-Point Adversarial Attack Based on Feature Neighborhood Disruption Against Segment Anything ModelYan Jiang, Guisheng Yin, Ye Yuan, Jingjing Chen, Zhipeng Wei. 1-6 [doi]

Multi-Strategy Adversarial Learning for Robust Face Forgery Detection Under Heterogeneous and Composite AttacksXiyao Liu, Fengkai Dong, Xin Liao, Yuhan Guo, Jianbiao He, Jian Zhang, Gerald Schaefer, Hui Fang 0003. 1-6 [doi]

MergeNet: Explicit Mesh Reconstruction from Sparse Point Clouds via Edge PredictionWeimin Wang, Yingxu Deng, Zezeng Li, Yu Liu, Na Lei. 1-6 [doi]

Correcting Pseudo Labels in Semi Supervised Object Detection with SAMPengyu Wang, Jianmin Li 0001, Wenbo Ding, Jiachen Zhong, Jianyong Ai. 1-6 [doi]

Similarity Mining via Implicit Matching Pattern Learning for Kinship VerificationXiaoke Zhu, Danyang Li, Xiaopan Chen, Fumin Qi, Fan Zhang, Xiao-Yuan Jing. 1-6 [doi]

BézierFormer: A Unified Architecture for 2D and 3D Lane DetectionZhiwei Dong, Xi Zhu, Xiya Cao, Ran Ding, Caifa Zhou, Wei Li, Yongliang Wang, Qiangbo Liu. 1-6 [doi]

Stega-Matting: Irregular Matting Protection via SteganographyKun Hu, Zizhuo Wang, Zixuan Hu, Heng Gao, Xingjun Wang. 1-6 [doi]

Video Anomaly Detection Via Self-Supervised Learning With Frame Interval and Rotation PredictionKe Jia, Yonghong Song, Xiaomeng Wu, You Su. 1-6 [doi]

Video-Driven Sketch Animation Via Cyclic Reconstruction MechanismZhuo Xie, Haoran Mo, Chengying Gao. 1-6 [doi]

Single RGBD to Multilayer 3D Display PipelineLaurie Van Bogaert, Armand Losfeld, Gauthier Lafruit, Mehrdad Teratani. 1-6 [doi]

Deep Self-paced Active Learning for Image ClusteringHelin Zhao, Wei Chen, Peng Zhou. 1-6 [doi]

Multi-Hop Distillation for Efficient Cross-Layer Knowledge TransferFengshuo Zhang. 1-7 [doi]

Exploring 3D-aware Lifespan Face Aging via Disentangled Shape-Texture RepresentationsQianrui Teng, Rui Wang, Xing Cui, Peipei Li, Zhaofeng He. 1-6 [doi]

Joint Language Prompt and Object TrackingZhiMin Weng, Jinpu Zhang, Yuehuan Wang. 1-6 [doi]

Training-Free Semantic Video Composition via Pre-trained Diffusion ModelJiaqi Guo, Sitong Su, Junchen Zhu, Lianli Gao, Jingkuan Song. 1-6 [doi]

Towards Query-Efficient Decision-Based Adversarial Attacks Through Frequency DomainJianhao Fu, Xiang Ling 0001, Yaguan Qian, Changjiang Li, Tianyue Luo, JingZheng Wu. 1-6 [doi]

Domain Prompt Learning Framework for Real Image DehazingKaihao Lin, Guoqing Wang, Yuhui Wu, Shuhang Gu, Xing Xu, Yang Yang 0003. 1-6 [doi]

Probablistic Restoration with Adaptive Noise Sampling for 3D Human Pose EstimationXianzhou Zeng, Hao Qin, Ming Kong, Luyuan Chen, Qiang Zhu. 1-6 [doi]

EMo Transformer: Transformer-Based Depression Detection via Eye MovementsXin Li, Haizhuang Liu, Rongquan Wang, Bochao Zou, Yuxin Lin, Huimin Ma 0001. 1-6 [doi]

GATrack: Group-Aware features for multiple object trackingXiaolong Wang, Ping Hu, Rongyao Hu, Xiaofeng Zhu 0001. 1-6 [doi]

VS3D: A Vote-Based Semi-Supervised 3D Object Detection Framework for Point CloudsShuhua Wang, Ke Lu 0002, Yang Zhao, Hengsheng Lun, Zehai Niu, Jian Xue. 1-6 [doi]

A Weakly Supervised and Globally Explainable Learning Framework for Brain Tumor SegmentationRuitao Xie, Limai Jiang, Xiaoxi He, Yi Pan, Yunpeng Cai. 1-6 [doi]

Mask-guided Salient Feature Mining for Cloth-Changing Person Re-identificationLiman Jiang, Canlong Zhang, Lei Wu, Zhixin Li, Zhiwen Wang, Chunrong Wei. 1-6 [doi]

Controllable and Gradual Facial Blemishes Retouching Via Physics-Based ModellingChenhao Shuai, Rizhao Cai, Bandara Dissanayake, Amanda Newman, Dayan Guan, Dennis Sng, Ling Li, Alex C. Kot. 1-6 [doi]

ASD: Towards Attribute Spatial Decomposition for Prior-Free Facial Attribute RecognitionChuanfei Hu, Hang Shao, Bo Dong, Zhe Wang, Yongxiong Wang. 1-9 [doi]

MFHCA: Enhancing Speech Emotion Recognition Via Multi-Spatial Fusion and Hierarchical Cooperative AttentionXinxin Jiao, Liejun Wang, Yinfeng Yu. 1-5 [doi]

Feasibility Study of Multi-Layer VVC Coding Scheme for Hybrid Machine-Human ConsumptionJaakko Laitinen, Tero Partanen, Alexandre Mercat, Jarno Vanne, Miska M. Hannuksela, Honglei Zhang, Alireza Aminlou, Francesco Cricri. 1-6 [doi]

Temporal Sentence Grounding with Temporally Global Textual KnowledgeChen Cai, Runzhong Zhang, Jianjun Gao, Kejun Wu, Kim-Hui Yap, Yi Wang 0068. 1-6 [doi]

Cross-Domain Feature Semantic Calibration for Zero-Shot Sketch-Based Image RetrievalXuewan He, Jielei Wang, Qianxin Xia, Guoming Lu, Yuan Tang, Hongxia Lu. 1-6 [doi]

Cross-modal Prominent Fragments Enhancement Aligning Network for Image-text RetrievalYang Zhang, Yue Zhou, Zonghao Yang, Ao Chen. 1-6 [doi]

CSS-Net: Domain Generalization in Category-level Pose Estimation via Corresponding Structural SuperpointsLi Jin, Xibin Song, Jia Li, Changhe Tu, Xueying Qin. 1-6 [doi]

FedRMS: Privacy-Preserving Federated Knowledge Graph Embedding Through RandomizationQianyu Li, Xiaoli Tang, Siyao Zhou 0004, Han Yu 0001, Hengjie Song, LiZhen Cui, Xiaoxiao Li. 1-6 [doi]

SIAM: A Simple Alternating Mixer for Video PredictionXin Zheng, Ziang Peng, Yuan Cao, Hongming Shan, Junping Zhang. 1-10 [doi]

*Zhongzhan Huang, Senwei Liang, Mingfu Liang, Wei He, Haizhao Yang, Liang Lin. 1-6 [doi]

FusionDreamer: Consistent Images Generation from Sparse-view ImagesYige Wang, Risheng Huang, Haozhi Huang 0001, Zongqing Lu. 1-6 [doi]

PGDM: Multimodal Panoramic Image Generation with Diffusion ModelsDepei Liu, Hongjie Fan, Junfei Liu. 1-6 [doi]

Eliminating the Language Bias for Visual Question Answering with fine-grained Causal InterventionYing Liu, Ge Bai, Chenji Lu, Shilong Li, Zhang Zhang, Ruifang Liu, Wenbin Guo. 1-6 [doi]

Effective and Efficient Few-shot Fine-tuning for Vision TransformersJunjie Yang, Hao Wu, Ji Zhang, Lianli Gao, Jingkuan Song. 1-6 [doi]

Semantic Bridging and Feature Anchoring for Class Incremental LearningKanghui Wu, Dongyan Guo. 1-6 [doi]

A Patch-wise Adversarial Denoising Could Enhance the Robustness of Adversarial TrainingShuai Zhao, Shibin Liu, Boyuan Zhang 0003, Yang Zhai, Ziyi Liu, Yahong Han. 1-6 [doi]

A Dual-Branch Network Based on Connectivity Mask for Retinal Vessel SegmentationZejun He, Fei Chen, Fan Jiang, Wanling Liu, Zhangyan Ye. 1-6 [doi]

SMPLX-Lite: A Realistic and Drivable Avatar Benchmark with Rich Geometry and Texture AnnotationsYujiao Jiang, Qingmin Liao, Zhaolong Wang, Xiangru Lin, Zongqing Lu, Yuxi Zhao, Hanqing Wei, Jingrui Ye, Yu Zhang 0166, Zhijing Shao. 1-6 [doi]

Improving Few-Shot Neural Radiance Field with Image Based RenderingQian Li, Cheng Wen, Rao Fu. 1-6 [doi]

HSVFormer: Robust and Unsupervised HSV-based Transformer Framework for Low-Light Image EnhancementXiaogang Du, Meng Yang, Tao Lei, Xuejun Zhang, Yingbo Wang, Asoke K. Nandi. 1-6 [doi]

TailClip: Mitigating Tail Latency in Cloud Gaming via Smart Video Frame GenerationQianyun Gong, Kunheng Jiang, Jingjing Wen, Xinjing Yuan, Jianxin Shi, Lingjun Pu. 1-6 [doi]

Music Form Analysis: A Case Study of The Theme and Variations FormJing Zhao, KokSheik Wong, Vishnu Monn Baskaran, Kiki Adhinugraha, David Taniar. 1-6 [doi]

Robust Visual Question Answering With Contrastive-Adversarial Consistency ConstraintsJiawei Zhu, Meirong Ding, Yishu Liu, Biqing Zeng, Guangming Lu, Bingzhi Chen. 1-6 [doi]

Class-Aware Feature Perturbation for Long-Tailed Visual RecognitionXicheng Chen, Haibo Ye, Fangyu Zhou. 1-6 [doi]

Harmonic Frequency-Separable Transformer for Instrument-Agnostic Music TranscriptionYulun Wu, Weixing Wei, Dichucheng Li, Mengbo Li, Yi Yu 0001, Yongwei Gao, Wei Li 0012. 1-6 [doi]

Symmetrical Two-Stream with Selective Sampling for Diversifying Video CaptionsJin Wang, Yahong Han. 1-6 [doi]

Pseudolabel Distillation with Adversarial Contrastive Learning for Semisupervised Domain AdaptationYuwu Lu, Chunzhi Liu. 1-6 [doi]

WirePAuS: Auxiliary-free Single-shot Wireframe ParsingJinkang Ji, Junao Shen, Xinyu Wang, Tian Feng, Sensen Wu. 1-6 [doi]

Smile: Spiking Multi-Modal Interactive Label-Guided Enhancement Network for Emotion RecognitionMing Guo, Wenrui Li, Chao Wang, Yuxin Ge, Chongjun Wang. 1-6 [doi]

Mutual Positive and Negative Learning for Weakly-supervised Point Cloud Semantic SegmentationHaichuan Song, Zhihong Zheng, Zhizhong Zhang, Yuan Xie 0006, Guchu Zou, Zhenyi Qi, Xin Tan. 1-6 [doi]

Decoupling Spatio-Temporal Network for Fine-Grained Temporal Action SegmentationHaifei Duan, Shenglan Liu, Chenwei Tan, Yuning Ding, Jirui Tian, Feilong Wang. 1-6 [doi]

Wi-Fi based Gait Recognition using Spectrogram and PhaseSheng Chen, Fei Yang, Aimin Pan, Zhewei Mei. 1-6 [doi]

Information Aggregate and Sentiment Enhance Network to Handle Missing Modalities for Multimodal Sentiment AnalysisLiang Shi, Fuyong Xu, Ru Wang, Yongqing Wei, Guangjin Wang, Bao Wang, Peiyu Liu 0001. 1-6 [doi]

DNPM: A Neural Parametric Model for the Synthesis of Facial Geometric DetailsHaitao Cao 0006, Baoping Cheng, Qiran Pu, Haocheng Zhang, Bin Luo, Yixiang Zhuang, Juncong Lin, Liyan Chen, Xuan Cheng. 1-6 [doi]

Fine-Grained Scene Image Classification with Modality-Agnostic AdapterYiqun Wang, Zhao Zhou, Xiangcheng Du, Xingjiao Wu, Yingbin Zheng, Cheng Jin 0001. 1-6 [doi]

Enhanced Interpretability in Learned Image Compression via Convolutional Sparse CodingYiwen Tu, Wen Tan, Youneng Bao, Genhong Wang, Fanyang Meng, Yongsheng Liang. 1-6 [doi]

Frequency-Domain Enhanced Cross-modal Interaction Mechanism for Joint Video Moment Retrieval and Highlight DetectionJiawei Feng, Ruomei Wang 0001, Mingyang Liu, Yuanmao Luo, Fuwei Zhang. 1-8 [doi]

Multi-Scale Dense Description for Blind Image Quality AssessmentYijie Wei, Bo Liu, Peng Luan, Yinchi Ma. 1-6 [doi]

RC-Block: Refinement Coefficient for Rectifying Deformation FieldSuwei Zhang, Tai Ma, Ying Wen 0003. 1-6 [doi]

CaPAN: Class-aware Prototypical Adversarial Networks for Unsupervised Domain AdaptationZhenyu Yu, Pei Wang. 1-6 [doi]

A Noise Robust Framework via Uncertainty Guidance for Medical Image Segmentation with Noisy LabelZihang Huang, Yukun Yang, Tianyu Zhao, Xin Yang. 1-6 [doi]

A Fast and Tunable Privacy-Preserving Action Recognition Framework over Compressed VideoQingfeng Zheng, Peijia Zheng, Weiqi Luo 0001, Wei Lu 0001. 1-6 [doi]

OWR: Optimizing Watermark Robustness for Screen RecordingZixuan Hu, Kun Hu, Zizhuo Wang, Ranran Pan, Xingjun Wang. 1-6 [doi]

CLIP-Driven Multi-Scale Instance Learning for Weakly Supervised Video Anomaly DetectionZhangbin Qian, Jiawei Tan, Zhilong Ou, Hongxing Wang. 1-6 [doi]

Explicit Correlation Learning for Generalizable Cross-Modal Deepfake DetectionCai Yu, Shan Jia, Xiaomeng Fu, Jin Liu, Jiahe Tian, Jiao Dai, Xi Wang, Siwei Lyu, Jizhong Han. 1-6 [doi]

Cycle Frequency-Harmonic-Time Transformer for Note-Level Singing Voice TranscriptionYulun Wu, Yaolong Ju, Simon Lui, Jing Yang, Fan Fan, Xuhao Du. 1-6 [doi]

GAN Inversion for Image Editing via Unsupervised Domain AdaptationSiyu Xing, Chen Gong, Hewei Guo, Xiao-Yu Zhang, Xinwen Hou, Yu Liu. 1-6 [doi]

Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image GuidanceJiacheng Wang, Ping Liu, Wei Xu. 1-6 [doi]

A Parallel Attention Network For Cattle Face RecognitionJiayu Li, Xuechao Zou, Shiying Wang, Ben Chen, Junliang Xing, Pin Tao. 1-6 [doi]

Data Standardization for Robust Lip SyncChun Wang. 1-6 [doi]

Multi-modal Learnable Queries for Image Aesthetics AssessmentZhiwei Xiong, Yunfan Zhang, Zhiqi Shen 0001, Peiran Ren, Han Yu 0001. 1-6 [doi]

A Dataset with Multi-Modal Information and Multi-Granularity Descriptions for Video CaptioningMingrui Xiao, Zijian Zeng, Yue Zheng, Shu Yang, Yali Li 0001, Shengjin Wang. 1-6 [doi]

Temporal Self-Paced Proposal Learning for Weakly-Supervised Video Moment Retrieval and Highlight DetectionLiqing Zhu, Xun Jiang 0001, Fumin Shen, Guoqing Wang, Yang Yang 0002, Xing Xu. 1-6 [doi]

KDAS: Knowledge Distillation via Attention Supervision Framework for Polyp SegmentationQuoc-Huy Trinh, Minh Van Nguyen, Phuoc-Thao Vo Thi. 1-6 [doi]

Debiased Prototypical Learning Improves Generalized Category DiscoveryYu Wang, Bingchen Zhao, Yongchun Lu, Guoqiang Xiao, Quan Lu. 1-6 [doi]

Sal-Guide Diffusion: Saliency Maps Guide Emotional Image Generation through AdapterXiangru Lin, Shenghua Zhong, Yan Liu, Gong Chen 0006. 1-6 [doi]

HyPRE: Hybrid Proxy Re-Encryption for Secure Multimedia Data Sharing on Mobile DevicesXinyu Feng 0002, Cong Li, Qingni Shen, Jisheng Dong, Wenjun Qian, Yuejian Fang, Zhonghai Wu. 1-6 [doi]

ConfR: Conflict Resolving for Generalizable Deepfake DetectionJin Chen, Jiahe Tian, Cai Yu, Xi Wang, Zhaoxing Li, Yesheng Chai, Jiao Dai, Jizhong Han. 1-6 [doi]

Distinguishing Textual Prompt Importance: Image-Guided Text Weighting for CLIP-Based Few-shot LearningTianci Xun, Wei Chen, Yulin He, Di Wu, Yuanming Gao, Jiuyuan Zhu, Weiwei Zheng. 1-6 [doi]

Defending Against Backdoor Attacks via Region Growing and Diffusion ModelHaoquan Wang, Shengbo Chen, Xijun Wang, Hong Rao, Yong Chen. 1-6 [doi]

Adaptive Global-local Fusion Network Based Deep Unsupervised Hashing for Remote Sensing Image RetrievalZekun Xu, Yipeng Zhou, Quan Z. Sheng, Chao Li, Tongtong Lou, Weipeng Jing 0001. 1-6 [doi]

AsCL: An Asymmetry-sensitive Contrastive Learning Method for Image-Text Retrieval with Cross-Modal FusionZiyu Gong, Chengcheng Mai, Yihua Huang 0001. 1-6 [doi]

Controllable Text-to-Audio Generation with Training-Free Temporal Guidance DiffusionTianjiao Du, Jun Chen, Jiasheng Lu, Qinmei Xu, Huan Liao, Yupeng Chen, Zhiyong Wu. 1-6 [doi]

Multi-Attribute Consistency Driven Visual Language Framework for Surface Defect DetectionBin Kang, Bin Chen, Junjie Wang, Weizhi Xian, Huifeng Chang. 1-5 [doi]

Selective Cross-Correlation Consistency Loss for Out-of-Distribution GeneralizationZining Chen, Weiqiu Wang, Zhicheng Zhao, Fei Su, Aidong Men. 1-6 [doi]

Bilevel Relational Graph Representation Learning-based Multimodal Emotion Recognition in ConversationHuan Zhao 0003, Yi Ju, Yingxue Gao. 1-6 [doi]

Memory-Augmented Transformer for Efficient End-to-End Video GroundingYuanwu Xu, MoHan Chen, Yuejie Zhang, Rui Feng, Tao Zhang, Shang Gao. 1-6 [doi]

Gradient Saliency-aware CutMix for Semi-Supervised Medical Image SegmentationYuxuan Jiang, Guobin Zhu, Yi Ding 0003, Zhen Qin 0002, Minghui Pang. 1-6 [doi]

STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object TrackingJianbo Ma, Chuanming Tang, Fei Wu 0025, Can Zhao, Jianlin Zhang 0001, Zhiyong Xu 0007. 1-6 [doi]

SmPhy: Generating smooth and physically plausible 3D garment animationsJiazhe Miao, Tao Peng 0006, Fei Fang, Xinrong Hu, Ping Zhu, Feng Yu 0017, Minghua Jiang. 1-6 [doi]

Boundary-Aware Contrastive Learning for Single-Source Domain Generalization in Medical Image SegmentationChenbin Zhang, Zhiqiang Hu, Shuyu Dai, Qingyuan He, Defeng Liu, Kun Yan, Ping Wang 0003. 1-6 [doi]

MRFER: Multi-Channel Robust Feature Enhanced Fusion for Multi-Modal Emotion RecognitionXiao Fu, Wei Xi, Zhao Yang, Rui Jiang, Dianwen Ng, Jie Yang, Jizhong Zhao. 1-6 [doi]

BARTENDER: A simple baseline model for task-level heterogeneous federated learningYuwen Yang, Yuxiang Lu, Suizhi Huang, Shalayiding Sirejiding, Chang Liu 0078, Muyang Yi, Zhaozhi Xie, Yue Ding 0001, Hongtao Lu. 1-6 [doi]

HctMAE: Hybrid Convolution-Transformer Meets Masked Autoencoder for Plant RecognitionHongjing Su, Fuxiang Lu. 1-6 [doi]

Enhanced Blind Watermarking Against Black-Box Noise: Leveraging CIN FrameworkRui Ma, Mengxi Guo, Peidong Jia, Chenxuan Li, Yi Hou, Yuan Li, Xiaodong Xie, Shanghang Zhang. 1-6 [doi]

Point Cloud Reconstruction Optimization of Light Field Image based on Intra-class DistanceXuechun Wang, Wentao Chao, Fuqing Duan. 1-6 [doi]

Joint Visual-Textual Reasoning and Visible-Infrared Modality Alignment for Person Re-IdentificationNa Jiang, Yuxuan Qiu, Wei Song, Jiawei Liu, Zhiping Shi 0002, Liyang Wang. 1-6 [doi]

Multi-domain Probability Estimation Network for Forgery Detection over Online Social Network Shared ImagesJiaxin Chen, Xin Liao, Zhenxing Qian, Zheng Qin 0001. 1-6 [doi]

Winner Takes It All: An Efficient Overlap-Aware Hybrid Online Diarization with Partial Backtracking MechanismRu Zhen, Xingtao Zhang, Chao Min, Biao Li. 1-6 [doi]

C2F-CCPE: Coarse-to-Fine Cross-View Camera Pose EstimationYong Tang, Qiang Huang, Yingying Zhu 0001. 1-6 [doi]

Agent-Oriented Joint Decision Support for Data Owners in Auction-Based Federated LearningXiaoli Tang, Han Yu 0001, Xiaoxiao Li. 1-6 [doi]

Consensus Co-teaching for Dynamically Learning with Noisy LabelsWenjing Wang, Si Li. 1-6 [doi]

Area Intervention for Enhancing Class Activation Maps in Weakly Supervised Semantic SegmentationXuewei Li 0001, Yujie Diao, Mei Yu, Chenhan Wang, Jie Gao 0008, Ruiguo Yu. 1-6 [doi]

Style-ACAE: Adversarial Capsule Autoencoder with StylesXiufeng Liu, Zhongqiu Zhao, Chen Ding. 1-6 [doi]

Efficient Sampling and Volume Rendering Strategy for Neural Field SLAMMeng Wang, Yue Qi. 1-6 [doi]

FedFRR: Federated Forgetting-Resistant Representation LearningHui Wang, Jie Sun, Tianyu Wo, Xudong Liu. 1-6 [doi]

C3T: Contrastive Consistency Cross-Network Learning for Semi-Supervised Semantic SegmentationYucheng Shu, Jiaxin Xie, Lihong Qiao, Bin Xiao, Weisheng Li 0001, Xinbo Gao 0001. 1-6 [doi]

Self-Paced Co-Training and Foundation Model for Semi-Supervised Medical Image SegmentationBo Qian, Yang Wen, Bin Sheng 0001. 1-6 [doi]

VRHCF: Cross-Source Point Cloud Registration via Voxel Representation and Hierarchical Correspondence FilteringGuiyu Zhao, Zewen Du, Zhentao Guo, Hongbin Ma. 1-6 [doi]

Modality-Free Violence Detection via Cross-Modal Causal Attention and Feature DistillationJiaxu Leng, Zhanjie Wu, Mengjingcheng Mo, Mingpi Tan, Shuang Li, Xinbo Gao 0001. 1-6 [doi]

Rethinking Adversarial Robustness Distillation VIA Strength-Dependent Adaptive RegularizationBingzhi Chen, Shuobin Lin, Yishu Liu, Zheng Zhang, Guangming Lu, Lewei He. 1-6 [doi]

Exposing Lip-syncing Deepfakes from Mouth InconsistenciesSoumyya Kanti Datta, Shan Jia, Siwei Lyu. 1-6 [doi]

BTC: Bilateral-Branch Vision Transformer via Hilbert Patch Embedding for Image ClusteringTaizhang Hu, Fan Yang, Xing Wei, Chong Zhao, Li Meng, Bin Wen, Yang Lu. 1-6 [doi]

Offset-based Disentangled Representation for Efficient Human Pose EstimationZhenyu Li, Congju Du, Huijuan Zhao, Li Yu 0003. 1-6 [doi]

ITportrait: Image-Text Coupled 3D Portrait Domain AdaptationXiangwen Deng, Yufeng Wang, Yuanhao Cai, Jingxiang Sun, Yebin Liu, Haoqian Wang. 1-6 [doi]

NID-SLAM: Neural Implicit Representation-based RGB-D SLAM In Dynamic EnvironmentsZiheng Xu, Jianwei Niu, Qingfeng Li, Tao Ren, Chen Chen 0078. 1-6 [doi]

Dual-Domain Multi-Model GAN Fingerprint Restoration for Compressed Fake Face AttributionChengxiang Fan, Aohong Shen, Zhen Han, Cai Tong, Zhongyuan Wang 0001, Dekang Yi. 1-6 [doi]

Open-set Hierarchical Semantic Segmentation for 3D SceneDiwen Wan, Jiaxiang Tang, Jingbo Wang 0003, Xiaokang Chen, Lingyun Gan, Gang Zeng. 1-6 [doi]

Synthetic Data Augmentation for Infrared Small Target Detection via Exploring Frequency Components and Targets PriorYaoxin Wu, Hongwei Ding, Yunqi Liu, Zerui Wen, Xiaohui Cui. 1-6 [doi]

FedCL: Detecting Backdoor Attacks in Federated Learning with Confidence LevelsJinhe Long, Zekai Chen, Fuyi Wang, Jianping Cai, Ximeng Liu. 1-6 [doi]

MPVNN: Multi-resolution Point-Voxel Non-parametric Network for 3D Point Cloud ProcessingKeli Wen, Nan Zhang, Ge Li, Wei Gao. 1-6 [doi]

AdaForensics: Learning A Characteristic-aware Adaptive Deepfake DetectorXiaoke Yang, Haixu Song, Xiangyu Lu, Shao-Lun Huang, Yueqi Duan. 1-6 [doi]

Sttcnerf: Style Transfer of Neural Radiance Fields for 3d Scene Based on Texture Consistency ConstraintWudi Chen, Chao Zhang, Cheng Han, YanJie Ma, Yongqing Cai. 1-6 [doi]

Unsupervised Domain Adaptation Semantic Segmentation on Thyroid Ultrasound Images Based on Task-Oriented Feature DisentanglementZijian Zhang, Ruiguo Yu, Xi Wei, Jie Gao, Mei Yu, Xuewei Li, Zhiqiang Liu. 1-6 [doi]

Integer or Floating Point? New Outlooks for Low-Bit Quantization on Large Language ModelsYijia Zhang, Lingran Zhao, Shijie Cao, Sicheng Zhang, Wenqiang Wang, Ting Cao, Fan Yang, Mao Yang, Shanghang Zhang, Ningyi Xu. 1-6 [doi]

LPTCGAN: Laplace Pyramid three-layer cyclic high definition image enhancement networkChao Long, Mengning Yang, Kai Li, Zhifu Deng, Kunyuan Jian, Simin Wang. 1-6 [doi]

Revisiting Large Kernel Convolution for Light Field Image Angular Super-ResolutionPeiqi Xia, Yao Lu 0001, Sijia Zhang, Shunzhou Wang, Ziqi Wang, Wang Xia. 1-6 [doi]

TranBF: Deep Transformer Networks and Bayesian Filtering for Time Series Anomalous Signal Detection in Cyber-physical SystemsShuo Zhang 0013, Xiongpeng Hu, Jing Liu. 1-6 [doi]

Time-Frequency Jointed Imperceptible Adversarial Attack to Brainprint Recognition with Deep Learning ModelsHangjie Yi, Yuhang Ming 0001, Dongjun Liu, Wanzeng Kong. 1-6 [doi]

TD3D: Tensor-based Discrete Diffusion Process for 3D Shape GenerationJinglin Zhao, Debin Liu, Laurence T. Yang, Ruonan Zhao, Zheng Wang, Zhe Li. 1-6 [doi]

SAMP: Adapting Segment Anything Model for Pose EstimationZhihang Zhu, Yunfeng Yan, Yi Chen, Haoyuan Jin, Xuesong Nie, Donglian Qi, Xi Chen. 1-7 [doi]

EPContrast: Effective Point-level Contrastive Learning for Large-scale Point Cloud UnderstandingZhiyi Pan, Guoqing Liu, Wei Gao, Thomas H. Li. 1-6 [doi]

IE-aware Consistency Losses for Detailed 3D Face Reconstruction from Multiple Images in the WildWeilong Peng, Yi Luo, Keke Tang, Kongyang Chen, Yangtao Wang, Ping Li, Meie Fang. 1-6 [doi]

HFF-Net: A High-Frequency Fidelity Model for Accelerated Parallel MRI ReconstructionZhenggang Yang, Faming Fang, Qiaosi Yi, Guixu Zhang, Fang Li 0004. 1-6 [doi]

Single Stage Warped Cloth Learning and Semantic-Contextual Attention Feature Fusion for Virtual TryonSanhita Pathak, Vinay Kaushik, Brejesh Lall. 1-6 [doi]

Two-Stage Information Bottleneck For Temporal Language GroundingHaoyu Tang, Shuaike Zhang, Ming Yan, Ji Zhang, Mingzhu Xu, Yupeng Hu, Liqiang Nie. 1-6 [doi]

Adaptive Temporal Motion Guided Graph Convolution Network for Micro-expression RecognitionFengyuan Zhang, Zhaopei Huang, Xinjie Zhang, Qin Jin. 1-6 [doi]

Unifying Generation and Compression: Ultra-low bitrate Image Coding Via Multi-stage TransformerNaifu Xue, Qi Mao, Zijian Wang, Yuan Zhang, Siwei Ma. 1-6 [doi]

Text and Edge Guided Thangka Image Inpainting with Diffusion ModelTienyi Hsieh, Qijun Zhao, Fan Pan, Pubu Danzeng, Dingguo Gao, Dorji Gesang. 1-10 [doi]

DSENet: An Object-Wise Density-Informed Coarse-to-Fine Object Detector for Aerial ImageHaoran Jiang, Xiangjie Wang, Junjie Zhang 0002, Jian Zhang, Dan Zeng 0001. 1-6 [doi]

ProDub: Progressive Growing of Facial Dubbing Networks for Enhanced Lip Sync and FidelityKangwei Liu, Xiaowei Yi, Xianfeng Zhao. 1-6 [doi]

Enhancing Few-Shot Classification without Forgetting Through Multi-level Contrastive ConstraintsBingzhi Chen, Haoming Zhou, Yishu Liu, Biqing Zeng, Jiahui Pan, Guangming Lu. 1-6 [doi]

Boosting Multi-Speaker Expressive Speech Synthesis with Semi-Supervised Contrastive LearningXinfa Zhu, Yuke Li, Yi Lei, Ning Jiang, Guoqing Zhao, Lei Xie 0001. 1-6 [doi]

ParaSurRe: Parallel Surface Reconstruction with No Pose PriorWenyu Li, Zongxin Ye, Sidun Liu, Ziteng Zhang, Xi Wang, Peng Qiao, Yong Dou. 1-6 [doi]

Causal Intervention for Panoptic Scene Graph GenerationShuang Liang 0001, Long Zhang, Chi Xie, Lili Chen. 1-6 [doi]

Frequency Decomposition-Driven Network for JPEG Artifacts RemovalKe Cao, Xuanhua He, Keyu Yan, Tao Hu, Rui Li 0027, Chengjun Xie, Jie Zhang 0033. 1-6 [doi]

Training-Free Robust Neural Network Search Via PruningQiancheng Yang, Yong Luo 0002, Bo Du 0001. 1-6 [doi]

SID-NERF: Few-Shot Nerf Based on Scene Information DistributionYuchen Li, Fan Wan, Yang Long 0001. 1-6 [doi]

MultiQ: Multi-model Joint Learning via Synthetic Data for Data-Free QuantizationChenyang Li, Xing Wei, Huazheng Zhao. 1-6 [doi]

Dynamic Implicit Image Function for Efficient Arbitrary-Scale Super-ResolutionZongyao He, Zhi Jin. 1-6 [doi]

Skipformer: A Skip-and-Recover Strategy for Efficient Speech RecognitionWenjing Zhu, Sining Sun, Changhao Shan, Peng Fan, Qing Yang. 1-6 [doi]

Visual Feature Disentanglement for Zero-Shot LearningQingzhi He, Rong-Quan, Weifeng Yang, Jie Qin. 1-6 [doi]

Imperceptible Text Steganography based on Group ChatFanxiao Li, Ping Wei, Tingchao Fu, Yu Lin, Wei Zhou. 1-6 [doi]

Learning Conditional Prompt for Compositional Zero-Shot LearningTian Zhang, Kongming Liang, Ke Zhang, Zhanyu Ma. 1-6 [doi]

Representation Distillation for Efficient Self-Supervised LearningXin Liu, Yali Li, Shengjin Wang. 1-6 [doi]

Joint Flow Estimation from Point Clouds and Event StreamsHanlin Li, Yueyi Zhang, Guanting Dong, Shida Sun, Zhiwei Xiong. 1-6 [doi]

ToW3D: Consistency-aware Interactive Point-based Mesh Editing on GANsHaixu Song, Fangfu Liu, Chenyu Zhang, Yueqi Duan. 1-6 [doi]

Restoring Real-World Images Affected by Varied Degradations Using a Semi-Supervised Domain Adaptation NetworkYongheng Zhang, Yuanqiang Cai, Danfeng Yan. 1-6 [doi]

Encoding Semantic Priors into the Weights of Implicit Neural RepresentationZhicheng Cai, Qiu Shen. 1-6 [doi]

Spike-NeRF: Neural Radiance Field Based On Spike CameraYijia Guo, Yuanxi Bai, Liwen Hu, Mianzhi Liu, Ziyi Guo, Lei Ma 0008, Tiejun Huang 0001. 1-6 [doi]

MuMoSNet: 3D MRI-based Brain Tumor Segmentation via Multi-modal and Multi-scale Feature FusionZhiyuan Zhu, Zhiyuan Ning, Hui Cui 0002, Junao Shen, Jiaheng Wang, Xinyu Wang, Tian Feng. 1-6 [doi]

Decoupled Federated Learning on Long-Tailed and Non-IID data with Feature StatisticsZhuoxin Chen, Zhenyu Wu, Yang Ji. 1-6 [doi]

The Root Element of Human Poses is Radian: MCPRL is All You NeedZiming Cheng, Xiangning Ruan, Qixiang Yin, Zhicheng Zhao. 1-6 [doi]

Multi-Candidate Motion Modeling for 3D Human Pose and Shape Estimation from Monocular VideoWen-Li Wei, Jen-Chun Lin. 1-6 [doi]

Cross-Attention is not always needed: Dynamic Cross-Attention for Audio-Visual Dimensional Emotion RecognitionR. Gnana Praveen, Jahangir Alam 0001. 1-6 [doi]

Hierarchical Temporal Attention and Competent Teacher Network for Sound Event DetectionYihang Zhang, Yun Liang, Shitong Weng, Hai Lin, Liping Chen, Shenlong Zheng. 1-6 [doi]

FNFORMER: A Transformer-Based Face Normal EstimatorMeng Wang, Xiaojie Guo 0001, Jiawan Zhang. 1-6 [doi]

3adapter: Efficient Parameter Fing-Tuning with Triple Reparameterization for Adapter without Inference LatencyLihong Qiao, Rui Wang, Yucheng Shu, Ximing Xu, Baobin Li, Weisheng Li 0001, Xinbo Gao 0001. 1-6 [doi]

GFAvatar: A High-Quality Facial Avatar Reconstruction MethodShengjia Zhang, Suping Wu. 1-6 [doi]

Efficient Dynamic-NeRF Based Volumetric Video Coding with Rate Distortion OptimizationZhiyu Zhang, Guo Lu, Huanxiong Liang, Anni Tang, Qiang Hu 0003, Li Song. 1-6 [doi]

Spatial Dual Context Learning for Weakly-supervised Group Activity Recognition in Still-imagesZhao Wu, Dunbo Ning, Wenjing Chen 0003, Hao Sun, Wei Xie 0008, Ming Dong 0004. 1-6 [doi]

Towards Efficient Resume Understanding: A Multi-Granularity Multi-Modal Pre-Training ApproachFeihu Jiang, Chuan Qin 0002, Jingshuai Zhang, Kaichun Yao, Xi Chen, Dazhong Shen, Chen Zhu 0003, Hengshu Zhu, Hui Xiong 0001. 1-6 [doi]

FL-Clip: Bridging Plasticity and Stability in Pre-Trained Federated Class-Incremental Learning ModelsAlysa Ziying Tan, Siwei Feng, Han Yu 0001. 1-6 [doi]

Slow-Fast Adaptation for Source-Free Object DetectionLuojun Lin, Qipeng Liu 0004, Xiangwei Zheng, Zheng Lin. 1-6 [doi]

Noise Dimension of GAN: An Image Compression PerspectiveZiran Zhu, Tongda Xu, Ling Li, Yan Wang. 1-6 [doi]

Multiscale Binary-Pattern Dependency: A Novel Co-Occurrence Texture Descriptor for Fine-Grained Leaf Image RetrievalXin Chen, Bin Wang, Yongsheng Gao 0001. 1-6 [doi]

MEMix: Improving HMER with Diverse Formula Structure AugmentationHaoran Zhang, Xiangdong Su, Xingxiang Zhou, Guanglai Gao. 1-6 [doi]

CSMA-CNER: Multi-modal Chinese NER task with Cross- and Self-Modality AttentionBo Kong, Shengquan Liu, Liang He, Liruizhi Jia, Yi Liang. 1-6 [doi]

ProTA: Probabilistic Token Aggregation for Text-Video RetrievalHan Fang, Xianghao Zang, Chao Ban, Zerun Feng, Lanxiang Zhou, Zhongjiang He, Yongxiang Li, Hao Sun. 1-6 [doi]

Adaptive Prompt Learning with Negative Textual Semantics and Uncertainty Modeling for Universal Multi-Source Domain AdaptationYuxiang Yang, Lu Wen, Yuanyuan Xu, Jiliu Zhou, Yan Wang 0015. 1-6 [doi]

Clothmix: A Cloth Augmentation Strategy for Cloth-Changing Person Re-IdentificationWajahat Khalid, Bin Liu, Muhammad Waqas. 1-6 [doi]

SSyncOA: Self-synchronizing Object-aligned Watermarking to Resist Crop-paste AttacksChengxin Zhao, Hefei Ling, Sijing Xie, Han Fang, Yaokun Fang, Nan Sun. 1-6 [doi]

Retinal Vessel Segmentation via Cross-attention Feature FusionTian Feng, Jiaheng Wang, Junao Shen, Qiangguo Jin, Zhiyuan Zhu, Xinyu Wang. 1-6 [doi]

Learning Multimodal Attention Mixed with Frequency Domain Information as Detector for Fake News DetectionZihan Ma, Huan Liu, Zhi Zeng, Hao Guo, Xiang Zhao 0002, Minnan Luo. 1-6 [doi]

Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language ModelJihao Dong, Hua Yang, Renjie Pan. 1-6 [doi]

Causal Denoising Framework for Generalizable Recommendation System using Graph Neural NetworkYibowen Zhao, Yonghui Xu, Ning Liu 0014, Yixin Zhang, Wei Guo, Xudong Lu, LiZhen Cui. 1-6 [doi]

Color Space Learning for Cross-Color Person Re-IdentificationJiahao Nie 0002, Shan Lin, Alex C. Kot. 1-6 [doi]

Cross-Modal Adapter: Parameter-Efficient Transfer Learning Approach for Vision-Language ModelsJuncheng Yang, Zuchao Li, Shuai Xie, Weiping Zhu, Wei Yu, Shijun Li. 1-6 [doi]

Neural Dynamics Pruning for Energy-Efficient Spiking Neural NetworksHaoyu Huang, Linxuan He, Faqiang Liu, Rong Zhao, Luping Shi. 1-6 [doi]

Knowledge-Enhanced Multi-perspective Incongruity Perception Network for Multimodal Sarcasm DetectionZihan Niu, Zheyong Xie, Tong Xu, Xiangfeng Wang, Yao Hu, Ying Yu, Enhong Chen. 1-6 [doi]

Adaptive Style Transfer Learning for Generalizable Person Re-identificationXu Wang, Kairui Zhang. 1-6 [doi]

CGCUT: Unpaired Image-to-Image Translation via Cluster-Guided Contrastive LearningLongjie Qi, Yue Ding 0001, Hongtao Lu. 1-6 [doi]

Adaptive Margin Contrastive Learning for Ambiguity-aware 3D Semantic SegmentationYang Chen, Yueqi Duan, Runzhong Zhang, Yap-Peng Tan. 1-6 [doi]

Audiolog: LLMs-Powered Long Audio Logging with Hybrid Token-Semantic Contrastive LearningJisheng Bai, Han Yin, Mou Wang, Dongyuan Shi, Woon-Seng Gan, Jianfeng Chen, Susanto Rahardja. 1-6 [doi]

Privacy-Preserving Replay and Adaptive Relation Distillation for Camera Incremental Person Re-IdentificationZexian Yang, Dayan Wu, Wanqian Zhang, Jingzi Gu, Zheng Lin 0001, Weiping Wang 0005. 1-6 [doi]

FedDGP: Disentangling Global and Personal Models for Federated LearningZhenhu Zhang, Li Jin, Dan Song, Jiahua Dong, Ruofeng Tong 0001. 1-6 [doi]

SCD-NAS: Towards Zero-Cost Training in Melanoma DiagnosisHongyan Xu, Xiu Su, Arcot Sowmya, Ian Katz, Dadong Wang. 1-6 [doi]

Multitrack Emotion-Based Music Generation Network Using Continuous Symbolic FeaturesDonghui Zhang, Xiaobing Li, Di Lu, Yun Tie, Yan Gao, Lin Qi 0001. 1-6 [doi]

Top-Down Guidance Based ViT-CNN Network Considering Theme Information for Image Aesthetic AssessmentSumei Li, Xiaofei He, Hangwei Liang. 1-6 [doi]

MeshStyle: Text-driven Efficient and High-Quality 3D Mesh Stylization via Hypergraph ConvolutionYu Cai, Shihao Gao, Songzhi Su, Xizhi Chen, Xi Wang. 1-6 [doi]

Radio Frequency Signal based Human Silhouette Segmentation: A Sequential Diffusion ApproachPenghui Wen, Kun Hu, Dong Yua, Zhiyuan Ning, ChangYang Li, Zhiyong Wang 0001. 1-6 [doi]

Deep Unfolding 3D Non-Local Transformer Network for Hyperspectral Snapshot Compressive ImagingZheng Zhou, Zongxin Liu, Yongyong Chen, Bingzhi Chen, Biqing Zeng, Yicong Zhou. 1-6 [doi]

iDAT: inverse Distillation Adapter-TuningJiacheng Ruan, Jingsheng Gao, Mingye Xie, Daize Dong, Suncheng Xiang, Ting Liu 0016, Yuzhuo Fu. 1-6 [doi]

Brain Waves Unleashed: Illuminating Neonatal Seizure Detection via Multi-scale Hierarchical ModelingBingheng Pang, Zhuoxuan Liang, Wei Li, Xiangxu Meng, Chenhao Wang, Yilin Ren. 1-6 [doi]

Bringing Textual Prompt to AI-Generated Image Quality AssessmentBowen Qu, Haohui Li, Wei Gao. 1-6 [doi]

Self-Supervised Learning-Based General Fine-tuning Framework For Audio Classification and Event DetectionYanjie Sun, Kele Xu, Yong Dou, Tian Gao. 1-6 [doi]

SFDE-net: A Spatial-Frequency Domain Feature Enhancement Network for Cloud DetectionBaotong Su, Siyan Li, Wenguang Zheng, Yao Chen. 1-6 [doi]

Contrastive masked auto-encoders based self-supervised hashing for 2D image and 3D point cloud cross-modal retrievalRukai Wei, Heng Cui, Yu Liu 0040, Yanzhao Xie, Yufeng Hou, Ke Zhou 0001. 1-6 [doi]

Multi-channel Spatio-Temporal Causal Representation Model for Cognitive Load Assessment in Physiological SignalsLaiming Jiang, Jiawei Liu, Shu Wang, Jun Liao, Qingsong Li, Zhengyang Li, Shen Chen, Li Liu. 1-6 [doi]

Exploiting Vision-Language Model for Visible-Infrared Person Re-identification via Textual Modality AlignmentBingyu Duan, Wanqian Zhang, Dayan Wu, Zheng Lin 0001, Jingzi Gu, Weiping Wang 0005. 1-6 [doi]

Prototype-Guided Prior Enhancement and Rectification in Few-shot Semantic SegmentationYiming Tang, Yi Yu, Yan Qiu Chen. 1-6 [doi]

Enhancing Adversarial Transferability on Vision Transformer by Permutation-Invariant AttacksHaoyu Deng, Yanmei Fang, Fangjun Huang. 1-6 [doi]

Why Some Audio Signal Short-Time Fourier Transform Coefficients Have Nonuniform Phase DistributionsStephen D. Voran. 1-6 [doi]

Joint edge detection learning for recurrent homography estimationQi Jia, Zikun Zhao, Xiaomei Feng, Jinyuan Liu, Yu Liu, Xinwei Xue. 1-6 [doi]

RNG: Reducing Multi-level Noise and Multi-grained Semantic Gap for Joint Multimodal Aspect-Sentiment AnalysisYaxin Liu, Yan Zhou, Ziming Li, Jinchuan Zhang, Yu Shang, Chenyang Zhang, Songlin Hu. 1-6 [doi]

MoCoSA: Momentum Contrast for Knowledge Graph Completion with Structure-Augmented Pre-trained Language ModelsJiabang He, Jia Liu, Lei Wang, Xiyao Li, Xing Xu. 1-6 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

IEEE International Conference on Multimedia and Expo, ICME 2024, Niagara Falls, ON, Canada, July 15-19, 2024

Abstract

Table of Contents