IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2023, Rhodes Island, Greece, June 4-10, 2023

researchr

You are not signed in
Sign in
Sign up

IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2023, Rhodes Island, Greece, June 4-10, 2023. IEEE, 2023. [doi]

Conference: icassp2023

Abstract is missing.

A Benchmark for Evaluating Robustness of Spoken Language Understanding Models in Slot FillingMeizheng Peng, Xu Jia, Min Peng. 1-5 [doi]

Clustering-Based Supervised Contrastive Learning for Identifying Risk Items on Heterogeneous GraphAo Li, Yugang Ji, Guanyi Chu, Xiao Wang, Dong Li, Chuan Shi. 1-5 [doi]

Joint Neural Representation for Multiple Light FieldsGuillaume Le Guludec, Christine Guillemot. 1-5 [doi]

Improved Projection Learning for Lower Dimensional Feature MapsIlan Price, Jared Tanner. 1-5 [doi]

Oct Image Blind Despeckling Based on Gradient Guided Filter with Speckle Statistical PriorSanqian Li, Muxing Xiong, Bing Yang, Xiaoqing Zhang, Risa Higashita, Jiang Liu. 1-5 [doi]

On Super-Resolution with Separation PriorXingyun Mao, Heng Qiao. 1-5 [doi]

Unsupervised Action Segmentation of Untrimmed Egocentric VideosSam Perochon, Laurent Oudre. 1-5 [doi]

Toward Universal Text-To-Music RetrievalSeungheon Doh, Minz Won, Keunwoo Choi, Juhan Nam. 1-5 [doi]

Voice Conversion Using Feature Specific Loss Function Based Self-Attentive Generative Adversarial NetworkSandipan Dhar, Padmanabha Banerjee, Nanda Dulal Jana, Swagatam Das. 1-5 [doi]

DASA: Difficulty-Aware Semantic Augmentation for Speaker VerificationYuanyuan Wang, Yang Zhang, Zhiyong Wu 0001, Zhihan Yang, Tao Wei, Kun Zou, Helen Meng. 1-5 [doi]

A Critical Look at Recent Trends in Compression of Channel State InformationMarcus Valtonen Örnhag, Stefan Ingi Adalbjörnsson, Püren Güler, Mojtaba Mahdavi. 1-5 [doi]

Continuous Action Space-Based Spoken Language Acquisition Agent Using Residual Sentence Embedding and Transformer DecoderRyota Komatsu, Yusuke Kimura, Takuma Okamoto, Takahiro Shinozaki. 1-5 [doi]

Learning on Graphs under Label NoiseJingyang Yuan, Xiao Luo 0001, Yifang Qin, Yusheng Zhao, Wei Ju, Ming Zhang 0004. 1-5 [doi]

Disentangled Feature Learning for Real-Time Neural Speech CodingXue Jiang, Xiulian Peng, Yuan Zhang, Yan Lu 0001. 1-5 [doi]

Joint Angle and Respiration Estimation for Passive and Device-Free Respiration MonitoringGerrit Maus, Dieter Brückmann. 1-5 [doi]

UX-Net: Filter-and-Process-Based Improved U-Net for real-time time-domain audio SeparationKashyap Patel, Anton Kovalyov, Issa M. S. Panahi. 1-5 [doi]

Semantics-Aware Gamma Correction for Unsupervised Low-Light Image EnhancementYu-Hsuan Chen, Fu-Cheng Pan, Yu-Chien Liao, Jao-Hong Kao, Yu-Chiang Frank Wang. 1-5 [doi]

Contrast-PLC: Contrastive Learning for Packet Loss ConcealmentHuaying Xue, Xiulian Peng, Yan Lu 0001. 1-5 [doi]

Learning to Detect Novel and Fine-Grained Acoustic Sequences Using Pretrained Audio RepresentationsVasudha Kowtha, Miquel Espi Marques, Jonathan Huang, Yichi Zhang, Carlos Avendaño. 1-5 [doi]

Multiple Access Computation Offloading for the K-User CaseXiaomeng Liu, Christian Schaible, Timothy N. Davidson. 1-5 [doi]

Multiple Domain-Adversarial Ensemble Learning for Domain GeneralizationZe-Yu Mi, Kun Long, Yu-Bin Yang. 1-5 [doi]

Kernel Interpolation of Acoustic Transfer Functions with Adaptive Kernel for Directed and Residual ReverberationsJuliano G. C. Ribeiro, Shoichi Koyama, Hiroshi Saruwatari. 1-5 [doi]

Continuous Descriptor-Based Control for Deep Audio SynthesisNinon Devis, Nils Demerlé, Sarah Nabi, David Genova, Philippe Esling. 1-5 [doi]

LongFNT: Long-Form Speech Recognition with Factorized Neural TransducerXun Gong 0005, Yu Wu 0012, Jinyu Li 0001, Shujie Liu 0001, Rui Zhao 0017, Xie Chen 0001, Yanmin Qian. 1-5 [doi]

Rate Region Characterization for Semantics and Bits based Multiuser CommunicationsXidong Mu, Yuanwei Liu. 1-5 [doi]

Freevc: Towards High-Quality Text-Free One-Shot Voice ConversionJingyi Li, Weiping Tu, Li Xiao. 1-5 [doi]

Precognition in Contextual Spoken Language Understanding via Knowledge DistillationNan Su, Bingzhu Du, Yuchi Zhang, Chao Liu, Yongliang Wang, Hong Chen, Xin Lu. 1-5 [doi]

Predicting Brain Age Using Transferable Covariance Neural NetworksSaurabh Sihag, Gonzalo Mateos, Corey McMillan, Alejandro Ribeiro. 1-5 [doi]

Sensor Selection for Angle of Arrival Estimation Based on the Two-Target Cramér-Rao BoundCostas A. Kokke, Mario Coutino, Laura Anitori, Richard Heusdens, Geert Leus. 1-5 [doi]

LA-VOCE: LOW-SNR Audio-Visual Speech Enhancement Using Neural VocodersRodrigo Mira, Buye Xu, Jacob Donley, Anurag Kumar 0003, Stavros Petridis, Vamsi Krishna Ithapu, Maja Pantic. 1-5 [doi]

Next-Speaker Prediction Based on Non-Verbal Information in Multi-Party Video ConversationSaki Mizuno, Nobukatsu Hojo, Satoshi Kobashikawa, Ryo Masumura. 1-5 [doi]

Inv-Senet: Invariant Self Expression Network for Clustering Under Biased DataAshutosh Singh, Ashish Singh, Aria Masoomi, Tales Imbiriba, Erik G. Learned-Miller, Deniz Erdogmus. 1-5 [doi]

Stereoscopic Video Retargeting Based on Camera Motion ClassificationLinghui Cai, Zhenhua Tang. 1-5 [doi]

Towards Efficient and Optimal Joint Beamforming and Antenna Selection: A Machine Learning ApproachSagar Shrestha, Xiao Fu 0001, Mingyi Hong. 1-5 [doi]

Adversarial Data Augmentation Using VAE-GAN for Disordered Speech RecognitionZengrui Jin, Xurong Xie, Mengzhe Geng, Tianzi Wang, Shujie Hu, Jiajun Deng, Guinan Li, Xunying Liu. 1-5 [doi]

Variable Attention Masking for Configurable Transformer Transducer Speech RecognitionPawel Swietojanski, Stefan Braun, Dogan Can, Thiago Fraga Da Silva, Arnab Ghoshal, Takaaki Hori, Roger Hsiao, Henry Mason, Erik McDermott, Honza Silovsky, Ruchir Travadi, Xiaodan Zhuang. 1-5 [doi]

Boosting Bert Subnets with Neural GraftingTing Hu, Christoph Meinel, Haojin Yang. 1-5 [doi]

Improving Disfluency Detection with Multi-Scale Self Attention and Contrastive LearningPeiYing Wang, Chaoqun Duan, Meng Chen 0006, Xiaodong He 0001. 1-5 [doi]

Adaptive Large Margin Fine-Tuning For Robust Speaker VerificationLeying Zhang, Zhengyang Chen, Yanmin Qian. 1-5 [doi]

Deep Feature Aggregation for Lightweight Single Image Super-ResolutionYanchun Li, Xinan He, Shujuan Tian, Zhetao Li, Saiqin Long. 1-5 [doi]

Image Completion Via Dual-Path Cooperative FilteringPourya Shamsolmoali, Masoumeh Zareapoor, Eric Granger. 1-5 [doi]

Spammer Detection on Short Video Applications: A new Challenge and BaselinesMuyang Yi, Dong Liang, Rui Wang, Yue Ding, Hongtao Lu. 1-5 [doi]

Speech Emotion Recognition Based on Low-Level Auto-Extracted Time-Frequency FeaturesKe Liu, Jingzhao Hu, Jun Feng 0003. 1-5 [doi]

Towards Interpretable Seizure Detection Using WearablesIrfan Al-Hussaini, Cassie S. Mitchell. 1-2 [doi]

Shift to Your Device: Data Augmentation for Device-Independent Speaker Verification Anti-SpoofingJunhao Wang, Li Lu 0008, Zhongjie Ba, Feng Lin, Kui Ren 0001. 1-5 [doi]

MCKD: Mutually Collaborative Knowledge Distillation For Federated Domain Adaptation And GeneralizationZiwei Niu, Hongyi Wang, Hao Sun 0013, Shuyi Ouyang, Yen-Wei Chen 0001, Lanfen Lin. 1-5 [doi]

HyperSteg: Hyperbolic Learning for Deep SteganographyShivam Agarwal, Ritesh Soun, Rahul Shivani, Vishnu Varanasi, Navroop Gill, Ramit Sawhney. 1-5 [doi]

Relative Dynamic Time Warping Comparison for Pronunciation ErrorsCaitlin Richter, Jón Guðnason. 1-5 [doi]

Speech Signal Improvement Using Causal Generative Diffusion ModelsJulius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Tal Peer, Timo Gerkmann. 1-2 [doi]

*Mohan Zhou, Yalong Bai, Wei Zhang 0031, Ting Yao, Tiejun Zhao, Tao Mei 0001. 1-5 [doi]

Label-Efficient and Robust Learning from Multiple ExpertsBojan Kolosnjaji, Apostolis Zarras. 1-5 [doi]

Comprehensive Complexity Assessment of Emerging Learned Image Compression on CPU and GPUFarhad Pakdaman, Moncef Gabbouj. 1-5 [doi]

Fast Multiscale 3D Reconstruction Using Single-Photon Lidar DataSándor Plósz, István Gyöngy, Jonathan Leach, Steve McLaughlin 0001, Gerald S. Buller, Abderrahim Halimi. 1-5 [doi]

jaCappella Corpus: A Japanese a Cappella Vocal Ensemble CorpusTomohiko Nakamura, Shinnosuke Takamichi, Naoko Tanji, Satoru Fukayama, Hiroshi Saruwatari. 1-5 [doi]

Online Model Compression for Federated Learning with Large ModelsTien-Ju Yang, Yonghui Xiao, Giovanni Motta, Françoise Beaufays, Rajiv Mathews, Mingqing Chen. 1-5 [doi]

EGAN: A Neural Excitation Generation Model Based on Generative Adversarial Networks with Harmonics and Noise InputYen-Ting Lin, Chen-Yu Chiang. 1-5 [doi]

Gender-Cartoon: Image Cartoonization Method Based on Gender ClassificationLong Feng, Guohua Geng, Chen Guo, Longquan Yan, Xingrui Ma, Zhan Li, Kang Li. 1-5 [doi]

Adversarial Attacks on Genotype SequencesDaniel Mas Montserrat, Alexander G. Ioannidis. 1-5 [doi]

Range-ISL Minimization and Spectral Shaping in MIMO Radar Systems via Waveform DesignEhsan Raei, Mohammad Alaee Kerahroodi, Bhavani Shankar, Björn E. Ottersten. 1-5 [doi]

Self-Supervised Learning for Speech Enhancement Through SynthesisBryce Irvin, Marko Stamenovic, Mikolaj Kegler, Li-Chia Yang. 1-5 [doi]

Zero-Shot Anomalous Sound Detection in Domestic Environments Using Large-Scale Pretrained Audio Pattern Recognition ModelsAlessandro Ilic Mezza, Giulio Zanetti, Maximo Cobos, Fabio Antonacci. 1-5 [doi]

A Dataset for Audio-Visual Sound Event Detection in MoviesRajat Hebbar, Digbalay Bose, Krishna Somandepalli, Veena Vijai, Shrikanth Narayanan. 1-5 [doi]

Breaking the Trade-Off in Personalized Speech Enhancement With Cross-Task Knowledge DistillationHassan Taherian, Sefik Emre Eskimez, Takuya Yoshioka. 1-5 [doi]

A Perceptual Neural Audio Coder with a Mean-Scale HyperpriorJoon Byun, Seungmin Shin, Youngcheol Park, Jongmo Sung, Seungkwon Beack. 1-5 [doi]

Long-Tailed Image Recognition with Dynamic Re-WeightingXinyuan Li, Yu Wang, Jien Kato. 1-5 [doi]

Laryngeal Leukoplakia Classification Via Dense Multiscale Feature Extraction in White Light Endoscopy ImagesZhenzhen You, Yan Yan, Zhenghao Shi, Minghua Zhao, Jing Yan, Haiqin Liu, Xinhong Hei 0001, Xiaoyong Ren. 1-5 [doi]

Towards a Unified Training for Levenshtein TransformerKangjie Zheng, Longyue Wang, ZhiHao Wang, Binqi Chen, Ming Zhang, Zhaopeng Tu. 1-5 [doi]

Invariant Adversarial Imitation Learning From Visual InputsHaoran Zhang, Yinghong Tian, Liang Yuan, Yue Lu. 1-5 [doi]

Semi-Supervised Learning with Per-Class Adaptive Confidence Scores for Acoustic Environment Classification with Imbalanced DataLuan Vinícius Fiorio, Boris Karanov, Johan David, Wim J. van Houtum, Frans Widdershoven, Ronald M. Aarts. 1-5 [doi]

Hankel Structured Low Rank and Sparse Representation Via L0-Norm Optimization for Compressed Ultrasound Plane Wave Signal ReconstructionMiaomiao Zhang, Ji Chen, Xiaoyan Fu, Ge Xin, Jingzhi Zhang, Na Jiang, Jan D'hooge. 1-5 [doi]

A Momentum Two-Gradient Direction Algorithm with Variable Step Size Applied to Solve Practical Output Constraint Issue for Active Noise ControlXiaoyi Shen, Dongyuan Shi, Zhengding Luo, Junwei Ji, Woon-Seng Gan. 1-5 [doi]

Parameter-Efficient Transfer Learning of Pre-Trained Transformer Models for Speaker Verification Using AdaptersJunyi Peng, Themos Stafylakis, Rongzhi Gu, Oldrich Plchot, Ladislav Mosner, Lukás Burget, Jan Cernocký. 1-5 [doi]

A Multi-Stage Hierarchical Relational Graph Neural Network for Multimodal Sentiment AnalysisPeizhu Gong, Jin Liu, Xiliang Zhang, Xingye Li. 1-5 [doi]

End-to-End Spoken Language Understanding Using Joint CTC Loss and Self-Supervised, Pretrained Acoustic EncodersJixuan Wang, Martin Radfar, Kai Wei, Clement Chung. 1-5 [doi]

Weight Averaging: A Simple Yet Effective Method to Overcome Catastrophic Forgetting in Automatic Speech RecognitionSteven Vander Eeckt, Hugo Van Hamme. 1-5 [doi]

OAFormer: Learning Occlusion Distinguishable Feature for Amodal Instance SegmentationZhixuan Li, Ruohua Shi, Tiejun Huang 0001, Tingting Jiang. 1-5 [doi]

Autonomous Soundscape Augmentation with Multimodal Fusion of Visual and Participant-Linked InputsKenneth Ooi, Karn N. Watcharasupat, Bhan Lam, Zhen-Ting Ong, Woon-Seng Gan. 1-5 [doi]

Semantic Centralized Contrastive Learning for Unsupervised HashingFengming Liang, Changlin Fan, Bo Xiao, Kongming Liang. 1-5 [doi]

Spatial Similarity Guidance for Few-Shot SegmentationXiaoliu Luo, Zhao Duan, Taiping Zhang. 1-5 [doi]

Dictionary Learning on Graph Data with Weisfieler-Lehman Sub-Tree Kernel and KsvdKaveen Liyanage, Reese Pearsall, Clemente Izurieta, Bradley M. Whitaker. 1-5 [doi]

Role of Lexical Boundary Information in Chunk-Level Segmentation for Speech Emotion RecognitionWei-Cheng Lin, Carlos Busso. 1-5 [doi]

Dynamic Fair Node Representation LearningOyku Deniz Kose, Yanning Shen. 1-5 [doi]

Efficient Feature Fusion for Learning-Based Photometric StereoYakun Ju, Kin-Man Lam 0001, Jun Xiao 0010, Cong Zhang, Cuixin Yang, Junyu Dong. 1-5 [doi]

Signal Processing with Optical Quadratic Random SketchesRémi Delogne, Vincent Schellekens, Laurent Daudet, Laurent Jacques. 1-5 [doi]

DB-UNet: MLP Based Dual Branch UNet for Accurate Vessel Segmentation in OCTA ImagesChengliang Wang, Haojian Ning, Xinrun Chen, Shiying Li. 1-5 [doi]

Model-based vs. Data-driven Approaches for Predicting Rain-induced Attenuation in Commercial Microwave Links: A Comparative Empirical StudyDror Jacoby, Jonatan Ostrometzky, Hagit Messer. 1-5 [doi]

PhaseAug: A Differentiable Augmentation for Speech Synthesis to Simulate One-to-Many MappingJunhyeok Lee, Seungu Han, Hyunjae Cho, Wonbin Jung. 1-5 [doi]

Static and Dynamic Source and Filter Cues for Classification of Amyotrophic Lateral Sclerosis Patients and Healthy SubjectsTanuka Bhattacharjee, Chowdam Venkata Thirumala Kumar, Yamini Belur, Atchayaram Nalini, Ravi Yadav, Prasanta Kumar Ghosh. 1-5 [doi]

Interpretable Nonnegative Incoherent Deep Dictionary Learning for FMRI Data AnalysisManuel Morante, Jan Østergaard, Sergios Theodoridis. 1-5 [doi]

Sparsity-Smoothness-Aware Power Spectral Density Estimation with Application to Phased Array Weather RadarHiroki Kuroda, Daichi Kitahara, Eiichi Yoshikawa, Hiroshi Kikuchi, Tomoo Ushio. 1-5 [doi]

Incorporating Visual Information Reconstruction into Progressive Learning for Optimizing audio-visual Speech EnhancementChenyue Zhang, Hang Chen, Jun Du, Bao-Cai Yin, Jia Pan, Chin-Hui Lee 0001. 1-5 [doi]

Perceptual Quality Assessment for Digital Human HeadsZicheng Zhang, Yingjie Zhou, Wei Sun 0029, Xiongkuo Min, Yuzhe Wu, Guangtao Zhai. 1-5 [doi]

Enhancing Ontology Translation Through Cross-Lingual AgreementMingjie Tian, Fausto Giunchiglia, Rui Song, Xing Chen, Hao Xu 0012. 1-5 [doi]

Analyzing Acoustic Word Embeddings from Pre-Trained Self-Supervised Speech ModelsRamon Sanabria, Hao Tang, Sharon Goldwater. 1-5 [doi]

Communication-Constrained Exchange of Zeroth-Order Information with Application to Collaborative Target TrackingEge C. Kaya, Mehmet Berk Sahin, Abolfazl Hashemi. 1-5 [doi]

Visual Answer Localization with Cross-Modal Mutual Knowledge TransferYixuan Weng, Bin Li. 1-5 [doi]

Training Robust Spiking Neural Networks on Neuromorphic Data with Spatiotemporal FragmentsHaibo Shen, Yihao Luo, Xiang Cao, Liangqi Zhang, Juyu Xiao, Tianjiang Wang. 1-5 [doi]

Emodiff: Intensity Controllable Emotional Text-to-Speech with Soft-Label GuidanceYiwei Guo, Chenpeng Du, Xie Chen 0001, Kai Yu 0004. 1-5 [doi]

F-PABEE: Flexible-Patience-Based Early Exiting For Single-Label and Multi-Label Text Classification TasksXiangxiang Gao, Wei Zhu, Jiasheng Gao, Congrui Yin. 1-5 [doi]

Towards Domain Generalisation in ASR with Elitist Sampling and Ensemble Knowledge DistillationRehan Ahmad, Md Asif Jalal, Muhammad Umar Farooq, Anna Ollerenshaw, Thomas Hain. 1-5 [doi]

Dynamic Independent Component Extraction with Blending Mixing Vector: Lower Bound on Mean Interference-to-Signal RatioJaroslav Cmejla, Zbynek Koldovský, Václav Kautský, Tülay Adali. 1-5 [doi]

MFAT: A Multi-Level Feature Aggregated Transformer for Person Re-IdentificationBowen Tan, Linfeng Xu 0001, Zihuan Qiu, Qingbo Wu 0001, Fanman Meng. 1-5 [doi]

TAPE: An End-to-End Timbre-Aware Pitch EstimatorNazif Can Tamer, Yigitcan Özer, Meinard Müller, Xavier Serra. 1-5 [doi]

Fully Complex-Valued Deep Learning Model for Visual PerceptionAniruddh Sikdar, Sumanth Udupa, Suresh Sundaram 0002. 1-5 [doi]

Acoustically-Driven Phoneme Removal that Preserves Vocal Affect CuesCamille Noufi, Jonathan Berger, Karen J. Parker, Daniel L. Bowling. 1-5 [doi]

Real-Time Target Sound ExtractionBandhav Veluri, Justin Chan, Malek Itani, Tuochao Chen, Takuya Yoshioka, Shyamnath Gollakota. 1-5 [doi]

Dual-Stream Siamese Vision Transformer With Mutual Attention For Radar Gait VerificationRan Ji, Jiarui Li, Wentao He, Jianfeng Ren, Xudong Jiang 0001. 1-5 [doi]

Fast Robust Principle Component Analysis Using Gauss-Newton IterationsWilliam Chettleburgh, Zhishen Huang, Ming-Hsuan Yang 0001. 1-5 [doi]

Perspective Projection-Based 3d CT Reconstruction from Biplanar X-RaysDaeun Kyung, Kyungmin Jo, Jaegul Choo, Joonseok Lee, Edward Choi. 1-5 [doi]

Subspace-Based Detector For Distributed Mmwave Mimo Radar SensorsMoein Ahmadi, Mohammad Alaee Kerahroodi, M. R. Bhavani Shankar, Björn E. Ottersten. 1-5 [doi]

UAV Remote Sensing Image Dehazing Based on Multi-Dimensional Saliency Awareness Unequal NetworkRuohui Zheng, Libao Zhang. 1-5 [doi]

Waveform Design to Improve the Estimation of Target Parameters Using the Fourier Transform Method in a MIMO OFDM DFRC SystemSatwika Bhogavalli, Éric Grivel, K. V. S. Hari, Vincent Corretja. 1-5 [doi]

Centroid Distance Distillation for Effective Rehearsal in Continual LearningDaofeng Liu, Fan Lyu, Linyan Li, ZhenPing Xia, Fuyuan Hu. 1-5 [doi]

Signal Processing On Product SpacesT. Mitchell Roddenberry, Vincent P. Grande, Florian Frantzen, Michael T. Schaub, Santiago Segarra. 1-5 [doi]

Narrow Down Before Selection: A Dynamic Exclusion Model for Multiple-Choice QAXiyan Liu, Yidong Shi, Ruifang Liu, Ge Bai, Yanyi Chen. 1-5 [doi]

Global HRTF Interpolation Via Learned Affine Transformation of Hyper-Conditioned FeaturesJin Woo Lee, Sungho Lee, Kyogu Lee. 1-5 [doi]

Level-Line Guided Edge Drawing for Robust Line Segment DetectionXinyu Lin, Yingjie Zhou, Yipeng Liu 0001, Ce Zhu. 1-5 [doi]

Explicit Ziv-Zakai Bound For Multiple Sources Doa EstimationZongyu Zhang, Yujie Gu 0001, Zhiguo Shi 0001. 1-5 [doi]

Towards Hyperbolic Regularizers For Point Cloud Part SegmentationAntonio Montanaro, Diego Valsesia, Enrico Magli. 1-5 [doi]

A Phoneme-Informed Neural Network Model For Note-Level Singing TranscriptionSangeon Yong, Li Su, Juhan Nam. 1-5 [doi]

Adaptive Eccm for Mitigating Smart JammersShashwat Jain, Kunal Pattanayak, Vikram Krishnamurthy, Christopher Berry. 1-5 [doi]

Direction Aware Positional and Structural Encoding for Directed Graph Neural NetworksYonas Sium, Georgios Kollias, Tsuyoshi Idé, Payel Das, Naoki Abe, Aurélie C. Lozano, Qi Li. 1-5 [doi]

Towards Realizing the Value of Labeled Target Samples: A Two-Stage Approach for Semi-Supervised Domain AdaptationMengqun Jin, Kai Li, Shuyan Li, Chunming He, Xiu Li. 1-5 [doi]

Towards Explainable Recommendation Via Bert-Guided Explanation GeneratorHuijing Zhan, Ling Li, Shaohua Li, Weide Liu, Manas Gupta, Alex C. Kot. 1-5 [doi]

ifUNet++: Iterative Feedback UNet++ for Infrared Small Target DetectionZhangying Weng, Peng Li, Xin Zhuang, Xuefeng Yan, Lina Gong, Haoran Xie 0001, Mingqiang Wei. 1-5 [doi]

Topological Signal Processing Over Weighted Simplicial ComplexesClaudio Battiloro, Stefania Sardellitti, Sergio Barbarossa, Paolo Di Lorenzo. 1-5 [doi]

Margin-Mixup: A Method for Robust Speaker Verification In Multi-Speaker AudioJenthe Thienpondt, Nilesh Madhu, Kris Demuynck. 1-5 [doi]

A Novel Cross-Component Context Model for End-to-End Wavelet Image CodingAnna Meyer, André Kaup. 1-5 [doi]

Brain Network Features Differentiate Intentions from Different Emotional Expressions of the Same TextZhongjie Li, Bin Zhao, Gaoyan Zhang, Jianwu Dang 0001. 1-5 [doi]

Cochlear Decomposition: A Novel Bio-Inspired Multiscale Analysis FrameworkHessa Alfalahi, Ahsan Khandoker, Ghada Alhussein, Leontios J. Hadjileontiadis. 1-5 [doi]

The Secret Source : Incorporating Source Features to Improve Acoustic-To-Articulatory Speech InversionYashish M. Siriwardena, Carol Y. Espy-Wilson. 1-5 [doi]

Cocktail Hubert: Generalized Self-Supervised Pre-Training for Mixture and Single-Source SpeechMaryam Fazel-Zarandi, Wei-Ning Hsu. 1-5 [doi]

Parallel Sentence-Level Explanation Generation for Real-World Low-Resource ScenariosYan Liu, Xiaokang Chen, Qi Dai. 1-5 [doi]

Full-Band General Audio Synthesis with Score-Based DiffusionSantiago Pascual, Gautam Bhattacharya, Chunghsin Yeh, Jordi Pons, Joan Serrà. 1-5 [doi]

Sign Language Recognition via Deformable 3D Convolutions and Modulated Graph Convolutional NetworksKaterina Papadimitriou, Gerasimos Potamianos. 1-5 [doi]

Physics-Informed Transfer Learning for Voltage Stability Margin PredictionManish K. Singh, Konstantinos D. Polyzos, Panagiotis A. Traganitis, Sairaj V. Dhople, Georgios B. Giannakis. 1-5 [doi]

Frequency-Selective Hybrid Beamforming For Mmwave Full-DuplexAndrea Guamo-Morocho, Roberto López-Valcarce. 1-5 [doi]

SDRNet: Shape Decoupled Regression Network for 3d face ReconstructionShikun Zhang, Fengyi Song, Ge Song, Ming Yang 0014. 1-5 [doi]

Bayesian Network Modeling and Prediction of Transitions Within the Homelessness SystemKhandker Sadia Rahman, Daphney-Stavroula Zois, Charalampos Chelmis. 1-5 [doi]

Voice-Preserving Zero-Shot Multiple Accent ConversionMumin Jin, Prashant Serai, Jilong Wu, Andros Tjandra, Vimal Manohar, Qing He. 1-5 [doi]

I3D: Transformer Architectures with Input-Dependent Dynamic Depth for Speech RecognitionYifan Peng, Jaesong Lee, Shinji Watanabe 0001. 1-5 [doi]

Dereverberation in Acoustic Sensor Networks Using weighted Prediction Error with Microphone-Dependent Prediction DelaysAnselm Lohmann, Toon van Waterschoot, Jörg Bitzer, Simon Doclo. 1-5 [doi]

Cross-Modal Fusion Techniques for Utterance-Level Emotion Recognition from Text and SpeechJiachen Luo, Huy Phan, Joshua D. Reiss. 1-5 [doi]

Interpolation Filter Model For Ramanujan Subspace SignalsPranav Kulkarni, P. P. Vaidyanathan. 1-5 [doi]

Epic-Sounds: A Large-Scale Dataset of Actions that SoundJaesung Huh, Jacob Chalk, Evangelos Kazakos, Dima Damen, Andrew Zisserman. 1-5 [doi]

Text is all You Need: Personalizing ASR Models Using Controllable Speech SynthesisKarren Yang, Ting-Yao Hu, Jen-Hao Rick Chang, Hema Swetha Koppula, Oncel Tuzel. 1-5 [doi]

Multi-Source Templates Learning for Real-Time Aerial TrackingYiming Sun, Yang Li, Changbo Wang. 1-5 [doi]

TDMA-Based Multi-User Binary Computation Offloading in the Finite-Block-Length RegimeM. Amin Manouchehrpour, Harvinder Lehal, Mahsa Salmani, Timothy N. Davidson. 1-5 [doi]

High-Frequency Transformer Network Based on Window Cross-Attention for PansharpeningChengjie Ke, Hao Liang, Duidui Li, Xin Tian. 1-5 [doi]

Integrated Sensing and Full-Duplex Communication: Joint Transceiver Beamforming and Power AllocationZhenyao He, Wei Xu 0001, Hong Shen 0002, Derrick Wing Kwan Ng, Yonina C. Eldar, Xiaohu You 0001. 1-5 [doi]

Vision2Touch: Imaging Estimation of Surface Tactile Physical PropertiesJie Chen, Shizhe Zhou. 1-5 [doi]

Multiple Contrastive Learning for Multimodal Sentiment AnalysisXiaocui Yang, Shi Feng 0001, Daling Wang, Pengfei Hong, Soujanya Poria. 1-5 [doi]

Prosody-Controllable Spontaneous TTS with Neural HMMSHarm Lameris, Shivam Mehta, Gustav Eje Henter, Joakim Gustafson, Éva Székely. 1-5 [doi]

Unobtrusive Respiratory Monitoring System for Intensive CareXudong Tan, Menghan Hu, Guangtao Zhai, Yan Zhu, Wenfang Li, Xiaoping Zhang 0003. 1-5 [doi]

BHE-DARTS: Bilevel Optimization Based on Hypergradient Estimation for Differentiable Architecture SearchZicheng Cai, Lei Chen, Hai-lin Liu. 1-5 [doi]

Sparse Aggregation-Based Channel Estimation For Massive Mimo Systems With Decentralized Baseband ProcessingYanqing Xu, Enbin Song, Qingjiang Shi, Tsung-Hui Chang. 1-5 [doi]

Role of Bias Terms in Dot-Product AttentionMahdi Namazifar, Devamanyu Hazarika, Dilek Hakkani-Tür. 1-5 [doi]

A Gaussian Latent Variable Model for Incomplete Mixed Type DataMarzieh Ajirak, Petar M. Djuric. 1-5 [doi]

The XMU System for Audio-Visual Diarization and Recognition in MISP Challenge 2022Tao Li, Haodong Zhou, Jie Wang, Qingyang Hong, Lin Li. 1-2 [doi]

Gated Enhanced RPN and Hybrid-View for Few-Shot Object DetectionXujun Wei, Zechu Zhou, Pinxue Guo, Wenqiang Zhang. 1-5 [doi]

A Spatial-Temporal ECG Emotion Recognition Model Based on Dynamic Feature FusionShuo Xiao, Xiaojing Qiu, Chaogang Tang, Zhenzhen Huang. 1-5 [doi]

Learning to Reconnect Interrupted Trajectories for Weakly Supervised Multi-Object TrackingYu-Lei Li, Yang Lu, Jie Li, Hanzi Wang. 1-5 [doi]

StreamSpeech: Low-Latency Neural Architecture for High-Quality on-Device Speech SynthesisGeorgi Shopov, Stefan Gerdjikov, Stoyan Mihov. 1-5 [doi]

Frequency Bin-Wise Single Channel Speech Presence Probability Estimation Using Multiple DNNSShuai Tao, Himavanth Reddy, Jesper Rindom Jensen, Mads Græsbøll Christensen. 1-5 [doi]

FFEDCL: Fair Federated Learning with Contrastive LearningXiaorong Shi, Liping Yi, Xiaoguang Liu 0001, Gang Wang. 1-5 [doi]

Understanding Shared Speech-Text RepresentationsGary Wang, Kyle Kastner, Ankur Bapna, Zhehuai Chen, Andrew Rosenberg, Bhuvana Ramabhadran, Yu Zhang 0033. 1-5 [doi]

CONSEN: Complementary and Simultaneous Ensemble for Alzheimer's Disease Detection and MMSE Score PredictionLongbin Jin, Yealim Oh, Hyunseo Kim, Hyuntaek Jung, Hyo Jin Jon, Jung Eun Shin, Eun Yi Kim. 1-2 [doi]

Guided Speech Enhancement NetworkYang Yang 0010, Shao-fu Shih, Hakan Erdogan, Jamie Menjay Lin, Chehung Lee, Yunpeng Li, George Sung, Matthias Grundmann. 1-5 [doi]

A Framework for Unified Real-Time Personalized and Non-Personalized Speech EnhancementZhepei Wang, Ritwik Giri, Devansh Shah, Jean-Marc Valin, Michael M. Goodwin, Paris Smaragdis. 1-5 [doi]

Visual Information Matters for ASR Error CorrectionVanya Bannihatti Kumar, Shanbo Cheng, Ningxin Peng, Yuchen Zhang. 1-5 [doi]

A Deep Temporal Factor Analysis Method for Large Scale Financial Portfolio SelectionYao Zhou, Ruidan Su, Shikui Tu, Lei Xu 0001. 1-5 [doi]

Counterfactual Two-Stage Debiasing For Video Corpus Moment RetrievalSunjae Yoon, Ji Woo Hong, SooHwan Eom, Hee Suk Yoon, Eunseop Yoon, Daehyeok Kim, Junyeong Kim, Chanwoo Kim 0001, Chang D. Yoo. 1-5 [doi]

Cov Loss: Covariance-Based Loss for Deep Face RecognitionIbrahim Alkanhal, Abdullah Almansour, Lamia Alsalloom, Raied Aljadaany, Marios Savvides. 1-5 [doi]

Dynamic Alignment Mask CTC: Improved Mask CTC With Aligned Cross EntropyXulong Zhang 0001, Haobin Tang, Jianzong Wang, Ning Cheng 0001, Jian Luo, Jing Xiao 0006. 1-5 [doi]

WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial TrainingZewang Zhang, Yibin Zheng, Xinhui Li, Li Lu. 1-5 [doi]

A Novel Metric For Evaluating Audio Caption SimilaritySwapnil Bhosale, Rupayan Chakraborty, Sunil Kumar Kopparapu. 1-5 [doi]

MTFD: Multi-Teacher Fusion Distillation for Compressed Video Action RecognitionJinxin Guo, Jiaqiang Zhang, Shaojie Li, Xiaojing Zhang, Ming Ma. 1-5 [doi]

Distill-Quantize-Tune - Leveraging Large Teachers for Low-Footprint Efficient Multilingual NLU on EdgePegah Kharazmi, Zhewei Zhao, Clement Chung, Samridhi Choudhary. 1-5 [doi]

TeAw: Text-Aware Few-Shot Remote Sensing Image Scene ClassificationKaihui Cheng, Chule Yang, Zunlin Fan, Dayan Wu, Naiyang Guan. 1-5 [doi]

Overcoming Posterior Collapse in Variational Autoencoders Via EM-Type TrainingYing Li, Lei Cheng 0003, Feng Yin, Michael Minyi Zhang, Sergios Theodoridis. 1-5 [doi]

Analysing the Masked Predictive Coding Training Criterion for Pre-Training a Speech Representation ModelHemant Yadav, Sunayana Sitaram, Rajiv Ratn Shah. 1-5 [doi]

On Out-of-Distribution Detection for Audio with Deep Nearest NeighborsZaharah Allah Bukhsh, Aaqib Saeed. 1-5 [doi]

Conditional LS-GAN Based Skylight Polarization Image Restoration and Application in Meridian LocalizationTian Yang, Hongbo Bo, Xinyu Yang, Jun Gao, Zijian Shi. 1-5 [doi]

Relevance Propagation through Deep Conditional Random FieldsXiangyu Yang, Boris Joukovsky, Nikos Deligiannis. 1-5 [doi]

TinyOOD: Effective out-of-Distribution Detection for TinyMLYongchang Li, Juncheng Jia, Yan Zuo, WeiPeng Zhu. 1-5 [doi]

Radio Sensing with Large Intelligent Surface for 6GCristian J. Vaca-Rubio, Pablo Ramirez-Espinosa, Kimmo Kansanen, Zheng-Hua Tan, Elisabeth de Carvalho. 1-5 [doi]

FedSD: A New Federated Learning Structure Used in Non-iid DataMinmin Yi, Houchun Ning, Peng Liu. 1-5 [doi]

Graph Based Semantic Ensemble of Riemannian Neural Structured Learning for BCI-EEG Signal ClassificationVinay Gupta, Laxmidhar Behera, Tushar Sandhan. 1-5 [doi]

Multi-Task Sub-Band Network For Deep Residual Echo SuppressionJiayao Sun, Dawei Luo, Zhaoxia Li, Jindong Li, Yukai Ju, Yang Li. 1-2 [doi]

Improving Few-Shot Learning for Talking Face System with TTS Data AugmentationQi Chen, Ziyang Ma, Tao Liu, Xu Tan, Qu Lu, Kai Yu 0004, Xie Chen 0001. 1-5 [doi]

Trinet: Stabilizing Self-Supervised Learning From Complete or Slow CollapseLixin Cao, Jun Wang, Ben Yang, Dan Su, Dong Yu. 1-5 [doi]

Backdoor Defense via Suppressing Model ShortcutsSheng Yang, Yiming Li 0004, Yong Jiang 0001, Shu-Tao Xia. 1-5 [doi]

Notice of Removal: Exploiting Semantic Attributes for Transductive Zero-Shot LearningZhengbo Wang, Jian Liang, Zilei Wang, Tieniu Tan. 1-5 [doi]

Robust Self-Guided Deep Image PriorEvan Bell, Shijun Liang, Qing Qu, Saiprasad Ravishankar. 1-5 [doi]

Anomalous Signal Detection for Cyber-Physical Systems Using Interpretable Causal Neural NetworkShuo Zhang, Jing Liu. 1-5 [doi]

Intermpl: Momentum Pseudo-Labeling With Intermediate CTC LossYosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe 0001. 1-5 [doi]

Speakeraugment: Data Augmentation for Generalizable Source Separation via Speaker Parameter ManipulationKai Wang, Yuhang Yang, Hao Huang, Ying Hu, Sheng Li 0010. 1-5 [doi]

Subgradient Descent Learning with Over-the-Air ComputationTamir L. S. Gez, Kobi Cohen. 1-5 [doi]

Lattice-Free Sequence Discriminative Training for Phoneme-Based Neural TransducersZijian Yang, Wei Zhou, Ralf Schlüter, Hermann Ney. 1-5 [doi]

SemanticAC: Semantics-Assisted Framework for Audio ClassificationYicheng Xiao, Yue Ma, Shuyan Li, Hantao Zhou, Ran Liao, Xiu Li. 1-5 [doi]

Measuring the Transferability of ℓ∞ Attacks by the ℓ2 NormSizhe Chen, Qinghua Tao, Zhixing Ye, Xiaolin Huang. 1-5 [doi]

SARdBScene: Dataset and Resnet Baseline for Audio Scene Source Counting and AnalysisMichael Nigro, Sridhar Krishnan 0001. 1-5 [doi]

Contrastive Learning of Functionality-Aware Code EmbeddingsYiyang Li 0002, Hongqiu Wu, Hai Zhao. 1-5 [doi]

The Potential of Neural Speech Synthesis-Based Data Augmentation for Personalized Speech EnhancementAnastasia Kuznetsova, Aswin Sivaraman, Minje Kim. 1-5 [doi]

Universal Speaker Recognition Encoders for Different Speech Segments DurationSergey Novoselov, Vladimir Volokhov, Galina Lavrentyeva. 1-5 [doi]

T5-SR: A Unified Seq-to-Seq Decoding Strategy for Semantic ParsingYuntao Li, Zhenpeng Su, Yutian Li, Hanchu Zhang, Sirui Wang, Wei Wu 0014, Yan Zhang. 1-5 [doi]

Advancing the Dimensionality Reduction of Speaker Embeddings for Speaker Diarisation: Disentangling Noise and Informing Speech ActivityYou Jin Kim, Hee-Soo Heo, Jee-weon Jung, Youngki Kwon, Bong-Jin Lee, Joon Son Chung. 1-5 [doi]

Neural Source Coding For Bandwidth-Efficient Brain-Computer Interfacing With Wireless Neuro-Sensor NetworksThomas Strypsteen, Alexander Bertrand. 1-5 [doi]

Label-Guided Contrastive Learning for Out-of-Domain DetectionShun Zhang, Tongliang Li, Jiaqi Bai, Zhoujun Li 0001. 1-5 [doi]

Study And Design Of Robust Personal Sound Zones With Vast Using Low Rank RirsSankha Subhra Bhattacharjee, Liming Shi, Guoli Ping, Xiaoxiang Shen, Mads Græsbøll Christensen. 1-5 [doi]

Neural Architecture Search with Multimodal Fusion Methods for Diagnosing DementiaMichail Chatzianastasis, Loukas Ilias, Dimitris Askounis, Michalis Vazirgiannis. 1-5 [doi]

Exploring Subgroup Performance in End-to-End Speech ModelsAlkis Koudounas, Eliana Pastor, Giuseppe Attanasio, Vittorio Mazzia, Manuel Giollo, Thomas Gueudré, Luca Cagliero, Luca de Alfaro, Elena Baralis, Daniele Amberti. 1-5 [doi]

Single-Photon Image Super-Resolution via Self-Supervised LearningYiwei Chen, Chen Jiang, Yu Pan 0001. 1-5 [doi]

Reducing the Communication and Computational Cost of Random Fourier Features Kernel LMS in Diffusion NetworksDaniel G. Tiglea, Renato Candido, Luis Antonio Azpicueta-Ruiz, Magno T. M. Silva. 1-5 [doi]

Long-Short Attention Network For The Spectral Super-Resolution Of Multispectral ImagesKai Zhang 0010, Tian Jin, Feng Zhang, Jiande Sun. 1-5 [doi]

Speaker-Independent Acoustic-to-Articulatory Speech InversionPeter Wu, Li-Wei Chen, Cheol Jun Cho, Shinji Watanabe 0001, Louis Goldstein, Alan W. Black, Gopala Krishna Anumanchipalli. 1-5 [doi]

Leveraging Phone-Level Linguistic-Acoustic Similarity For Utterance-Level Pronunciation ScoringWei Liu, Kaiqi Fu, Xiaohai Tian, Shuju Shi, Wei Li 0012, Zejun Ma, Tan Lee. 1-5 [doi]

Decoupled Non-Parametric Knowledge Distillation for end-to-End Speech TranslationHao Zhang, Nianwen Si, Yaqi Chen, Wenlin Zhang, Xukui Yang, Dan Qu, Zhen Li. 1-5 [doi]

Towards Diverse and Coherent Augmentation for Time-Series ForecastingXiyuan Zhang 0001, Ranak Roy Chowdhury, Jingbo Shang, Rajesh K. Gupta 0001, Dezhi Hong. 1-5 [doi]

FedVMR: A New Federated Learning Method for Video Moment RetrievalYan Wang, Xin Luo 0006, Zhen-Duo Chen, Peng-fei Zhang, Meng Liu, Xin-Shun Xu. 1-5 [doi]

Forecasting of Breathing Events from Speech for Respiratory SupportAki Härmä, Ulf Großekathöfer, Okke Ouweltjes, Venkata Srikanth Nallanthighal. 1-5 [doi]

DQFORMER: Dynamic Query Transformer for Lane DetectionHao Yang, Shuyuan Lin, Runqing Jiang, Yang Lu 0009, Hanzi Wang. 1-5 [doi]

Neural Feature Predictor and Discriminative Residual Coding for Low-Bitrate Speech CodingHaici Yang, Wootaek Lim, Minje Kim. 1-5 [doi]

SPASHT: Semantic and Pragmatic Speech Features for Automatic Assessment of AutismB. Ashwini, Vrinda Narayan, Jainendra Shukla. 1-5 [doi]

Image Reconstruction without Explicit PriorsAngela F. Gao, Oscar Leong, He Sun, Katherine L. Bouman. 1-5 [doi]

Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar SamplesHyeonggon Ryu, Arda Senocak, In-So Kweon, Joon Son Chung. 1-5 [doi]

An ASR-Free Fluency Scoring Approach with Self-Supervised LearningWei Liu, Kaiqi Fu, Xiaohai Tian, Shuju Shi, Wei Li 0012, Zejun Ma, Tan Lee. 1-5 [doi]

Efficient Large-Scale Audio Tagging Via Transformer-to-CNN Knowledge DistillationFlorian Schmid, Khaled Koutini, Gerhard Widmer. 1-5 [doi]

GAPter: Gray-Box Data Protector for Deep Learning Inference Services at User SideHao Wu, Bo Yang, Xiaopeng Ke, Siyi He, Fengyuan Xu, Sheng Zhong 0002. 1-5 [doi]

Cross-Speaker Emotion Transfer by Manipulating Speech Style LatentsSuhee Jo, Younggun Lee, Yookyung Shin, Yeongtae Hwang, Taesu Kim. 1-5 [doi]

Multi-Modal Food Classification in a Diet Tracking System with Spoken and Visual InputsShivani Gowda, Yifan Hu, Mandy Korpusik. 1-5 [doi]

Collaborative Audio-Visual Event Localization Based on Sequential Decision and Cross-Modal ConsistencyYuqian Kuang, Xiaopeng Fan. 1-5 [doi]

Unsupervised Deep Digital Staining for Microscopic Cell Images via Knowledge DistillationZiwang Xu, Lanqing Guo, Shuyan Zhang, Alex C. Kot, Bihan Wen. 1-5 [doi]

Vision Transformer-Based Feature Extraction for Generalized Zero-Shot LearningJiseob Kim, Kyuhong Shim, Junhan Kim, Byonghyo Shim. 1-5 [doi]

TriAAN-VC: Triple Adaptive Attention Normalization for Any-to-Any Voice ConversionHyun-Joon Park, Seok Woo Yang, Jin Sob Kim, WooSeok Shin, Sung Won Han 0003. 1-5 [doi]

Neurally Augmented State Space Model for Simultaneous Communication and Tracking with Low Complexity ReceiversFernando Pedraza, Giuseppe Caire. 1-5 [doi]

Int-GNN: A User Intention Aware Graph Neural Network for Session-Based RecommendationGuangning Xu, Jinyang Yang, Jinjin Guo, Zhichao Huang, Bowen Zhang. 1-5 [doi]

Federated Semi-Supervised Learning for Object Detection in Autonomous DrivingFangyuan Chi, Yixiao Wang, Panos Nasiopoulos, Victor C. M. Leung, Mahsa T. Pourazad. 1-5 [doi]

TOLD: a Novel Two-Stage Overlap-Aware Framework for Speaker DiarizationJiaming Wang, Zhihao Du, Shiliang Zhang. 1-5 [doi]

Reducing the GAP Between Streaming and Non-Streaming Transducer-Based ASR by Adaptive Two-Stage Knowledge DistillationHaitao Tang, Yu Fu, Lei Sun, Jiabin Xue, Dan Liu, Yongchao Li, Zhiqiang Ma, Minghui Wu, Jia Pan, Genshun Wan, Ming'en Zhao. 1-5 [doi]

Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal Sentence Localization in VideosDaizong Liu, Pan Zhou. 1-5 [doi]

Halluaudio: Hallucinate Frequency as Concepts For Few-Shot Audio ClassificationZhongjie Yu, Shuyang Wang, Lin Chen, Zhongwei Cheng. 1-5 [doi]

Hardware-Limited Non-Uniform Task-Based QuantizersNeil Irwin Bernardo, Jingge Zhu, Yonina C. Eldar, Jamie S. Evans. 1-5 [doi]

Hierarchical Interactive Reconstruction Network for Video Compressive SensingTong Zhang, Wenxue Cui, Chen hui, Feng Jiang 0001. 1-5 [doi]

Flow-Guided Deformable Alignment Network with Self-Supervision for Video InpaintingZhiliang Wu, Kang Zhang, Changchang Sun, Hanyu Xuan, Yan Yan 0002. 1-5 [doi]

Blind Acoustic Room Parameter Estimation Using Phase FeaturesChristopher Ick, Adib Mehrabi, Wenyu Jin 0003. 1-5 [doi]

RØROS: Building a Responsive Online Recommender System via Meta-Gradients UpdatingXudong Pan, Mi Zhang 0001, Duocai Wu. 1-5 [doi]

Real-Time Speech Enhancement with Dynamic Attention SpanChengyu Zheng, Yuan Zhou, Xiulian Peng, Yuan Zhang, Yan Lu 0001. 1-5 [doi]

High-Dimensional Confidence Regions in Sparse MRIFrederik Hoppe, Felix Krahmer, Claudio Mayrink Verdun, Marion I. Menzel, Holger Rauhut. 1-5 [doi]

Dynamic Distributed Convex Optimization "Over-The-Air" In Decentralized Wireless NetworksNavneet Agrawal, Renato L. G. Cavalcante, Slawomir Stanczak. 1-5 [doi]

Quantum Transfer Learning Using the Large-Scale Unsupervised Pre-Trained Model Wavlm-Large for Synthetic Speech DetectionRuoyu Wang 0029, Jun Du, Tian Gao. 1-5 [doi]

Active Beam Tracking with Reconfigurable Intelligent SurfaceHan Han, Tao Jiang, Wei Yu. 1-5 [doi]

HIPI: A Hierarchical Performer Identification Model Based on Symbolic Representation of MusicSyed Rifat Mahmud Rafee, György Fazekas, Geraint A. Wiggins. 1-5 [doi]

SL-MoE: A Two-Stage Mixture-of-Experts Sequence Learning Framework for Forecasting Rapid Intensification of Tropical CycloneJian Xu, Yang Lei, Guangqi Zhu, Yunling Feng, Bo Xiao, Qifeng Qian, Yajing Xu. 1-5 [doi]

CPD-GAN: Cascaded Pyramid Deformation GAN for Pose TransferYuan Huang, Yuting Tang, Xiu Zheng, Jie Tang 0006. 1-5 [doi]

Joint Robust Representation And Generalization Enhancement For Cross-Modality Person Re-IdentificationHeqing Cheng, Yong Feng 0002, Mingliang Zhou, Xiancai Xiong, Yongheng Wang, Baohua Qiang. 1-5 [doi]

Enhanced Dcf Tracker Regularized by Reliable Sample ConstructionKun Hu, Mingyu Cao, Mengzhu Wang, Long Lan, Wenjing Yang 0002, Huibin Tan. 1-5 [doi]

Difference Guided VHR Remote Sensing Image Change DetectionJiukai Sun, Ganchao Liu, Xuelong Li 0001, Yuan Yuan. 1-5 [doi]

Fast Cross-Correlation for TDoA Estimation on Small Aperture Microphone ArraysFrançois Grondin, Marc-Antoine Maheux, Jean-Samuel Lauzon, Jonathan Vincent, François Michaud. 1-5 [doi]

TEFISTA-NET: GTD Parameter Estimation of Low-Frequency Ultra- Wideband Radar via Model-Based Deep LearningRui Li, Xueqian Wang, Gang Li, Xiao-Ping Zhang. 1-5 [doi]

Evaluation of Categorical Generative Models - Bridging the Gap Between Real and Synthetic DataFlorence Regol, Anja Kroon, Mark Coates. 1-5 [doi]

Bert is Robust! A Case Against Word Substitution-Based Adversarial AttacksJens Hauser, Zhao Meng, Damian Pascual, Roger Wattenhofer. 1-5 [doi]

Content-Insensitive Dynamic Lip Feature Extraction for Visual Speaker Authentication Against Deepfake AttacksZihao Guo, Shilin Wang. 1-5 [doi]

Decoding Auditory EEG Responses Using an Adapted WavenetBob Van Dyck, Liuyin Yang, Marc M. Van Hulle. 1-2 [doi]

In-Sensor & Neuromorphic Computing Are all You Need for Energy Efficient Computer VisionGourav Datta, Zeyu Liu 0003, Md. Abdullah-Al Kaiser, Souvik Kundu 0002, Joe Mathai, Zihan Yin, Ajey P. Jacob, Akhilesh R. Jaiswal, Peter A. Beerel. 1-5 [doi]

Twitter Stance Detection via Neural Production SystemsBowen Zhang 0005, Daijun Ding, Guangning Xu, Jinjin Guo, Zhichao Huang, Xu Huang. 1-5 [doi]

Going in Style: Audio Backdoors Through Stylistic TransformationsStefanos Koffas, Luca Pajola, Stjepan Picek, Mauro Conti. 1-5 [doi]

Exploration Into Translation-Equivariant Image QuantizationWoncheol Shin, Gyubok Lee, Jiyoung Lee, Eunyi Lyou, Joonseok Lee, Edward Choi. 1-5 [doi]

Ensemble Knowledge Distillation of Self-Supervised Speech ModelsKuan-Po Huang, Tzu-hsun Feng, Yu-Kuan Fu, Tsu-Yuan Hsu, Po-Chieh Yen, Wei-Cheng Tseng, Kai-Wei Chang, Hung-yi Lee. 1-5 [doi]

Torchaudio-Squim: Reference-Less Speech Quality and Intelligibility Measures in TorchaudioAnurag Kumar 0003, Ke Tan 0001, Zhaoheng Ni, Pranay Manocha, Xiaohui Zhang, Ethan Henderson, Buye Xu. 1-5 [doi]

Learning Dependencies of Discrete Speech Representations with Neural Hidden Markov ModelsSung-Lin Yeh, Hao Tang. 1-5 [doi]

An Analysis of Degenerating Speech Due to Progressive Dysarthria on ASR PerformanceKatrin Tomanek, Katie Seaver, Pan-Pan Jiang, Richard Cave, Lauren Harrell, Jordan R. Green. 1-5 [doi]

Improved Wordpcfg for Passwords with Maximum Probability SegmentationWenting Li, Jiahong Yang, Haibo Cheng, Ping Wang 0003, Kaitai Liang. 1-5 [doi]

Compressive Channel Estimation for IRS-Aided Millimeter-Wave Systems via Two-Stage Lamp NetworkWen-Chiao Tsai, Chi-Wei Chen, An-Yeu Andy Wu. 1-5 [doi]

Global Matching-Optimization Network for Stereo Depth EstimationYiDi Zhang, Wenqi Huang, Wenming Yang. 1-5 [doi]

Interpretable, Unrolled Deep Radar Beampattern DesignKareem Metwaly, Junho Kweon, Khaled Alhujaili, Maria Greco 0001, Fulvio Gini, Vishal Monga. 1-5 [doi]

ERBNet: An Effective Representation Based Network for Unbiased Scene Graph GenerationWenxi Ma, Tianxiang Hou, Qianji Di, Zhongang Qi, Ying Shan, Hanzi Wang. 1-5 [doi]

A Unified Uncertainty-Aware Exploration: Combining Epistemic and Aleatory UncertaintyParvin Malekzadeh, Ming Hou 0002, Konstantinos N. Plataniotis. 1-5 [doi]

Approximation Error Back-Propagation for Q-Function in Scalable Reinforcement Learning with Tree Dependence StructureYuzi Yan, Yu Dong, Kai Ma, Yuan Shen 0001. 1-5 [doi]

Multi-Aspect Interest Neighbor-Augmented Network for Next-Basket RecommendationZhiying Deng, Jianjun Li, Zhiqiang Guo, Guohui Li. 1-5 [doi]

A Targeted Sampling Strategy for Compressive Cryo Focused Ion Beam Scanning Electron MicroscopyDaniel Nicholls, Jack Wells, Alex W. Robinson, Amirafshar Moshtaghpour, Maryna Kobylynska, Roland A. Fleck, Angus I. Kirkland, Nigel D. Browning. 1-5 [doi]

Joint Estimation of DOA and Distance in Noisy Reverberant ConditionsSuliang Bu, Tuo Zhao, Yunxin Zhao. 1-5 [doi]

The Ustc System for Adress-m ChallengeKangdi Mei, Xinyun Ding, YinLong Liu, Zhiqiang Guo, Feiyang Xu, Xin Li, Tuya Naren, Jiahong Yuan, Zhenhua Ling. 1-2 [doi]

Multi-User Methods for Vibrational Radar Backscatter CommunicationsJessica Centers, Jeffrey Krolik. 1-5 [doi]

Regression to Classification: Waveform Encoding for Neural Field-Based Audio Signal RepresentationTaesoo Kim, Daniel Rho, Gahui Lee, Jaehan Park, Jong Hwan Ko. 1-5 [doi]

A Comparison of Semi-Supervised Learning Techniques for Streaming ASR at ScaleCal Peyser, Michael Picheny, KyungHyun Cho, Rohit Prabhavalkar, W. Ronny Huang, Tara N. Sainath. 1-5 [doi]

2BN: Cross-Modality and Cross-Scale Balance Network for Multi-Modal 3D Object DetectionBonan Ding, Jin Xie 0005, Jing Nie. 1-5 [doi]

A Privacy-Preserving Trajectory Mining ModelZiyang Wang, Sissi Xiaoxiao Wu, JunJie Zhu, Yingying Zhu. 1-5 [doi]

Scoreformer: Score Fusion-Based Transformers for Weakly-Supervised Violence DetectionYang Xiao, Liejun Wang, Tongguan Wang, Huicheng Lai. 1-5 [doi]

Metric Learning for User-Defined Keyword SpottingJaemin Jung, Youkyum Kim, Jihwan Park, Youshin Lim, Byeong-Yeol Kim, Youngjoon Jang, Joon Son Chung. 1-5 [doi]

A non-contact SpO2 estimation using video magnification and infrared dataThomas Stogiannopoulos, Grigorios-Aris Cheimariotis, Nikolaos Mitianoudis. 1-5 [doi]

Smoothing Complex-Valued Signals on Graphs with Monte-CarloHugo Jaquard, Michaël Fanuel, Pierre-Olivier Amblard, Rémi Bardenet, Simon Barthelmé, Nicolas Tremblay. 1-5 [doi]

A Mutual Implicit Sentiment Analysis Model with Bundle-Aware Contrastive LearningSiqi Cai, Jingling Yuan, Lin Li. 1-5 [doi]

Gator: Graph-Aware Transformer with Motion-Disentangled Regression for Human Mesh Recovery from a 2D PoseYingxuan You, Hong Liu, Xia Li, Wenhao Li, Ti Wang, Runwei Ding. 1-5 [doi]

Multilingual End-To-End Spoken Language Understanding For Ultra-Low Footprint ApplicationsMarkus Müller, Anastasios Alexandridis, Zach Trozenski, Joel Whiteman, Grant P. Strimel, Nathan Susanj, Athanasios Mouchtaris, Siegfried Kunzmann. 1-5 [doi]

Hybridformer: Improving Squeezeformer with Hybrid Attention and NSR MechanismYuguang Yang 0005, Yu Pan, Jingjing Yin, Jiangyu Han, Lei Ma, Heng Lu 0004. 1-5 [doi]

I-Tuning: Tuning Frozen Language Models with Image for Lightweight Image CaptioningZiyang Luo, Zhipeng Hu, Yadong Xi, Rongsheng Zhang, Jing Ma 0004. 1-5 [doi]

Modeling Turn-Taking in Human-To-Human Spoken Dialogue Datasets Using Self-Supervised FeaturesEdmilson Da Silva Morais, Matheus Damasceno, Hagai Aronowitz, Aharon Satt, Ron Hoory. 1-5 [doi]

Possibilistic Bernoulli Filter for Extended Target TrackingZhijin Chen, Branko Ristic 0001, Du Yong Kim. 1-5 [doi]

Low-Complexity Acoustic Echo Cancellation with Neural Kalman FilteringDong Yang, Fei Jiang, Wei Wu, Xuefei Fang, Muyong Cao. 1-5 [doi]

Scale-Adaptive Tiny Object Detection Enhanced by Across-Scale and Shape-Preserved Semantic LocationYuting He, Renjie Huang, Yangguang Shi, Guoqiang Xiao 0001, Bin Yang, Yuqi Li. 1-5 [doi]

Efficient Uncertainty Estimation with Gaussian Process for Reliable Dialog Response RetrievalTong Ye, Zhitao Li, Jianzong Wang, Ning Cheng 0001, Jing Xiao 0006. 1-5 [doi]

Semi-Swinderain: Semi-Supervised Image Deraining Network Using SWIN TransformerChun Ren, Danfeng Yan, Yuanqiang Cai, Yangchun Li. 1-5 [doi]

Robust Binary Component DecompositionsChristos Kolomvakis, Nicolas Gillis. 1-5 [doi]

Phonation Mode Detection in Singing: A Singer Adapted ModelYixin Wang, Wei Wei, Ye Wang. 1-5 [doi]

Can Spoofing Countermeasure And Speaker Verification Systems Be Jointly Optimised?Wanying Ge, Hemlata Tak, Massimiliano Todisco, Nicholas W. D. Evans. 1-5 [doi]

HiSSNet: Sound Event Detection and Speaker Identification via Hierarchical Prototypical Networks for Low-Resource HeadphonesN. Shashaank, Berker Banar, Mohammad Rasool Izadi, Jeremy Kemmerer, Shuo Zhang, Chuan-Che Huang. 1-5 [doi]

CANet: Curved Guide Line Network with Adaptive Decoder for Lane DetectionZhongyu Yang, Chen Shen, Wei Shao, Tengfei Xing, Runbo Hu, Pengfei Xu 0013, Hua Chai, Ruini Xue. 1-5 [doi]

A 3D-Assisted Framework to Evaluate the Quality of Head Motion Replication by Reenactment DEEPFAKE GeneratorsSahar Husseini, Jean-Luc Dugelay, Fabien Aili, Emmanuel Nars. 1-5 [doi]

A Game of Snakes and GansSiddarth Asokan, Fatwir Sheikh Mohammed, Chandra Sekhar Seelamantula. 1-5 [doi]

Joint Unmixing And Demosaicing Methods For Snapshot Spectral ImagesKinan Abbas, Matthieu Puigt, Gilles Delmaire, Gilles Roussel 0002. 1-5 [doi]

Outside Knowledge Visual Question Answering Version 2.0Benjamin Z. Reichman, Anirudh Sundar, Christopher Richardson, Tamara Zubatiy, Prithwijit Chowdhury, Aaryan Shah, Jack Truxal, Micah Grimes, Dristi Shah, Woo Ju Chee, Saif Punjwani, Atishay Jain, Larry Heck. 1-5 [doi]

Radio-Astronomy Imaging and Interference Excision Using Tensor Decomposition and Canonical Correlation AnalysisMikael Sørensen, Nicholas D. Sidiropoulos. 1-5 [doi]

-Complexity Low-Rank Approximation SVD for Massive Matrix in Tensor Train FormatJung-Chun Chi, Chiao-En Chen, Yuan-Hao Huang. 1-5 [doi]

Lego-Features: Exporting Modular Encoder Features for Streaming and Deliberation ASRRami Botros, Rohit Prabhavalkar, Johan Schalkwyk, Ciprian Chelba, Tara N. Sainath, Françoise Beaufays. 1-5 [doi]

Boosting No-Reference Super-Resolution Image Quality Assessment with Knowledge Distillation and ExtensionHaiyu Zhang, Shaolin Su, Yu Zhu, Jinqiu Sun, Yanning Zhang. 1-5 [doi]

Exploiting Speaker Embeddings for Improved Microphone Clustering and Speech Separation in ad-hoc Microphone ArraysStijn Kindt, Jenthe Thienpondt, Nilesh Madhu. 1-5 [doi]

AMPose: Alternately Mixed Global-Local Attention Model for 3D Human Pose EstimationHongxin Lin, Yunwei Chiu, Peiyuan Wu. 1-5 [doi]

An Adaptive Enhancement Method for Gastrointestinal Low-Light Images of Capsule EndoscopePeixuan Liu, YingHui Wang, Jinlong Yang, Wei Li. 1-5 [doi]

Period VITS: Variational Inference with Explicit Pitch Modeling for End-To-End Emotional Speech SynthesisYuma Shirahata, Ryuichi Yamamoto, Eunwoo Song, Ryo Terashima, Jae Min Kim, Kentaro Tachibana. 1-5 [doi]

Av-Sepformer: Cross-Attention Sepformer for Audio-Visual Target Speaker ExtractionJiuxin Lin, Xinyu Cai, Heinrich Dinkel, Jun Chen, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Zhiyong Wu 0001, Yujun Wang, Helen Meng. 1-5 [doi]

Dual-Use Signal Design for MIMO Radcom with Inter-Pulse Index ModulationXue Yao, Guolong Cui, Xianxiang Yu. 1-5 [doi]

Retiformer: Retinex-Based Enhancement In Transformer For Low-Light ImageJunxiang Ruan, Xiangtao Kong, Wenqi Huang, Wenming Yang. 1-5 [doi]

Prompttts: Controllable Text-To-Speech With Text DescriptionsZhifang Guo, Yichong Leng, Yihan Wu, Sheng Zhao, Xu Tan 0003. 1-5 [doi]

Test-Time Training-Free Domain AdaptationYongxiang Feng, Weihua He, Kaichao You, Bing Liu, Ziyang Zhang, Yaoyuan Wang, Minglei Li, Yihang Lou, Jiawei Li, Guoqi Li, Jianxing Liao. 1-5 [doi]

Jeffreys Divergence-Based Regularization of Neural Network Output Distribution Applied to Speaker RecognitionPierre-Michel Bousquet, Mickael Rouvier. 1-5 [doi]

Analysis and Re-Synthesis of Natural Cricket Sounds Assessing the Perceptual Relevance of Idiosyncratic ParametersMarco Oliveira, Vitor Almeida, João Silva, Aníbal J. S. Ferreira. 1-5 [doi]

Data Leakage in Cross-Modal Retrieval Training: A Case StudyBenno Weck, Xavier Serra. 1-5 [doi]

Dual-Uncertainty Guided Curriculum Learning and Part-Aware Feature Refinement for Domain Adaptive Person Re-IdentificationZhangping Liu, Bin Liu 0016, Zhiwei Zhao, Qi Chu 0001, Nenghai Yu. 1-5 [doi]

Spatial Inference Using Censored Multiple Testing with Fdr ControlMartin Gölz, Abdelhak M. Zoubir, Visa Koivunen. 1-5 [doi]

BIRD-PCC: Bi-Directional Range Image-Based Deep Lidar Point Cloud CompressionChia-Sheng Liu, Jia-Fong Yeh, Hao Hsu, Hung-Ting Su, Ming-Sui Lee, Winston H. Hsu. 1-5 [doi]

Gated Contextual Adapters For Selective Contextual Biasing In Neural TransducersAnastasios Alexandridis, Kanthashree Mysore Sathyendra, Grant P. Strimel, Feng-Ju Chang, Ariya Rastrow, Nathan Susanj, Athanasios Mouchtaris. 1-5 [doi]

CN-CVS: A Mandarin Audio-Visual Dataset for Large Vocabulary Continuous Visual to Speech SynthesisChen Chen, Dong Wang 0013, Thomas Fang Zheng. 1-5 [doi]

Reducing the Computational Complexity of Learning with Random Convolutional FeaturesM. A. Omidi, Babak Seyfe, Shahrokh Valaee. 1-5 [doi]

LiQuiD-MIMO Radar: Distributed MIMO Radar with Low-Bit QuantizationYikun Xiang, Feng Xi, Shengyao Chen. 1-5 [doi]

CAENet: Using Collaborative Attention Transformer and Add-Boost Strategy for Single Image DerainingShengdi Qin, Shunli Zhang, Yu Zhang, Haoyu Gao. 1-5 [doi]

Tensor Decomposition Based Latent Feature Clustering for Hyperspectral Band SelectionJianwen Qi, Jie Zhang, Yongshan Zhang, Xinwei Jiang, Zhihua Cai. 1-5 [doi]

VAN-ICP: GPU-Accelerated Approximate Nearest Neighbor Search for ICP Registration via Voxel DilationWeimin Wang, Qiong Chang. 1-5 [doi]

Mask Guided Selective Context Decoding for Handwritten Chinese Text RecognitionTao Li, Shilian Wu, Zengfu Wang. 1-5 [doi]

SDG-L: A Semiparametric Deep Gaussian Process based Framework for Battery Capacity PredictionHanbing Liu, Yanru Wu, Yang Liu 0003, Ercan E. Kuruoglu, Xuan Zhang. 1-5 [doi]

Multiple Target Measurements: Bayesian Framework for Moving Object Detection in Mimo RadarBastian Eisele, Ali Bereyhi, Ralf R. Müller. 1-5 [doi]

A Quantum Kernel Learning Approach to Acoustic Modeling for Spoken Command RecognitionChao-Han Huck Yang, Bo Li 0028, Yu Zhang, Nanxin Chen, Tara N. Sainath, Sabato Marco Siniscalchi, Chin-Hui Lee 0001. 1-5 [doi]

LE-DTA: Local Extrema Convolution for Drug Target Affinity PredictionTanoj Langore, Te-Cheng Hsu, Yi-Hsien Hsieh, Che Lin. 1-5 [doi]

TSpeech-AI System Description to the 5th Deep Noise Suppression (DNS) ChallengeJianwei Yu, Hangting Chen, Yi Luo, Rongzhi Gu, Weihua Li, Chao Weng. 1-2 [doi]

Improving Electric Load Demand Forecasting with Anchor-Based Forecasting MethodMaria Tzelepi, Paraskevi Nousi, Anastasios Tefas. 1-5 [doi]

End-to-End Neural Audio Coding in the MDCT DomainHyungseob Lim, Jihyun Lee, Byeong Hyeon Kim, Inseon Jang, Hong-Goo Kang. 1-5 [doi]

Graph Signal Processing For Neurogimaging to Reveal Dynamics of Brain Structure-Function CouplingMaria Giulia Preti, Thomas William Arthur Bolton, Alessandra Griffa, Dimitri Van De Ville. 1-5 [doi]

Deep Subband Network for Joint Suppression of Echo, Noise and Reverberation in Real-Time Fullband Speech CommunicationFeifei Xiong, Minya Dong, Kechenying Zhou, Houwei Zhu, Jinwei Feng. 1-5 [doi]

Low-Latency Electrolaryngeal Speech Enhancement Based on Fastspeech2-Based Voice Conversion and Self-Supervised Speech RepresentationKazuhiro Kobayashi, Tomoki Hayashi, Tomoki Toda. 1-5 [doi]

Symbol-Level Precoding is Related to Parameter Estimation from Quantized DataMingjie Shao, Wing-Kin Ma, Yatao Liu. 1-5 [doi]

Enabling Large-Scale Image Search with Co-Attention MechanismZechao Hu, Adrian G. Bors. 1-5 [doi]

General Category Network: Handwritten Mathematical Expression Recognition with Coarse-Grained Recognition TaskXinyu Zhang, Han-ying, Ye Tao, Youlu Xing, Guihuan Feng. 1-5 [doi]

Unsupervised Extractive Summarization With Heterogeneous Graph Embeddings for Chinese DocumentsChen Lin, Ye Liu, Siyu An, Di Yin. 1-5 [doi]

Privacy-Preserving Automatic Speaker DiarizationFrancisco Teixeira, Alberto Abad, Bhiksha Raj, Isabel Trancoso. 1-5 [doi]

Modeling the Wave Equation Using Physics-Informed Neural Networks Enhanced With Attention to Loss WeightsShaikhah Alkhadhr, Mohamed Almekkawy. 1-5 [doi]

SENER: Sentiment Element Named Entity Recognition for Aspect-Based Sentiment AnalysisSun-Kyung Lee, Jong-Hwan Kim. 1-5 [doi]

Unsupervised Pre-Training for Data-Efficient Text-to-Speech on Low Resource LanguagesSeongyeon Park, Myungseo Song, Bohyung Kim, Tae Hyun Oh. 1-5 [doi]

Think Before You Speak: Concept-Guided Explicit Persona Reasoning for Personalized Dialogue GenerationYunpeng Li, Yue Hu, Wei Peng, Yuqiang Xie. 1-5 [doi]

Enhance Transferability of Adversarial Examples with Model ArchitectureMingyuan Fan, Wenzhong Guo, Zuobin Ying, Ximeng Liu. 1-5 [doi]

Targeted Adversarial Attacks Against Neural Machine TranslationSahar Sadrizadeh, AmirHossein Dabiri Aghdam, Ljiljana Dolamic, Pascal Frossard. 1-5 [doi]

Non-Convex Approaches for Low-Rank Tensor Completion under Tubal SamplingZheng Tan, Longxiu Huang, HanQin Cai, Yifei Lou. 1-5 [doi]

Any-to-Any Voice Conversion with F0 and Timbre Disentanglement and Novel Timbre ConditioningSudheer Kovela, Rafael Valle, Ambrish Dantrey, Bryan Catanzaro. 1-5 [doi]

Feature Space Recovery for Incomplete Multi-View ClusteringZhen Long, Ce Zhu, Pierre Comon, Yipeng Liu 0001. 1-5 [doi]

Diffusion-Based Sound Source Localization Using Networks of Planar Microphone ArraysDavide Albertini, Gioele Greco, Alberto Bernardini, Augusto Sarti. 1-5 [doi]

Knowledge-Aware Bayesian Co-Attention for Multimodal Emotion RecognitionZihan Zhao, Yu Wang, Yanfeng Wang. 1-5 [doi]

Context-Aware Face Clustering with Graph Convolutional NetworksDafeng Zhang, Jiangbo Guo, Zhezhu Jin. 1-5 [doi]

Gaze Pre-Train For Improving Disparity Estimation NetworksRon M. Hecht, Ohad Rahamim, Shaul Oron, Andrea Forgacs, Gershon Celniker, Dan Levi, Omer Tsimhoni. 1-5 [doi]

Multi-Head Uncertainty Inference for Adversarial Attack DetectionYuqi Yang, Songyun Yang, Jiyang Xie 0001, Zhongwei Si, Kai Guo, Ke Zhang, Kongming Liang. 1-5 [doi]

Compose & Embellish: Well-Structured Piano Performance Generation via A Two-Stage ApproachShih-Lun Wu, Yi-Hsuan Yang. 1-5 [doi]

Detecting Out-of-Distribution Examples Via Class-Conditional Impressions ReappearingJinggang Chen, Xiaoyang Qu, Junjie Li, Jianzong Wang, Jiguang Wan, Jing Xiao 0006. 1-5 [doi]

Extracting the Brain-Like Representation by an Improved Self-Organizing Map for Image ClassificationJiahong Zhang, Lihong Cao, Moning Zhang, Wenlong Fu. 1-5 [doi]

End-to-End Spoken Language Understanding with Tree-Constrained Pointer GeneratorGuangzhi Sun, Chao Zhang 0031, Philip C. Woodland. 1-5 [doi]

On the Minimum Perimeter Criterion for Bounded Component AnalysisSergio Cruces. 1-5 [doi]

Gluformer: Transformer-based Personalized glucose Forecasting with uncertainty quantificationRenat Sergazinov, Mohammadreza Armandpour, Irina Gaynanova. 1-5 [doi]

Multi-Agent Reinforcement Learning for Covert Semantic Communications over Wireless NetworksYining Wang, Ye Hu, Hongyang Du, Tao Luo, Dusit Niyato. 1-5 [doi]

Counterfactual Explanation for Multivariate Times Series Using A Contrastive Variational AutoencoderWilliam Todo, Merwann Selmani, Béatrice Laurent, Jean-Michel Loubes. 1-5 [doi]

QI-TTS: Questioning Intonation Control for Emotional Speech SynthesisHaobin Tang, Xulong Zhang 0001, Jianzong Wang, Ning Cheng 0001, Jing Xiao 0006. 1-5 [doi]

Robustness of Deep Equilibrium Architectures to Changes in the Measurement ModelJunhao Hu, Shirin Shoushtari, Zihao Zou, Jiaming Liu 0001, Zhixin Sun, Ulugbek S. Kamilov. 1-5 [doi]

A Synthetic Corpus Generation Method for Neural Vocoder TrainingZilin Wang, Peng Liu, Jun Chen, Sipan Li, Jinfeng Bai, Gang He, Zhiyong Wu 0001, Helen Meng. 1-5 [doi]

Robust Hypothesis Testing With Moment Constrained Uncertainty SetsAkshayaa Magesh, Zhongchang Sun, Venugopal V. Veeravalli, Shaofeng Zou. 1-5 [doi]

Decorrelating Language Model Embeddings for Speech-Based Prediction of Cognitive ImpairmentLingfeng Xu, Kimberly D. Mueller, Julie Liss, Visar Berisha. 1-5 [doi]

APGP: Accuracy-Preserving Generative Perturbation for Defending Against Model Cloning AttacksAnda Cheng, Jian Cheng. 1-5 [doi]

Learning From Single-Expert Annotated Labels for Automatic Sleep StagingZhiheng Luan, Yanzhen Ren, Li Peng, Xiong Chen, Xiuping Yang, Weiping Tu, Yuhong Yang 0001. 1-5 [doi]

Contrastive Speech Mixup for Low-Resource Keyword SpottingDianwen Ng, Ruixi Zhang, Jia Qi Yip, Chong Zhang 0003, Yukun Ma, Trung Hieu Nguyen 0001, Chongjia Ni, Eng Siong Chng, Bin Ma 0001. 1-5 [doi]

Fast and Exact Enumeration of Deep Networks Partitions RegionsRandall Balestriero, Yann LeCun. 1-5 [doi]

Burst Perception-Distortion Tradeoff: Analysis and EvaluationDanna Xue, Luis Herranz, Javier Vazquez-Corral, Yanning Zhang. 1-5 [doi]

Performance Above All? Energy Consumption vs. Performance, a Study on Sound Event Detection with Heterogeneous DataRomain Serizel, Samuele Cornell, Nicolas Turpault. 1-5 [doi]

Matrix Resolvent Eigenembeddings for Dynamic GraphsVasileios Kalantzis, Panagiotis A. Traganitis. 1-5 [doi]

Multi-Speaker Multi-Lingual VQTTS System for LIMMITS 2023 ChallengeChenpeng Du, Yiwei Guo, Feiyu Shen, Kai Yu 0004. 1-2 [doi]

DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-SpeechKeon Lee, Kyumin Park, Daeyoung Kim. 1-5 [doi]

Anomalous Sound Detection Using Audio Representation with Machine ID Based Contrastive Learning PretrainingJian Guan, Feiyang Xiao, Youde Liu, Qiaoxi Zhu, Wenwu Wang 0001. 1-5 [doi]

Parasympathetic-Sympathetic Causal Interactions and Perceived Workload for Varying Difficulty Affective Computing TasksPravallika Lavanuru, Sawon Pratiher, Karuna P. Sahoo, Mrinal Acharya, Sreejith S, Nirmalya Ghosh, Amit Patra. 1-5 [doi]

Asynchronous Federated Learning for Real-Time Multiple Licence Plate Recognition Through Semantic CommunicationRenyou Xie, Chaojie Li, Xiaojun Zhou, Zhaoyang Dong. 1-5 [doi]

An Adaptive Plug-and-Play Network for Few-Shot LearningHao Li, Li Li, Yunmeng Huang, Ning Li, Yongtao Zhang. 1-5 [doi]

Moving Towards Non-Binary Gender Identification Via Analysis of System Errors in Binary Gender ClassificationSebastian Ellis, Stefan Goetze, Heidi Christensen. 1-5 [doi]

On-the-Fly Text Retrieval for end-to-end ASR AdaptationBolaji Yusuf, Aditya Gourav, Ankur Gandhe, Ivan Bulyko. 1-5 [doi]

Internal Language Model Estimation Based Adaptive Language Model Fusion for Domain AdaptationRao Ma, Xiaobo Wu, Jin Qiu, Yanan Qin, Haihua Xu, Peihao Wu, Zejun Ma. 1-5 [doi]

A Dual-Branch Adaptive Distribution Fusion Framework for Real-World Facial Expression RecognitionShu Liu 0002, Yan Xu, Tongming Wan, Xiaoyan Kui. 1-5 [doi]

Graph Representation Learning For Stroke Recurrence PredictionNicholas Glaze, Artun Bayer, Xiaoqian Jiang, Sean I. Savitz, Santiago Segarra. 1-5 [doi]

Sketch Less Face Image Retrieval: A New ChallengeDawei Dai, Yutang Li, Liang Wang, Shiyu Fu, Shuyin Xia, Guoyin Wang 0001. 1-5 [doi]

Multilingual Query-by-Example Keyword Spotting with Metric Learning and Phoneme-to-Embedding MappingPaul M. Reuter, Christian Rollwage, Bernd T. Meyer. 1-5 [doi]

Element Selection with Wide Class of Optimization Criteria Using Non-Convex Sparse OptimizationTaiga Kawamura, Natsuki Ueno, Nobutaka Ono. 1-5 [doi]

Background Disturbance Mitigation for Video Captioning Via Entity-Action RelocationZipeng Li, Xian Zhong, Shuqin Chen, Wenxuan Liu, Wenxin Huang, Lin Li 0001. 1-5 [doi]

Robust and Globally Sparse Pca via Majorization-Minimization and Variable SplittingHugo Brehier, Arnaud Breloy, Mohammed Nabil El Korso, Sandeep Kumar 0005. 1-5 [doi]

SAN: A Robust End-to-End ASR Model ArchitectureZeping Min, Qian Ge, Guanhua Huang. 1-5 [doi]

Hypernetwork-Based Adaptive Image RestorationShai Aharon, Gil Ben-Artzi. 1-5 [doi]

Towards Reliable Image Outpainting: Learning Structure-Aware Multimodal Fusion with Depth GuidanceLei Zhang 0116, Chunyu Lin, Kang Liao, Yao Zhao 0001. 1-5 [doi]

Diverse and Vivid Sound Generation from Text DescriptionsGuangwei Li, Xuenan Xu, Lingfeng Dai, Mengyue Wu, Kai Yu 0004. 1-5 [doi]

An Implicit Gradient Method for Constrained Bilevel Problems Using Barrier ApproximationIoannis C. Tsaknakis, Prashant Khanduri, Mingyi Hong. 1-5 [doi]

Dasformer: Deep Alternating Spectrogram Transformer For Multi/Single-Channel Speech SeparationShuo Wang, Xiangyu Kong, Xiulian Peng, Hesam Movassagh, Vinod Prakash, Yan Lu 0001. 1-5 [doi]

Graph-Based Spectro-Temporal Dependency Modeling for Anti-SpoofingFeng Chen, Shiwen Deng, Tieran Zheng, Yongjun He, Jiqing Han 0001. 1-5 [doi]

Federated Intelligent Terminals Facilitate Stuttering MonitoringYongzi Yu, Wanyong Qiu, Chen Quan, Kun Qian 0003, Zhihua Wang, Yu Ma, Bin Hu 0001, Björn W. Schuller, Yoshiharu Yamamoto. 1-5 [doi]

A Novel Extrapolation Technique to Accelerate WMMSEKaiwen Zhou, Zhilin Chen, Guochen Liu, Zhitang Chen. 1-5 [doi]

A Database for Multi-Modal Short Video Quality AssessmentYukun Zhang, Chuan Wang, Sanyi Zhang, Xiaochun Cao. 1-5 [doi]

Leveraging Language Embeddings for Cross-Lingual Self-Supervised Speech Representation LearningTomohiro Tanaka, Ryo Masumura, Mana Ihori, Hiroshi Sato, Taiga Yamane, Takanori Ashihara, Kohei Matsuura, Takafumi Moriya. 1-5 [doi]

Constrained non-negative PARAFAC2 for electromyogram separationAbilé Magbonde, Franck Quaine, Bertrand Rivet. 1-5 [doi]

Estimation of Time-Varying Graph Topologies from Graph SignalsYuhao Liu 0002, Chen Cui, Marzieh Ajirak, Petar M. Djuric. 1-5 [doi]

Semi-Federated Learning for Edge Intelligence with Imperfect SICWanli Ni, Jingheng Zheng, Yonina C. Eldar, Changsheng You, Kaibin Huang. 1-5 [doi]

Robust Fir Filters for Wireless Low-Frequency Sound ZonesMo Zhou, Martin Bo Møller, Christian Pedersen, Jan Østergaard. 1-5 [doi]

A Low-Latency Hybrid Multi-Channel Speech Enhancement System For Hearing AidsTong Lei, Zhongshu Hou, Yuxiang Hu, Wanyu Yang, Tianchi Sun, Xiaobin Rong, Dahan Wang, Kai Chen, Jing Lu. 1-2 [doi]

Deep3DSketch: 3D Modeling from Free-Hand Sketches with View- and Structural-Aware Adversarial TrainingTianrun Chen, Chenglong Fu 0003, Lanyun Zhu, Papa Mao, Jia Zhang, Ying Zang, Lingyun Sun. 1-5 [doi]

Multi-Layer Feature Division Transferable Adversarial AttackZikang Jin, Changchun Yin, Piji Li, Lu Zhou 0002, Liming Fang 0001, Xiangmao Chang, Zhe Liu 0001. 1-5 [doi]

Egocentric Action Anticipation for Personal HealthIvan Rodin, Antonino Furnari, Dimitrios Mavroeidis, Giovanni Maria Farinella. 1-5 [doi]

Light Projection-Based Physical-World Vanishing Attack Against Car DetectionHuixiang Wen, Shan Chang, Luo Zhou. 1-5 [doi]

Robust GMM Parameter Estimation via the K-BM AlgorithmOri Kenig, Koby Todros, Tülay Adali. 1-5 [doi]

Parameter Efficient Transfer Learning for Various Speech Processing TasksShinta Otake, Rei Kawakami, Nakamasa Inoue. 1-5 [doi]

Flowreg: Latent Space Regularization Using Normalizing Flow For Limited Samples LearningChi Wang, Jian Gao, Yang Hua, Hui Wang. 1-5 [doi]

Machine Learning-Aided Piece-Wise Modeling Technique of Power Amplifier for Digital PredistortionS. S. Krishna Chaitanya Bulusu, Nuutti Tervo, Praneeth Susarla, Mikko J. Sillanpää, Olli Silvén, Markku J. Juntti, Aarno Pärssinen. 1-5 [doi]

Effectiveness of Inter- and Intra-Subarray Spatial Features for Acoustic Scene ClassificationTakao Kawamura, Yuma Kinoshita, Nobutaka Ono, Robin Scheibler. 1-5 [doi]

Masked Autoencoders are Articulatory LearnersAhmed Adel Attia, Carol Y. Espy-Wilson. 1-5 [doi]

On Parametric Misspecified Bayesian Cramér-Rao Bound: An Application to Linear/Gaussian SystemsShuo Tang, Gerald LaMountain, Tales Imbiriba, Pau Closas. 1-5 [doi]

Improving Sentence Similarity Estimation for Unsupervised Extractive SummarizationShichao Sun, Ruifeng Yuan, Wenjie Li, Sujian Li. 1-5 [doi]

Speech Intelligibility Classifiers from 550k Disordered Speech SamplesSubhashini Venugopalan, Jimmy Tobin, Samuel J. Yang, Katie Seaver, Richard J. N. Cave, Pan-Pan Jiang, Neil Zeghidour, Rus Heywood, Jordan R. Green, Michael P. Brenner. 1-5 [doi]

Source Localization for Extremely Large-Scale Antenna Arrays with Spatial Non-StationarityXiaohuan Wu, Ji Sun, Xiaoyuan Jia, Shuxin Wang. 1-5 [doi]

Multi-Speaker Expressive Speech Synthesis via Multiple Factors DecouplingXinfa Zhu, Yi Lei, Kun Song, Yongmao Zhang, Tao Li, Lei Xie 0001. 1-5 [doi]

Gaussian Prior Reinforcement Learning for Nested Named Entity RecognitionYaWen Yang, Xuming Hu, Fukun Ma, Shuang Li, Aiwei Liu, Lijie Wen, Philip S. Yu. 1-5 [doi]

MCNeT: Measurement-Consistent Networks Via A Deep Implicit Layer For Solving Inverse ProblemsRahul Mourya, João F. C. Mota. 1-5 [doi]

Benchmarking Cross-Domain Face Recognition with Avatars, Caricatures and SketchesA. Foroughi, Christian Rathgeb, Mathias Ibsen, Christoph Busch 0001. 1-5 [doi]

Beamforming Optimization in RIS-Aided Mimo Systems Under Multiple-Reflection EffectsDilki Wijekoon, Amine Mezghani, Ekram Hossain. 1-5 [doi]

JSV-VC: Jointly Trained Speaker Verification and Voice Conversion ModelsShogo Seki, Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko. 1-5 [doi]

Convergence of Stochastic PDMMSebastian O. Jordan, Thomas W. Sherson, Richard Heusdens. 1-5 [doi]

Relational Representation Learning for Zero-Shot Relation Extraction with Instance Prompting and Prototype RectificationBin Duan, Xingxian Liu, Shusen Wang, Yajing Xu, Bo Xiao. 1-5 [doi]

Learned Video Coding with Motion Compensation Mixture ModelKhanh Quoc Dinh, Kwang-Pyo Choi. 1-5 [doi]

Investigating Content-Aware Neural Text-to-Speech MOS Prediction Using Prosodic and Linguistic FeaturesAlexandra Vioni, Georgia Maniati, Nikolaos Ellinas, June Sig Sung, Inchul Hwang, Aimilios Chalamandaris, Pirros Tsiakoulis. 1-5 [doi]

Semantics-Guided Object Removal for Facial Images: with Broad Applicability and Robust Style PreservationJookyung Song, Yeonjin Chang, Seonguk Park, Nojun Kwak. 1-5 [doi]

SR-init: An Interpretable Layer Pruning MethodHui Tang, Yao Lu, Qi Xuan. 1-5 [doi]

Unrolled Fourier Disparity Layer Optimization for Scene Reconstruction from Few-Shots Focal StacksBrandon Le Bon, Mikaël Le Pendu, Christine Guillemot. 1-5 [doi]

Effectiveness of Text, Acoustic, and Lattice-Based Representations in Spoken Language Understanding TasksEsaú Villatoro-Tello, Srikanth R. Madikeri, Juan Zuluaga-Gomez, Bidisha Sharma, Seyyed Saeed Sarfjoo, Iuliia Nigmatulina, Petr Motlícek, Alexei V. Ivanov, Aravind Ganapathiraju. 1-5 [doi]

Learning a Weight Map for Weakly-Supervised LocalizationTal Shaharabany, Lior Wolf. 1-5 [doi]

MMCosine: Multi-Modal Cosine Loss Towards Balanced Audio-Visual Fine-Grained LearningRuize Xu, Ruoxuan Feng, Shi-Xiong Zhang, Di Hu 0001. 1-5 [doi]

Automatic Error Detection in Integrated Circuits Image Segmentation: A Data-Driven ApproachZhikang Zhang, Bruno Machado Trindade, Michael Green, Zifan Yu, Christopher Pawlowicz, Fengbo Ren. 1-5 [doi]

Probabilistic Back-ends for Online Speaker Recognition and ClusteringAlexey Sholokhov, Nikita Kuzmin, Kong-Aik Lee, Eng Siong Chng. 1-5 [doi]

Flexible Beam Design for Vital Sign Monitoring Using a Phased Array Equipped With Double-Phase ShiftersZhaoyi Xu, Donglin Gao, Shuping Li, Chung-Tse Michael Wu, Athina P. Petropulu. 1-5 [doi]

2SR: Learning an Enhanced Intra-Instance Semantic Relationship for Arbitrary-Shaped Scene Text DetectionYan Shu, Shaohui Liu, Yu Zhou, Honglei Xu, Feng Jiang 0001. 1-5 [doi]

Robust Spatiotemporal Fusion of Satellite Images via Convex OptimizationRyosuke Isono, Kazuki Naganuma, Shunsuke Ono. 1-5 [doi]

Unique Bispectrum Inversion for Signals with Finite Spectral/Temporal SupportSamuel Pinilla, Kumar Vijay Mishra, Brian M. Sadler. 1-5 [doi]

Global and Nodal Mutual Information Maximization in Heterogeneous GraphsCostas Mavromatis, George Karypis. 1-5 [doi]

Towards Robust Data-Driven Underwater Acoustic Localization: A Deep CNN Solution with Performance Guarantees for Model MismatchAmir Weiss, Andrew C. Singer, Gregory W. Wornell. 1-5 [doi]

On Crowdsourcing-Design with Comparison Category Rating for Evaluating Speech Enhancement AlgorithmsAngélica S. Z. Suárez, Clément Laroche, Line H. Clemmensen, Sneha Das. 1-5 [doi]

Rapid Audiometric Evaluation for Personalized Headphone ListeningMatthew J. Goupell, Marjan Davoodian, Sarah Weinstein, David Gadzinski, Dmitry N. Zotkin, Kaushik Sethunath, Ramani Duraiswami. 1-5 [doi]

Particle Flow Gaussian Sum Particle FilterKarthik Comandur, Yunpeng Li, Santosh Nannuru. 1-5 [doi]

No Reference Quality Assessment for Screen Content Images Based on Entire and High-Influence RegionsZhuoran Xu, Yang Yang, Zhixiang Zhang, Weiming Zhang. 1-5 [doi]

ADHD Classification with Biomarker Identification Using a Triplet Loss Attention Auto-Encoding NetworkYibin Tang, Ying Chen 0013, Yuan Gao 0007, Aimin Jiang, Lin Zhou 0001. 1-5 [doi]

Data Driven Joint Sensor Fusion and Regression Based on Geometric Mean Squared ErrorCarlos Alejandro López, Jaume Riba. 1-5 [doi]

Efficient Multi-Scale Attention Module with Cross-Spatial LearningDaliang Ouyang, Su He, Guozhong Zhang, Mingzhu Luo, Huaiyong Guo, Jian Zhan, Zhijie Huang. 1-5 [doi]

Better Together: Dialogue Separation and Voice Activity Detection for Audio Personalization in TVMatteo Torcoli, Emanuël A. P. Habets. 1-5 [doi]

Maskdul: Data Uncertainty Learning in Masked Face RecognitionLibo Zhang, Weiming Xiong, Ku Zhao, Kehan Chen, Mingyang Zhong. 1-5 [doi]

N2MVSNet: Non-Local Neighbors Aware Multi-View Stereo NetworkZhe Zhang, Huachen Gao, Yuxi Hu, Ronggang Wang. 1-5 [doi]

SIGVIC: Spatial Importance Guided Variable-Rate Image CompressionJiaming Liang, Meiqin Liu, Chao Yao, Chunyu Lin, Yao Zhao 0001. 1-5 [doi]

Meeting Action Item Detection with Regularized Context ModelingJiaqing Liu, Chong Deng, Qinglin Zhang, Qian Chen, Wen Wang. 1-5 [doi]

Polarized Signal Singular Spectrum Analysis with Complex SSASébastien Journé, Nicolas Le Bihan, Florent Chatelain, Julien Flamant. 1-5 [doi]

Designing A 3d-Aware Stylenerf Encoder for Face EditingSonglin Yang, Wei Wang, Bo Peng, Jing Dong. 1-5 [doi]

Database-Aware ASR Error Correction for Speech-to-SQL ParsingYutong Shao, Arun Kumar 0001, Ndapa Nakashole. 1-5 [doi]

Large-Scale Nonverbal Vocalization Detection Using TransformersPanagiotis Tzirakis, Alice Baird, Jeffrey A. Brooks, Christopher Gagne, Lauren Kim, Michael Opara, Christopher B. Gregory, Jacob Metrick, Garrett Boseck, Vineet Tiruvadi, Björn W. Schuller, Dacher Keltner, Alan Cowen. 1-5 [doi]

Scalable and Secure Federated XGBoostQuang Minh Nguyen, Nhan Khanh Le, Lam M. Nguyen. 1-5 [doi]

Target-Speaker Voice Activity Detection Via Sequence-to-Sequence PredictionMing Cheng, Weiqing Wang, Yucong Zhang, Xiaoyi Qin, Ming Li. 1-5 [doi]

CryoSWD: Sliced Wasserstein Distance Minimization for 3D Reconstruction in Cryo-electron MicroscopyMona Zehni, Zhizhen Zhao. 1-5 [doi]

Speech Emotion Recognition via Heterogeneous Feature LearningKe Liu, Dongya Wu, Dekui Wang, Jun Feng 0003. 1-5 [doi]

Radio Map Based UAV Target LocalizationChen He, Weisheng Gong, Yangrui Dong, Xie Xie, Z. Jane Wang. 1-5 [doi]

Variational Inference Aided Estimation of Time Varying ChannelsBenedikt Böck, Michael Baur, Valentina Rizzello, Wolfgang Utschick. 1-5 [doi]

Speech Summarization of Long Spoken Document: Improving Memory Efficiency of Speech/Text EncodersTakatomo Kano, Atsunori Ogawa, Marc Delcroix, Roshan S. Sharma, Kohei Matsuura, Shinji Watanabe 0001. 1-5 [doi]

DL-NET: Dilation Location Network for Temporal Action DetectionDianlong You, Houlin Wang, Bingxin Liu, Yang Yu, Zhiming Li. 1-5 [doi]

Nasty-SFDA: Source Free Domain Adaptation from a Nasty ModelJiajiong Cao, Yufan Liu, Weiming Bai, Jingting Ding, Liang Li. 1-5 [doi]

A Holistic Cascade System, Benchmark, and Human Evaluation Protocol for Expressive Speech-to-Speech TranslationWen-Chin Huang, Benjamin Peloquin, Justine Kao, Changhan Wang, Hongyu Gong, Elizabeth Salesky, Yossi Adi, Ann Lee 0001, Peng-Jen Chen. 1-5 [doi]

Trust Your Partner's Friends: Hierarchical Cross-Modal Contrastive Pre-Training for Video-Text RetrievalYuhan Xiang, Kaijian Liu, Shixiang Tang, Lei Bai 0001, Feng Zhu 0006, Rui Zhao 0001, Xianming Lin. 1-5 [doi]

UPGLADE: Unplugged Plug-and-Play Audio Declipper Based on Consensus Equilibrium of DNN and Sparse OptimizationTomoro Tanaka, Kohei Yatabe, Yasuhiro Oikawa. 1-5 [doi]

Improving Transformer-Based End-to-End Speaker Diarization by Assigning Auxiliary Losses to Attention HeadsYe-Rin Jeoung, Joon-Young Yang, Jeong Hwan Choi, Joon-Hyuk Chang. 1-5 [doi]

Dialog Act Guided Contextual Adapter for Personalized Speech RecognitionFeng-Ju Chang, Thejaswi Muniyappa, Kanthashree Mysore Sathyendra, Kai Wei, Grant P. Strimel, Ross McGowan. 1-5 [doi]

Attention Based Relation Network for Facial Action Units RecognitionYao Wei, Haoxiang Wang 0002, Mingze Sun, Jiawang Liu. 1-5 [doi]

Speech Emotion Recognition Via Two-Stream Pooling Attention With Discriminative Channel WeightingKe Liu, Dekui Wang, Dongya Wu, Jun Feng 0003. 1-5 [doi]

Tracking Objects and Activities with Attention for Temporal Sentence GroundingZeyu Xiong, Daizong Liu, Pan Zhou, Jiahao Zhu. 1-5 [doi]

Robust Iterative Solution for Linear Array-Based 3-D Localization by Message PassingYimao Sun, K. C. Ho 0001, Yanbing Yang, Lei Zhang, Liangyin Chen. 1-5 [doi]

An Interpretable Model Using Evidence Information for Multi-Hop Question Answering Over Long TextsYanyi Chen, Ruifang Liu, Xiyan Liu, Yidong Shi, Ge Bai. 1-5 [doi]

D-3DLD: Depth-Aware Voxel Space Mapping for Monocular 3D Lane Detection with UncertaintyNayeon Kim, Moonsub Byeon, Daehyun Ji, Dokwan Oh. 1-5 [doi]

Spatial Active Noise Control Method Based on Sound Field Interpolation from Reference Microphone SignalsKazuyuki Arikawa, Shoichi Koyama, Hiroshi Saruwatari. 1-5 [doi]

Evaluating Speech-Phoneme Alignment and its Impact on Neural Text-To-Speech SynthesisFrank Zalkow, Prachi Govalkar, Meinard Müller, Emanuël A. P. Habets, Christian Dittmar. 1-5 [doi]

Multi-Head Feature Pyramid Networks for Breast Mass DetectionHexiang Zhang, Zhenghua Xu, Dan Yao, Shuo Zhang, Junyang Chen, Thomas Lukasiewicz. 1-5 [doi]

Cross-Domain Learning with Normalizing FlowChi Wang, Jian Gao, Yang Hua, Hui Wang. 1-5 [doi]

Style Modeling for Multi-Speaker Articulation-to-SpeechMiseul Kim, Zhenyu Piao, Jihyun Lee, Hong-Goo Kang. 1-5 [doi]

FAPM: Fast Adaptive Patch Memory for Real-Time Industrial Anomaly DetectionDonghyeong Kim, Chaewon Park, Suhwan Cho, Sangyoun Lee. 1-5 [doi]

Noise-Disentanglement Metric Learning for Robust Speaker VerificationYao Sun, Hanyi Zhang, Longbiao Wang, Kong-Aik Lee, Meng Liu, Jianwu Dang 0001. 1-5 [doi]

CSM In Motion Vector Steganalysis: The Effect of Coders on Motion Vectors in H.264 Video EncodingVerena Lachner, Katharina Schaar, Ralf Zimmermann. 1-5 [doi]

Structure-Aware Multi-Feature Co-Learning for Dual Branch Face Super ResolutionKangli Zeng, Zhongyuan Wang 0001, Tao Lu, Jianyu Chen. 1-5 [doi]

MGAT: Multi-Granularity Attention Based Transformers for Multi-Modal Emotion RecognitionWeiquan Fan, Xiaofen Xing, Bolun Cai, Xiangmin Xu. 1-5 [doi]

DATA2VEC-SG: Improving Self-Supervised Learning Representations for Speech Generation TasksHeming Wang, Yao Qian, Hemin Yang, Nauyuki Kanda, Peidong Wang, Takuya Yoshioka, Xiaofei Wang, Yiming Wang, Shujie Liu 0001, Zhuo Chen 0006, DeLiang Wang, Michael Zeng 0001. 1-5 [doi]

Signal Reconstruction for FMCW Radar Interference Mitigation Using Deep UnfoldingJ. Overdevest, A. G. C. Koppelaar, M. J. G. Bekooij, J. Youn, Ruud J. G. van Sloun. 1-5 [doi]

Leveraging Multiple Sources in Automatic African American English Dialect Detection for Adults and ChildrenAlexander Johnson, Vishwas M. Shetty, Mari Ostendorf, Abeer Alwan. 1-5 [doi]

Overlay Cognitive Radio Using Symbol Level Precoding With Quantized CSILu Liu, A. Lee Swindlehurst. 1-5 [doi]

Mitigating Domain Dependency for Improved Speech Enhancement Via SNR Loss BoostingLili Yin, Di Wu, Zhibin Qiu, Hao Huang. 1-5 [doi]

MHLAT: Multi-Hop Label-Wise Attention Model for Automatic ICD CodingJunwen Duan, Han Jiang, Ying Yu. 1-5 [doi]

3ST: Mix at Three Levels for Speech TranslationXuxin Cheng, Qianqian Dong, Fengpeng Yue, Tom Ko, Mingxuan Wang, Yuexian Zou. 1-5 [doi]

Diagonal State Space Augmented Transformers for Speech RecognitionGeorge Saon, Ankit Gupta 0001, Xiaodong Cui. 1-5 [doi]

Two-Stream Decoder Feature Normality Estimating Network for Industrial Anomaly DetectionChaewon Park, Minhyeok Lee, Suhwan Cho, Donghyeong Kim, Sangyoun Lee. 1-5 [doi]

Reliability Estimation for Synthetic Speech DetectionDavide Salvi, Paolo Bestagini, Stefano Tubaro. 1-5 [doi]

Adaptive Step-Size Methods for Compressed SGDAdarsh M. Subramaniam, Akshayaa Magesh, Venugopal V. Veeravalli. 1-5 [doi]

Suffix Retrieval-Augmented Language ModelingZecheng Wang, Yik-Cheung Tam. 1-5 [doi]

Neural Network Models with Integrated Training and Adaptation For Nonlinear Acoustic System IdentificationSvantje Voit, Gerald Enzner. 1-5 [doi]

Exploiting 3D Human Recovery for Action Recognition with Spatio-Temporal Bifurcation FusionNa Jiang, Wei Quan, Qichuan Geng, Zhi-Ping Shi 0002, Peng Xu. 1-5 [doi]

Quantum Variational Bayes on ManifoldsAnna Lopatnikova, Minh-Ngoc Tran. 1-5 [doi]

Exploration of Language Dependency for Japanese Self-Supervised Speech Representation ModelsTakanori Ashihara, Takafumi Moriya, Kohei Matsuura, Tomohiro Tanaka. 1-5 [doi]

A Context-Aware Computational Approach for Measuring Vocal Entrainment in Dyadic ConversationsRimita Lahiri, Md. Nasir, Catherine Lord, So-Hyun Kim, Shrikanth Narayanan. 1-5 [doi]

Two-Step Band-Split Neural Network Approach For Full-Band Residual Echo SuppressionZihan Zhang, Shimin Zhang, Mingshuai Liu, Yanhong Leng, Zhe Han, Li Chen, Lei Xie. 1-2 [doi]

NL-DSE: Non-Local Neural Network with Decoder-Squeeze-and-Excitation for Monocular Depth EstimationTsung-Han Tsai 0001, Wei-Chung Wan. 1-4 [doi]

AD-YOLO: You Look Only Once in Training Multiple Sound Event Localization and DetectionJin Sob Kim, Hyun-Joon Park, WooSeok Shin, Sung Won Han 0003. 1-5 [doi]

Amicable Aid: Perturbing Images to Improve Classification PerformanceJuyeop Kim, Jun Ho Choi, Soobeom Jang, Jong-Seok Lee. 1-5 [doi]

Semi-Supervised Sound Event Detection with Pre-Trained ModelLiang Xu, Lizhong Wang, Sijun Bi, Hanyue Liu, Jing Wang. 1-5 [doi]

Multi-Lingual Pronunciation Assessment with Unified Phoneme Set and Language-Specific EmbeddingsBinghuai Lin, Liyuan Wang. 1-5 [doi]

Defending Against Universal Patch Attacks by Restricting Token Attention in Vision TransformersHongwei Yu, Jiansheng Chen, Huimin Ma, Cheng Yu, Xinlong Ding. 1-5 [doi]

Look and Think: Intrinsic Unification of Self-Attention and Convolution for Spatial-Channel SpecificityXiang Gao, Honghui Lin, Yu Li, Ruiyan Fang, Xin Zhang. 1-5 [doi]

Ultrasound Image Quality Control Using Speech-Assisted Switchable CycleGANJaeyoung Huh, Shujaat Khan, Eun Sun Lee, Jong Chul Ye. 1-5 [doi]

High-Resolution Embedding Extractor for Speaker DiarisationHee-Soo Heo, Youngki Kwon, Bong-Jin Lee, You Jin Kim, Jee-weon Jung. 1-5 [doi]

ISmallNet: Densely Nested Network with Label Decoupling for Infrared Small Target DetectionZhiheng Hu, Yongzhen Wang, Peng Li, Jie Qin, Haoran Xie 0001, Mingqiang Wei. 1-5 [doi]

Guide and Select: A Transformer-Based Multimodal Fusion Method for Points of Interest Description GenerationHanqing Liu, Wei Wang 0138, Niu Hu, Hai-Tao Zheng 0002, Rui Xie, Wei Wu 0014, Yang Bai. 1-5 [doi]

A Quantum Approach for Stochastic Constrained Binary OptimizationSarthak Gupta, Vassilis Kekatos. 1-5 [doi]

Mixer: DNN Watermarking using Image MixupKassem Kallas, Teddy Furon. 1-5 [doi]

UWB Localization-of-Things Via Soft Information: Network Experimentation in Indoor EnvironmentCarlos A. Gómez-Vega, Moe Z. Win, Andrea Conti 0001. 1-5 [doi]

FFFN: Fashion Feature Fusion Network by Co-Attention Model for Fashion RecommendationZhantu Lin, Xiaoyan Zhang. 1-5 [doi]

Dynamic TF-TDNN: Dynamic Time Delay Neural Network Based on Temporal-Frequency Attention for Dialect RecognitionChao Liao, Jinwen Huang, Huan Yuan, Peng Yao, Jianchao Tan, Dawei Zhang, Feng Deng, Xiaorui Wang, Chengru Song. 1-5 [doi]

SafeDeep: A Scalable Robustness Verification Framework for Deep Neural NetworksAnahita Baninajjar, Kamran Hosseini, Ahmed Rezine, Amir Aminifar. 1-5 [doi]

PI-Trans: Parallel-Convmlp and Implicit-Transformation Based Gan for Cross-View Image TranslationBin Ren, Hao Tang, Yiming Wang, Xia Li, Wei Wang, Nicu Sebe. 1-5 [doi]

Self-Convolution for Automatic Speech RecognitionTianhao Zhang, Qi Liu, Xinyuan Qian, Song-Lu Chen, Feng Chen 0040, Xu-Cheng Yin. 1-5 [doi]

Quaternion Orthogonal Transformer for Facial Expression Recognition in the WildYu Zhou, Liyuan Guo, Lianghai Jin. 1-5 [doi]

Joint Pre-Training with Speech and Bilingual Text for Direct Speech to Speech TranslationKun Wei, Long Zhou, Ziqiang Zhang, Liping Chen, Shujie Liu 0001, Lei He 0005, Jinyu Li 0001, Furu Wei. 1-5 [doi]

Exploring Attention Mechanisms for Multimodal Emotion Recognition in an Emergency Call Center CorpusThéo Deschamps-Berger, Lori Lamel, Laurence Devillers. 1-5 [doi]

Papez: Resource-Efficient Speech Separation with Auditory Working MemoryHyunseok Oh, Juheon Yi, Youngki Lee. 1-5 [doi]

Unsupervised Voice Type Discrimination Score Adaptation Using X-Vector ClustersMark Lindsey, Tyler Vuong, Richard M. Stern. 1-5 [doi]

Exploring Approaches to Multi-Task Automatic Synthesizer ProgrammingDaniel Faronbi, Irán R. Román, Juan Pablo Bello. 1-5 [doi]

NVOC-22: A Low Cost Mel Spectrogram Vocoder for Mobile DevicesRakesh Iyer. 1-5 [doi]

Identifiable Bounded Component Analysis Via Minimum Volume Enclosing ParallelotopeJingzhou Hu, Kejun Huang. 1-5 [doi]

Improving Performance of Real-Time Full-Band Blind Packet-Loss Concealment with Predictive NetworkViet Anh Nguyen, Anh H. T. Nguyen, Andy W. H. Khong. 1-5 [doi]

Cross-Modal Mutual Learning for Cued Speech RecognitionLei Liu, Li Liu. 1-5 [doi]

Lightweight Feature Encoder for Wake-Up Word Detection Based on Self-Supervised Speech RepresentationHyungjun Lim, Younggwan Kim, Kiho Yeom, Eunjoo Seo, Hoodong Lee, Stanley Jungkyu Choi, Honglak Lee. 1-5 [doi]

Inverse Reinforcement Learning with Graph Neural Networks for IoT Resource AllocationGuangchen Wang, Peng Cheng 0002, Zhuo Chen 0001, Wei Xiang 0001, Branka Vucetic, Yonghui Li 0001. 1-5 [doi]

Distributed Gaussian Process Hyperparameter Optimization for Multi-Agent SystemsPeiyuan Zhai, Raj Thilak Rajan. 1-5 [doi]

Selecting Language Models Features VIA Software-Hardware Co-DesignVlad Pandelea, Edoardo Ragusa, Paolo Gastaldo, Erik Cambria. 1-5 [doi]

TAMformer: Multi-Modal Transformer with Learned Attention Mask for Early Intent PredictionNada Osman, Guglielmo Camporese, Lamberto Ballan. 1-5 [doi]

Source-Free Unsupervised Domain Adaptation for Question AnsweringZishuo Zhao, Yuexiang Xie, Jingyou Xie, Zhenzhou Lin, Yaliang Li, Ying Shen 0001. 1-5 [doi]

Toward A Multimodal Approach for Disfluency Detection and CategorizationAmrit Romana, Kazuhito Koishida. 1-5 [doi]

TINYCOD: Tiny and Effective Model for Camouflaged Object DetectionHaozhe Xing, Shuyong Gao, Hao Tang 0005, Tsui Qin Mok, Yanlan Kang, Wenqiang Zhang. 1-5 [doi]

Mixed Far-field and Near-field Source Localization Based on Low-Rank Matrix ReconstructionYunchang Liu, Hong Jiang, Qi Zhang. 1-5 [doi]

Active Subsampling Using Deep Generative Models by Maximizing Expected Information GainKoen C. E. van de Camp, Hamdi Joudeh, Duarte J. Antunes, Ruud J. G. van Sloun. 1-5 [doi]

Fast 3D Human Pose Estimation Using RF SignalsCong Yu 0011, Yu-Dong Zhang 0001, Zhi Wu, Chunyang Xie, Zhi Lu, Yang Hu 0006, Yan Chen. 1-5 [doi]

Pooling Strategies for Simplicial Convolutional NetworksDomenico Mattia Cinque, Claudio Battiloro, Paolo Di Lorenzo. 1-5 [doi]

Optimizing Quantum Federated Learning Based on Federated Quantum Natural Gradient DescentJun Qi, Xiao-lei Zhang, Javier Tejedor. 1-5 [doi]

Pitch Mark Detection from Noisy Speech Waveform Using Wave-U-NetHyun-Joon Nam, Hong June Park. 1-5 [doi]

Multimodal Microscopy Image Alignment Using Spatial and Shape Information and a Branch-and-Bound AlgorithmShuonan Chen, Bovey Y. Rao, Stephanie Herrlinger, Attila Losonczy, Liam Paninski, Erdem Varol. 1-5 [doi]

A Hybrid Deep Neural Network for Nonlinear Causality Analysis in Complex Industrial Control SystemTian Feng, Qiming Chen, Yao Shi, Xun Lang, Lei Xie 0007, Hongye Su. 1-5 [doi]

A Deep Disentangled Approach for Interpretable Hyperspectral UnmixingRicardo Augusto Borsoi, Tales Imbiriba, Deniz Erdogmus. 1-2 [doi]

TRUSTERA: A Live Conversation Redaction SystemEvandro Gouvêa, Ali Dadgar, Shahab Jalalvand, Rathi Chengalvarayan, Badrinath Jayakumar, Ryan Price, Nicholas Ruiz, Jennifer McGovern, Srinivas Bangalore, Benjamin Stern. 1-5 [doi]

Disentangling Speech from Surroundings with Neural EmbeddingsAhmed Omran, Neil Zeghidour, Zalán Borsos, Félix de Chaumont Quitry, Malcolm Slaney, Marco Tagliasacchi. 1-5 [doi]

Evaluating Variants of wav2vec 2.0 on Affective Vocal Burst TasksBagus Tris Atmaja, Akira Sasou. 1-5 [doi]

WIFI-Based Robust Child Presence Detection for Smart CarsSakila S. Jayaweera, Beibei Wang, Xiaolu Zeng, Wei-Hsiang Wang, K. J. Ray Liu. 1-5 [doi]

Locality Preserving Multiview Graph Hashing For Large Scale Remote Sensing Image SearchWenyun Li, Guo-Zhong, Xingyu Lu, Chi-Man Pun. 1-5 [doi]

Sandformer: CNN and Transformer under Gated Fusion for Sand Dust Image RestorationJun Shi, Bingcai Wei, Gang Zhou, Liye Zhang 0001. 1-5 [doi]

Applying Independent Vector Analysis on EEG-Based Motor Imagery ClassificationCaroline P. A. Moraes, Bruno Aristimunha, Lucas Heck Dos Santos, Walter Hugo Lopez Pinaya, Raphael Yokoingawa de Camargo, Denis G. Fantinato, Aline Neves. 1-5 [doi]

Learning on Entropy Coded Images with CNNRémi Piau, Thomas Maugey, Aline Roumy. 1-5 [doi]

Deep Plug-and-Play for Tensor Robust Principal Component AnalysisHao Tan, Jianjun Wang, Weichao Kong. 1-5 [doi]

Solving Jigsaw Puzzle of Large Eroded Gaps Using Puzzlet Discriminant NetworkXingke Song, Xiaoying Yang, Jianfeng Ren, Ruibin Bai, Xudong Jiang 0001. 1-5 [doi]

Efficient Domain Adaptation for Speech Foundation ModelsBo Li 0028, Dongseong Hwang, Zhouyuan Huo, Junwen Bai, Guru Prakash, Tara N. Sainath, Khe Chai Sim, Yu Zhang 0033, Wei Han 0002, Trevor Strohman, Françoise Beaufays. 1-5 [doi]

Towards Real-Time Single-Channel Speech Separation in Noisy and Reverberant EnvironmentsJulian Neri, Sebastian Braun. 1-5 [doi]

Compensatory Debiasing For Gender Imbalances In Language ModelsTae-Jin Woo, Woo-Jeoung Nam, Yeong-Joon Ju, Seong-Whan Lee. 1-5 [doi]

Multilingual Alzheimer's Dementia Recognition through Spontaneous Speech: A Signal Processing Grand ChallengeSaturnino Luz, Fasih Haider, Davida Fromm, Ioulietta Lazarou, Ioannis Kompatsiaris, Brian MacWhinney. 1-2 [doi]

Learning Hybrid Representations of Semantics and Distortion for Blind Image Quality AssessmentXiaoqi Wang, Jian Xiong 0005, Bo Li, Jinli Suo, Hao Gao. 1-5 [doi]

Joint Compression and Demosaicking For Satellite ImagesPascal Bacchus, Renaud Fraisse, Aline Roumy, Christine Guillemot. 1-5 [doi]

Massively Multilingual ASR on 70 Languages: Tokenization, Architecture, and Generalization CapabilitiesAndros Tjandra, Nayan Singhal, David Zhang, Ozlem Kalinli, Abdelrahman Mohamed, Duc Le, Michael L. Seltzer. 1-5 [doi]

Prompt-Distiller: Few-Shot Knowledge Distillation for Prompt-Based Language Learners with Dual Contrastive LearningBoyu Hou, Chengyu Wang 0001, Xiaoqing Chen, Minghui Qiu, Liang Feng, Jun Huang 0007. 1-5 [doi]

Online Learning-Based Waveform Selection for Improved Vehicle Recognition in Automotive RadarCharles E. Thornton, William W. Howard, R. Michael Buehrer. 1-5 [doi]

Training Set Cleansing of Backdoor Poisoning by Self-Supervised Representation LearningHang Wang, Sahar Karami, Ousmane Dia, Hippolyt Ritter, Ehsan Emamjomeh-Zadeh, Jiahui Chen, Zhen Xiang, David J. Miller 0001, George Kesidis. 1-5 [doi]

Semi-Supervised Speech Enhancement Based On Speech PurityZihao Cui, Shilei Zhang, Yanan Chen, Yingying Gao, Chao Deng, Junlan Feng. 1-5 [doi]

Efficiently Fusing Sparse Lidar for Enhanced Self-Supervised Monocular Depth EstimationYue Wang, Mingrong Gong, Lei Xia, Qieshi Zhang, Jun Cheng. 1-5 [doi]

Background-Weakening Consistency Regularization for Semi-Supervised Video Action DetectionXian Zhong, Aoyu Yi, Wenxuan Liu, Wenxin Huang, Chengming Zou, Zheng Wang 0007. 1-5 [doi]

Spherical Vector Quantization for Spatial Direction CodingStéphane Ragot, Adriana Vasilache. 1-5 [doi]

Audio-Visual Speech Enhancement with a Deep Kalman Filter Generative ModelAli Golmakani, Mostafa Sadeghi, Romain Serizel. 1-5 [doi]

Cosmopolite Sound Monitoring (CoSMo): A Study of Urban Sound Event Detection Systems Generalizing to Multiple CitiesFlorian Angulo, Slim Essid, Geoffroy Peeters, Christophe Mietlicki. 1-5 [doi]

Multi-Microphone Speaker Separation by Spatial RegionsJulian Wechsler, Srikanth Raj Chetupalli, Wolfgang Mack, Emanuël A. P. Habets. 1-5 [doi]

Dynamic Selection of p-norm in Linear Adaptive Filtering via online Kernel-based Reinforcement LearningMinh Vu, Yuki Akiyama, Konstantinos Slavakis. 1-5 [doi]

Robust Subspace Tracking with Contamination Mitigation via α-DivergenceLe Trung Thanh, Aref Miri Rekavandi, Abd-Krim Seghouane, Karim Abed-Meraim. 1-5 [doi]

Transaudio: Towards the Transferable Adversarial Audio Attack Via Learning Contextualized PerturbationsGege Qi, Yuefeng Chen, Yao Zhu, Binyuan Hui, Xiaodan Li, Xiaofeng Mao, Rong Zhang, Hui Xue 0001. 1-5 [doi]

Two-Stage UNet with Multi-Axis Gated Multilayer Perceptron for Monaural Noisy-Reverberant Speech EnhancementZehua Zhang, Shiyun Xu, Xuyi Zhuang, Lianyu Zhou, Heng Li, Mingjiang Wang. 1-5 [doi]

An Attention-Based Approach to Hierarchical Multi-Label Music Instrument ClassificationZhi Zhong, Masato Hirano, Kazuki Shimada, Kazuya Tateishi, Shusuke Takahashi, Yuki Mitsufuji. 1-5 [doi]

Contrastive Representation Learning for Acoustic Parameter EstimationPhilipp Götz, Cagdas Tuna, Andreas Walther 0001, Emanuël A. P. Habets. 1-5 [doi]

Cross-Head Supervision for Crowd Counting with Noisy AnnotationsMingliang Dai, Zhizhong Huang, Jiaqi Gao, Hongming Shan, Junping Zhang. 1-5 [doi]

Sequential Invariant Information BottleneckYichen Zhang, Shujian Yu, Badong Chen. 1-5 [doi]

When is Mimo Massive in Radar?Jaimin Shah, Martina Cardone, Alex Dytso, Cynthia Rush. 1-5 [doi]

Semi-Supervised Contrastive Learning with Soft Mask Attention for Facial Action Unit DetectionZhongling Liu, Rujie Liu, Ziqiang Shi, Liu Liu, Xiaoyu Mi, Kentaro Murase. 1-5 [doi]

On Designing Light-Weight Object Trackers Through Network Pruning: Use CNNS or Transformers?Saksham Aggarwal, Taneesh Gupta, Pawan Kumar Sahu, Arnav Chavan, Rishabh Tiwari, Dilip K. Prasad, Deepak K. Gupta. 1-5 [doi]

Contrastive Learning of Sentence Embeddings in Product SearchBo-Wen Zhang, Yan Yan, Jiapei Yu. 1-5 [doi]

Channel State Information-Free Artificial Noise-Aided Location-Privacy EnhancementJianxiu Li, Urbashi Mitra. 1-5 [doi]

C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video RetrievalAndrew Rouditchenko, Yung-Sung Chuang, Nina Shvetsova, Samuel Thomas 0001, Rogério Feris, Brian Kingsbury, Leonid Karlinsky, David Harwath, Hilde Kuehne, James R. Glass. 1-5 [doi]

An Edge Alignment-Based Orientation Selection Method for Neutron TomographyDiyu Yang, Shimin Tang, Singanallur V. Venkatakrishnan, Mohammad S. N. Chowdhury, Yuxuan Zhang, Hassina Z. Bilheux, Gregery T. Buzzard, Charles A. Bouman. 1-5 [doi]

Domain Generalized Fundus Image Segmentation via Dual-Level MixingXin Luo, Wei Chen, Chen Li, Bin Zhou, Yusong Tan. 1-5 [doi]

Event-Based Visual MicrophoneMatthew Howard, Keigo Hirakawa. 1-5 [doi]

Static-Scene Constrained Optimization for Matrix/Tensor-Decomposition-free Foreground-Background SeparationKazuki Naganuma, Shunsuke Ono. 1-5 [doi]

Multi-Local Attention for Speech-Based Depression DetectionFuxiang Tao, Xuri Ge, Wei Ma, Anna Esposito, Alessandro Vinciarelli. 1-5 [doi]

An Online Algorithm for Contrastive Principal Component AnalysisSiavash Golkar, David Lipshutz, Tiberiu Tesileanu, Dmitri B. Chklovskii. 1-5 [doi]

Fast Convolution Algorithm for Real-Valued Finite Length SequencesWeiwei Wang, Victor E. DeBrunner, Linda S. DeBrunner. 1-5 [doi]

Towards Improved Room Impulse Response Estimation for Speech RecognitionAnton Ratnarajah, Ishwarya Ananthabhotla, Vamsi Krishna Ithapu, Pablo Hoffmann, Dinesh Manocha, Paul Calamia. 1-5 [doi]

MFCCGAN: A Novel MFCC-Based Speech Synthesizer Using Adversarial LearningMohammad Reza Hasanabadi, Majid Behdad, Davood Gharavian. 1-5 [doi]

Learning Environmental Structure Using Acoustic Probes with a Deep Neural NetworkToros Arikan, Amir Weiss, Hari Vishnu, Grant B. Deane, Andrew C. Singer, Gregory W. Wornell. 1-5 [doi]

Spectral Super-Resolution on the Unit Circle Via Gradient DescentXunmeng Wu, Zai Yang, Jian-Feng Cai, ZongBen Xu. 1-5 [doi]

HPFTN: Hierarchical Progressive Fusion Transformer Network for Video DenoisingShuaitao Zhang, Yuan Zhang, Zheng Zhao, Di Xie, Shiliang Pu. 1-5 [doi]

Self-Supervised Representations in Speech-Based Depression DetectionWen Wu, Chao Zhang 0031, Philip C. Woodland. 1-5 [doi]

Received Power Maximization with Practical Phase-Dependent Amplitude Response in RIS-Aided OFDM Wireless CommunicationsDimitris Kompostiotis, Dimitris Vordonis, Vassilis Paliouras. 1-5 [doi]

Personalized Speech Enhancement Combining Band-Split RNN and Speaker Attentive ModuleXiaohuai Le, Li Chen, Chao He, Yiqing Guo, Cheng Chen, Xianjun Xia, Jing Lu. 1-2 [doi]

Adaptive Noise Canceller Algorithm with SNR-Based Stepsize and Data-Dependent AveragingAkihiko Sugiyama. 1-5 [doi]

A Prototypical Semantic Decoupling Method via Joint Contrastive Learning for Few-Shot Named Entity RecognitionGuanting Dong, Zechen Wang, Liwen Wang, Daichi Guo, Dayuan Fu, Yuxiang Wu, Chen Zeng, Xuefeng Li, Tingfeng Hui, Keqing He, Xinyue Cui, QiXiang Gao, Weiran Xu. 1-5 [doi]

Hyneter: Hybrid Network Transformer for Object DetectionDong Chen, Duoqian Miao, Xue Rong Zhao. 1-5 [doi]

Byzantine-Robust and Communication-Efficient Personalized Federated LearningXuechao He, Jiaojiao Zhang, Qing Ling. 1-5 [doi]

Learning Robust Self-Attention Features for Speech Emotion Recognition with Label-Adaptive MixupLei Kang, Lichao Zhang, Dazhi Jiang. 1-5 [doi]

MSN-net: Multi-Scale Normality Network for Video Anomaly DetectionYang Liu, Di Li, Wei Zhu, Dingkang Yang, Jing Liu, Liang Song. 1-5 [doi]

Step restriction for improving adversarial attacksKeita Goto, Shinta Otake, Rei Kawakami, Nakamasa Inoue. 1-5 [doi]

Joint Estimation of Clustered user Activity and Correlated Channels with Unknown Covariance in mMTCHamza Djelouat, Markus Leinonen, Markku J. Juntti. 1-5 [doi]

Sample-Adapt Fusion Network for RGB-D Hand Detection in the WildXingyu Liu, Pengfei Ren, Yuchen Chen, Cong Liu, Jing Wang, Haifeng Sun 0001, Qi Qi 0001, Jing-Yu Wang 0001. 1-5 [doi]

Robust Watermarking Scheme in Encrypted Domain Based on Integer Lifting Wavelet Transform and Compressed SensingDi Xiao 0001, Qin Tang, Aozhu Zhao, Min Li. 1-5 [doi]

Rethinking Learning-Based Method for Lossless Genome CompressionHan Yang, Fei Gu, Jieping Ye. 1-5 [doi]

Towards Zero-Shot Code-Switched Speech RecognitionBrian Yan, Matthew Wiesner, Ondrej Klejch, Preethi Jyothi, Shinji Watanabe 0001. 1-5 [doi]

Learning To Generate 3d Representations of Building Roofs Using Single-View Aerial ImageryMaxim Khomiakov, Alejandro Valverde Mahou, Alba Reinders Sánchez, Jes Frellsen, Michael Riis Andersen. 1-5 [doi]

RD-NAS: Enhancing One-Shot Supernet Ranking Ability Via Ranking Distillation From Zero-Cost ProxiesPeijie Dong, Xin Niu, Lujun Li, Zhiliang Tian, Xiaodong Wang, Zimian Wei, Hengyue Pan, Dongsheng Li 0001. 1-5 [doi]

Speaker Diaphragm Excursion Prediction: Deep Attention and Online AdaptationYuwei Ren, Matt Zivney, Yin Huang, Eddie Choy, Chirag Patel, Hao Xu. 1-5 [doi]

Mendam: Multi-Expert Network with Distribution-Aware Momentum for Long-Tailed RecognitionQingheng Zhang, Haibo Ye, Kaicheng Yu. 1-5 [doi]

Enhancing Multimodal Alignment with Momentum Augmentation for Dense Video CaptioningYiwei Wei, Shaozu Yuan, Meng Chen 0006, Longbiao Wang. 1-5 [doi]

Single-Sample Direction-of-Arrival Estimation for Fast and Robust 3D Localization With Real Measurements from a Massive MIMO SystemStepan Mazokha, Sanaz Naderi, Georgios I. Orfanidis, George Sklivanitis, Dimitris A. Pados, Jason O. Hallstrom. 1-5 [doi]

Hierarchical Spatiotemporal Feature Fusion Network For Video Saliency PredictionYunzuo Zhang, Tian Zhang, Cunyu Wu, Yuxin Zheng. 1-5 [doi]

CROSSSPEECH: Speaker-Independent Acoustic Representation for Cross-Lingual Speech SynthesisJi-Hoon Kim, Hongsun Yang, Yooncheol Ju, Ilhwan Kim, Byeongyeol Kim. 1-5 [doi]

Unsupervised Domain Adaptation via Subspace Interpolating Deep Dictionary Learning: A Case Study in Machine InspectionKriti Kumar, Angshul Majumdar, Achanna Anil Kumar, M. Girish Chandra. 1-5 [doi]

Adaptive Endpointing with Deep Contextual Multi-Armed BanditsDo June Min, Andreas Stolcke, Anirudh Raju, Colin Vaz, Di He, Venkatesh Ravichandran, Viet Anh Trinh. 1-5 [doi]

Learnable Frontends That Do Not Learn: Quantifying Sensitivity To Filterbank InitialisationMark Anderson 0006, Tomi Kinnunen, Naomi Harte. 1-5 [doi]

DDN: Dynamic Aggregation Enhanced Dual-Stream Network for Medical Image ClassificationLang Wang, Juan Liu 0007, Peng Jiang, Dehua Cao, Baochuan Pang. 1-5 [doi]

Data-Driven Quickest Change Detection in Markov ModelsQi Zhang, Zhongchang Sun, Luis C. Herrera, Shaofeng Zou. 1-5 [doi]

On Multiple-Input/Binaural-Output Antiphasic Speaker Signal ExtractionXianrui Wang, Ningning Pan, Jacob Benesty, Jingdong Chen. 1-5 [doi]

Could the BubbleView Metaphor be used to Infer Visual Attention on 3D Graphical Content?Alexandre Bruckert, Mona Abid, Matthieu Perreira Da Silva, Patrick Le Callet. 1-5 [doi]

Effectiveness of Mining Audio and Text Pairs from Public Data for Improving ASR Systems for Low-Resource LanguagesKaushal Santosh Bhogale, Abhigyan Raman, Tahir Javed, Sumanth Doddapaneni, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra. 1-5 [doi]

Deep Learning for Lagrangian Drift Simulation at The Sea SurfaceDaria Botvynko, Carlos Granero-Belinchón, Simon Van Gennip, Abdesslam Benzinou, Ronan Fablet. 1-5 [doi]

Gaitmixer: Skeleton-Based Gait Representation Learning Via Wide-Spectrum Multi-Axial MixerEkkasit Pinyoanuntapong, Ayman Ali, Pu Wang 0001, Minwoo Lee 0001, Chen Chen 0001. 1-5 [doi]

Multi-Observation Hidden Semi-Markov Model for Photoplethysmogram Signal Semantic SegmentationNavid Hasanzadeh, Shahrokh Valaee, Hojjat Salehinejad. 1-5 [doi]

Perceptual Analysis of Speaker Embeddings for Voice Discrimination between Machine And Human ListeningIordanis Thoidis, Clément Gaultier, Tobias Goehring. 1-5 [doi]

Switching Kronecker Product Linear Filtering for Multispeaker Adaptive Speech DereverberationGongping Huang, Jacob Benesty, Israel Cohen, Emil Winebrand, Jingdong Chen, Walter Kellermann. 1-5 [doi]

Utilizing Wav2Vec In Database-Independent Voice Disorder DetectionSaska Tirronen, Farhad Javanmardi, Manila Kodali, Sudarsana Reddy Kadiri, Paavo Alku. 1-5 [doi]

A Simulation-Based Framework for Urban Traffic Accident DetectionHaohan Luo, Feng Wang. 1-5 [doi]

Knowledge-Aware Few Shot Learning for Event Detection from Short TextsJinjin Guo, Zhichao Huang, Guangning Xu, Bowen Zhang, Chaoqun Duan. 1-5 [doi]

Heart Rate Estimation and Performance Analysis using MIMO Radar with Dispersed AntennasPeichao Wang, Qian He. 1-5 [doi]

Delivering Speaking Style in Low-Resource Voice Conversion with Multi-Factor ConstraintsZhichao Wang, Xinsheng Wang, Lei Xie 0001, Yuanzhe Chen, Qiao Tian, Yuping Wang. 1-5 [doi]

Tensor-based Complex-valued Graph Neural Network for Dynamic Coupling Multimodal brain NetworksYanwu Yang, Guoqing Cai, Chenfei Ye, Yang Xiang 0003, Ting Ma 0001. 1-5 [doi]

TEA-PSE 3.0: Tencent-Ethereal-Audio-Lab Personalized Speech Enhancement System For ICASSP 2023 Dns-ChallengeYukai Ju, Jun Chen, Shimin Zhang, Shulin He, Wei Rao, Weixin Zhu, Yannan Wang, Tao Yu, Shidong Shang. 1-2 [doi]

Extended Kalman Filter for Graph Signals in Nonlinear Dynamic SystemsGuy Sagi, Nir Shlezinger, Tirza Routtenberg. 1-5 [doi]

Enhanced GM-PHD Filter for Real Time Satellite Multi-Target TrackingCamilo Aguilar, Mathias Ortner, Josiane Zerubia. 1-5 [doi]

Efficient Personalized Federated Learning on Selective Model TrainingYeting Guo, Fang Liu 0002, Tongqing Zhou, Zhiping Cai, Nong Xiao. 1-5 [doi]

Deep Spectrum Cartography Using Quantized MeasurementsSubash Timilsina, Sagar Shrestha, Xiao Fu 0001. 1-5 [doi]

Boundary Cue Guidance and Contextual Feature Mining for Glass SegmentationQiquan Xiao, Yuan Zhang, Xuanya Li, Kai Hu. 1-5 [doi]

Subband Dependency Modeling for Sound Event DetectionYadong Guan, Guibin Zheng, Jiqing Han 0001, Huanliang Wang. 1-5 [doi]

Textless Speech-to-Music Retrieval Using Emotion SimilaritySeungheon Doh, Minz Won, Keunwoo Choi, Juhan Nam. 1-5 [doi]

Adaptive Time-Scale Modification for Improving Speech Intelligibility Based On Phoneme Clustering For Streaming ServicesSohee Jang, Jiye Kim, Yeon-Ju Kim, Joon-Hyuk Chang. 1-5 [doi]

Speech MOS Multi-Task Learning and Rater Bias CorrectionHaleh Akrami, Hannes Gamper. 1-5 [doi]

Prototype Knowledge Distillation for Medical Segmentation with Missing ModalityShuai Wang, Zipei Yan, Daoan Zhang, Haining Wei, Zhongsen Li, Rui Li. 1-5 [doi]

Efficient Super-Resolution for Compression Of Gaming VideosYifan Wang, Luka Murn, Luis Herranz, Fei Yang 0004, Marta Mrak, Wei Zhang, Shuai Wan, Marc Górriz Blanch. 1-5 [doi]

Effect of Lossy Compression Algorithms on Face Image Quality and RecognitionTorsten Schlett, Sebastian Schachner, Christian Rathgeb, Juan E. Tapia, Christoph Busch 0001. 1-5 [doi]

mmSense: Detecting Concealed Weapons with a Miniature Radar SensorKevin J. Mitchell, Khaled Kassem, Chaitanya Kaul, Valentin Kapitany, Philip Binner, Andrew Ramsay, Daniele Faccio, Roderick Murray-Smith. 1-5 [doi]

Adaptive Gaussian Nested Filter for Parameter Estimation and State Tracking in Dynamical SystemsSara Pérez-Vieites, Víctor Elvira. 1-5 [doi]

High-Resolution Neural Network Processing of LFM Radar PulsesJabran Akhtar. 1-5 [doi]

Distributionally Robust Multiclass Classification and Applications in Deep Image ClassifiersRuidi Chen, Boran Hao, Ioannis Ch. Paschalidis. 1-2 [doi]

Information and Sensing Beamforming Optimization for Multi-User Multi-Target MIMO ISAC SystemsMinghe Zhu, Lei Li 0030, Shuqiang Xia, Tsung-Hui Chang. 1-5 [doi]

Compressed Distributed Regression over Adaptive NetworksMarco Carpentiero, Vincenzo Matta, Ali H. Sayed. 1-5 [doi]

Study of Manifold Geometry Using Multiscale Non-Negative Kernel GraphsCarlos Hurtado, Sarath Shekkizhar, Javier Ruiz Hidalgo, Antonio Ortega. 1-5 [doi]

Towards Simultaneous Segmentation Of Liver Tumors And Intrahepatic Vessels Via Cross-Attention MechanismHaopeng Kuang, Dingkang Yang, Shunli Wang, Xiaoying Wang, Lihua Zhang. 1-5 [doi]

Robust Content-Variant Reference Image Quality Assessment Via Similar Patch MatchingWenbo Shi, Wenming Yang, Qingmin Liao. 1-5 [doi]

Audio-to-Intent Using Acoustic-Textual Subword Representations from End-to-End ASRPranay Dighe, Prateeth Nayak, Oggi Rudovic, Erik Marchi, Xiaochuan Niu, Ahmed H. Tewfik. 1-5 [doi]

A Speech Representation Anonymization Framework via Selective Noise PerturbationMinh Tran, Mohammad Soleymani 0001. 1-5 [doi]

Boosting Signal Modulation Few-Shot Learning with Pre-TransformationPeng Sun, Jie Su, Zhenyu Wen, Yejian Zhou, Zhen Hong, Shanqing Yu, Huaji Zhou. 1-5 [doi]

Image Source Method Based on the Directional Impulse ResponsesJiarui Wang, Prasanga N. Samarasinghe, Thushara D. Abhayapala, Jihui Aimee Zhang. 1-5 [doi]

Robust Data2VEC: Noise-Robust Speech Representation Learning for ASR by Combining Regression and Improved Contrastive LearningQiu-Shi Zhu, Long Zhou, Jie Zhang, Shujie Liu 0001, Yu-Chen Hu, Li-Rong Dai 0001. 1-5 [doi]

WITT: A Wireless Image Transmission Transformer for Semantic CommunicationsKe Yang, Sixian Wang, Jincheng Dai, Kailin Tan, Kai Niu 0001, Ping Zhang 0003. 1-5 [doi]

From Easy to Hard: Two-Stage Selector and Reader for Multi-Hop Question AnsweringXin-Yi Li, Wei-Jun Lei, Yu-Bin Yang. 1-5 [doi]

Self-Supervised Learning of Audio Representations using Angular Contrastive LossShanshan Wang, Soumya Tripathy, Annamaria Mesaros. 1-5 [doi]

Low-Resource Music Genre Classification with Cross-Modal Neural Model ReprogrammingYun-Ning Hung, Chao-Han Huck Yang, Pin-Yu Chen, Alexander Lerch 0001. 1-5 [doi]

Neural Mode EstimationPeng Sun, Zhenyu Wen, Yejian Zhou, Zhen Hong, Tao Lin. 1-5 [doi]

Dual-Cycle: Self-Supervised Dual-View Fluorescence Microscopy Image Reconstruction using CycleGANTomás Kerepecký, Jiaming Liu 0001, Xue Wen Ng, David W. Piston, Ulugbek S. Kamilov. 1-5 [doi]

EMCLR: Expectation Maximization Contrastive Learning RepresentationsMeng Liu, Ran Yi, Lizhuang Ma. 1-5 [doi]

Gct: Gated Contextual Transformer for Sequential Audio TaggingYuanbo Hou, Yun Wang, Wenwu Wang 0001, Dick Botteldooren. 1-5 [doi]

Joint Modelling of Spoken Language Understanding Tasks with Integrated Dialog HistorySiddhant Arora, Hayato Futami, Emiru Tsunoo, Brian Yan, Shinji Watanabe 0001. 1-5 [doi]

Graph Signal Processing for Narrowband Direction of Arrival EstimationDisheng Li, Wei Liu, Yuriy V. Zakharov, Paul D. Mitchell. 1-5 [doi]

Time-Varying Signals Recovery Via Graph Neural NetworksJhon A. Castro-Correa, Jhony H. Giraldo, Anindya Mondal, Mohsen Badiey, Thierry Bouwmans, Fragkiskos D. Malliaros. 1-5 [doi]

Underwater Image Restoration with Light-Aware Progressive NetworkJian Yang, Chen Li, Xuelong Li. 1-5 [doi]

Optimal Carrier Frequency Design for Frequency Diverse Array Mimo RadarJie Cheng, Maria Juhlin, Wen-Qin Wang, Andreas Jakobsson. 1-5 [doi]

Conditional Conformer: Improving Speaker Modulation For Single And Multi-User Speech EnhancementTom O'Malley, Shaojin Ding, Arun Narayanan, Quan Wang, Rajeev Rikhye, Qiao Liang, Yanzhang He, Ian McGraw. 1-5 [doi]

On The Primal and Dual Formulations Of The Discrete Mumford-Shah FunctionalNelly Pustelnik. 1-5 [doi]

Stuart: Individualized Classroom Observation of Students with Automatic Behavior Recognition And TrackingHuayi Zhou 0001, Fei Jiang, Jiaxin Si, Lili Xiong, Hongtao Lu. 1-5 [doi]

Elliptical Wishart Distribution: Maximum Likelihood Estimator from Information GeometryImen Ayadi, Florent Bouchard, Frédéric Pascal 0001. 1-5 [doi]

Zero-Shot Personalized Lip-To-Speech Synthesis with Face Image Based Voice ControlZhengyan Sheng, Yang Ai, Zhen-Hua Ling. 1-5 [doi]

Factorized Projection-Domain Spatio-Temporal Regularization for Dynamic TomographyBerk Iskender, Marc Louis Klasky, Brian M. Patterson, Yoram Bresler. 1-5 [doi]

A Content-Based Multi-Scale Network for Single Image Super-ResolutionJiahuan Ji, Baojiang Zhong, Kai-Kuang Mu. 1-5 [doi]

Learning Scene Flow from 3d Point Clouds with Cross-Transformer and Global Motion CuesMingliang Zhai, Kang Ni, Jiucheng Xie, Hao Gao 0005. 1-5 [doi]

Anomaly Detection in Optical Spectra VIA Joint OptimizationAntonino Maria Rizzo, Luca Magri, Pietro Invernizzi, Enrico Sozio, Stefano Piciaccia, Alberto Tanzi, Stefano Binetti, Cesare Alippi, Giacomo Boracchi. 1-5 [doi]

U-Beat: A Multi-Scale Beat Tracking Model Based on Wave-U-NetTian Cheng 0001, Masataka Goto. 1-5 [doi]

Cross-Device Federated Learning for Mobile Health Diagnostics: A First Study on COVID-19 DetectionTong Xia, Jing Han 0010, Abhirup Ghosh, Cecilia Mascolo. 1-5 [doi]

PRRD: Pixel-Region Relation Distillation For Efficient Semantic SegmentationChen Wang, Jiang Zhong, Qizhu Dai, Yafei Qi, Rongzhen Li, Qin Lei, Bin Fang, Xue Li. 1-5 [doi]

Minimising Distortion for GAN-Based Facial Attribute ManipulationMingyu Shao, Li Lu, Ye Ding, Qing Liao 0001. 1-5 [doi]

Improved Wifi-Based Respiration Tracking via Contrast EnhancementWei-Hsiang Wang, Xiaolu Zeng, Beibei Wang, Yexin Cao, K. J. Ray Liu. 1-2 [doi]

Improving Speech Prosody of Audiobook Text-To-Speech Synthesis with Acoustic and Textual ContextsDetai Xin, Sharath Adavanne, Federico Ang, Ashish Kulkarni, Shinnosuke Takamichi, Hiroshi Saruwatari. 1-5 [doi]

Structural Reparameterization Lightweight Network for Video Action RecognitionAnlei Zhu, YingHui Wang, Wei Li, Pengjiang Qian. 1-5 [doi]

Deep Learning Sparse Array Design Using Binary Switching ConfigurationsSyed A. Hamza, Kyle Juretus, Moeness G. Amin, Fauzia Ahmad. 1-5 [doi]

Analysis and Transformation of Voice Level in Singing VoiceFrederik Bous, Axel Roebel. 1-5 [doi]

MMATR: A Lightweight Approach for Multimodal Sentiment Analysis Based on Tensor MethodsPanagiotis Koromilas, Mihalis A. Nicolaou, Theodoros Giannakopoulos, Yannis Panagakis. 1-5 [doi]

Self-Supervised Speech Representation Learning for Keyword-Spotting With Light-Weight TransformersChenyang Gao, Yue Gu, Francesco Calivá, Yuzong Liu. 1-5 [doi]

An Asynchronous Updating Reinforcement Learning Framework for Task-Oriented Dialog SystemSai Zhang, Yuwei Hu, Xiaojie Wang 0006, Caixia Yuan. 1-5 [doi]

Adapting a Self-Supervised Speech Representation for Noisy Speech Emotion Recognition by Using Contrastive Teacher-Student LearningSeong-Gyun Leem, Daniel Fulford, Jukka-Pekka Onnela, David Gard, Carlos Busso. 1-5 [doi]

2-CTTS: End-to-End Multi-Scale Multi-Modal Conversational Text-to-Speech SynthesisJinlong Xue, Yayue Deng, Fengping Wang, Ya Li, Yingming Gao, Jianhua Tao, Jianqing Sun, Jiaen Liang. 1-5 [doi]

Efficient Similarity-Based Passive Filter Pruning for Compressing CNNSArshdeep Singh, Mark D. Plumbley. 1-5 [doi]

Fast Online Source Steering Algorithm for Tracking Single Moving Source Using Online Independent Vector AnalysisTaishi Nakashima, Rintaro Ikeshita, Nobutaka Ono, Shoko Araki, Tomohiro Nakatani. 1-5 [doi]

A Fast and Accurate Pitch Estimation Algorithm Based on the Pseudo Wigner-Ville DistributionYisi Liu, Peter Wu, Alan W. Black, Gopala Krishna Anumanchipalli. 1-5 [doi]

Self-Similarity is all You Need for Fast and Light-Weight Generic Event Boundary DetectionSourabh Vasant Gothe, Jayesh Rajkumar Vachhani, Rishabh Khurana, Pranay Kashyap. 1-5 [doi]

FedRPO: Federated Relaxed Pareto Optimization for Acoustic Event ClassificationMeng Feng, Chieh-Chi Kao, Qingming Tang, Amit Solomon, Viktor Rozgic, Chao Wang 0018. 1-5 [doi]

Native Multi-Band Audio Coding Within Hyper-Autoencoded Reconstruction Propagation NetworksDarius Petermann, Inseon Jang, Minje Kim. 1-5 [doi]

Long-Term Synchronization of Wireless Acoustic Sensor Networks with Nonpersistent Acoustic Activity Using Coherence StateAleksej Chinaev, Niklas Knaepper, Gerald Enzner. 1-5 [doi]

Framewise Multiple Sound Source Localization and Counting Using Binaural Spatial Audio SignalsLei Wang, Zhibin Jiao, Qiyong Zhao, Jie Zhu, Yang Fu. 1-5 [doi]

Exploiting Interactivity and Heterogeneity for Sleep Stage Classification Via Heterogeneous Graph Neural NetworkZiyu Jia, Youfang Lin, Yuhan Zhou, Xiyang Cai, Peng Zheng, Qiang Li, Jing Wang. 1-5 [doi]

Learning Properties of Holomorphic Neural Networks of Dual VariablesDmitry Kozlov, Mikhail Bakulin, Stanislav Pavlov, Aleksandr Zuev, Mariya Krylova, Igor Kharchikov. 1-5 [doi]

Bat: Bi-Alignment Based On Transformation in Multi-Target Domain Adaptation for Semantic SegmentationXian Zhong, Wei Li, Liang Liao, Jing Xiao, Wenxuan Liu, Wenxin Huang, Zheng Wang 0007. 1-5 [doi]

Monocular 3D Human Pose Estimation Based on Global Temporal-Attentive and Joints-Attention In VideoRuhan He, Shanshan Xiang, Tao Peng 0006, Yongsheng Yu. 1-5 [doi]

Towards Learning Emotion Information from Short Segments of SpeechTilak Purohit, Sarthak Yadav, Bogdan Vlasenko, S. Pavankumar Dubagunta, Mathew Magimai-Doss. 1-5 [doi]

Expectation Propagation on Factor Graphs Based on Matrix DecompositionAdam Mekhiche, Antonio Maria Cipriano, Charly Poulliat. 1-5 [doi]

Real-Time Modelling of Observation Filter in the Remote Microphone Technique for an Active Noise Control ApplicationChung Kwan Lai, Bhan Lam, Dongyuan Shi, Woon-Seng Gan. 1-5 [doi]

Tensorized Neural Layer Decomposition for 2-D DOA EstimationHang Zheng, Chengwei Zhou, Sergiy A. Vorobyov, Zhiguo Shi 0001. 1-5 [doi]

Modelling Black-Box Audio Effects with Time-Varying Feature ModulationMarco Comunità, Christian J. Steinmetz, Huy Phan, Joshua D. Reiss. 1-5 [doi]

Estimating Uncertainty On Video Quality MetricsPierre David, Patrick Le Callet, Suiyi Ling, Haixiong Wang, Ioannis Katsavounidis, Zafar Shahid, Cosmin Stejerean. 1-5 [doi]

Phoneix: Acoustic Feature Processing Strategy for Enhanced Singing Pronunciation With Phoneme Distribution PredictorYuning Wu, Jiatong Shi, Tao Qian, Dongji Gao, Qin Jin. 1-5 [doi]

EBEN: Extreme Bandwidth Extension Network Applied To Speech Signals Captured With Noise-Resilient Body-Conduction MicrophonesJulien Hauret, Thomas Joubaud, Véronique Zimpfer, Éric Bavu. 1-5 [doi]

Fast and Efficient Speech Enhancement with Variational AutoencodersMostafa Sadeghi, Romain Serizel. 1-5 [doi]

POINTACL: Adversarial Contrastive Learning for Robust Point Clouds Representation Under Adversarial AttackJunxuan Huang, Junsong Yuan, Chunming Qiao, Yatong An, Lu Cheng, Bai Chen. 1-5 [doi]

2DSBG: A 2d Semi Bi-Gaussian Filter Adapted for Adjacent and Multi-Scale Line Feature DetectionBaptiste Magnier, Ghulam Sakhi Shokouh, Louis Berthier, Marcel Pie, Adrien Ruggiero. 1-5 [doi]

Police: Provably Optimal Linear Constraint Enforcement For Deep Neural NetworksRandall Balestriero, Yann LeCun. 1-5 [doi]

NAS-DYMC: NAS-Based Dynamic Multi-Scale Convolutional Neural Network for Sound Event DetectionJun Wang, Peng Yao, Feng Deng, Jianchao Tan, Chengru Song, Xiaorui Wang. 1-5 [doi]

Neural Transducer Training: Reduced Memory Consumption with Sample-Wise ComputationStefan Braun, Erik McDermott, Roger Hsiao. 1-5 [doi]

Prototype-Based Layered Federated Cross-Modal HashingJiale Liu, Yu-Wei Zhan, Xin Luo 0006, Zhen-Duo Chen, Yongxin Wang 0001, Xin-Shun Xu. 1-2 [doi]

Improving Image Captioning with Control Signal of Sentence QualityZhangzi Zhu, Shuai Wang, Hong Qu. 1-5 [doi]

ACF: Aligned Contrastive Finetuning For Language and Vision TasksWei Zhu 0016, Peng Wang, Xiaoling Wang, Yuan Ni, Guotong Xie. 1-5 [doi]

Learning ASR Pathways: A Sparse Multilingual ASR ModelMu Yang, Andros Tjandra, Chunxi Liu, David Zhang, Duc Le, Ozlem Kalinli. 1-5 [doi]

Meta Learning with Adaptive Loss Weight for Low-Resource Speech RecognitionQiulin Wang, Wenxuan Hu, Lin Li 0032, Qingyang Hong. 1-5 [doi]

Codes Correcting Burst and Arbitrary Erasures for Reliable and Low-Latency CommunicationSerge Kas Hanna, Zhiyuan Tan 0004, Wen Xu, Antonia Wachter-Zeh. 1-5 [doi]

Image Sharing Chain Detection VIA Sequence-To-Sequence ModelJiaxiang You, Yuanman Li, Rongqin Liang, Yuxuan Tan, Jiantao Zhou 0001, Xia Li 0006. 1-5 [doi]

Hint-Dynamic Knowledge DistillationYiyang Liu, Chenxin Li, Xiaotong Tu, Xinghao Ding, Yue Huang 0001. 1-5 [doi]

Design Choices for Learning Embeddings from Auxiliary Tasks for Domain Generalization in Anomalous Sound DetectionKevin Wilkinghoff. 1-5 [doi]

MarginNCE: Robust Sound Localization with a Negative MarginSooyoung Park, Arda Senocak, Joon Son Chung. 1-5 [doi]

Long-Memory Message-Passing for Spatially Coupled SystemsKeigo Takeuchi. 1-5 [doi]

Distributed Adaptive Norm Estimation for Blind System Identification in Wireless Sensor NetworksMatthias Blochberger, Filip Elvander, Randall Ali, Jan Østergaard, Jesper Jensen 0001, Marc Moonen, Toon van Waterschoot. 1-5 [doi]

Learning to Build Reasoning Chains by Reliable Path RetrievalMinjun Zhu, Yixuan Weng, Shizhu He, Cunguang Wang, Kang Liu 0001, Li Cai, Jun Zhao 0001. 1-5 [doi]

Long-Tailed Recognition with Causal Invariant TransformationYahong Zhang, Sheng Shi, Chenchen Fan, Yixin Wang, Wenli Ouyang, WeiFan, Jianping Fan 0007. 1-5 [doi]

Parallel 2D Seismic Ray Tracing Using Cuda on a Jetson NanoBan-Sok Shin, Luis Wientgens, Dmitriy Shutin. 1-5 [doi]

On Minimal Variations for Unsupervised Representation LearningVivien Cabannes, Alberto Bietti, Randall Balestriero. 1-5 [doi]

Text-to-ECG: 12-Lead Electrocardiogram Synthesis Conditioned on Clinical Text ReportsHyunseung Chung, Jiho Kim, Joon-myoung Kwon, Ki-Hyun Jeon, Min Sung Lee, Edward Choi. 1-5 [doi]

Fan-Net: Fourier-Based Adaptive Normalization for Cross-Domain Stroke Lesion SegmentationWeiyi Yu, Yiming Lei, Hongming Shan. 1-5 [doi]

Joint Millimeter-Wave AoD and AoA Estimation Using one OFDM Symbol and Frequency-Dependent BeamsVeljko Boljanovic, Danijela Cabric. 1-5 [doi]

Geogcn: Geometric Dual-Domain Graph Convolution Network For Point Cloud DenoisingZhaowei Chen, Peng Li, Zeyong Wei, Honghua Chen, Haoran Xie 0001, Mingqiang Wei, Fu Lee Wang. 1-5 [doi]

Jamming Source Localization Using Augmented Physics-Based ModelAndrea Nardin, Tales Imbiriba, Pau Closas. 1-5 [doi]

TransLink: Transformer-Based Embedding for Tracklets' Global LinkYanting Zhang 0001, Shuanghong Wang, Yuxuan Fan, Gaoang Wang, Cairong Yan. 1-5 [doi]

Sparsity-Driven Joint Blind Deconvolution-Demodulation with Application to Motor Fault DetectionVarun A. Kelkar, Dehong Liu, Hiroshi Inoue, Makoto Kanemaru. 1-5 [doi]

GOP-Based Latent Refinement for Learned Video CodingMohsen Abdoli, Gordon Clare, Félix Henry. 1-5 [doi]

On Weighted Cross-Entropy for Label-Imbalanced Separable Data: An Algorithmic-Stability StudyPuneesh Deora, Christos Thrampoulidis. 1-5 [doi]

A Study on the Invariance in Security Whatever the Dimension of Images for the Steganalysis by Deep-LearningKévin Planolles, Marc Chaumont, Frédéric Comby. 1-5 [doi]

The NPU-Elevoc Personalized Speech Enhancement System for Icassp2023 DNS ChallengeXiaopeng Yan, Yindi Yang, Zhihao Guo, Liangliang Peng, Lei Xie 0001. 1-2 [doi]

A Principled Approach to Model Validation in Domain GeneralizationBoyang Lyu, Thuan Nguyen, Matthias Scheutz, Prakash Ishwar, Shuchin Aeron. 1-5 [doi]

Nested Attention Network with Graph Filtering for Visual Question and AnsweringJing Lu, Chunlei Wu, Leiquan Wang, Shaozu Yuan, Jie Wu. 1-5 [doi]

Exploiting One-Class Classification Optimization Objectives for Increasing Adversarial RobustnessVasileios Mygdalis, Ioannis Pitas. 1-5 [doi]

Transplayer: Timbre Style Transfer with Flexible Timbre ControlYuxuan Wu, Yifan He, Xinlu Liu, Yi Wang, Roger B. Dannenberg. 1-5 [doi]

An Isotropy Analysis for Self-Supervised Acoustic Unit Embeddings on the Zero Resource Speech Challenge 2021 FrameworkJianan Chen, Sakriani Sakti. 1-5 [doi]

CFFMixer: Multi-Dimensional Feature Fusion for Object DetectionHao Xie, Weizhe Yuan, Bin Kang, Songlin Du. 1-5 [doi]

Movienet-PS: A Large-Scale Person Search Dataset in the WildJie Qin, Peng Zheng, Yichao Yan, Rong-Quan, Xiaogang Cheng, Bingbing Ni. 1-5 [doi]

CORSD: Class-Oriented Relational Self DistillationMuzhou Yu, Sia Huat Tan, Kailu Wu, Runpei Dong, Linfeng Zhang, Karsheng Ma. 1-5 [doi]

MLP-GAN for Brain Vessel Image SegmentationBin Xie, Hao Tang 0005, Bin Duan, Dawen Cai, Yan Yan 0002. 1-5 [doi]

Hardware Friendly Spline Sketched LidarMichael P. Sheehan, Julián Tachella, Mike E. Davies 0001. 1-5 [doi]

Multi-Layer Seasonal Perception Network for Time Series ForecastingRuoshu Wang, Shengfa Miao, Di Liu, Xin Jin, Weisheng Zhang. 1-5 [doi]

Rigid-Body Sound Synthesis with Differentiable Modal ResonatorsRodrigo Diaz, Ben Hayes, Charalampos Saitis, György Fazekas, Mark B. Sandler. 1-5 [doi]

Clustered Greedy Algorithm For Large-Scale Sensor SelectionKaushani Majumder, Sibi Raj B. Pillai, Satish Mulleti. 1-5 [doi]

Improving Fairness and Robustness in End-to-End Speech Recognition Through Unsupervised ClusteringIrina-Elena Veliche, Pascale Fung. 1-5 [doi]

Repackagingaugment: Overcoming Prediction Error Amplification in Weight-Averaged Speech Recognition Models Subject to Self-TrainingJae Hong Lee, Dong-hyun Kim, Joon-Hyuk Chang. 1-5 [doi]

Hadamard Layer to Improve Semantic SegmentationAngello Hoyos, Mariano Rivera. 1-5 [doi]

SINCO: A Novel Structural Regularizer for Image Compression Using Implicit Neural RepresentationsHarry Gao, Weijie Gan, Zhixin Sun, Ulugbek S. Kamilov. 1-5 [doi]

An Online Algorithm for Chance Constrained Resource AllocationYuwei Chen, Zengde Deng, Yinzhi Zhou, Zaiyi Chen, Yujie Chen, Haoyuan Hu. 1-5 [doi]

Sparse Mixture Once-for-all Adversarial Training for Efficient in-situ Trade-off between Accuracy and Robustness of DNNsSouvik Kundu 0002, Sairam Sundaresan, Sharath Nittur Sridhar, Shunlin Lu, Han Tang, Peter A. Beerel. 1-5 [doi]

Learning Supervised Covariation Projection Through General CovarianceXiangze Bao, Yun-Hao Yuan, Yun Li, Jipeng Qiang, Yi Zhu 0006. 1-5 [doi]

On Tracking a Stochastically Time-Varying SubspaceVictor Solo. 1-5 [doi]

U-Shiftformer: Brain Tumor Segmentation Using A Shifted Attention MechanismChih-Wei Lin, Zhongsheng Chen. 1-5 [doi]

Multimodal Knowledge Distillation for Arbitrary-Oriented Object Detection in Aerial ImagesZhanchao Huang, Wei Li 0032, Ran Tao. 1-5 [doi]

LQGNET: Hybrid Model-Based and Data-Driven Linear Quadratic Stochastic ControlSolomon Goldgraber Casspi, Oliver Hüsser, Guy Revach, Nir Shlezinger. 1-5 [doi]

A New Personalized Efficacy Atlas for Pallidal Deep Brain StimulationXiongbiao Luo. 1-5 [doi]

Real-Time Human Reconstruction Based on Human Pose Prior and Epipolar RefinementKuncheng Luo, Zhiheng Li. 1-5 [doi]

Deep Fusion of Multi-Object Densities Using TransformerLechi Li, Chen Dai, Yuxuan Xia, Lennart Svensson. 1-5 [doi]

Learning Sparse auto-Encoders for Green AI image codingCyprien Gille, Frédéric Guyard, Marc Antonini, Michel Barlaud. 1-5 [doi]

Immersive Enhancement and Removal of Loudspeaker Sound Using Wireless Assistive Listening Systems and Binaural Hearing DevicesRyan M. Corey, Andrew C. Singer. 1-2 [doi]

One-Shot Neural Band Selection for Spectral RecoveryHai-Miao Hu, Zhenbo Xu, Wenshuai Xu, You Song, Yitao Zhang, Liu Liu, Zhilin Han, Ajin Meng. 1-5 [doi]

Daily Mental Health Monitoring from Speech: A Real-World Japanese Dataset and Multitask Learning AnalysisMeishu Song, Andreas Triantafyllopoulos, Zijiang Yang 0007, Hiroki Takeuchi, Toru Nakamura, Akifumi Kishi, Tetsuro Ishizawa, Kazuhiro Yoshiuchi, Xin Jing, Vincent Karas, Zhonghao Zhao, Kun Qian 0003, Bin Hu 0001, Björn W. Schuller, Yoshiharu Yamamoto. 1-5 [doi]

6G Integrated Sensing and Communication - Sensing Assisted Environmental Reconstruction and CommunicationZhi Zhou, Xianjin Li, Jia He 0002, Xiaoyan Bi, Yan Chen, Guangjian Wang, Peiying Zhu. 1-5 [doi]

Room Impulse Response Reconstruction Based on Spatio-Temporal-Spectral Features Learned from a Spherical Microphone Array MeasurementAmy Bastine, Thushara D. Abhayapala, Jihui Aimee Zhang. 1-5 [doi]

Effective Training of RNN Transducer Models on Diverse Sources of Speech and Text DataTakashi Fukuda, Samuel Thomas 0001. 1-5 [doi]

The NPU-ASLP System for Audio-Visual Speech Recognition in MISP 2022 ChallengePengcheng Guo, He Wang, Bingshen Mu, Ao Zhang, Peikun Chen. 1-2 [doi]

Distinguishable Speaker Anonymization Based on Formant and Fundamental Frequency ScalingJixun Yao, Qing Wang 0039, Yi Lei, Pengcheng Guo, Lei Xie 0001, Namin Wang, Jie Liu. 1-5 [doi]

Optimization of Sensor Configurations for Fault Identification in Smart BuildingsNaveed Ahmad, Malcolm Egan, Jean-Marie Gorce, Jilles Steeve Dibangoye, Frédéric Le Mouël. 1-5 [doi]

Low-Bitrate Redundancy Coding of Speech Using A Rate-Distortion-Optimized Variational AutoencoderJean-Marc Valin, Jan Büthe, Ahmed Mustafa. 1-5 [doi]

Spherical Sector Harmonics Based Soundfield Radial Extrapolation And Robustness AnalysisHanwen Bi, Thushara D. Abhayapala, Fei Ma, Prasanga N. Samarasinghe. 1-5 [doi]

Receptive Field Reliant Zero-Cost Proxies for Neural Architecture SearchPrateek Keserwani, Srinivas Soumitri Miriyala, Vikram N. Rajendiran, Pradeep N. Shivamurthappa. 1-5 [doi]

Grad-CAM-Inspired Interpretation of Nearfield Acoustic Holography using Physics-Informed Explainable Neural NetworkHagar Kafri, Marco Olivieri, Fabio Antonacci, Mordehay Moradi, Augusto Sarti, Sharon Gannot. 1-5 [doi]

Query-Utterance Attention With Joint Modeuing For Query-Focused Meeting SummarizationXingxian Liu, Bin Duan, Bo Xiao, Yajing Xu. 1-5 [doi]

Augmenting Transformer-Transducer Based Speaker Change Detection with Token-Level Training LossGuanlong Zhao, Quan Wang, Han Lu, Yiling Huang, Ignacio López-Moreno. 1-5 [doi]

Adversarially Robust Fairness-Aware RegressionYulu Jin, Lifeng Lai. 1-5 [doi]

Downlink Covariance Estimation in URA FDD Massive MIMO SystemsSalime Bameri, Khalid Almahorg, Ramy H. Gohary, Amr El-Keyi, Yahia Ahmed. 1-5 [doi]

Hierarchical Softmax for End-To-End Low-Resource Multilingual Speech RecognitionQianying Liu, Zhuo Gong, Zhengdong Yang, Yuhang Yang, Sheng Li 0010, Chenchen Ding, Nobuaki Minematsu, Hao Huang, Fei Cheng, Chenhui Chu, Sadao Kurohashi. 1-5 [doi]

Progressive Perception Learning for Distribution Modulation in Siamese TrackingKun Hu, Xianchen Zhou, Mingyu Cao, Mengzhu Wang, Guangjie Gao, Wenjing Yang 0002, Huibin Tan. 1-2 [doi]

Outlier-Insensitive Kalman Filtering Using NUV PriorsShunit Truzman, Guy Revach, Nir Shlezinger, Itzik Klein. 1-5 [doi]

Faster Than Fast: Accelerating the Griffin-Lim AlgorithmRossen Nenov, Dang Khoa Nguyen, Peter Balazs. 1-5 [doi]

Weight-Sharing Supernet for Searching Specialized Acoustic Event Classification Networks Across Device ConstraintsGuan-Ting Lin, Qingming Tang, Chieh-Chi Kao, Viktor Rozgic, Chao Wang 0018. 1-5 [doi]

Hybrid Neural Network with Cross- and Self-Module Attention Pooling for Text-Independent Speaker VerificationJahangir Alam, Woo Hyun Kang, Abderrahim Fathan. 1-5 [doi]

Deep Low Light Image Enhancement Via Multi-Scale Recursive Feature Enhancement and Curve AdjustmentHaiyan Jin, DaWei Wei, Haonan Su. 1-5 [doi]

Deep Born Operator Learning for Reflection Tomographic ImagingQingqing Zhao, Yanting Ma, Petros Boufounos, Saleh Nabi, Hassan Mansour. 1-5 [doi]

Leveraging Pretrained Representations With Task-Related Keywords for Alzheimer's Disease DetectionJinchao Li, Kaitao Song, Junan Li, Bo Zheng, Dongsheng Li 0002, Xixin Wu, Xunying Liu, Helen Meng. 1-5 [doi]

Generalized Relative Harmonic CoefficientsYonggang Hu, Sharon Gannot, Thushara D. Abhayapala. 1-5 [doi]

Transmit Energy Focusing For Parameter Estimation in Transmit Beamspace Slow-Time MIMO RadarTingting Zhang, Feng Xu, Sergiy A. Vorobyov. 1-5 [doi]

Transformer-Based Multi-Prototype Approach for Diabetic Macular Edema Analysis in OCT ImagesPlácido L. Vidal, Joaquim de Moura, Jorge Novo, Marcos Ortega, Jaime S. Cardoso 0001. 1-5 [doi]

Codebook-Based User Tracking in IRS-Assisted mmWave Communication NetworksMoritz Garkisch, Vahid Jamali, Robert Schober. 1-5 [doi]

Tracking Targets in Hyper-Scale Cameras Using Movement PredicationJiaping Yu, Tongqing Zhou, Zhiping Cai, Wenyuan Kuang. 1-5 [doi]

Efficent Large-Scale Multi-Unimodular Waveform Design with Good Correlation Properties via Direct Phase OptimizationsXiaohan Zhao, Yongzhe Li, Ran Tao 0003. 1-5 [doi]

Self-Healing Through Error Detection, Attribution, and RetrainingAnsel MacLaughlin, Anna Rumshisky, Rinat Khaziev, Anil Ramakrishna, Yuval Merhav, Rahul Gupta 0001. 1-5 [doi]

Image Generation is May All You Need for VQAKyungHo Kim, Junseo Lee, Jihwa Lee. 1-5 [doi]

Wireless Deep Speech Semantic TransmissionZixuan Xiao, Shengshi Yao, Jincheng Dai, Sixian Wang, Kai Niu 0001, Ping Zhang 0003. 1-5 [doi]

Super-Resolution Harmonic Retrieval of Non-Circular SignalsYu Zhang, Yue Wang, Zhi Tian, Geert Leus, Gong Zhang. 1-5 [doi]

HTNet: Human Topology aware network for 3d Human pose estimationJialun Cai, Hong Liu, Runwei Ding, Wenhao Li, Jianbing Wu, Miaoju Ban. 1-5 [doi]

AV-TAD: Audio-Visual Temporal Action Detection With TransformerYangcheng Li, Zefang Yu, Suncheng Xiang, Ting Liu, Yuzhuo Fu. 1-5 [doi]

Class-Guided Triple Head Prediction Network for Long-Tail Object DetectionXuyang Liu, Yuan Zheng. 1-5 [doi]

Decoupled Visual Causality for Robust DetectionPing Jiang, Xiaoheng Deng, Shichao Zhang. 1-5 [doi]

Class-Aware Shared Gaussian Process Dynamic ModelRyosuke Sawata, Takahiro Ogawa 0001, Miki Haseyama. 1-5 [doi]

Image Segmentation for Improved Lossless Screen Content CompressionShabhrish Reddy Uddehal, Tilo Strutz, Hannah Och, André Kaup. 1-5 [doi]

PQLM - Multilingual Decentralized Portable Quantum Language ModelShuyue Stella Li, Xiangyu Zhang, Shu Zhou, Hongchao Shu, Ruixing Liang, Hexin Liu, Leibny Paola García. 1-5 [doi]

Self-Supervised Adversarial Training for Contrastive Sentence EmbeddingJen-Tzung Chien, Yuan-An Chen. 1-5 [doi]

HEiMDaL: Highly Efficient Method for Detection and Localization of Wake-WordsArnav Kundu, Mohammad Samragh, Minsik Cho, Priyanka Padmanabhan, Devang Naik. 1-5 [doi]

Improving Scheduled Sampling for Neural Transducer-Based ASRTakafumi Moriya, Takanori Ashihara, Hiroshi Sato, Kohei Matsuura, Tomohiro Tanaka, Ryo Masumura. 1-5 [doi]

Implicitly Rotation Equivariant Neural NetworksNaman Khetan, Tushar Arora, Samee ur Rehman, Deepak K. Gupta. 1-5 [doi]

DO-FAM: Disentangled Non-Linear Latent Navigation For Facial Attribute ManipulationYifan Yuan, Siteng Ma, Hongming Shan, Junping Zhang. 1-5 [doi]

SADE: A Self-Adaptive Expert for Multi-Dataset Question AnsweringYixing Peng, Quan Wang, Zhendong Mao, Yong-Dong Zhang 0001. 1-5 [doi]

SRTNET: Time Domain Speech Enhancement via Stochastic RefinementZhibin Qiu, Mengfan Fu, Yinfeng Yu, Lili Yin, Fuchun Sun 0001, Hao Huang. 1-5 [doi]

Lit the Darkness: Three-Stage Zero-Shot Learning for Low-Light Enhancement with Multi-Neighbor Enhancement FactorsMariam Saeed, Marwan Torki. 1-2 [doi]

AugTarget Data Augmentation for Infrared Small Target DetectionShengjia Chen, Jiewen Zhu, Luping Ji, Hongjun Pan, Yuhao Xu. 1-5 [doi]

Lip-to-Speech Synthesis in the Wild with Multi-Task LearningMinsu Kim, Joanna Hong, Yong Man Ro. 1-5 [doi]

Pre-Training Strategies Using Contrastive Learning and Playlist Information for Music Classification and SimilarityPablo Alonso-Jiménez, Xavier Favory, Hadrien Foroughmand, Grigoris Bourdalas, Xavier Serra, Thomas Lidy, Dmitry Bogdanov. 1-5 [doi]

Adaptive Axonal Delays in Feedforward Spiking Neural Networks for Accurate Spoken Word RecognitionPengfei Sun, Ehsan Eqlimi, Yansong Chua, Paul Devos, Dick Botteldooren. 1-5 [doi]

Implicit Vehicle Positioning with Cooperative Lidar SensingLuca Barbieri, Bernardo Camajori Tedeschini, Mattia Brambilla, Monica Nicoli. 1-5 [doi]

LP-IOANet: Efficient High Resolution Document Shadow RemovalKonstantinos Georgiadis, Mehmet Kerim Yucel, Evangelos Skartados, Valia Dimaridou, Anastasios Drosou, Albert Saà-Garriga, Bruno Manganelli. 1-5 [doi]

Training Robust Spiking Neural Networks with Viewpoint Transform and Spatiotemporal StretchingHaibo Shen, Juyu Xiao, Yihao Luo, Xiang Cao, Liangqi Zhang, Tianjiang Wang. 1-5 [doi]

On the Role of LIP Articulation in Visual Speech PerceptionZakaria Aldeneh, Masha Fedzechkina, Skyler Seto, Katherine Metcalf, Miguel Sarabia, Nicholas Apostoloff, Barry-John Theobald. 1-5 [doi]

Double Compression Detection Based on the De-Blocking Filtering of HEVC VideosXiangui Kang, Pengcheng Su, Zisheng Huang, Yifang Chen, Jie Wang. 1-5 [doi]

Estimating Acoustic Direction of Arrival Using a Single Structural Sensor on a Resonant SurfaceTre DiPassio, Michael C. Heilemann, Benjamin Thompson, Mark F. Bocko. 1-5 [doi]

Subject-Specific Adaptation for a Causally-Trained Auditory-Attention Decoding SystemChristine Beauchene, Michael S. Brandstein, Stephanie Haro, Thomas F. Quatieri, Christopher J. Smalt. 1-5 [doi]

Hearing and Seeing Abnormality: Self-Supervised Audio-Visual Mutual Learning for Deepfake DetectionChang-Sung Sung, Jun-Cheng Chen, Chu-Song Chen. 1-5 [doi]

Agile Radio Map Prediction Using Deep LearningEnes Krijestorac, Hazem Sallouha, Shamik Sarkar, Danijela Cabric. 1-2 [doi]

Volume-Regularized Nonnegative Tucker Decomposition with Identifiability GuaranteesYuChen Sun, Kejun Huang. 1-5 [doi]

Fretnet: Continuous-Valued Pitch Contour Streaming For Polyphonic Guitar Tablature TranscriptionFrank Cwitkowitz, Toni Hirvonen, Anssi Klapuri. 1-5 [doi]

The NERCSLIP-USTC System for the L3DAS23 Challenge Task2: 3D Sound Event Localization and Detection (SELD)Haoyin Yan, Haitao Xu, Qing Wang, Jie Zhang. 1-2 [doi]

Ensemble and Personalized Transformer Models for Subject Identification and Relapse Detection in E-Prevention ChallengeSalvatore Calcagno, Raffaele Mineo, Daniela Giordano, Concetto Spampinato. 1-2 [doi]

Improving the out-of-Distribution Generalization Capability of Language Models: Counterfactually-Augmented Data is not EnoughCaoyun Fan, Wenqing Chen, Jidong Tian, Yitian Li, Hao He 0007, Yaohui Jin. 1-5 [doi]

Graph Wavelet-Based Point Cloud Geometric Denoising with Surface-Consistent Non-Negative Kernel RegressionRyosuke Watanabe, Keisuke Nonaka, Eduardo Pavez, Tatsuya Kobayashi, Antonio Ortega. 1-5 [doi]

YOLOX-B: A Better Yolox Model for Real-Time Driver Behavior DetectionXu Guo, Ming Ma, Jiaqiang Zhang, Shaojie Li. 1-5 [doi]

Reverberation as Supervision For Speech SeparationRohith Aralikatti, Christoph Böddeker, Gordon Wichern, Aswin Shanmugam Subramanian, Jonathan Le Roux. 1-5 [doi]

Mingling or Misalignment? Temporal Shift for Speech Emotion Recognition with Pre-Trained RepresentationsSiyuan Shen, Feng Liu 0039, Aimin Zhou. 1-5 [doi]

Adaptive Submanifold-Preserving Sparse Regression for Feature Selection And Multiclass ClassificationRui Xu, Xun Liang 0001. 1-5 [doi]

PUFFIN: Pitch-Synchronous Neural Waveform Generation for Fullband Speech on Modest DevicesOliver Watts, Lovisa Wihlborg, Cassia Valentini-Botinhao. 1-5 [doi]

Improvements to Embedding-Matching Acoustic-to-Word ASR Using Multiple-Hypothesis Pronunciation-Based EmbeddingsHao Yen, Woojay Jeon. 1-5 [doi]

Random Projector: Efficient Deep Image PriorTaihui Li, Zhong Zhuang, Hengkang Wang, Ju Sun. 1-5 [doi]

Graph Contrastive Learning with Learnable Graph AugmentationXinyan Pu, Ke Zhang, Huazhong Shu, Jean-Louis Coatrieux, Youyong Kong. 1-5 [doi]

Good Neighbors are All You Need for Chinese Grapheme-To-Phoneme ConversionJungjun Kim, Changjin Han, Gyuhyeon Nam, Gyeongsu Chae. 1-5 [doi]

Frequency and Scale Perspectives of Feature ExtractionLiangqi Zhang, Yihao Luo, Xiang Cao, Haibo Shen, Tianjiang Wang. 1-5 [doi]

Spice+: Evaluation of Automatic Audio Captioning Systems with Pre-Trained Language ModelsFélix Gontier, Romain Serizel, Christophe Cerisara. 1-5 [doi]

Meta-Learning for Image-Guided Millimeter-Wave Beam Selection in Unseen EnvironmentsJerry Gu, Liam Collins, Debashri Roy, Aryan Mokhtari, Sanjay Shakkottai, Kaushik R. Chowdhury. 1-5 [doi]

A Multi-Signal Perception Network for Textile Composition IdentificationBo Peng, Liren He, Dong Wu, Mingmin Chi, Jintao Chen. 1-5 [doi]

Sequence-Based Device-Free Gesture Recognition Framework for Multi-Channel Acoustic SignalsZhizheng Yang, Xun Wang, Dongyu Xia, Wei Wang, Haipeng Dai. 1-5 [doi]

MSNet: A Deep Architecture Using Multi-Sentiment Semantics for Sentiment-Aware Image Style TransferShikun Sun, Jia Jia 0001, Haozhe Wu, Zijie Ye, Junliang Xing. 1-5 [doi]

Deep Unfolding-Enabled Hybrid Beamforming Design for mmWave Massive MIMO SystemsNhan Thanh Nguyen, Mengyuan Ma, Nir Shlezinger, Yonina C. Eldar, A. Lee Swindlehurst, Markku J. Juntti. 1-5 [doi]

Finer-Grained Decomposition for Parallel Quantum Mimo ProcessingMinSung Kim, Kyle Jamieson. 1-5 [doi]

Estimation of Cardiac Fibre Direction Based on Activation MapsJohannes W. de Vries, Miao Sun, Natasja M. S. de Groot, Richard C. Hendriks. 1-5 [doi]

Kernel Ridge Regression for Generalized Graph Signal ProcessingXingchao Jian, Wee-Peng Tay. 1-5 [doi]

Hierarchical Multi-Agent Reinforcement Learning with Intrinsic Reward RectificationZhihao Liu, Zhiwei Xu, Guoliang Fan. 1-5 [doi]

Classification-Based Dynamic Network for Efficient Super-ResolutionQi Wang, Weiwei Fang, Meng Wang, Yusong Cheng. 1-5 [doi]

Multi-Label Temporal Evidential Neural Networks for Early Event DetectionXujiang Zhao, Xuchao Zhang, Chen Zhao 0010, Jin-Hee Cho, Lance M. Kaplan, Dong Hyun Jeong, Audun Jøsang, Haifeng Chen, Feng Chen 0001. 1-5 [doi]

End-to-End Non-Autoregressive Image CaptioningHong Yu, Yuanqiu Liu, Baokun Qi, Zhaolong Hu, Han Liu. 1-5 [doi]

Designing Transformer Networks for Sparse Recovery of Sequential Data Using Deep UnfoldingBrent De Weerdt, Yonina C. Eldar, Nikos Deligiannis. 1-5 [doi]

Drone-vs-Bird Detection Grand Challenge at ICASSP2023Angelo Coluccia, Alessio Fascista, Lars Sommer, Arne Schumann, Anastasios Dimou, Dimitrios Zarpalas, Nabin Sharma. 1-2 [doi]

Joint Waveform and Passive Beamformer Design in Multi-IRS-Aided RadarZahra Esmaeilbeig, Arian Eamaz, Kumar Vijay Mishra, Mojtaba Soltanalian. 1-5 [doi]

Enhancing Speech-To-Speech Translation with Multiple TTS TargetsJiatong Shi, Yun Tang 0002, Ann Lee 0001, Hirofumi Inaguma, Changhan Wang, Juan Pino 0001, Shinji Watanabe 0001. 1-5 [doi]

DMSA: Dynamic Multi-Scale Unsupervised Semantic Segmentation Based On Adaptive AffinityKun Yang, Jun Lu. 1-5 [doi]

Towards Real-Time Person Search with Invariant Feature LearningChengyou Jia, Minnan Luo, Zhuohang Dang, Xiaojun Chang, Qinghua Zheng. 1-5 [doi]

Frequency-Aware Attentional Feature Fusion for Deepfake DetectionCheng Tian, Zhiming Luo, Guimin Shi, Shaozi Li. 1-5 [doi]

Enhanced Embeddings in Zero-Shot Learning for Environmental AudioYsobel Sims, Alexandre Mendes, Stephan K. Chalup. 1-5 [doi]

Noise-Aware Target Extension with Self-Distillation for Robust Speech RecognitionJu-Seok Seong, Jeong Hwan Choi, Jehyun Kyung, Ye-Rin Jeoung, Joon-Hyuk Chang. 1-5 [doi]

NF-PCAC: Normalizing Flow Based Point Cloud Attribute CompressionRodrigo B. Pinheiro, Jean-Eudes Marvie, Giuseppe Valenzise, Frédéric Dufaux. 1-5 [doi]

Leveraging Label Correlations in a Multi-Label Setting: a Case Study in EmotionGeorgios Chochlakis, Gireesh Mahajan, Sabyasachee Baruah, Keith Burghardt, Kristina Lerman, Shrikanth Narayanan. 1-5 [doi]

3D Audio Signal Processing Systems for Speech Enhancement and Sound Localization and DetectionJisheng Bai, Siwei Huang, Han Yin, Yafei Jia, Mou Wang, Jianfeng Chen. 1-2 [doi]

A Unified One-Shot Prosody and Speaker Conversion System with Self-Supervised Discrete Speech UnitsLi-Wei Chen, Shinji Watanabe 0001, Alexander Rudnicky. 1-5 [doi]

On Batching Variable Size Inputs for Training End-to-End Speech Enhancement SystemsPhilippe Gonzalez, Tommy Sonne Alstrøm, Tobias May. 1-5 [doi]

FNeural Speech Enhancement with Very Low Algorithmic Latency and Complexity via Integrated full- and sub-band ModelingZhong-qiu Wang, Samuele Cornell, Shukjae Choi, Younglo Lee, Byeong-Yeol Kim, Shinji Watanabe 0001. 1-5 [doi]

Retinal Biomarkers for Detecting Diabetic Retinopaty Using Smartphone-Based Deep Learning FrameworksMahmut Karakaya, Ramazan Savas Aygün. 1-5 [doi]

Learning Quantum Entanglement Distillation With Noisy Classical CommunicationsHari Hara Suthan Chittoor, Osvaldo Simeone. 1-5 [doi]

CLAP Learning Audio Concepts from Natural Language SupervisionBenjamin Elizalde, Soham Deshmukh, Mahmoud Al Ismail, Huaming Wang. 1-5 [doi]

Deep Double Self-Expressive Subspace ClusteringLing Zhao, Yunpeng Ma, Shanxiong Chen, Jun Zhou. 1-5 [doi]

Assisted RTF-Vector-Based Binaural Direction of Arrival Estimation Exploiting A Calibrated External Microphone ArrayDaniel Fejgin, Simon Doclo. 1-5 [doi]

Using Auxiliary Tasks In Multimodal Fusion of Wav2vec 2.0 And Bert for Multimodal Emotion RecognitionDekai Sun, Yancheng He, Jiqing Han 0001. 1-5 [doi]

Multilingual Word Error Rate Estimation: E-Wer3Shammur Absar Chowdhury, Ahmed Ali 0002. 1-5 [doi]

EEG2IMAGE: Image Reconstruction from EEG Brain SignalsPrajwal Singh, Pankaj Pandey, Krishna P. Miyapuram, Shanmuganathan Raman. 1-5 [doi]

Semantic Preprocessor for Image Compression for MachinesMingyi Yang, Luis Herranz, Fei Yang 0004, Luka Murn, Marc Górriz Blanch, Shuai Wan, FuZheng Yang 0001, Marta Mrak. 1-5 [doi]

CNEG-VC: Contrastive Learning Using Hard Negative Example In Non-Parallel Voice ConversionBima Prihasto, Yi-Xing Lin, Phuong Thi Le, Chien-Lin Huang, Jia-Ching Wang. 1-5 [doi]

EfficientSpeech: An On-Device Text to Speech ModelRowel Atienza. 1-5 [doi]

Model-Free Online Learning for Waveform Optimization In Integrated Sensing And CommunicationsPetteri Pulkkinen, Visa Koivunen. 1-5 [doi]

Diabetic Retinopathy Grading with Weakly-Supervised Lesion PriorsJunlin Hou, Fan Xiao, Jilan Xu, Rui Feng, Yue Zhang 0004, Haidong Zou, Lina Lu, Wenwen Xue. 1-5 [doi]

Variable Rate Allocation for Vector-Quantized AutoencodersFederico Baldassarre, Alaaeldin El-Nouby, Hervé Jégou. 1-5 [doi]

Improving Non-Autoregressive Speech Recognition with Autoregressive PretrainingYanjia Li, Lahiru Samarakoon, Ivan Fung. 1-5 [doi]

Sinusoidal Frequency Estimation by Gradient DescentBen Hayes, Charalampos Saitis, György Fazekas. 1-5 [doi]

Gesper: A Unified Framework for General Speech RestorationJun Chen, Yupeng Shi, Wenzhe Liu, Wei Rao, Shulin He, Andong Li, Yannan Wang, Zhiyong Wu 0001, Shidong Shang, Chengshi Zheng. 1-2 [doi]

Importance of Different Temporal Modulations of Speech: a Tale of two PerspectivesSamik Sadhu, Hynek Hermansky. 1-5 [doi]

OTW: Optimal Transport Warping for Time SeriesFabian Latorre, Chenghao Liu, Doyen Sahoo, Steven C. H. Hoi. 1-5 [doi]

Beyond Neural-on-Neural Approaches to Speaker Gender ProtectionLoes van Bemmel, Zhuoran Liu 0001, Nik Vaessen, Martha A. Larson. 1-5 [doi]

Filterbank Learning for Noise-Robust Small-Footprint Keyword SpottingIván López-Espejo, Ram C. M. C. Shekar, Zheng-Hua Tan, Jesper Jensen 0001, John H. L. Hansen. 1-5 [doi]

A Transformer-Based E2E SLU Model for Improved Semantic ParsingOthman Istaiteh, Yasmeen Kussad, Yahya Daqour, Maria Habib, Mohammad Habash, Dhananjaya Gowda. 1-2 [doi]

Antenna Impedance Estimation in Correlated Rayleigh Fading ChannelsShaohan Wu, Brian L. Hughes. 1-5 [doi]

Low-Rank Tensor Decompositions for Quaternion Multiway ArraysOsimone Imhogiemhe, Julien Flamant, Xavier Luciani, Yassine Zniyed, Sebastian Miron. 1-5 [doi]

False Alarm Regulation for Off-Grid Target Detection With The Matched FilterPierre Develter, Jonathan Bosse, Olivier Rabaste, Philippe Forster, Jean Philippe Ovarlez. 1-5 [doi]

Improving EEG-based Emotion Recognition by Fusing Time-Frequency and Spatial RepresentationsKexin Zhu, Xulong Zhang 0001, Jianzong Wang, Ning Cheng 0001, Jing Xiao 0006. 1-5 [doi]

On Cross-Layer Alignment for Model Fusion of Heterogeneous Neural NetworksDang Nguyen 0002, Trang Nguyen, Khai Nguyen, Dinh Q. Phung, Hung Hai Bui, Nhat Ho. 1-5 [doi]

Exploring Language-Agnostic Speech Representations Using Domain Knowledge for Detecting Alzheimer's DementiaZehra Shah, Shiang Qi, Fei Wang, Mahtab Farrokh, Mashrura Tasnim, Eleni Stroulia, Russell Greiner, Manos Plitsis, Athanasios Katsamanis. 1-2 [doi]

Sharing Low Rank Conformer Weights for Tiny Always-On Ambient Speech Recognition ModelsSteven M. Hernandez, Ding Zhao, Shaojin Ding, Antoine Bruguier, Rohit Prabhavalkar, Tara N. Sainath, Yanzhang He, Ian McGraw. 1-5 [doi]

Heuristic Masking for Text Representation PretrainingYimeng Zhuang. 1-5 [doi]

Sample-Efficient Robust MMV Recovery AlgorithmYuvraj Singh, Jahnvi Singh Rohela, Satish Mulleti. 1-5 [doi]

Cumulative Attention Based Streaming Transformer ASR with Internal Language Model Joint Training and RescoringMohan Li, Cong-Thanh Do, Rama Doddipatla. 1-5 [doi]

Seri: Sketching-Reasoning-Integrating Progressive Workflow for Empathetic Response GenerationGuanqun Bi, Yanan Cao, Piji Li, Yuqiang Xie, Fang Fang 0009, Zheng Lin 0001. 1-5 [doi]

Deep Learning-Based Compressive Sampling Optimization in Massive MIMO SystemsSaidur R. Pavel, Yimin D. Zhang, Maria S. Greco, Fulvio Gini. 1-5 [doi]

Heart Rate Extraction from Abdominal Audio SignalsJake Stuchbury-Wass, Erika Bondareva, Kayla-Jade Butkow, Sanja Scepanovic, Zoran Radivojevic, Cecilia Mascolo. 1-5 [doi]

KG-ECO: Knowledge Graph Enhanced Entity Correction For Query RewritingJinglun Cai, Mingda Li, Ziyan Jiang, Eunah Cho, Zheng Chen 0010, Yang Liu, Xing Fan, Chenlei Guo. 1-5 [doi]

Rethinking Implicit Neural Representations For Vision LearnersYiran Song, Qianyu Zhou 0001, Lizhuang Ma. 1-5 [doi]

Asymptotic Bias and Variance of Kernel Ridge RegressionVictor Solo. 1-5 [doi]

Search for Efficient Deep Visual-Inertial Odometry Through Neural Architecture SearchYu Chen, Mingyu Yang, Hun-Seok Kim. 1-5 [doi]

Latent Iterative Refinement for Modular Source SeparationDimitrios Bralios, Efthymios Tzinis, Gordon Wichern, Paris Smaragdis, Jonathan Le Roux. 1-5 [doi]

Contrastive Learning at the Relation and Event Level for Rumor DetectionYingrui Xu, Jingyuan Hu, Jingguo Ge, Yulei Wu, Tong Li 0012, Hui Li. 1-5 [doi]

A Dynamic Graph Interactive Framework with Label-Semantic Injection for Spoken Language UnderstandingZhihong Zhu, Weiyuan Xu, Xuxin Cheng, Tengtao Song, Yuexian Zou. 1-5 [doi]

AMC-Net: An Effective Network for Automatic Modulation ClassificationJiawei Zhang, Tiantian Wang, Zhixi Feng, Shuyuan Yang. 1-5 [doi]

SSI-Net: A Multi-Stage Speech Signal Improvement System for ICASSP 2023 SSI ChallengeWeixin Zhu, Zilin Wang, Jiuxin Lin, Chang Zeng, Tao Yu. 1-2 [doi]

Multi-Speaker and Wide-Band Simulated Conversations as Training Data for End-to-End Neural DiarizationFederico Landini, Mireia Díez, Alicia Lozano-Diez, Lukás Burget. 1-5 [doi]

SingNet: a real-time Singing Voice beat and Downbeat Tracking SystemMojtaba Heydari, Ju-Chiang Wang, Zhiyao Duan. 1-5 [doi]

Text Classification In The Wild: A Large-Scale Long-Tailed Name Normalization DatasetJiexing Qi, Shuhao Li, Zhixin Guo, Yusheng Huang, Chenghu Zhou, Weinan Zhang 0001, Xinbing Wang, Zhouhan Lin. 1-5 [doi]

Digital Phenotype Representation by Statistical, Information Theory, Data-Driven Approach with Digital Health DataBinh P. Nguyen, Michael Nigro, Alice Rueda, Venkat Bhat, Sridhar Krishnan 0001. 1-5 [doi]

Neural-AFC: Learning-Based Step-Size Control for Adaptive Feedback Cancellation with Closed-Loop Model TrainingBehrad Soleimani, Henning F. Schepker, Majid Mirbagheri. 1-5 [doi]

A Slot-Shared Span Prediction-Based Neural Network for Multi-Domain Dialogue State TrackingAbibulla Atawulla, Xi Zhou, Yating Yang, Bo Ma 0004, Fengyi Yang. 1-5 [doi]

GANStrument: Adversarial Instrument Sound Synthesis with Pitch-Invariant Instance ConditioningGaku Narita, Junichi Shimizu, Taketo Akama. 1-5 [doi]

A Sidecar Separator Can Convert A Single-Talker Speech Recognition System to A Multi-Talker OneLingwei Meng, Jiawen Kang, Mingyu Cui, Yuejiao Wang, Xixin Wu, Helen Meng. 1-5 [doi]

AURA: Privacy-Preserving Augmentation to Improve Test Set Diversity in Speech EnhancementXavier Gitiaux, Aditya Khant, Ebrahim Beyrami, Chandan K. A. Reddy, Jayant Gupchup, Ross Cutler. 1-5 [doi]

Pop2Piano : Pop Audio-Based Piano Cover GenerationJongho Choi, Kyogu Lee. 1-5 [doi]

Structural Optimization of Factor Graphs for Symbol Detection via Continuous Clustering and Machine LearningLukas Rapp, Luca Schmid, Andrej Rode, Laurent Schmalen. 1-5 [doi]

SyncNet: Correlating Objective for Time Delay Estimation in Audio SignalsAkshay Raina, Vipul Arora 0001. 1-5 [doi]

Make More of Your Data: Minimal Effort Data Augmentation for Automatic Speech Recognition and TranslationTsz Kin Lam, Shigehiko Schamoni, Stefan Riezler. 1-5 [doi]

Performing Neural Architecture Search Without GradientsPavel Rumiantsev, Mark Coates. 1-5 [doi]

Self-Supervised Audio-Visual Speech Representations Learning by Multimodal Self-DistillationJing-Xuan Zhang, Genshun Wan, Zhen-Hua Ling, Jia Pan, Jianqing Gao, Cong Liu 0006. 1-5 [doi]

Neighborhood Information-Based Label Refinement for Person Re-Identification with Label NoiseXian Zhong, Shuaipeng Su, Wenxuan Liu, Xuemei Jia, Wenxin Huang, Mengdie Wang. 1-5 [doi]

Bytecover3: Accurate Cover Song Identification On Short QueriesXingjian Du, Zijie Wang, Xia Liang, Huidong Liang, Bilei Zhu, Zejun Ma. 1-5 [doi]

Dual Collaborative Visual-Semantic Mapping for Multi-Label Zero-Shot Image RecognitionYunqing Hu, Xuan Jin, Xi Chen, Yin Zhang. 1-5 [doi]

Continuous Interaction with A Smart Speaker via Low-Dimensional Embeddings of Dynamic Hand PoseSongpei Xu, Chaitanya Kaul, Xuri Ge, Roderick Murray-Smith. 1-5 [doi]

Capacity Maximization for Active RIS Assisted Outdoor-to-Indoor Communication SystemChen He, Weisheng Gong, Yangrui Dong, Xie Xie, Z. Jane Wang. 1-5 [doi]

Audio Signal Enhancement with Learning from Positive and Unlabeled DataNobutaka Ito, Masashi Sugiyama. 1-5 [doi]

On Bidirectional Preestimates and Their Application to Identification of fast Time-Varying SystemsMaciej Niedzwiecki, Artur Gancza, Lu Shen, Yuriy V. Zakharov. 1-5 [doi]

Defense Against Black-Box Adversarial Attacks Via Heterogeneous Fusion FeaturesJiahuan Zhang, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama. 1-5 [doi]

D2Former: A Fully Complex Dual-Path Dual-Decoder Conformer Network Using Joint Complex Masking and Complex Spectral Mapping for Monaural Speech EnhancementShengkui Zhao, Bin Ma 0001. 1-5 [doi]

SPADE: Self-Supervised Pretraining for Acoustic DisentanglementJohn B. Harvill, Jarred Barber, Arun Nair, Ramin Pishehvar. 1-5 [doi]

Hierarchical Pronunciation Assessment with Multi-Aspect AttentionHeejin Do, Yunsu Kim 0001, Gary Geunbae Lee. 1-5 [doi]

Naturalistic Head Motion Generation from SpeechTrisha Mittal, Zakaria Aldeneh, Masha Fedzechkina, Anurag Ranjan, Barry-John Theobald. 1-5 [doi]

Shuffleaugment: A Data Augmentation Method Using Time ShufflingYoshinao Sato, Narumitsu Ikeda, Hirokazu Takahashi. 1-5 [doi]

Cross-Modal Optical Flow Estimation via Modality Compensation and AlignmentMingliang Zhai, Kang Ni, Jiucheng Xie, Hao Gao 0005. 1-5 [doi]

Statistical Analysis of Speech Disorder Specific Features to Characterise Dysarthria Severity LevelAmlu Anna Joshy, P. N. Parameswaran, Siddharth R. Nair, Rajeev Rajan. 1-5 [doi]

LIMI-VC: A Light Weight Voice Conversion Model with Mutual Information DisentanglementLiangjie Huang, Tian Yuan, Yunming Liang, Zeyu Chen, Can Wen, Yanlu Xie, Jinsong Zhang 0001, Dengfeng Ke. 1-5 [doi]

Short-Segment Speaker Verification Using ECAPA-TDNN with Multi-Resolution EncoderSangwook Han, Youngdo Ahn, Kyeongmuk Kang, Jong Won Shin. 1-5 [doi]

Algebraic Convolutional Filters on Lie Group AlgebrasHarshat Kumar, Alejandro Parada-Mayorga, Alejandro Ribeiro. 1-5 [doi]

Towards Reducing Patient Effort for the Automatic Prediction of Speech Intelligibility in Head and Neck CancersSebastião Quintas, Alberto Abad, Julie Mauclair, Virginie Woisard, Julien Pinquier. 1-5 [doi]

Weighted Sampling for Masked Language ModelingLinhan Zhang, Qian Chen, Wen Wang, Chong Deng, Xin Cao 0001, Kongzhang Hao, Yuxin Jiang, Wei Wang. 1-5 [doi]

Higher-Order Sparse Convolutions in Graph Neural NetworksJhony H. Giraldo, Sajid Javed, Arif Mahmood, Fragkiskos D. Malliaros, Thierry Bouwmans. 1-5 [doi]

PCF: ECAPA-TDNN with Progressive Channel Fusion for Speaker VerificationZhenduo Zhao, Zhuo Li, Wenchao Wang, Pengyuan Zhang. 1-5 [doi]

TRICL: Triplet Continual LearningXianchao Zhang, Guanglu Wang, Xiaotong Zhang 0003, Han Liu, Zhengxi Yin, Wentao Yang. 1-5 [doi]

Graph-Based Point Cloud Color Denoising with 3-Dimensional Patch-Based SimilarityRyosuke Watanabe, Keisuke Nonaka, Eduardo Pavez, Tatsuya Kobayashi, Antonio Ortega. 1-5 [doi]

Avoid Overthinking in Self-Supervised Models for Speech RecognitionDan Berrebbi, Brian Yan, Shinji Watanabe 0001. 1-5 [doi]

Multi-Scale Compositional Constraints for Representation Learning on VideosGeorgios Paraskevopoulos, Chandrashekhar Lavania, Lovish Chum, Shiva Sundaram. 1-5 [doi]

Introducing Topography in Convolutional Neural NetworksMaxime Poli, Emmanuel Dupoux, Rachid Riad. 1-5 [doi]

Multi-Head Attention and GRU for Improved Match-Mismatch Classification of Speech Stimulus and EEG ResponseMarvin Borsdorf, Saurav Pahuja, Gabriel Ivucic, Siqi Cai, Haizhou Li 0001, Tanja Schultz. 1-2 [doi]

Exploiting Spatial Information with the Informed Complex-Valued Spatial Autoencoder for Target Speaker ExtractionAnnika Briegleb, Mhd Modar Halimeh, Walter Kellermann. 1-5 [doi]

Dynamic Chunk Convolution for Unified Streaming and Non-Streaming Conformer ASRXilai Li, Goeric Huybrechts, Srikanth Ronanki, Jeff Farris, Sravan Bodapati. 1-5 [doi]

TrimTail: Low-Latency Streaming ASR with Simple But Effective Spectrogram-Level Length PenaltyXingchen Song, Di Wu, Zhiyong Wu 0001, Binbin Zhang, Yuekai Zhang, Zhendong Peng, Wenpeng Li, Fuping Pan, Changbao Zhu. 1-5 [doi]

Shadocnet: Learning Spatial-Aware Tokens in Transformer for Document Shadow RemovalXuhang Chen, Xiaodong Cun, Chi-Man Pun, Shuqiang Wang. 1-5 [doi]

Extended Expectation Maximization for Under-Fitted ModelsAref Miri Rekavandi, Abd-Krim Seghouane, Farid Boussaïd, Mohammed Bennamoun. 1-5 [doi]

Adversarial Guitar Amplifier Modelling with Unpaired DataAlec Wright, Vesa Välimäki, Lauri Juvela. 1-5 [doi]

Recursive Estimation of User Intent From Noninvasive Electroencephalography Using Discriminative ModelsNiklas Smedemark-Margulies, Basak Celik, Tales Imbiriba, Aziz Kocanaogullari, Deniz Erdogmus. 1-5 [doi]

Quantum Deep Recurrent Reinforcement LearningSamuel Yen-Chi Chen. 1-5 [doi]

Boosting Face Recognition Performance with Synthetic Data and Limited Real DataWenqing Wang, Lingqing Zhang, Chi-Man Pun, Jiucheng Xie. 1-5 [doi]

DMFormer: Closing the gap Between CNN and Vision TransformersZimian Wei, Hengyue Pan, Lujun Li, Menglong Lu, Xin Niu, Peijie Dong, Dongsheng Li 0001. 1-5 [doi]

Fine-Grained Blind Face Inpainting with 3D Face Component DisentanglementYu Bai, Ruian He, Weimin Tan, Bo Yan 0001, Yangle Lin. 1-5 [doi]

Low-Dose CT Reconstruction Via Optimization-Inspired GANJiawei Jiang, Yuchao Feng, Honghui Xu, Jianwei Zheng 0001. 1-5 [doi]

CPA: Compressed Private Aggregation for Scalable Federated Learning Over Massive NetworksNatalie Lang, Elad Sofer, Nir Shlezinger, Rafael G. L. D'Oliveira, Salim El Rouayheb. 1-5 [doi]

Deep Reinforcement Learning for Green UAV-Assisted Data CollectionAbhishek Mondal, Deepak Mishra 0001, Ganesh Prasad, Ashraf Hossain. 1-5 [doi]

A Point is A Wave: Point-Wave Network for Place RecognitionGe Li 0002, Ruonan Zhang. 1-5 [doi]

Line Segment Matching Based on Intersection-Enhanced Point CorrespondencesZhiyu Liu, Baojiang Zhong. 1-5 [doi]

Blood Oxygen Saturation Estimation from Facial Video Via DC and AC Components of Spatio-Temporal MapYusuke Akamatsu, Yoshifumi Onishi, Hitoshi Imaoka. 1-5 [doi]

RL-IFF: Indoor Localization via Reinforcement Learning-Based Information FusionMohammad Salimibeni, Arash Mohammadi 0001. 1-5 [doi]

Open-Set Automatic Target RecognitionBardia Safaei, Vibashan VS, Celso M. de Melo, Shuowen Hu, Vishal M. Patel 0001. 1-5 [doi]

SW-WAVENET: Learning Representation from Spectrogram and Wavegram Using Wavenet for Anomalous Sound DetectionHaihui Chen, Likai Ran, Xixia Sun, Chao Cai. 1-5 [doi]

PU-Edgeformer: Edge Transformer for Dense Prediction in Point Cloud UpsamplingDohoon Kim, MinWoo Shin, Joonki Paik. 1-5 [doi]

IAST: Instance Association Relying on Spatio-Temporal Features for Video Instance SegmentationJunhao Chen, Sheng Liu, Ruixiang Chen, Bingnan Guo, Feng Zhang. 1-5 [doi]

STYX: Adaptive Poisoning Attacks Against Byzantine-Robust Defenses in Federated LearningYuxin Wen, Jonas Geiping, Micah Goldblum, Tom Goldstein. 1-5 [doi]

Deep Network Series for Large-Scale High-Dynamic Range ImagingAmir Aghabiglou, Matthieu Terris, Adrian Jackson, Yves Wiaux. 1-5 [doi]

Cramér-Rao Bound on Lie Groups with Observations on Lie Groups: Application to SE(2)Samy Labsir, Alexandre Renaux, Jordi Vilà-Valls, Éric Chaumette. 1-5 [doi]

Direct Position Determination with One-Bit Signal for Multiple TargetsLihua Ni, Di Zhang, Tianyi Xing, Maoyan Ran, Ning Liu, Qun Wan. 1-5 [doi]

LSSED: A Robust Segmentation Network for Inflamed Appendix from CT ImagesWing W. Y. Ng, Peixin Zheng, Ting Wang, Jianjun Zhang, Yinhao Liang, Hui Zhou, Dan Liang, Guangming Li, Xinhua Wei. 1-5 [doi]

An Effective Anomalous Sound Detection Method Based on Representation Learning with Simulated AnomaliesHan Chen, Yan Song, Zhu Zhuo, Yu Zhou, Yu-Hong Li, Hui Xue, Ian McLoughlin 0001. 1-5 [doi]

Design and Performance of the Low-Power Noise Reduction Algorithm of the Med-El Sonnet 2™ Cochlear Implant Audio ProcessorErnst Aschbacher, Florian Frühauf, Anja Kurz, Peter Nopp. 1-5 [doi]

SMCL: Saliency Masked Contrastive Learning for Long-Tailed Visual RecognitionSanglee Park, Seung-won Hwang, Jungmin So. 1-5 [doi]

Regularized EM AlgorithmPierre Houdouin, Esa Ollila, Frédéric Pascal 0001. 1-5 [doi]

Improving Acoustic Echo Cancellation by Mixing Speech Local and Global Features with TransformerYajie Liu, Xinmeng Xu, Weiping Tu, Yuhong Yang, Li Xiao. 1-5 [doi]

NSV-TTS: Non-Speech Vocalization Modeling And Transfer In Emotional Text-To-SpeechHaitong Zhang, Xinyuan Yu, Yue Lin. 1-5 [doi]

Improving Weakly Supervised Sound Event Detection with Causal InterventionYifei Xin, Dongchao Yang, Fan Cui, Yujun Wang, Yuexian Zou. 1-5 [doi]

2-Net: Joint Equalization and Modulation Classification Based on Constellation NetworkHyun Ryu, Junil Choi. 1-5 [doi]

Modaldrop: Modality-Aware Regularization for Temporal-Spectral Fusion in Human Activity RecognitionXin Zeng, Yiqiang Chen, Benfeng Xu, Tengxiang Zhang. 1-5 [doi]

EH-Enabled Distributed Detection Over Temporally Correlated Markovian MIMO ChannelsGhazaleh Ardeshiri, Azadeh Vosoughi. 1-5 [doi]

Distributed Bayesian Tracking on the Special Euclidean Group Using Lie Algebra Parametric ApproximationsClaudio J. Bordin, Caio Gomes de Figueredo, Marcelo G. S. Bruno. 1-5 [doi]

Graphit: Iterative Reweighted ℓ1 Algorithm for Sparse Graph Inference in State-Space ModelsÉmilie Chouzenoux, Víctor Elvira. 1-5 [doi]

A2S-NAS: Asymmetric Spectral-Spatial Neural Architecture Search for Hyperspectral Image ClassificationLin Zhan, Jiayuan Fan, Peng Ye, Jianjian Cao. 1-5 [doi]

Adapting Self-Supervised Models to Multi-Talker Speech Recognition Using Speaker EmbeddingsZili Huang, Desh Raj, Paola García 0001, Sanjeev Khudanpur. 1-5 [doi]

Direction-of-Arrival Estimation Using Gaussian Process InterpolationIshan D. Khurjekar, Peter Gerstoft, Christoph F. Mecklenbräuker, Zoi-Heleni Michalopoulou. 1-5 [doi]

Column-Based Matrix Approximation with Quasi-Polynomial StructureJeongMin Chae, Praneeth Narayanamurthy, Selin Bac, Shaama Mallikarjun Sharada, Urbashi Mitra. 1-5 [doi]

JEIT: Joint End-to-End Model and Internal Language Model Training for Speech RecognitionZhong Meng, Weiran Wang, Rohit Prabhavalkar, Tara N. Sainath, Tongzhou Chen, Ehsan Variani, Yu Zhang 0033, Bo Li 0028, Andrew Rosenberg, Bhuvana Ramabhadran. 1-5 [doi]

Assessing the Robustness of Deep Learning-Assisted Pathological Image Analysis Under Practical Variables of Imaging SystemYuxuan Sun, Chenglu Zhu, YunLong Zhang, Honglin Li 0001, Pingyi Chen, Lin Yang. 1-5 [doi]

Variational Bayesian Channel Estimation in Wideband Multi-Scale Multi-Lag ChannelsNiladri Halder, K. P. Arunkumar, Chandra R. Murthy. 1-5 [doi]

Front-End Adapter: Adapting Front-End Input of Speech Based Self-Supervised Learning for Speech RecognitionXie Chen 0001, Ziyang Ma, Changli Tang, Yujin Wang, Zhisheng Zheng. 1-5 [doi]

Unlimited Sampling Radar: Life Below the Quantization NoiseThomas Feuillen, Shankar Mysore Rama R. Bhavani, Ayush Bhandari. 1-5 [doi]

Multimodal Dyadic Impression Recognition via Listener Adaptive Cross-Domain FusionYuanchao Li, Peter Bell 0001, Catherine Lai. 1-5 [doi]

Optimal Transport in Diffusion Modeling for Conversion Tasks in Audio DomainVadim Popov, Amantur Amatov, Mikhail A. Kudinov, Vladimir Gogoryan, Tasnima Sadekova, Ivan Vovk. 1-5 [doi]

Fast Low-Latency Convolution by Low-Rank Tensor ApproximationMartin Jälmby, Filip Elvander, Toon van Waterschoot. 1-5 [doi]

Binary Image Fast Perfect Recovery from Sparse 2D-DFT CoefficientsSoo-Chang Pei, Kuo-Wei Chang. 1-5 [doi]

Hybrid Transformers for Music Source SeparationSimon Rouard, Francisco Massa, Alexandre Défossez. 1-5 [doi]

Deep Learning-Based Stereo Camera Multi-Video SynchronizationNicolas Boizard, Kevin El Haddad, Thierry Ravet, François Cresson, Thierry Dutoit. 1-5 [doi]

Equivalence of Aperture Reduction in Element Space and Constrained Combination of DFT Beams in BeamspaceDamir Rakhimov, Martin Haardt. 1-5 [doi]

Comparing Decentralized Gradient Descent Approaches and GuaranteesShana Moothedath, Namrata Vaswani. 1-5 [doi]

UCorrect: An Unsupervised Framework for Automatic Speech Recognition Error CorrectionJiaxin Guo, Minghan Wang, Xiaosong Qiao, Daimeng Wei, Hengchao Shang, Zongyao Li, Zhengzhe Yu, Yinglu Li, Chang Su 0001, Min Zhang 0005, Shimin Tao, Hao Yang 0006. 1-5 [doi]

Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short-Time Fourier TransformMasaya Kawamura, Yuma Shirahata, Ryuichi Yamamoto, Kentaro Tachibana. 1-5 [doi]

Improving Dropout in Graph Convolutional Networks for Recommendation via Contrastive LossHiroki Okamura, Keisuke Maeda, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama. 1-5 [doi]

Self-Supervised Hierarchical Metrical Structure ModelingJunyan Jiang, Gus Xia. 1-5 [doi]

Water Leak Detection and Localization Using Convolutional AutoencodersDaniele Ugo Leonzio, Paolo Bestagini, Marco Marcon, Gian Paolo Quarta, Stefano Tubaro. 1-5 [doi]

Imaginary Voice: Face-Styled Diffusion Model for Text-to-SpeechJiyoung Lee, Joon Son Chung, Soo-Whan Chung. 1-5 [doi]

Leveraging Neural Koopman Operators to Learn Continuous Representations of Dynamical Systems from Scarce DataAnthony Frion, Lucas Drumetz, Mauro Dalla Mura, Guillaume Tochon, Abdeldjalil Aïssa-El-Bey. 1-5 [doi]

Semi-Supervised Semantic Segmentation with Structured Output Space AdaptionWeiquan Huang, Fu Zhang. 1-5 [doi]

Data2vec-Aqc: Search for the Right Teaching Assistant in the Teacher-Student Training SetupVasista Sai Lodagala, Sreyan Ghosh, Srinivasan Umesh. 1-5 [doi]

HeMPPCAT: Mixtures of Probabilistic Principal Component analysers for data with heteroscedastic noiseAlec S. Xu, Laura Balzano, Jeffrey A. Fessler. 1-5 [doi]

Optimized Quality Feature Learning for Video Quality AssessmentNgai-Wing Kwong, Yui-Lam Chan, Sik-Ho Tsang, Daniel Pak-Kong Lun. 1-5 [doi]

Contrastive Self-Supervised Learning for Automated Multi-Modal Dance Performance AssessmentYun Zhong, Fan Zhang, Yiannis Demiris. 1-5 [doi]

Interaction-Assisted Multi-Modal Representation Learning for RecommendationHao Wu, Jiajie Wang, Zhonglin Zu. 1-5 [doi]

Multi-Output RNN-T Joint Networks for Multi-Task Learning of ASR and Auxiliary TasksWeiran Wang, Ding Zhao, Shaojin Ding, Hao Zhang, Shuo-Yiin Chang, David Rybach, Tara N. Sainath, Yanzhang He, Ian McGraw, Shankar Kumar. 1-5 [doi]

Learning How to Learn Domain-Invariant Parameters for Domain GeneralizationFeng Hou, Yao Zhang, Yang Liu, Jin Yuan, Cheng Zhong, Yang Zhang, Zhongchao Shi, Jianping Fan 0007, Zhiqiang He 0002. 1-5 [doi]

Unsupervised Domain Adaptation for Preference Learning Based Speech Emotion RecognitionAbinay Reddy Naini, Mary A. Kohler, Carlos Busso. 1-5 [doi]

LeanSpeech: The Microsoft Lightweight Speech Synthesis System for Limmits Challenge 2023Chen Zhang, Shubham Bansal, Aakash Lakhera, Jinzhu Li, Gang Wang, Sandeepkumar Satpal, Sheng Zhao, Lei He 0005. 1-2 [doi]

NCL: Textual Backdoor Defense Using Noise-Augmented Contrastive LearningShengfang Zhai, Qingni Shen, Xiaoyi Chen, Weilong Wang, Cong Li, Yuejian Fang, Zhonghai Wu. 1-5 [doi]

TABLEIE: Capturing the Interactions Among Sub-Tasks in Information Extraction via Double TablesJiaxing Lin, Runxin Xu, Baobao Chang. 1-5 [doi]

Improving Heart Rate and Heart Rate Variability Estimation from Video Through a HR-RR-Tuned FilterMichael Chan, Li Zhu, Korosh Vatanparvar, Hewon Jung, Jilong Kuang, Jun Alex Gao. 1-5 [doi]

Singing Voice Synthesis Based on a Musical Note Position-Aware Attention MechanismYukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda. 1-5 [doi]

Motion-Aware Video Paragraph Captioning via Exploring Object-Centered Internal KnowledgeYimin Hu, Guorui Yu, Yuejie Zhang, Rui Feng, Tao Zhang, Xuequan Lu, Shang Gao 0003. 1-5 [doi]

DVQVC: An Unsupervised Zero-Shot Voice Conversion FrameworkDayong Li, Xian Li, Xiaofei Li. 1-5 [doi]

Textless Direct Speech-to-Speech Translation with Discrete Speech RepresentationXinjian Li, Ye Jia, Chung-Cheng Chiu. 1-5 [doi]

Lyapunov-Driven Deep Reinforcement Learning for Edge Inference Empowered by Reconfigurable Intelligent SurfacesKyriakos Stylianopoulos, Mattia Merluzzi, Paolo Di Lorenzo, George C. Alexandropoulos. 1-5 [doi]

A Role Engineering Approach Based on Spectral Clustering Analysis for Restful Permissions in CloudYutang Xia, Yang Luo, Wu Luo, Qingni Shen, Yahui Yang, Zhonghai Wu. 1-5 [doi]

Classification via Subspace Learning Machine (SLM): Methodology and Performance EvaluationHongyu Fu, Yijing Yang, Vinod K. Mishra, C. C. Jay Kuo. 1-5 [doi]

Hierarchical Hypergraph Recurrent Attention Network for Temporal Knowledge Graph ReasoningJiayan Guo, Meiqi Chen 0001, Yan Zhang, Jianqiang Huang, Zhiwei Liu. 1-5 [doi]

A Novel Mode Selection-Based Fast Intra Prediction Algorithm for Spatial SHVCDayong Wang, Yu Sun 0003, Weisheng Li 0001, Lele Xie, Xin Lu 0001, Frédéric Dufaux, Ce Zhu. 1-5 [doi]

Rumor Detection Via Assessing the Spreading Propensity of UsersPeng Zheng, Zhen Huang 0006, Yong Dou, Yeqing Yan. 1-5 [doi]

Performance of Social Machine Learning Under Limited DataPing Hu, Virginia Bordignon, Mert Kayaalp, Ali H. Sayed. 1-5 [doi]

Gridless Target Localization for FDA-Mimo Radar with Sparse ArraysXiaohuan Wu, Yaxin Liu, Xiaoyuan Jia. 1-5 [doi]

Neural Speech Phase Prediction Based on Parallel Estimation Architecture and Anti-Wrapping LossesYang Ai, Zhen-Hua Ling. 1-5 [doi]

Alternating Constrained Minimization Based Approximate Message PassingChristo Kurisummoottil Thomas, Dirk Slock. 1-5 [doi]

From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech RecognitionChao-Han Huck Yang, Bo Li, Yu Zhang, Nanxin Chen, Rohit Prabhavalkar, Tara N. Sainath, Trevor Strohman. 1-5 [doi]

A Novel Heart Rate Estimation Method Exploiting Heartbeat Second Harmonic Reconstruction Via Millimeter Wave RadarTao Li, Huayu Shou, Yuchen Deng, Yu Zhou, Chenqi Shi, Pengpeng Chen. 1-5 [doi]

Ultimate Negative Sampling for Contrastive LearningHuijie Guo, Lei Shi. 1-5 [doi]

Matrix Low-Rank Approximation for Policy Gradient MethodsSergio Rozada, Antonio G. Marques. 1-5 [doi]

Learning Generalizable Light Field Networks from Few ImagesQian Li, Franck Multon, Adnane Boukhayma. 1-5 [doi]

Convex Optimization of Deep Polynomial and ReLU Activation Neural NetworksBurak Bartan, Mert Pilanci. 1-5 [doi]

Motion Matters: A Novel Motion Modeling for Cross-View Gait Feature LearningJingqi Li, Jiaqi Gao, Yuzhen Zhang, Hongming Shan, Junping Zhang. 1-5 [doi]

Towards Dialogue Modeling Beyond TextTongzi Wu, Yuhao Zhou, Wang Ling, Hojin Yang, Joana Veloso, Lin Sun, Ruixin Huang, Norberto Guimaraes, Scott Sanner. 1-5 [doi]

An Efficient Beam-Sharing Algorithm for RIS-aided Simultaneous Wireless Information and Power Transfer ApplicationsNguyen Minh Tran, Muhammad Miftahul Amri, Je Hyeon Park, Dong In Kim, Kae Won Choi. 1-5 [doi]

On the Joint Estimation of Phase Noise and time-Varying Channels for OFDM under High-Mobility ConditionsFrancesco Linsalata, Nassar Ksairi. 1-5 [doi]

Unitary Esprit for Coprime ArraysPo-Chih Chen, P. P. Vaidyanathan. 1-5 [doi]

Augmentation Robust Self-Supervised Learning for Human Activity RecognitionCong Xu, Yuhang Li, Dae Lee, Dae Hoon Park, Hongda Mao, Huyen Do, Jonathan Chung, Dinesh Nair. 1-5 [doi]

Deep Manifold Graph Auto-Encoder For Attributed Graph EmbeddingBozhen Hu, Zelin Zang, Jun Xia, Lirong Wu, Cheng Tan 0012, Stan Z. Li. 1-5 [doi]

Improved Acoustic-to-Articulatory Inversion Using Representations from Pretrained Self-Supervised Learning ModelsSathvik Udupa, C. Siddarth, Prasanta Kumar Ghosh. 1-5 [doi]

Autotts: End-to-End Text-to-Speech Synthesis Through Differentiable Duration ModelingBac Nguyen, Fabien Cardinaux, Stefan Uhlich. 1-5 [doi]

Ensemble of Deep Neural Network Models for MOS PredictionMarie Kunesová, Jindrich Matousek, Jan Lehecka, Jan Svec, Josef Michálek, Daniel Tihelka, Martin Bulín, Zdenek Hanzlícek, Markéta Rezácková. 1-5 [doi]

New Interpretable Patterns and Discriminative Features from Brain Functional Network Connectivity using Dictionary LearningFateme Ghayem, H. Yang, Furkan Kantar, S.-J. Kim, Vince D. Calhoun, Tülay Adali. 1-5 [doi]

Relating EEG Recordings to Speech Using Envelope Tracking and The Speech-FFRMike Thornton, Danilo P. Mandic, Tobias Reichenbach. 1-2 [doi]

Active Learning for Efficient Few-Shot ClassificationAymane Abdali, Vincent Gripon, Lucas Drumetz, Bartosz Boguslawski. 1-5 [doi]

Picking the Underused Heads: A Network Pruning Perspective of Attention Head Selection for Fusing Dialogue Coreference InformationZhengyuan Liu, Nancy F. Chen. 1-5 [doi]

AST-SED: An Effective Sound Event Detection Method Based on Audio Spectrogram TransformerKang Li, Yan Song 0001, Li-Rong Dai 0001, Ian McLoughlin 0001, Xin Fang, Lin Liu. 1-5 [doi]

Enhancing Representation Learning with Deep Classifiers in Presence of ShortcutAmirhossein Ahmadian, Fredrik Lindsten. 1-5 [doi]

Compressed-Sensing-Based 3D Localization with Distributed Passive Reconfigurable Intelligent SurfacesJiguang He, Aymen Fakhreddine, Henk Wymeersch, George C. Alexandropoulos. 1-5 [doi]

Super Dilated Nested Arrays with Ideal Critical Weights and Increased Degrees of FreedomAhmed M. A. Shaalan, Jun Du. 1-5 [doi]

Implementing Continuous HRTF Measurement in Near-FieldEe-Leng Tan, Santi Peksi, Woon-Seng Gan. 1-5 [doi]

Multi-Channel Audio Signal GenerationW. Bastiaan Kleijn, Michael Chinen, Felicia S. C. Lim, Jan Skoglund. 1-5 [doi]

D-CONFORMER: Deformable Sparse Transformer Augmented Convolution for Voxel-Based 3D Object DetectionXiao Zhao, Liuzhen Su, Xukun Zhang, Dingkang Yang, Mingyang Sun, Shunli Wang, Peng Zhai, Lihua Zhang. 1-5 [doi]

Perceptual-Neural-Physical Sound MatchingHan Han, Vincent Lostanlen, Mathieu Lagrange. 1-5 [doi]

Low-Rank Constrained Memory Autoencoder for Hyperspectral Anomaly DetectionYuyun Lian, Yongshan Zhang, Xuxiang Feng, Xinwei Jiang, Zhihua Cai. 1-5 [doi]

An Augmented Gaussian Sum Filter through a mixture DecompositionKostas Tsampourakis, Víctor Elvira. 1-5 [doi]

Overview of the ICASSP 2023 General Meeting Understanding and Generation Challenge (MUG)Qinglin Zhang, Chong Deng, Jiaqing Liu, Hai Yu, Qian Chen, Wen Wang, Zhijie Yan, Jinglin Liu, Yi Ren 0006, Zhou Zhao. 1-2 [doi]

Inplace Cepstral Speech Enhancement System for the ICASSP 2023 Clarity ChallengeJinjiang Liu, Xueliang Zhang. 1-2 [doi]

Accelerating RNN-T Training and Inference Using CTC GuidanceYongqiang Wang, Zhehuai Chen, Chengjian Zheng, Yu Zhang, Wei Han 0002, Parisa Haghani. 1-5 [doi]

Learning From Yourself: A Self-Distillation Method For Fake Speech DetectionJun Xue, Cunhang Fan, Jiangyan Yi, Chenglong Wang, Zhengqi Wen, Dan Zhang, Zhao Lv. 1-5 [doi]

Fixed-Point Quantization Aware Training for on-Device Keyword-SpottingSashank Macha, Om Oza, Alex Escott, Francesco Calivá, Robbie Armitano, Santosh Kumar Cheekatmalla, Sree Hari Krishnan Parthasarathi, Yuzong Liu. 1-5 [doi]

HRTF Field: Unifying Measured HRTF Magnitude Representation with Neural FieldsYou Zhang, Yuxiang Wang, Zhiyao Duan. 1-5 [doi]

Deep Learning-Based Path Loss Prediction for Outdoor Wireless Communication SystemsKehai Qiu, Stefanos Bakirtzis, Hui Song, Ian J. Wassell, Jie Zhang 0003. 1-2 [doi]

Angle-Of-Arrival Target Tracking Using A Mobile Uav In External Signal-Denied EnvironmentBing Zhu, Sheng Xu 0004, Feng Rice, Kutluyil Dogançay. 1-5 [doi]

Sparse Bayesian Learning Assisted Decision Fusion in Millimeter Wave Massive MIMO Sensor NetworksApoorva Chawla, Domenico Ciuonzo, Pierluigi Salvo Rossi. 1-5 [doi]

Multiple Signed Graph Learning for Gene Regulatory Network InferenceAbdullah Karaaslanli, Satabdi Saha, Tapabrata Maiti, Selin Aviyente. 1-5 [doi]

Abstract Representation for Multi-Intent Spoken Language UnderstandingRim Abrougui, Géraldine Damnati, Johannes Heinecke, Frédéric Béchet. 1-5 [doi]

Lightvessel: Exploring Lightweight Coronary Artery Vessel Segmentation Via Similarity Knowledge DistillationHao Dang, Yuekai Zhang, Xingqun Qi, Wanting Zhou, Muyi Sun. 1-5 [doi]

Audio Cross Verification Using Dual Alignment Likelihood Ratio TestHeidi Lei, Arm Wonghirundacha, Irmak Bukey, T. J. Tsai. 1-5 [doi]

Self-Adaptive Reasoning on Sub-Questions for Multi-Hop Question AnsweringZekai Li, Wei Peng. 1-5 [doi]

Graph-Graph Context Dependency Attention for Graph Edit DistanceRuiqi Jia, Xianbing Feng, Xiaoqing Lyu, Zhi Tang 0001. 1-5 [doi]

Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech RecognitionSaumya Y. Sahai, Jing Liu, Thejaswi Muniyappa, Kanthashree Mysore Sathyendra, Anastasios Alexandridis, Grant P. Strimel, Ross McGowan, Ariya Rastrow, Feng-Ju Chang, Athanasios Mouchtaris, Siegfried Kunzmann. 1-5 [doi]

Product Graph Learning From Multi-Attribute Graph Signals with Inter-Layer CouplingChenyue Zhang, Yiran He, Hoi-To Wai. 1-5 [doi]

Cross-Domain Object Classification Via Successive Subspace AlignmentKecheng Chen, Haoliang Li, Hong Yan. 1-5 [doi]

An End-to-End Neural Network for Image-to-Audio TransformationLiu Chen, Michael Deisher, Munir Georges. 1-5 [doi]

The First Pathloss Radio Map Prediction ChallengeÇagkan Yapar, Fabian Jaensch, Ron Levie, Gitta Kutyniok, Giuseppe Caire. 1-2 [doi]

Constrained Dynamical Neural ODE for Time Series Modelling: A Case Study on Continuous Emotion PredictionTing Dang, Antoni Dimitriadis, Jingyao Wu, Vidhyasaharan Sethu, Eliathamby Ambikairajah. 1-5 [doi]

Spatio-Temporal Hybrid Fusion of CAE and SWin Transformers for Lung Cancer Malignancy PredictionSadaf Khademi, Shahin Heidarian, Parnian Afshar, Farnoosh Naderkhani, Anastasia Oikonomou, Konstantinos N. Plataniotis, Arash Mohammadi 0001. 1-5 [doi]

Identifying Source Speakers for Voice Conversion Based Spoofing Attacks on Speaker Verification SystemsDanwei Cai, Zexin Cai, Ming Li 0026. 1-5 [doi]

How to Push the Fastest Model 50x Faster: Streaming Non-Autoregressive Speech Synthesis on Resouce-Limited DevicesVan Thinh Nguyen, Hung-Cuong Pham, Dang-Khoa Mac. 1-5 [doi]

Efficient Practices for Profile-to-Frontal Face Synthesis and RecognitionHuijiao Wang, XuLei Yang. 1-5 [doi]

BAUENet: Boundary-Aware Uncertainty Enhanced Network for Infrared Small Target DetectionTianxiang Chen, Qi Chu 0001, Zhentao Tan, Bin Liu 0016, Nenghai Yu. 1-5 [doi]

Difficulty-Aware Data Augmentor for Scene Text RecognitionGuanghao Meng, Tao Dai 0001, Bin Chen 0011, Naiqi Li, Yong Jiang 0001, Shu-Tao Xia. 1-5 [doi]

DSPGAN: A Gan-Based Universal Vocoder for High-Fidelity TTS by Time-Frequency Domain Supervision from DSPKun Song, Yongmao Zhang, Yi Lei, Jian Cong, Hanzhao Li, Lei Xie 0001, Gang He, Jinfeng Bai. 1-5 [doi]

Contrastive Domain Adaptation Via Delimitation DiscriminatorXing Wei, Bin Wen, Lei Chen, Yujie Liu, Chong Zhao, Yang Lu 0015. 1-5 [doi]

PMNet: Large-Scale Channel Prediction System for ICASSP 2023 First Pathloss Radio Map Prediction ChallengeJu Hyung Lee, Joohan Lee, Seon-Ho Lee, Andreas F. Molisch. 1-2 [doi]

TrOMR:Transformer-Based Polyphonic Optical Music RecognitionYixuan Li, Huaping Liu, Qiang Jin, MiaoMiao Cai, Peng Li. 1-5 [doi]

URM4DMU: An User Representation Model for Darknet Markets UsersHongmeng Liu, Jiapeng Zhao, Yixuan Huo, Yuyan Wang, Chun Liao, Liyan Shen, Shiyao Cui, Jinqiao Shi. 1-5 [doi]

Joint Noise Reduction and Listening Enhancement for Full-End Speech EnhancementHaoyu Li, Yun Liu, Junichi Yamagishi. 1-5 [doi]

A Fusion-Based and Multi-Layer Method for Low Light Image EnhancementXueyan Zhou, Jiacen Guo, Hao Liu, Chao Wang. 1-5 [doi]

Decomposition, Interaction, Reconstruction Meets Global Context Learning In Visual TrackingHuibin Tan, Kun Hu, Mingyu Cao, Mengzhu Wang, Liyang Xu, Wenjing Yang 0002. 1-5 [doi]

Absolute Decision Corrupts Absolutely: Conservative Online Speaker DiarisationYoungki Kwon, Hee-Soo Heo, Bong-Jin Lee, You Jin Kim, Jee-weon Jung. 1-5 [doi]

The WHU-Alibaba Audio-Visual Speaker Diarization System for the MISP 2022 ChallengeMing Cheng, Haoxu Wang, Ziteng Wang, Qiang Fu, Ming Li. 1-2 [doi]

Adaptive CSI Feedback with Hidden Semantic Information TransferJiaqi Cao, Lixiang Lian, Yijie Mao, Bruno Clerckx. 1-5 [doi]

Mixed Sample Augmentation for Online DistillationYiqing Shen 0003, Liwu Xu, Yuzhe Yang, Yaqian Li, Yandong Guo. 1-5 [doi]

Channel Estimation with Tightly-Coupled Antenna ArraysBamelak Tadele, Volodymyr Shyianov, Faouzi Bellili, Amine Mezghani. 1-5 [doi]

Towards a More Stable and General Subgraph Information BottleneckHongzhi Liu, Kaizhong Zheng, Shujian Yu, Badong Chen. 1-5 [doi]

Generative Model based Highly Efficient Semantic Communication Approach for Image TransmissionTianxiao Han, Jiancheng Tang, Qianqian Yang 0002, Yiping Duan, Zhaoyang Zhang 0001, Zhiguo Shi 0001. 1-5 [doi]

Multi-Task Bias-Variance Trade-Off Through Functional ConstraintsJuan Cerviño, Juan-Andrés Bazerque, Miguel Calvo-Fullana, Alejandro Ribeiro. 1-5 [doi]

The Pipeline System of ASR and NLU with MLM-based data Augmentation Toward Stop Low-Resource ChallengeHayato Futami, Jessica Huynh, Siddhant Arora, Shih-Lun Wu, Yosuke Kashiwagi, Yifan Peng, Brian Yan, Emiru Tsunoo, Shinji Watanabe 0001. 1-2 [doi]

Learning Interpretable Filters In Wav-UNet For Speech EnhancementFélix Mathieu, Thomas Courtat, Gaël Richard, Geoffroy Peeters. 1-5 [doi]

Using Adapters to Overcome Catastrophic Forgetting in End-to-End Automatic Speech RecognitionSteven Vander Eeckt, Hugo Van Hamme. 1-5 [doi]

Egocentric Audio-Visual Noise SuppressionRoshan Sharma, Weipeng He, Ju Lin, Egor Lakomkin, Yang Liu, Kaustubh Kalgaonkar. 1-5 [doi]

Generic Dependency Modeling for Multi-Party ConversationWeizhou Shen, Xiaojun Quan, Ke Yang. 1-5 [doi]

TAPLoss: A Temporal Acoustic Parameter Loss for Speech EnhancementYunyang Zeng, Joseph Konan, Shuo Han, David Bick, Muqiao Yang, Anurag Kumar 0003, Shinji Watanabe 0001, Bhiksha Raj. 1-5 [doi]

A Knowledge-Driven Vowel-Based Approach of Depression Classification from Speech Using Data AugmentationKexin Feng, Theodora Chaspari. 1-5 [doi]

Learning with Multigraph Convolutional FiltersLandon Butler, Alejandro Parada-Mayorga, Alejandro Ribeiro. 1-5 [doi]

Group-Wise Co-Salient Object Detection with Siamese Transformers Via Brownian Distance Covariance MatchingYang Wu, Hao Zhang, Lingyan Liang, Yaqian Zhao, Kaihua Zhang. 1-5 [doi]

Fast and Accurate Factorized Neural Transducer for Text Adaption of End-to-End Speech Recognition ModelsRui Zhao 0017, Jian Xue, Partha Parthasarathy, Veljko Miljanic, Jinyu Li 0001. 1-5 [doi]

Continuous Learning for Blind Image Quality Assessment with Contrastive TransformerJifan Yang, Zhongyuan Wang 0001, Baojin Huang, Lianbing Deng. 1-5 [doi]

Single-Channel Speech Enhancement with Deep Complex U-Networks and Probabilistic Latent Space ModelsEike Jannik Nustede, Jörn Anemüller. 1-5 [doi]

Motor Activity Recognition Using Eeg Data and Ensemble of Stacked BLSTM-LSTM Network and Transformer ModelPallavi Kaushik, Ilina Tripathi, Partha Pratim Roy 0001. 1-5 [doi]

Cleanformer: A Multichannel Array Configuration-Invariant Neural Enhancement Frontend for ASR in Smart SpeakersJoseph Caroselli, Arun Narayanan, Nathan Howard, Tom O'Malley. 1-5 [doi]

Tree-Like Interaction Learning for Bundle RecommendationHaole Ke, Lin Li 0001, Peipei Wang, Jingling Yuan, Xiaohui Tao. 1-5 [doi]

Signal Processing And Quantum State Tomography on Noisy DevicesWenbo Shi, Robert A. Malaney. 1-5 [doi]

Pseudo-Inverted Bottleneck Convolution for Darts Search SpaceArash Ahmadian, Louis S. P. Liu, Yue Fei, Konstantinos N. Plataniotis, Mahdi S. Hosseini. 1-5 [doi]

Conditioning and Sampling in Variational Diffusion Models for Speech Super-ResolutionChin-Yun Yu, Sung-Lin Yeh, György Fazekas, Hao Tang 0002. 1-5 [doi]

Eigen-Decomposition-Free Directed Graph Sampling via Gershgorin Disc AlignmentYuejiang Li, H. Vicky Zhao, Gene Cheung. 1-5 [doi]

Community Detection Graph Convolutional Network for Overlap-Aware Speaker DiarizationJie Wang, Zhicong Chen, Haodong Zhou, Lin Li, Qingyang Hong. 1-5 [doi]

Meta++ Network for Few-Shot Aerospace Crack SegmentationChengyuan Xu, Kang Liu, Xuelong Li. 1-5 [doi]

Asynchronous Social LearningMert Cemri, Virginia Bordignon, Mert Kayaalp, Valentina Shumovskaia, Ali H. Sayed. 1-5 [doi]

Adaptive Filtering Algorithms For Set-Valued Observations-Symmetric Measurement Approach To Unlabeled And Anonymized DataVikram Krishnamurthy. 1-5 [doi]

Visual Prompting for Adversarial RobustnessAochuan Chen, Peter Lorenz, Yuguang Yao, Pin-Yu Chen, Sijia Liu 0001. 1-5 [doi]

Asymptotically Optimal Nonparametric Classification Rules for Spike Train DataMiroslaw Pawlak, Mateusz Pabian, Dominik Rzepka. 1-5 [doi]

Yolo-Based Lightweight Object Detection With Structure Simplification And Attention EnhancementShuqi Sun, Xiaohui Yang, Jingliang Peng. 1-5 [doi]

Comparative Study of IRS Assisted Opportunistic Communications Over i.i.d. and los channelsL. Yashvanth, Chandra R. Murthy. 1-5 [doi]

Multi-Temporal Lip-Audio Memory for Visual Speech RecognitionJeong Hun Yeo, Minsu Kim, Yong Man Ro. 1-5 [doi]

Classifying Non-Individual Head-Related Transfer Functions with A Computational Auditory Model: Calibration And MetricsRapolas Daugintis, Roberto Barumerli, Lorenzo Picinali, Michele Geronazzo. 1-5 [doi]

Deep Probabilistic Model for Lossless Scalable Point Cloud Attribute CompressionDat Thanh Nguyen, Kamal Gopikrishnan Nambiar, André Kaup. 1-5 [doi]

SQA: Strong Guidance Query with Self-Selected Attention for Human-Object Interaction DetectionFeng Zhang, Liu-sheng, Bingnan Guo, Ruixiang Chen, Junhao Chen. 1-5 [doi]

Shadow Removal of Text Document Images Using Background Estimation and Adaptive Text EnhancementWenjie Liu, Bingshu Wang, Jiangbin Zheng, Wenmin Wang. 1-5 [doi]

CADET: Control-Aware Dynamic Edge Computing for Real-Time Target Tracking in UAV SystemsLuis Felipe Florenzan Reyes, Francesco Smarra, Alessandro D'Innocenzo, Marco Levorato. 1-5 [doi]

Semantic-Preserving Augmentation for Robust Image-Text RetrievalSunwoo Kim 0004, Kyuhong Shim, Luong Trung Nguyen, Byonghyo Shim. 1-5 [doi]

Optimal Kernel for Real-Time Arbitrary-Shaped Text DetectionHaozhao Ma, Chuang Yang, Yuan Yuan, Qi Wang. 1-5 [doi]

A Radar-Jammer Zero-Sum Repeated Bayesian GameSofia Suvorova, Ali Pezeshki, Ross Kyprianou, Bill Moran 0001. 1-5 [doi]

Achieving Fair Speech Emotion Recognition via Perceptual FairnessWoan-Shiuan Chien, Chi-Chun Lee. 1-5 [doi]

Discriminative Speaker Representation Via Contrastive Learning with Class-Aware Attention in Angular SpaceZhe Li, Man-Wai Mak, Helen Mei-Ling Meng. 1-5 [doi]

Robustness-Preserving Lifelong Learning Via Dataset CondensationJinghan Jia, Yihua Zhang, Dogyoon Song, Sijia Liu 0001, Alfred O. Hero III. 1-5 [doi]

VLKP:Video Instance Segmentation with Visual-Linguistic Knowledge PromptsRuixiang Chen, Sheng Liu, Junhao Chen, Bingnan Guo, Feng Zhang. 1-5 [doi]

Speech Separation with Large-Scale Self-Supervised LearningZhuo Chen 0006, Naoyuki Kanda, Jian Wu 0027, Yu Wu, Xiaofei Wang 0009, Takuya Yoshioka, Jinyu Li 0001, Sunit Sivasankaran, Sefik Emre Eskimez. 1-5 [doi]

WHC: Weighted Hybrid Criterion for Filter Pruning on Convolutional Neural NetworksShaowu Chen, Weize Sun, Lei Huang 0001. 1-5 [doi]

Alignment Entropy RegularizationEhsan Variani, Ke Wu, David Rybach, Cyril Allauzen, Michael Riley 0001. 1-5 [doi]

Exploiting Virtual Array Diversity for Accurate Radar DetectionJunfeng Guan, Sohrab Madani, Waleed Ahmed, Samah Hussein, Saurabh Gupta 0001, Haitham Hassanieh. 1-5 [doi]

Inductive Relation Prediction from Relational Paths and Context with Hierarchical TransformersJiaang Li, Quan Wang, Zhendong Mao. 1-5 [doi]

Pretrained Transformers for Seizure DetectionSaarang Panchavati, Samuel Vander Dussen, Hemal Semwal, Ahmed Ali, Justin Chen, Haoran Li, Corey W. Arnold, William Speier. 1-2 [doi]

Bagging R-CNN: Ensemble for Object Detection in Complex Traffic ScenesPengteng Li, Ying He, Dongfu Yin, F. Richard Yu, Pinhao Song. 1-5 [doi]

The Uniqueness Problem of Physical Law LearningPhilipp Scholl, Aras Bacho, Holger Boche, Gitta Kutyniok. 1-5 [doi]

Wassertein Gan Synthesis for Time Series with Complex Temporal Dynamics: Frugal Architectures and Arbitrary Sample-Size GenerationTh. Beroud, Patrice Abry, Yannick Malevergne, Marc Senneret, Gerald Perrin, J. Macq. 1-5 [doi]

Improving Music Genre Classification from multi-modal Properties of Music and Genre Correlations PerspectiveGanghui Ru, Xulong Zhang 0001, Jianzong Wang, Ning Cheng 0001, Jing Xiao 0006. 1-5 [doi]

Improving Noisy Student Training on Non-Target Domain Data for Automatic Speech RecognitionYu Chen, Wen Ding, Junjie Lai. 1-5 [doi]

Procter: Pronunciation-Aware Contextual Adapter For Personalized Speech Recognition In Neural TransducersRahul Pandey, Roger Ren, Qi Luo, Jing Liu, Ariya Rastrow, Ankur Gandhe, Denis Filimonov, Grant P. Strimel, Andreas Stolcke, Ivan Bulyko. 1-5 [doi]

RAT: Radial Attention Transformer for Singing Technique RecognitionGuan-Yuan Chen, Ya-Fen Yeh, Von-Wun Soo. 1-5 [doi]

Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-to-SpeechTakaaki Saeki, Heiga Zen, Zhehuai Chen, Nobuyuki Morioka, Gary Wang, Yu Zhang 0033, Ankur Bapna, Andrew Rosenberg, Bhuvana Ramabhadran. 1-5 [doi]

Identifying Coordination in a Cognitive Radar Network - A Multi-Objective Inverse Reinforcement Learning ApproachLuke Snow, Vikram Krishnamurthy, Brian M. Sadler. 1-5 [doi]

Frequency Reciprocal Action and Fusion for Single Image Super-ResolutionShuting Dong, Feng Lu, Chun Yuan. 1-5 [doi]

Reliable Cluster-Based Framework for Open Set Domain AdaptationXiu Zheng, Yuan Huang, Jie Tang. 1-5 [doi]

Learning To Regularized Resource Allocation with Budget ConstraintsShaoke Fang, Qingsong Liu, Lei Xu, Wenfei Wu. 1-5 [doi]

ST360IQ: No-Reference Omnidirectional Image Quality Assessment With Spherical Vision TransformersNafiseh Jabbari Tofighi, Mohamed Hedi Elfkir, Nevrez Imamoglu, Cagri Ozcinar, Erkut Erdem, Aykut Erdem. 1-5 [doi]

Sparse Convolution Based Octree Feature Propagation for Lidar Point Cloud CompressionMuhammad Asad Lodhi, Jiahao Pang, Dong Tian. 1-5 [doi]

Representation Learning of Clinical Multivariate Time Series with Random Filter BanksAlireza Keshavarzian, Hojjat Salehinejad, Shahrokh Valaee. 1-5 [doi]

Exploiting CCTV Cameras for Hand Hygiene Recognition in ICUWeijun Huang, Jia Huang, Guowei Wang, Hongzhou Lu, Min He, Wenjin Wang. 1-5 [doi]

ICCRN: Inplace Cepstral Convolutional Recurrent Neural Network for Monaural Speech EnhancementJinjiang Liu, Xueliang Zhang. 1-5 [doi]

Post-Trained Language Model Adaptive to Extractive Summarization of Long Spoken DocumentsHyunjong Ok, Seong-Bae Park. 1-2 [doi]

Dual-Head Fusion Network for Image EnhancementYuhong Zhang, Hengsheng Zhang, Li Song, Rong Xie, Wenjun Zhang 0001. 1-5 [doi]

Federated Learning for ASR Based on wav2vec 2.0Tuan Nguyen, Salima Mdhaffar, Natalia A. Tomashenko, Jean-François Bonastre, Yannick Estève. 1-5 [doi]

Towards Privacy and Utility in Tourette TIC Detection Through Pretraining Based on Publicly Available Video Data of Healthy SubjectsNele Sophie Brügge, Esfandiar Mohammadi, Alexander Münchau, Tobias Bäumer, Christian Frings, Christian Beste, Veit Rößner, Heinz Handels. 1-5 [doi]

Core: Transferable Long-Range Time Series Forecasting Enhanced by Covariates-Guided RepresentationXin-Yi Li, Pei-Nan Zhong, Di Chen, Yu-Bin Yang. 1-5 [doi]

AdapITN: A Fast, Reliable, and Dynamic Adaptive Inverse Text NormalizationThai Binh Nguyen, Le Duc Minh Nhat, Quang Minh Nguyen, Quoc Truong Do, Chi Mai Luong, Alexander Waibel. 1-5 [doi]

On The Fairness of Multitask Representation LearningYingcong Li, Samet Oymak. 1-5 [doi]

Diffusion Motion: Generate Text-Guided 3D Human Motion by Diffusion ModelZhiyuan Ren, Zhihong Pan 0001, Xin Zhou, Le Kang. 1-5 [doi]

DialogMI: A Dialogue Model Based on Enhancing Dialogue Mutual InformationYibo Zhang, Ping Gong, Zelin Wang, Zhe Li, Xuanyuan Yang. 1-5 [doi]

Class-Incremental Learning on Multivariate Time Series Via Shape-Aligned Temporal DistillationQiao ZhongZheng, Minghui Hu, Xudong Jiang, Ponnuthurai Nagaratnam Suganthan, Savitha Ramasamy. 1-5 [doi]

Recursive Joint Attention for Audio-Visual Fusion in Regression Based Emotion RecognitionR. Gnana Praveen, Eric Granger, Patrick Cardinal. 1-5 [doi]

Topological Slepians: Maximally Localized Representations of Signals Over Simplicial ComplexesClaudio Battiloro, Paolo Di Lorenzo, Sergio Barbarossa. 1-5 [doi]

Heterogeneous Graph Learning for Acoustic Event ClassificationAmir Shirian, Mona Ahmadian, Krishna Somandepalli, Tanaya Guha. 1-5 [doi]

Linear Microphone Array Parallel to the Driving Direction for in-Car Speech EnhancementMasanori Tsujikawa, Akihiko Sugiyama, Ken Hanazawa, Yoshinobu Kajikawa. 1-5 [doi]

Region-Awared Transformer with Asymmetric Loss in Multi-Label ClassificationLei Zhang, Jie Liu, Yanqi Bao, Jie Wang. 1-5 [doi]

Music Rearrangement Using Hierarchical SegmentationChristos Plachouras, Marius Miron. 1-5 [doi]

The Ajmide Topic Segmentation System for the ICASSP 2023 General Meeting Understanding and Generation ChallengeBeibei Hu, Qiang Li, Xianjun Xia. 1-2 [doi]

ESCL: Equivariant Self-Contrastive Learning for Sentence RepresentationsJie Liu, Yixuan Liu, Xue Han, Chao Deng, Junlan Feng. 1-5 [doi]

Multitask Detection of Speaker Changes, Overlapping Speech and Voice Activity Using Wav2vec 2.0Marie Kunesová, Zbynek Zajíc. 1-5 [doi]

Audio-Driven Talking Head Video Generation with Diffusion ModelYizhe Zhu, Chunhui Zhang, Qiong Liu, Xi Zhou. 1-5 [doi]

Aprogressive Image Dehazing Framework with inter and Intra Contrastive LearningHonglei Xu, Shaohui Liu, Yan Shu, Feng Jiang 0001. 1-5 [doi]

Vehicle View Synthesis by Generative Adversarial NetworkChan-Shuo Hu, Sung-Wei Tseng, Xin-Yun Fan, Chen-Kuo Chiang. 1-5 [doi]

A Generalized Subspace Distribution Adaptation Framework for Cross-Corpus Speech Emotion RecognitionShaokai Li, Peng Song 0002, Liang Ji, Yun Jin, Wenming Zheng. 1-5 [doi]

Automatic Severity Classification of Dysarthric Speech by Using Self-Supervised Model with Multi-Task LearningEun Jung Yeo, KwangHee Choi, SunHee Kim, Minhwa Chung. 1-5 [doi]

Sparse and Structured Modelling of Underwater Acoustic Channel Impulse ResponsesChaoran Yang, Qing Ling, Xueli Sheng, Mengfei Mu, Andreas Jakobsson. 1-5 [doi]

SYNTACC : Synthesizing Multi-Accent Speech By Weight FactorizationTuan Nam Nguyen, Ngoc-Quan Pham, Alexander Waibel. 1-5 [doi]

A Novel Transformer-Based Pipeline for Lung Cytopathological Whole Slide Image ClassificationGaojie Li, Qing Liu 0003, Haotian Liu, Yixiong Liang. 1-5 [doi]

Strategies for Enhanced Signal Modulation Classifications Under Unknown Symbol Rates and Noise ConditionsRuixuan Wang, Yue Qi, Mojtaba Vaezi, Xun Jiao, Moeness Amin. 1-5 [doi]

Rain2Avoid: Self-Supervised Single Image DerainingYan-Tsung Peng, Wei-Hua Li. 1-5 [doi]

Improving Speech Enhancement via Event-Based QueryYifei Xin, Xiulian Peng, Yan Lu 0001. 1-5 [doi]

A Topic-Enhanced Approach for Emotion Distribution Forecasting in ConversationsXin Lu, Weixiang Zhao, Yanyan Zhao, Bing Qin 0001, Zhentao Zhang, Junjie Wen. 1-5 [doi]

E2E Segmentation in a Two-Pass Cascaded Encoder ASR ModelW. Ronny Huang, Shuo-Yiin Chang, Tara N. Sainath, Yanzhang He, David Rybach, Robert David, Rohit Prabhavalkar, Cyril Allauzen, Cal Peyser, Trevor D. Strohman. 1-5 [doi]

Last: Scalable Lattice-Based Speech Modelling in JaxKe Wu, Ehsan Variani, Tom Bagby, Michael Riley 0001. 1-5 [doi]

Learning Audio-Visual DereverberationChangan Chen, Wei Sun, David Harwath, Kristen Grauman. 1-5 [doi]

Smoothing Point Adjustment-Based Evaluation of Time Series Anomaly DetectionMingyu Liu, Yijie Wang, Hongzuo Xu, Xiaohui Zhou, Bin Li, Yongjun Wang. 1-5 [doi]

Long Range Imaging Using Multispectral Fusion of RGB and NIR ImagesHao Zhang, Lin Mei, Cheolkon Jung. 1-5 [doi]

Self-Sufficient Framework for Continuous Sign Language RecognitionYoungjoon Jang, Youngtaek Oh, Jae-Won Cho, Myungchul Kim 0002, Dong-Jin Kim 0003, In-So Kweon, Joon Son Chung. 1-5 [doi]

Self-Transriber: Few-Shot Lyrics Transcription With Self-TrainingXiaoxue Gao, Xianghu Yue, Haizhou Li 0001. 1-5 [doi]

Mutual Information Based Reweighting for Precipitation NowcastingYuan Cao, Danchen Zhang, Xin Zheng, Hongming Shan, Junping Zhang. 1-5 [doi]

ZO-DARTS: Differentiable Architecture Search with Zeroth-Order ApproximationLunchen Xie, Kaiyu Huang, Fan Xu, Qingjiang Shi. 1-5 [doi]

RIS-Aided Wideband DFRC with Reconfigurable Holographic SurfaceTong Wei, Linlong Wu, Kumar Vijay Mishra, M. R. Bhavani Shankar. 1-5 [doi]

Masked Spectrogram Prediction for Self-Supervised Audio Pre-TrainingDading Chong, Helin Wang, Peilin Zhou, Qingcheng Zeng. 1-5 [doi]

Towards Robust Audio-Based Vehicle Detection Via Importance-Aware Audio-Visual LearningJung-Uk Kim, Seong-Tae Kim. 1-5 [doi]

Semi-Supervised Local Structured Feature Learning with Dynamic Maximum Entropy GraphRui Xu, Xun Liang 0001. 1-5 [doi]

Sora: Scalable Black-Box Reachability Analyser on Neural NetworksPeipei Xu, Fu Wang, Wenjie Ruan, Chi Zhang, Xiaowei Huang 0001. 1-5 [doi]

Do Coarser Units Benefit Cluster Prediction-Based Speech Pre-Training?Ali Elkahky, Wei-Ning Hsu, Paden Tomasello, Tu Anh Nguyen, Robin Algayres, Yossi Adi, Jade Copet, Emmanuel Dupoux, Abdelrahman Mohamed. 1-5 [doi]

Multi-Stage Aggregation Transformer for Medical Image SegmentationXiaoyan Wang 0007, Minghan Shao, Dongyan Guo, Ying Cui, Xiaojie Huang, Ming Xia, Cong Bai. 1-5 [doi]

Disentangling the Horowitz Factor: Learning Content and Style From Expressive Piano PerformanceHuan Zhang, Simon Dixon. 1-5 [doi]

Energy Efficiency Maximization in RIS-aided Networks with Global Reflection ConstraintsRobert Kuku Fotock, Alessio Zappone, Marco Di Renzo. 1-5 [doi]

De'hubert: Disentangling Noise in a Self-Supervised Model for Robust Speech RecognitionDianwen Ng, Ruixi Zhang, Jia Qi Yip, Zhao Yang, Jinjie Ni, Chong Zhang 0003, Yukun Ma, Chongjia Ni, Eng Siong Chng, Bin Ma 0001. 1-5 [doi]

S3I-PointHop: SO(3)-Invariant PointHop for 3D Point Cloud ClassificationPranav Kadam, Hardik Prajapati, Min Zhang 0030, Jintang Xue, Shan Liu 0001, C. C. Jay Kuo. 1-5 [doi]

Phase Unwrapping in Correlated Noise for FMCW Lidar Depth EstimationA. Ulvog, J. Rapp, Toshiaki Koike-Akino, Hassan Mansour, Petros Boufounos, Kieran Parsons. 1-5 [doi]

DPP-Based Client Selection for Federated Learning with NON-IID DATAYuxuan Zhang, Chao Xu, Howard H. Yang, Xijun Wang 0001, Tony Q. S. Quek. 1-5 [doi]

On Using the UA-Speech and Torgo Databases to Validate Automatic Dysarthric Speech Classification ApproachesGuilherme Schu, Parvaneh Janbakhshi, Ina Kodrasi. 1-5 [doi]

Stream Attention Based U-Net for L3DAS23 ChallengeHonglong Wang, Yanjie Fu, Junjie Li, Meng Ge, Longbiao Wang, Xinyuan Qian. 1-2 [doi]

Block-Based Color Constancy: The Deviation of Salient PixelsOguzhan Ulucan, Diclehan Ulucan, Marc Ebner. 1-5 [doi]

Transformer-Based Bioacoustic Sound Event Detection on Few-Shot Learning TasksLiwen You, Erika Pelaez Coyotl, Suren Gunturu, Maarten Van Segbroeck. 1-5 [doi]

Overview of the 2023 ICASSP SP Clarity Challenge: Speech Enhancement for Hearing AidsTrevor J. Cox, Jon Barker, Will Bailey, Simone Graetzer, Michael A. Akeroyd, John F. Culling, Graham Naylor. 1-2 [doi]

NC-WAMKD: Neighborhood Correction Weight-Adaptive Multi-Teacher Knowledge Distillation for Graph-Based Semi-Supervised Node ClassificationJiahao Liu, Pengcheng Guo, Yonghong Song. 1-5 [doi]

Self-Supervised Learning with Explorative Knowledge DistillationTongtong Su, Jinsong Zhang, Gang Wang, Xiaoguang Liu. 1-5 [doi]

Mouth Breathing Detection Using Audio Captured Through EarbudsTousif Ahmed, Md. Mahbubur Rahman, Ebrahim Nemati, Jilong Kuang, Alex Gao 0001. 1-5 [doi]

Super-Resolution for Macro X-Ray Fluorescence Data Collected from Old Master PaintingsSu Yan, Herman Verinaz-Jadan, Junjie Huang 0001, Nathan Daly, Catherine Higgitt, Pier Luigi Dragotti. 1-5 [doi]

Structure-Preserving and Redundancy-Free Features Refinement for Generalized Zero-Shot LearningJian Ni, Yong Liao. 1-5 [doi]

Entropy Based Feature Regularization to Improve Transferability of Deep Learning ModelsRaphaël Baena, Lucas Drumetz, Vincent Gripon. 1-5 [doi]

Efficient Online Convolutional Dictionary Learning Using Approximate Sparse ComponentsFarshad G. Veshki, Sergiy A. Vorobyov. 1-5 [doi]

Similarity Relation Preserving Cross-Modal Learning for Multispectral Pedestrian Detection Against Adversarial AttacksJung-Uk Kim, Yong Man Ro. 1-5 [doi]

Joint Data Association, NLOS Mitigation, and Clutter Suppression for Networked Device-Free Sensing in 6G Cellular NetworkQin Shi, Liang Liu 0003, Shuowen Zhang. 1-5 [doi]

Symbol Level Precoding in the RF Domain for Low Hardware Complexity RIS-Assisted MU-MISO SystemsChristos G. Tsinos, Theodoros A. Tsiftsis, Robert Schober. 1-5 [doi]

Zero-Shot Domain Adaptation of Anomalous Samples for Semi-Supervised Anomaly DetectionTomoya Nishida, Takashi Endo, Yohei Kawaguchi. 1-5 [doi]

Joint Training of Hierarchical GANs and Semantic Segmentation for Expression TranslationRumeysa Bodur, Binod Bhattarai, Tae-Kyun Kim. 1-5 [doi]

Rethinking Random Walk in Graph Representation LearningDingyi Zeng, Wenyu Chen, Wanlong Liu, Li Zhou, Hong Qu. 1-5 [doi]

Stochastic Super-Resolution For Gaussian TexturesÉmile Pierret, Bruno Galerne. 1-5 [doi]

Adaptive Multi-Corpora Language Model Training for Speech RecognitionYingyi Ma, Zhe Liu, Xuedong Zhang. 1-5 [doi]

Wav2Seq: Pre-Training Speech-to-Text Encoder-Decoder Models Using Pseudo LanguagesFelix Wu, Kwangyoun Kim, Shinji Watanabe 0001, Kyu Jeong Han, Ryan Mcdonald, Kilian Q. Weinberger, Yoav Artzi. 1-5 [doi]

Boosting Person Re-Identification with Viewpoint Contrastive Learning and Adversarial TrainingXingyue Shi, Hong Liu, Wei Shi, Zihui Zhou, Yidi Li. 1-5 [doi]

Conversational Text-to-SQL: An Odyssey into State-of-the-Art and Challenges AheadSree Hari Krishnan Parthasarathi, Lu Zeng, Dilek Hakkani-Tür. 1-5 [doi]

Structure-Aware Sparse Bayesian Learning-Based Channel Estimation for Intelligent Reflecting Surface-Aided MIMOYanbin He, Geethu Joseph. 1-5 [doi]

DiffPhase: Generative Diffusion-Based STFT Phase RetrievalTal Peer, Simon Welker, Timo Gerkmann. 1-5 [doi]

Residual Hybrid Attention Network for Compression Artifact ReductionBingchun Luo, Wei Yu. 1-5 [doi]

Phase Retrieval for Rydberg Quantum ArraysPeter G. Vouras, Kumar Vijay Mishra, Alexandra B. Artusio-Glimpse. 1-5 [doi]

High-Acoustic Fidelity Text To Speech Synthesis With Fine-Grained Control Of Speech AttributesRafael Valle, João Felipe Santos, Kevin J. Shih, Rohan Badlani, Bryan Catanzaro. 1-5 [doi]

Named Entity Detection and Injection for Direct Speech TranslationMarco Gaido, Yun Tang 0002, Ilia Kulikov, Rongqing Huang, Hongyu Gong, Hirofumi Inaguma. 1-5 [doi]

Dual-Stage Graph Convolution Network With Graph Learning For Traffic PredictionZilong Li, Qianqian Ren, Long Chen, Jianguo Sun. 1-5 [doi]

Can Knowledge of End-to-End Text-to-Speech Models Improve Neural Midi-to-Audio Synthesis Systems?Xuan Shi, Erica Cooper, Xin Wang 0037, Junichi Yamagishi, Shrikanth Narayanan. 1-5 [doi]

Improving Self-Supervised Learning for Audio Representations by Feature Diversity and DecorrelationBac Nguyen, Stefan Uhlich, Fabien Cardinaux. 1-5 [doi]

More Speaking or More Speakers?Dan Berrebbi, Ronan Collobert, Navdeep Jaitly, Tatiana Likhomanenko. 1-5 [doi]

Exploring Sequence-to-Sequence Transformer-Transducer Models for Keyword SpottingBeltrán Labrador, Guanlong Zhao, Ignacio López-Moreno, Angelo Scorza Scarpati, Liam Fowl, Quan Wang. 1-5 [doi]

Hiding Speaker's Sex in Speech Using Zero-Evidence Speaker Representation in an Analysis/Synthesis PipelinePaul-Gauthier Noé, Xiaoxiao Miao, Xin Wang 0037, Junichi Yamagishi, Jean-François Bonastre, Driss Matrouf. 1-5 [doi]

Simultaneous Estimation of Direction of Arrival and Sound Speed Using a Non-Uniform Sensor ArrayRyouichi Nishimura, Kenichi Takizawa. 1-5 [doi]

Efficient Data Loading with Quantum AutoencoderSiang-Ruei Wu, Chun-Tse Li, Hao-Chung Cheng. 1-5 [doi]

Training Graph Neural Networks on Growing Stochastic GraphsJuan Cerviño, Luana Ruiz, Alejandro Ribeiro. 1-5 [doi]

Global Localisation in Continuous Magnetic Vector Fields Using Gaussian ProcessesWilliam McDonald, Cedric Le Gentil, Teresa A. Vidal-Calleja. 1-5 [doi]

DGN: Descriptor Generation Network for Feature Matching in Monocular Endoscopy 3D ReconstructionKaiyun Zhang, Wenkang Fan, Yinran Chen, Xiongbiao Luo. 1-5 [doi]

Local Feature Enhanced Adversarial Network for the Blind Image Quality AssessmentXiaomei Shi, Min Zhang, Shouhai Xia, Ruxue Zhang, Jun Feng. 1-5 [doi]

In Search of Strong Embedding Extractors for Speaker DiarisationJee-weon Jung, Hee-Soo Heo, Bong-Jin Lee, Jaesung Huh, Andrew Brown 0006, Youngki Kwon, Shinji Watanabe 0001, Joon Son Chung. 1-5 [doi]

BTS-E: Audio Deepfake Detection Using Breathing-Talking-Silence EncoderThien-Phuc Doan, Long Nguyen-Vu, Souhwan Jung, Kihun Hong. 1-5 [doi]

Self-Adaptive Incremental Machine Speech Chain for Lombard TTS with High-Granularity ASR Feedback in Dynamic Noise ConditionSashi Novitasari, Sakriani Sakti, Satoshi Nakamura 0001. 1-5 [doi]

Optimal Condition Training for Target Source SeparationEfthymios Tzinis, Gordon Wichern, Paris Smaragdis, Jonathan Le Roux. 1-5 [doi]

CTTSR: A Hybrid CNN-Transformer Network for Scene Text Image Super-ResolutionKaiwei Dai, Nan Kang, Li Kuang. 1-5 [doi]

Multi-Agent Adversarial Training Using Diffusion LearningYing Cao, Elsa Rizk, Stefan Vlaski, Ali H. Sayed. 1-5 [doi]

ScaleMix: Intra- And Inter-Layer Multiscale Feature Combination for Change DetectionRui Huang, Qingyi Zhao, Ruofei Wang, Caihua Liu, Sihua Gao, Yuxiang Zhang, Wei Fan. 1-5 [doi]

Interference Leakage Minimization in RIS-Assisted MIMO Interference ChannelsIgnacio Santamaría, Mohammad Soleymani 0002, Eduard A. Jorswieck, Jesús Gutiérrez 0002. 1-5 [doi]

Pair DETR: Toward Faster Convergent DETRSeyed Mehdi Iranmanesh, Sherry X. Chen, Kuo-Chin Lien. 1-5 [doi]

Building Keyword Search System from End-To-End Asr SystemsRuizhe Huang, Matthew Wiesner, Leibny Paola García-Perera, Daniel Povey, Jan Trmal, Sanjeev Khudanpur. 1-5 [doi]

LGVIT: Local-Global Vision Transformer for Breast Cancer Histopathological Image ClassificationLang Wang, Juan Liu 0007, Peng Jiang, Dehua Cao, Baochuan Pang. 1-5 [doi]

X-SEPFORMER: End-To-End Speaker Extraction Network with Explicit Optimization on Speaker ConfusionKai Liu, Ziqing Du, Xucheng Wan, Huan Zhou. 1-5 [doi]

Domain Adaptation with External Off-Policy Acoustic Catalogs for Scalable Contextual End-to-End Automated Speech RecognitionDavid M. Chan, Shalini Ghosh, Ariya Rastrow, Björn Hoffmeister. 1-5 [doi]

Pondering About Task Spatial Misalignment: Classification-Localization Equilibrated Object DetectionYudong Zhang, Wei Lu, Xu Wang, Pengkun Wang, Yang Wang. 1-5 [doi]

Towards Low-Power Heart Rate Estimation Based on User's Demographics and Activity Level For WearablesAndré G. C. Pacheco, Frank A. C. Cabello, Adriana M. O. Fonoff, Paula G. Rodrigues, Otávio A. B. Penatti, Paula R. Pinto. 1-5 [doi]

Detail-Aware Uncalibrated Photometric StereoAntonio Agudo. 1-5 [doi]

Bebert: Efficient And Robust Binary Ensemble BertJiayi Tian, Chao Fang, Haonan Wang, Zhongfeng Wang 0001. 1-5 [doi]

Lightweight Machine Learning for Seizure Detection on Wearable DevicesBaichuan Huang, Azra Abtahi, Amir Aminifar. 1-2 [doi]

Sub-Band Contrastive Learning-Based Knowledge Distillation For Sound ClassificationAchyut Mani Tripathi, Aakansha Mishra. 1-5 [doi]

A Distributed Adaptive Algorithm for Non-Smooth Spatial Filtering ProblemsCharles Hovine, Alexander Bertrand. 1-5 [doi]

A Reality Check and a Practical Baseline for Semantic Speech EmbeddingGuangyu Chen, Yuanyuan Cao. 1-5 [doi]

Progressive Meta-Pooling Learning for Lightweight Image Classification ModelPeijie Dong, Xin Niu, Zhiliang Tian, Lujun Li, Xiaodong Wang, Zimian Wei, Hengyue Pan, Dongsheng Li 0001. 1-5 [doi]

Finding Optimal Numerical Format for Sub-8-Bit Post-Training Quantization of Vision TransformersJanghwan Lee, Youngdeok Hwang, Jungwook Choi. 1-5 [doi]

Animal Re-Identification Algorithm for Posture DiversityZhimin He, Jiangbo Qian, Diqun Yan, Chong Wang, Yu Xin. 1-5 [doi]

Duration-Aware Pause Insertion Using Pre-Trained Language Model for Multi-Speaker Text-To-SpeechDong Yang, Tomoki Koriyama, Yuki Saito, Takaaki Saeki, Detai Xin, Hiroshi Saruwatari. 1-5 [doi]

MODEFORMER: Modality-Preserving Embedding For Audio-Video Synchronization Using TransformersAkash Gupta, Rohun Tripathi, Wondong Jang. 1-5 [doi]

On Designing A 3d Imaging Summer Project For Ontario's High School Students During Covid-19 PandemicFengbo Lan, Gene Cheung, Prabhkirat Arora, Deinabo Richard-Koko, Lisa Cole. 1-5 [doi]

Lightweight Portrait Segmentation Via Edge-Optimized AttentionXinyue Zhang, Guodong Wang, LiJuan Yang, Chenglizhao Chen. 1-5 [doi]

Weavspeech: Data Augmentation Strategy For Automatic Speech Recognition Via Semantic-Aware WeavingKyusung Seo, Joonhyung Park, Jaeyun Song, Eunho Yang. 1-5 [doi]

Geometric Matrix Completion with Collaborative Routing Between CapsulesXuan Li, Li Zhang. 1-5 [doi]

Randmasking Augment: A Simple and Randomized Data Augmentation For Acoustic Scene ClassificationJubum Han, Mateusz Matuszewski, Olaf Sikorski, Hosang Sung, Hoonyoung Cho. 1-5 [doi]

Cross-Subject Mental Fatigue Detection based on Separable Spatio-Temporal Feature AggregationYalan Ye, Yutuo He, Wanjing Huang, Qiaosen Dong, Chong Wang, Guoqing Wang. 1-2 [doi]

On Adversarial Robustness of Audio ClassifiersKangkang Lu, Manh Cuong Nguyen, Xun Xu 0002, Chuan-Sheng Foo. 1-5 [doi]

Cardiac Disease Diagnosis on Imbalanced Electrocardiography Data Through Optimal Transport AugmentationJielin Qiu, Jiacheng Zhu, Mengdi Xu, Peide Huang, Michael A. Rosenberg, Douglas Weber, Emerson Liu, Ding Zhao. 1-5 [doi]

Frame-Wise and Overlap-Robust Speaker Embeddings for Meeting DiarizationTobias Cord-Landwehr, Christoph Böddeker, Catalin Zorila, Rama Doddipatla, Reinhold Haeb-Umbach. 1-5 [doi]

Sparse Bayesian Learning Based Three-Dimensional Imaging for Antenna Array RadarYuhan Li, Jesper Rindom Jensen, Maozhong Fu, Zhenmiao Deng, Mads Græsbøll Christensen. 1-5 [doi]

Simplicial Vector Autoregressive Model For Streaming Edge FlowsJoshin Krishnan, Rohan T. Money, Baltasar Beferull-Lozano, Elvin Isufi. 1-5 [doi]

Skillnet-NLG: General-Purpose Natural Language Generation with a Sparsely Activated ApproachJunwei Liao, Duyu Tang, Fan Zhang, Shuming Shi 0001. 1-5 [doi]

Residual Squeeze-and-Excitation U-Shaped Network for Minutia Extraction in Contactless Fingerprint ImagesAnderson Nogueira Cotrim, Hélio Pedrini. 1-5 [doi]

Phoneme-Level Bert for Enhanced Prosody of Text-To-Speech with Grapheme PredictionsYinghao Aaron Li, Cong Han, Xilin Jiang, Nima Mesgarani. 1-5 [doi]

Online Edge Flow Prediction Over Expanding Simplicial ComplexesMaosheng Yang, Bishwadeep Das, Elvin Isufi. 1-5 [doi]

Unlimited Sampling of FRI Signals Independent of Sampling RateRuiming Guo, Ayush Bhandari. 1-5 [doi]

Self-Supervised Guided Hypergraph Feature Propagation for Semi-Supervised Classification with Missing Node FeaturesChengxiang Lei, Sichao Fu, Yuetian Wang, Wenhao Qiu, Yachen Hu, Qinmu Peng, Xinge You. 1-5 [doi]

VF-Taco2: Towards Fast and Lightweight Synthesis for Autoregressive Models with Variation Autoencoder and Feature DistillationYuhao Liu, Cheng Gong, Longbiao Wang, Xixin Wu, Qiuyu Liu, Jianwu Dang 0001. 1-5 [doi]

Deformable Temporal Convolutional Networks for Monaural Noisy Reverberant Speech SeparationWilliam Ravenscroft, Stefan Goetze, Thomas Hain. 1-5 [doi]

Simultaneously Learning Robust Audio Embeddings and Balanced Hash Codes for Query-by-ExampleAnup Singh, Kris Demuynck, Vipul Arora 0001. 1-5 [doi]

The 2nd Clarity Enhancement Challenge for Hearing Aid Speech Intelligibility Enhancement: Overview and OutcomesMichael A. Akeroyd, Will Bailey, Jon Barker, Trevor J. Cox, John F. Culling, Simone Graetzer, Graham Naylor, Zuzanna Podwinska, Zehai Tu. 1-5 [doi]

Audio Quality Assessment of Vinyl Music Collections Using Self-Supervised LearningAlessandro Ragano, Emmanouil Benetos, Andrew Hines. 1-5 [doi]

A Computationally Efficient Algorithm for Distributed Adaptive Signal Fusion Based on Fractional ProgramsCem Ates Musluoglu, Alexander Bertrand. 1-5 [doi]

Speaker Change Detection For Transformer Transducer ASRJian Wu, Zhuo Chen 0006, Min Hu, Xiong Xiao, Jinyu Li 0001. 1-5 [doi]

Efficient Stuttering Event Detection Using Siamese NetworksPayal Mohapatra, Bashima Islam, Md Tamzeed Islam, Ruochen Jiao, Qi Zhu. 1-5 [doi]

IoU-Aware Multi-Expert Cascade Network Via Dynamic Ensemble for Long-Tailed Object DetectionWan-Cyuan Fan, Cheng-Yao Hong, Yen-Chi Hsu, Tyng-Luh Liu. 1-5 [doi]

Spectral Clustering-Aware Learning of Embeddings for Speaker DiarisationEvonne P. C. Lee, Guangzhi Sun, Chao Zhang 0031, Philip C. Woodland. 1-5 [doi]

Coarse-To-Fine Knowledge Selection for Document Grounded DialogsYeqin Zhang, Haomin Fu, Cheng Fu, Haiyang Yu, Yongbin Li, Cam-Tu Nguyen. 1-5 [doi]

A Novel Efficient Multi-View Traffic-Related Object Detection FrameworkKun Yang, Jing Liu, Dingkang Yang, Hanqi Wang, Peng Sun, Yanni Zhang, Yan Liu, Liang Song. 1-5 [doi]

Hierarchical Filtering With Online Learned Priors for ECG DenoisingTimur Locher, Guy Revach, Nir Shlezinger, Ruud J. G. van Sloun, Rik Vullings. 1-5 [doi]

Unified Prompt Learning Makes Pre-Trained Language Models Better Few-Shot LearnersFeihu Jin, Jinliang Lu, Jiajun Zhang 0001. 1-5 [doi]

MAID: A Conditional Diffusion Model for Long Music Audio InpaintingKaiyang Liu, Wendong Gan, Chenchen Yuan. 1-5 [doi]

DAIS: The Delft Database of EEG Recordings of Dutch Articulated and Imagined SpeechBo Dekker, Alfred C. Schouten, Odette Scharenborg. 1-5 [doi]

Federated Self-Learning with Weak Supervision for Speech RecognitionMilind Rao, Gopinath Chennupati, Gautam Tiwari, Anit Kumar Sahu, Anirudh Raju, Ariya Rastrow, Jasha Droppo. 1-5 [doi]

Optimal Transport with a Diversified Memory Bank for Cross-Domain Speaker VerificationRuiteng Zhang, Jianguo Wei, Xugang Lu, Wenhuan Lu, Di Jin 0001, Lin Zhang, Junhai Xu. 1-5 [doi]

Towards a Robust and Efficient Classifier for Real World Radio Signal Modulation ClassificationDancheng Liu, Kazim Ergun, Tajana Simunic Rosing. 1-5 [doi]

Wavsyncswap: End-To-End Portrait-Customized Audio-Driven Talking Face GenerationWeihong Bao, Liyang Chen, Chaoyong Zhou, Sicheng Yang, Zhiyong Wu 0001. 1-5 [doi]

BER-Aware Dynamic Resource Management for Edge-Assisted Goal-Oriented CommunicationsFrancesco Binucci, Paolo Banelli. 1-5 [doi]

An Approach to Ontological Learning from Weak LabelsAnkit Shah 0001, Larry Tang 0003, Po-Hao Chou, Yi Yu Zheng, Ziqian Ge, Bhiksha Raj. 1-5 [doi]

Model-Free Learning of Optimal Beamformers for Passive IRS-Assisted Sumrate MaximizationHassaan Hashmi, Spyridon Pougkakiotis, Dionysios S. Kalogerias. 1-5 [doi]

Local-Global Siamese Network with Efficient Inter-Scale Feature Learning for Change Detection in VHR Remote Sensing ImagesYue Zhang, Tao Lei, Shaoxiong Han, Yetong Xu, Asoke K. Nandi. 1-5 [doi]

Real-Time Multichannel Speech Separation and Enhancement Using a Beamspace-Domain-Based Lightweight CNNMarco Olivieri, Luca Comanducci, Mirco Pezzoli, Davide Balsarri, Luca Menescardi, Michele Buccoli, Simone Pecorino, Antonio Grosso, Fabio Antonacci, Augusto Sarti. 1-5 [doi]

Dynamic Multi-View Scene Reconstruction Using Neural Implicit SurfaceDecai Chen, Haofei Lu, Ingo Feldmann, Oliver Schreer, Peter Eisert. 1-5 [doi]

Facial Texure Perceiver: Towards High-Fidelity Facial Texture Recovery with Input-Level Inductive Biased Perceiver IOSeungeun Lee. 1-5 [doi]

Centralized Cascade Multi-Channel Noise Reduction and Acoustic Feedback Cancellation in a Wireless Acoustic Sensor And Actuator NetworkSantiago Ruiz, Toon van Waterschoot, Marc Moonen. 1-5 [doi]

Interpretation of Neural Networks is Susceptible to Universal Adversarial PerturbationsHaniyeh Ehsani Oskouie, Farzan Farnia. 1-5 [doi]

Longshortnet: Exploring Temporal and Semantic Features Fusion In Streaming PerceptionChenyang Li, Zhi-Qi Cheng, Jun-Yan He, Pengyu Li, Bin Luo, Han-Yuan Chen, Yifeng Geng, Jin-Peng Lan, Xuansong Xie. 1-5 [doi]

Synthesizing Speech from ECoG with a Combination of Transformer-Based Encoder and Neural VocoderKai Shigemi, Shuji Komeiji, Takumi Mitsuhashi, Yasushi Iimura, Hiroharu Suzuki, Hidenori Sugano, Koichi Shinoda, Kohei Yatabe, Toshihisa Tanaka. 1-5 [doi]

A Processing Framework to Access Large Quantities of Whispered Speech Found in ASMRPablo Pérez Zarazaga, Gustav Eje Henter, Zofia Malisz. 1-5 [doi]

Leveraging Positional-Related Local-Global Dependency for Synthetic Speech DetectionXiaohui Liu, Meng Liu, Longbiao Wang, Kong-Aik Lee, Hanyi Zhang, Jianwu Dang 0001. 1-5 [doi]

Privacy Preserving Face Recognition with Lensless CameraChris Henry, M. Salman Asif, Zhu Li 0001. 1-5 [doi]

Quantitative Evidence on Overlooked Aspects of Enrollment Speaker Embeddings for Target Speaker SeparationXiaoyu Liu, Xu Li, Joan Serrà. 1-5 [doi]

Central Nodes Detection from Partially Observed Graph SignalsYiran He, Hoi-To Wai. 1-5 [doi]

Note and Playing Technique Transcription of Electric Guitar Solos in Real-World Music PerformanceTung-Sheng Huang, Ping-Chung Yu, Li Su. 1-5 [doi]

Masked Token Similarity Transfer for Compressing Transformer-Based ASR ModelsEuntae Choi, Youshin Lim, Byeong-Yeol Kim, Hyung Yong Kim, Hanbin Lee, Yunkyu Lim, Seung Woo Yu, Sungjoo Yoo. 1-5 [doi]

Neural Band-to-Piano Score Arrangement with Stepless Difficulty ControlMoyu Terao, Eita Nakamura, Kazuyoshi Yoshii. 1-5 [doi]

CANDY: Category-Kernelized Dynamic Convolution for Instance SegmentationYao Lu, Zhiyi Chen, Zehui Chen, Jie Hu 0018, Liujuan Cao, Shengchuan Zhang. 1-5 [doi]

Multi-Level Fusion for Burst Super-Resolution with Deep Permutation-Invariant ConditioningMartina Cilia, Diego Valsesia, Giulia Fracastoro, Enrico Magli. 1-5 [doi]

MDR-MFI:Multi-Branch Decoupled Regression and Multi-Scale Feature Interaction for Partial-to-Partial Cloud RegistrationWeidong Dai, Xuejun Yan, Jingjing Wang 0005, Di Xie, Shiliang Pu. 1-5 [doi]

Hyperspectral Image Denoising Via Nonlocal Rank Residual ModelingZhiyuan Zha, Bihan Wen, Xin Yuan 0002, Jiantao Zhou 0001, Ce Zhu. 1-5 [doi]

Fast and Parallel Decoding for TransducerWei Kang 0006, Liyong Guo, Fangjun Kuang, Long Lin, Mingshuang Luo, Zengwei Yao, Xiaoyu Yang, Piotr Zelasko, Daniel Povey. 1-5 [doi]

2Q-DETR: Decoupling and Dynamic Queries for Oriented Object Detection with TransformersQiang Zhou, Chaohui Yu, Zhibin Wang, Fan Wang. 1-5 [doi]

Unsupervised Noise Adaptation Using Data SimulationChen Chen, Yuchen Hu, Heqing Zou, Linhui Sun, Eng Siong Chng. 1-5 [doi]

Audio Coding With Unified Noise Shaping And Phase Contrast ControlByeongho Jo, Seungkwon Beack, Taejin Lee 0003. 1-5 [doi]

Deep Triple-Supervision Learning Unannotated Surgical Endoscopic Video Data for Monocular Dense Depth EstimationWenkang Fan, Kaiyun Zhang, Hong Shi, Jianhua Chen, Yinran Chen, Xiongbiao Luo. 1-5 [doi]

Deep Neural Mel-Subband Beamformer for in-Car Speech SeparationVinay Kothapally, Yong Xu 0004, Meng Yu 0003, Shi-Xiong Zhang, Dong Yu 0001. 1-5 [doi]

The Edinburgh International Accents of English Corpus: Towards the Democratization of English ASRRamon Sanabria, Nikolay Bogoychev, Nina Markl, Andrea Carmantini, Ondrej Klejch, Peter Bell 0001. 1-5 [doi]

Robustdistiller: Compressing Universal Speech Representations for Enhanced Environment RobustnessHeitor R. Guimarães, Arthur Pimentel, Anderson R. Avila, Mehdi Rezagholizadeh, Boxing Chen, Tiago H. Falk. 1-5 [doi]

Higher-Order Spatio-Temporal Neural Networks for Covid-19 ForecastingYuzhou Chen, Sotiris Batsakis, H. Vincent Poor. 1-5 [doi]

Paaploss: A Phonetic-Aligned Acoustic Parameter Loss for Speech EnhancementMuqiao Yang, Joseph Konan, David Bick, Yunyang Zeng, Shuo Han, Anurag Kumar 0003, Shinji Watanabe 0001, Bhiksha Raj. 1-5 [doi]

Streaming Stroke Classification of Online HandwritingJing-Yu Liu, Yan-Ming Zhang, Fei Yin, Cheng-Lin Liu. 1-5 [doi]

Reducing Language Confusion for Code-Switching Speech Recognition with Token-Level Language DiarizationHexin Liu, Haihua Xu, Leibny Paola García, Andy W. H. Khong, Yi He, Sanjeev Khudanpur. 1-5 [doi]

Untargeted Backdoor Attack Against Object DetectionChengxiao Luo, Yiming Li 0004, Yong Jiang 0001, Shu-Tao Xia. 1-5 [doi]

Refined Pseudo Labeling for Source-Free Domain Adaptive Object DetectionSiqi Zhang, Lu Zhang 0054, Zhiyong Liu. 1-5 [doi]

Measuring Deviation from Stochasticity in Time-Series Using Autoencoder Based Time-Invariant Representation: Application to Black Hole DataChakka Sai Pradeep, Neelam Sinha, Banibrata Mukhopadhyay. 1-5 [doi]

Local-Global Progressive U-Transformers for Accurate Hepatic and Portal Veins Segmentation in Abdominal MR ImagesYu Wu, Dongfang Shen, Jiabao Jin, Guanping Xu, Yinran Chen, Xiongbiao Luo. 1-5 [doi]

History, Present and Future: Enhancing Dialogue Generation with Few-Shot History-Future PromptYihe Wang, Yitong Li, Yasheng Wang, Fei Mi, Pingyi Zhou, Jin Liu 0016, Xin Jiang 0002, Qun Liu. 1-5 [doi]

Phase-Aware Spoof Speech Detection Based On Res2net with Phase NetworkJuntae Kim, Sung Min Ban. 1-5 [doi]

An End-to-End Framework for Partial View-Aligned Clustering with Graph StructureLiang Zhao, Qiongjie Xie, Sontao Wu, Shubin Ma. 1-5 [doi]

TF-GRIDNET: Making Time-Frequency Domain Models Great Again for Monaural Speaker SeparationZhong-qiu Wang, Samuele Cornell, Shukjae Choi, Younglo Lee, Byeong-Yeol Kim, Shinji Watanabe 0001. 1-5 [doi]

MSP-Former: Multi-Scale Projection Transformer for Single Image DesnowingSixiang Chen, Tian Ye, Yun Liu 0002, Taodong Liao, Jingxia Jiang, Erkang Chen, Peng Chen. 1-5 [doi]

Self-Remixing: Unsupervised Speech Separation VIA Separation and RemixingKohei Saijo, Tetsuji Ogawa. 1-5 [doi]

To Wake-Up or Not to Wake-Up: Reducing Keyword False Alarm by Successive RefinementYashas Malur Saidutta, Rakshith Sharma Srinivasa, Ching Hua Lee, Chouchang Yang, Yilin Shen, Hongxia Jin. 1-5 [doi]

Balanced Mixup Loss for Long-Tailed Visual RecognitionHaibo Ye, Fangyu Zhou, Xinjie Li, Qingheng Zhang. 1-5 [doi]

Self-Supervised Accent Learning for Under-Resourced Accents Using Native Language DataMehul Kumar, Jiyeon Kim, Dhananjaya Gowda, Abhinav Garg, Chanwoo Kim 0001. 1-5 [doi]

Text-To-Speech Synthesis Based on Latent Variable Conversion Using Diffusion Probabilistic Model and Variational AutoencoderYusuke Yasuda, Tomoki Toda. 1-5 [doi]

Aiding Speech Harmonic Recovery in DNN-Based Single Channel Noise Reduction Using Cepstral Excitation Manipulation (CEM) ComponentsYanjue Song, Nilesh Madhu. 1-5 [doi]

Exploring Vision Transformer Layer Choosing for Semantic SegmentationFangjian Lin, Yizhe Ma, Shengwei Tian. 1-5 [doi]

Semantic-Aware Gated Fusion Network For Interactive ColorizationJie Zhang, Yi Xiao, Yan Zhenga, Zhenni Wang, Chi-Sing Leung. 1-5 [doi]

Sparse Black-Box Inversion Attack with Limited InformationYixiao Xu, Xiaolei Liu 0001, Teng Hu, Bangzhou Xin, Run Yang. 1-5 [doi]

Complementary Learning System Based Intrinsic Reward in Reinforcement LearningZijian Gao, Kele Xu, Hongda Jia, Tianjiao Wan, Bo Ding, Dawei Feng, XinJun Mao, Huaimin Wang. 1-5 [doi]

Structured-Anchor Projected Clustering for Hyperspectral ImagesGuozhu Jiang, Jie Zhang, Yongshan Zhang, Xinwei Jiang, Zhihua Cai. 1-5 [doi]

High Quality Audio Coding with MdctnetGrant Davidson, Mark Vinton, Per Ekstrand, Cong Zhou, Lars F. Villemoes, Lie Lu. 1-5 [doi]

I See What You Hear: A Vision-Inspired Method to Localize WordsMohammad Samragh, Arnav Kundu, Ting-Yao Hu, Aman Chadha, Ashish Srivastava, Minsik Cho, Oncel Tuzel, Devang Naik. 1-5 [doi]

Optimization of the Deep Neural Networks for Seizure DetectionAlexey Shovkun, Andrey Kiryasov, Ilya Zakharov, Mariam Khayretdinova. 1-2 [doi]

A Simple Yet Effective Approach to Structured Knowledge DistillationWenye Lin, Yangming Li, Lemao Liu, Shuming Shi 0001, Hai-Tao Zheng 0002. 1-5 [doi]

Dynamic Vehicle Graph Interaction for Trajectory Prediction Based on Video SignalsJian Chen, Wei Wang, Junxin Chen, Ming Cai. 1-5 [doi]

Runtime Prediction of Machine Learning Algorithms in Automl SystemsParijat Dube, Theodoros Salonidis, Parikshit Ram, Ashish Verma. 1-5 [doi]

Identifying Opinion Influencers over Social NetworksValentina Shumovskaia, Mert Kayaalp, Ali H. Sayed. 1-5 [doi]

FindAdaptNet: Find and Insert Adapters by Learned Layer ImportanceJunwei Huang, Karthik Ganesan 0003, Soumi Maiti, Young-Min Kim, Xuankai Chang, Paul Liang, Shinji Watanabe 0001. 1-5 [doi]

An Empirical Study on Speech Restoration Guided by Self-Supervised Speech RepresentationJaeuk Byun, Youna Ji, Soo-Whan Chung, Soyeon Choe, Min-Seok Choi. 1-5 [doi]

Near-field Localization with Dynamic Metasurface AntennasQianyu Yang, Anna Guerra, Francesco Guidi, Nir Shlezinger, Haiyang Zhang, Davide Dardari, Baoyun Wang, Yonina C. Eldar. 1-5 [doi]

Extreme Audio Time Stretching Using Neural SynthesisLeonardo Fierro, Alec Wright, Vesa Välimäki, Matti Hämäläinen. 1-5 [doi]

Semantic Memory Guided Image Representation for Polyp SegmentationZijin Yin, Runpu Wei, Kongming Liang, Yiyang Lin, Wei Liu, Zhanyu Ma, Min Min, Jun Guo 0002. 1-5 [doi]

Improving Spoken Language Identification with Map-MixShangeth Rajaa, Kriti Anandan, Swaraj Dalmia, Tarun Gupta, Eng Siong Chng. 1-5 [doi]

Provable Computational and Statistical Guarantees for Efficient Learning of Continuous-Action Graphical GamesAdarsh Barik, Jean Honorio. 1-5 [doi]

SAMO: Speaker Attractor Multi-Center One-Class Learning For Voice Anti-SpoofingSiwen Ding, You Zhang 0001, Zhiyao Duan. 1-5 [doi]

HAG: Hierarchical Attention with Graph Network for Dialogue Act Classification in ConversationChangzeng Fu, Zhenghan Chen, Jiaqi Shi, Bowen Wu, Chaoran Liu, Carlos Toshinori Ishi, Hiroshi Ishiguro. 1-5 [doi]

A Wavelet Scattering Approach for Load Identification with Limited Amount of Training DataPascal A. Schirmer, Iosif Mporas. 1-5 [doi]

Intent Does Matter! Propagating High-Order Relations for Exploring Interest PreferencesXiangping Zheng, Xun Liang 0001, Bo Wu, Junlan Feng, Yuhui Guo, Sensen Zhang. 1-5 [doi]

Matrix Recovery using Deep Generative Priors with Low-Rank DeviationsPengbin Yu, Jianjun Wang, Chen Xu. 1-5 [doi]

Dense Adversarial Transfer Learning Based On Class-InvarianceBach-Tung Pham, Ting-Yu Wang, Phuong Le Thi, Khai-Thinh Nguyen, Yuan-Shan Lee, Tzu-Chiang Tai, Jia-Ching Wang. 1-5 [doi]

Learning Sparse Alignments via Optimal Transport for Cross-Domain Fake News DetectionWei Tang 0013, Zuyao Ma, Haifeng Sun 0001, Jingyu Wang 0001. 1-5 [doi]

CO-NET: Classification-Oriented Point Cloud Sampling via Informative Feature Learning and Non-Overlapped Local AdjustmentYanan Lin, Keyu Chen, Shihao Zhou, Yunan Huang, Yunqi Lei. 1-5 [doi]

Pyramid Spatial Feature Transform and Shared-Offsets Deformable Alignment Based Convolutional Network for HDR ImagingJunda Liao, Qin Liu 0002, Takeshi Ikenaga. 1-5 [doi]

Learning to Personalize Equalization for High-Fidelity Spatial Audio ReproductionArjun Gupta, Pablo Hoffmann, Sebastian Prepelita, Philip W. Robinson, Vamsi K. Ithapu, David L. Alon. 1-5 [doi]

Nonparallel Emotional Voice Conversion for Unseen Speaker-Emotion Pairs Using Dual Domain Adversarial Network & Virtual Domain PairingNirmesh Shah, Mayank Kumar Singh, Naoya Takahashi, Naoyuki Onoe. 1-5 [doi]

Deep Quantigraphic Image Enhancement via Comparametric EquationsXiaomeng Wu, Yongqing Sun, Akisato Kimura. 1-5 [doi]

A Lightweight Convolutional Neural Network using Feature Filtering ModuleNan Jing, Yu Zhang. 1-5 [doi]

2 ProcessVassilis Kalantzis, Georgios Kollias, Shashanka Ubaru, Theodoros Salonidis. 1-5 [doi]

On the Reduction of Large-Scale Room Acoustic ModelsPavlos Stoikos, Olympia Axelou, George Floros 0002, Nestoras E. Evmorfopoulos, Georgios I. Stamoulis. 1-5 [doi]

Speechlmscore: Evaluating Speech Generation Using Speech Language ModelSoumi Maiti, Yifan Peng, Takaaki Saeki, Shinji Watanabe 0001. 1-5 [doi]

PRIME: 3D Human Pose and Body Shape Recovery with Perspective ProjectionBaobei Xu, Shukai Fang, Zhaoyang Li, Shicai Yang, Di Xie, Shiliang Pu. 1-5 [doi]

Two-Phase Prototypical Contrastive Domain Generalization for Cross-Subject EEG-Based Emotion RecognitionHonghua Cai, Jiahui Pan. 1-5 [doi]

A Two-Stage System for Spoken Language UnderstandingGaosheng Zhang, Shilei Miao, Linghui Tang, Peijia Qian. 1-2 [doi]

Multilevel Transformer for Multimodal Emotion RecognitionJunyi He, Meimei Wu, Meng Li, Xiaobo Zhu, Feng Ye. 1-5 [doi]

Data-Driven Graph Convolutional Neural Networks for Power System Contingency AnalysisValentin Bolz, Johannes Rueß, Andreas Zell. 1-5 [doi]

Active Perception System for Enhanced Visual Signal Recovery Using Deep Reinforcement LearningGaurav Chaudhary, Laxmidhar Behera, Tushar Sandhan. 1-5 [doi]

Human Pose Estimation from Ambiguous Pressure Recordings with Spatio-Temporal Masked TransformersVandad Davoodnia, Ali Etemad. 1-5 [doi]

Show Me the Instruments: Musical Instrument Retrieval From Mixture AudioKyungsu Kim, Minju Park, Haesun Joung, Yunkee Chae, Yeongbeom Hong, Seonghyeon Go, Kyogu Lee. 1-5 [doi]

Slot-Triggered Contextual Biasing For Personalized Speech Recognition Using Neural TransducersSibo Tong, Philip Harding, Simon Wiesler. 1-5 [doi]

FED-3DA: A Dynamic and Personalized Federated Learning FrameworkHui Wang, Jie Sun, Tianyu Wo, Xudong Liu. 1-5 [doi]

A Closer Look At Scoring Functions And Generalization PredictionPuja Trivedi, Danai Koutra, Jayaraman J. Thiagarajan. 1-5 [doi]

Supervised Hierarchical Clustering Using Graph Neural Networks for Speaker DiarizationPrachi Singh, Amrit Kaul, Sriram Ganapathy. 1-5 [doi]

Single-branch Network for Multimodal TrainingMuhammad Saad Saeed, Shah Nawaz, Muhammad Haris Khan, Muhammad Zaigham Zaheer, Karthik Nandakumar, Muhammad Haroon Yousaf, Arif Mahmood. 1-5 [doi]

Deep Spatio-Temporal Multiplex Graph Learning for Cardiac Imaging ClassificationJaume Banus, Augustin Ogier, Roger Hullin, Philippe Meyer, Ruud B. van Heeswijk, Jonas Richiardi. 1-5 [doi]

A Parallel Attention Mechanism for Image Manipulation Detection and LocalizationQiang Zeng, Hongxia Wang, Yang Zhou, Rui Zhang, Sijiang Meng. 1-5 [doi]

SemGeo: Semantic Keywords for Cross-View Image Geo-LocalizationRoyston Rodrigues, Masahiro Tani. 1-5 [doi]

Backdoor Attack Against Automatic Speaker Verification Models in Federated LearningDan Meng, Xue Wang, Jun Wang. 1-5 [doi]

Multichannel Time-Encoding of Finite-Rate-of-Innovation SignalsAbijith Jagannath Kamath, Chandra Sekhar Seelamantula. 1-5 [doi]

RGB-D Based Pose-Invariant Face Recognition Via Attention Decomposition ModuleWei-Chen Lin, Ching-Te Chiu, Kuan-Chang Shih. 1-5 [doi]

Improving Bert Fine-Tuning via Stabilizing Cross-Layer Mutual InformationJicun Li, Xingjian Li 0002, Tianyang Wang, Shi Wang, Yanan Cao, Cheng-Zhong Xu 0001, Dejing Dou. 1-5 [doi]

Active Noise Control over 3D Space: A Realistic Error Microphone Geometry DesignHuiyuan Sun, Prasanga N. Samarasinghe, Thushara D. Abhayapala. 1-5 [doi]

Robust Angle Estimation for Hybrid mmWave SystemsYuan-Pei Lin, Ting-Ming Yang. 1-5 [doi]

Transwnet: Integrating Transformers into CNNS via Row and Column Attention for Abdominal Multi-Organ SegmentationYazhen Xie, Yanglin Huang, Yuan Zhang, Xuanya Li, Xiongjun Ye, Kai Hu. 1-5 [doi]

Inter-Scale Sure-Let Denoise with Structured Deep Image Prior: Interpretable Self-Supervised LearningJikai Li, Shogo Muramatsu. 1-5 [doi]

Multi-View Learning for Speech Emotion Recognition with Categorical Emotion, Categorical Sentiment, and Dimensional ScoresDaniel Tompkins, Dimitra Emmanouilidou, Soham Deshmukh, Benjamin Elizalde. 1-5 [doi]

Feature Selection and Text Embedding for Detecting Dementia from Spontaneous CantoneseXiaoquan Ke, Man-Wai Mak, Helen M. Meng. 1-5 [doi]

MUG: A General Meeting Understanding and Generation BenchmarkQinglin Zhang, Chong Deng, Jiaqing Liu, Hai Yu, Qian Chen, Wen Wang, Zhijie Yan, Jinglin Liu, Yi Ren 0006, Zhou Zhao. 1-5 [doi]

Optimising Different Feature Types for Inpainting-Based Image RepresentationsFerdinand Jost, Vassillen Chizhov, Joachim Weickert. 1-5 [doi]

ICEL: Learning with Inconsistent ExplanationsBiao Liu, Xiaoyu Wu, Bo Yuan. 1-5 [doi]

Exploiting PRNU and Linear Patterns in Forensic Camera Attribution under Complex Lens Distortion CorrectionAndrea Montibeller, Fernando Pérez-González. 1-5 [doi]

Smart Split-Federated Learning over Noisy Channels for Embryo Image SegmentationZahra Hafezi Kafshgari, Ivan V. Bajic, Parvaneh Saeedi. 1-5 [doi]

Channel Estimation in Massive MIMO with Heavy-Tailed Noise: Gaussian-Mixture Versus Cauchy ModelsZiya Gülgün, Erik G. Larsson. 1-4 [doi]

Privacy-Preserving Occupancy EstimationJennifer Williams 0001, Vahid Yazdanpanah, Sebastian Stein 0001. 1-5 [doi]

RNN-Based Step-Size Estimation for the RLS Algorithm with Application to Acoustic Echo CancellationOfer Schwartz, Ayal Schwartz. 1-5 [doi]

An Empirical Study of Backdoor Attacks on Masked Auto EncodersShuli Zhuang, Pengfei Xia, Bin Li. 1-5 [doi]

General or Specific? Investigating Effective Privacy Protection in Federated Learning for Speech Emotion RecognitionChao Tan, Yang Cao 0011, Sheng Li 0010, Masatoshi Yoshikawa. 1-5 [doi]

DiffVoice: Text-to-Speech with Latent DiffusionZhijun Liu, Yiwei Guo, Kai Yu 0004. 1-5 [doi]

Sparse Representations with Cone AtomsDenis C. Ilie-Ablachim, Andra Baltoiu, Bogdan Dumitrescu. 1-5 [doi]

Clean Sample Guided Self-Knowledge Distillation for Image ClassificationJiyue Wang, Yanxiong Li, Qianhua He, Wei Xie. 1-5 [doi]

Towards Adversarially Robust Continual LearningTao Bai, Chen Chen, Lingjuan Lyu, Jun Zhao 0007, Bihan Wen. 1-5 [doi]

Wireless Location Tracking via Complex-Domain Super MDS with Time Series Self-Localization InformationYuya Nishi, Takumi Takahashi, Hiroki Iimori, Giuseppe Abreu, Shinsuke Ibi, Seiichi Sampei. 1-5 [doi]

A Physically Explainable Framework for Human-Related Anomaly DetectionYalong Jiang, Huining Li, Changkang Li. 1-5 [doi]

Multi-View K-Means with Laplacian EmbeddingZhezheng Hao, Zhoumin Lu, Feiping Nie 0001, Rong Wang 0001, Xuelong Li 0001. 1-5 [doi]

Encoder-Decoder Graph Convolutional Network for Automatic Timed-Up-and-Go and Sit-to-Stand SegmentationBo Wen, Chen Du, Truong Q. Nguyen. 1-5 [doi]

Dialogue System with Missing ObservationDjallel Bouneffouf 0001, Mayank Agarwal, Irina Rish. 1-5 [doi]

Partially Adaptive Multichannel Joint Reduction of Ego-Noise and Environmental NoiseHuajian Fang, Niklas Wittmer, Johannes Twiefel, Stefan Wermter, Timo Gerkmann. 1-5 [doi]

A Content Adaptive Learnable "Time-Frequency" Representation for audio Signal ProcessingPrateek Verma, Chris Chafe. 1-5 [doi]

Learning Expressive And Generalizable Motion Features For Face Forgery DetectionJingyi Zhang 0003, Peng Zhang 0075, Jingjing Wang, Di Xie, Shiliang Pu. 1-5 [doi]

2TSR: Multi-Range and Mix-Grained Transformer for Single Image Super-ResolutionZhonghan Niu, Qing-Long Zhang, Yi Fan, Yu-Bin Yang. 1-5 [doi]

Beamformer-Guided Target Speaker ExtractionMohamed Elminshawi, Srikanth Raj Chetupalli, Emanuël A. P. Habets. 1-5 [doi]

Optimizing Vision Transformers for Medical Image SegmentationQianying Liu, Chaitanya Kaul, Jun Wang 0039, Christos Anagnostopoulos, Roderick Murray-Smith, Fani Deligianni. 1-5 [doi]

Hierarchical Diffusion Models for Singing Voice Neural VocoderNaoya Takahashi, Mayank Kumar Singh, Yuki Mitsufuji. 1-5 [doi]

Dynamic Scalable Self-Attention Ensemble for Task-Free Continual LearningFei Ye 0004, Adrian G. Bors. 1-5 [doi]

Covariance Regularization for Probabilistic Linear Discriminant AnalysisZhiyuan Peng, Mingjie Shao, Xuanji He, Xu Li, Tan Lee, Ke Ding, Guanglu Wan. 1-5 [doi]

Transductive Matrix Completion with Calibration for Multi-Task LearningHengfang Wang, Yasi Zhang, Xiaojun Mao, Zhonglei Wang. 1-5 [doi]

Convolutive NTF for Ambisonic Source Separation under Reverberant ConditionsMateusz Guzik, Konrad Kowalczyk. 1-5 [doi]

A Controllable Lifestyle Simulator for Use in Deep Reinforcement Learning AlgorithmsLibio Gonçalves Braz, Allmin Pradhap Singh Susaiyah. 1-5 [doi]

Positive-Pair Redundancy Reduction Regularisation for Speech-Based Asthma Diagnosis PredictionGeorgios Rizos, Rafael A. Calvo, Björn W. Schuller. 1-5 [doi]

Cross-Lingual Transfer Learning for Alzheimer's Detection from Spontaneous SpeechBastiaan Tamm, Rik Vandenberghe, Hugo Van Hamme. 1-2 [doi]

Deep Adaptive Superpixels For Hadamard Single Pixel Imaging In Near-Infrared SpectrumBrayan Monroy, Jorge Bacca, Henry Arguello. 1-5 [doi]

Filter Pruning Via Filters Similarity in Consecutive LayersXiaorui Wang, Jun Wang 0123, Xin Tang, Peng Gao, Rui Fang, Guotong Xie. 1-5 [doi]

Quantile Online Learning for Semiconductor Failure AnalysisBangjian Zhou, Jieming Pan, Maheswari Sivan, Aaron Voon-Yew Thean, J. Senthilnath 0001. 1-5 [doi]

Model Fingerprinting with Benign InputsThibault Maho, Teddy Furon, Erwan Le Merrer. 1-5 [doi]

SG-VAD: Stochastic Gates Based Speech Activity DetectionJonathan Svirsky, Ofir Lindenbaum. 1-5 [doi]

Row Conditional-TGAN for Generating Synthetic Relational DatabasesMohamed Gueye, Yazid Attabi, Maxime Dumas. 1-5 [doi]

Bridging Speech and Textual Pre-Trained Models With Unsupervised ASRJiatong Shi, Chan-Jan Hsu, Ho-Lam Chung, Dongji Gao, Paola García 0001, Shinji Watanabe 0001, Ann Lee 0001, Hung-yi Lee. 1-5 [doi]

A Deep Fusion Rule for Infrared and Visible Image Fusion: Feature Communication for Importance AssessmentXuran Lv, Jinyong Cheng, Guohua Lv, Zhonghe Wei. 1-5 [doi]

Context-Aware end-to-end ASR Using Self-Attentive Embedding and Tensor FusionShuo-Yiin Chang, Chao Zhang, Tara N. Sainath, Bo Li 0028, Trevor Strohman. 1-5 [doi]

Face Recognition on Point Cloud with Cgan-Top for DenoisingJunyu Liu, Jianfeng Ren, Hongliang Sun, Xudong Jiang 0001. 1-5 [doi]

Massively Multilingual Shallow Fusion with Large Language ModelsKe Hu, Tara N. Sainath, Bo Li 0028, Nan Du 0002, Yanping Huang, Andrew M. Dai, Yu Zhang 0033, Rodrigo Cabrera, Zhifeng Chen, Trevor Strohman. 1-5 [doi]

Robust Network Topologies for Distributed LearningChutian Wang, Stefan Vlaski. 1-5 [doi]

Efficient Intelligibility Evaluation Using Keyword Spotting: A Study on Audio-Visual Speech EnhancementCassia Valentini-Botinhao, Andrea Lorena Aldana Blanco, Ondrej Klejch, Peter Bell 0001. 1-5 [doi]

Code-Switching Speech Synthesis Based on Self-Supervised Learning and Domain Adaptive Speaker EncoderYi-Xing Lin, Cheng-Hsun Pai, Phuong Thi Le, Bima Prihasto, Chien-Ling Huang, Jia-Ching Wang. 1-5 [doi]

Enrollment Rate Prediction in Clinical Trials based on CDF Sketching and Tensor Factorization toolsMagda Amiridi, Cheng Qian 0001, Nicholas D. Sidiropoulos, Lucas M. Glass. 1-5 [doi]

Distortion-Aware Convolutional Neural Network-Based Interpolation Filter for AVS3Ying Zhang, Liang Wen, Lizhong Wang, Yinji Piao, Weijing Shi, Kwang-Pyo Choi. 1-5 [doi]

Spatial-Temporal Graph Convolutional Network Boosted Flow-Frame Prediction For Video Anomaly DetectionKai Cheng, Xinhua Zeng, Yang Liu 0246, Mengyang Zhao, Chengxin Pang, Xing Hu 0006. 1-5 [doi]

Windowed Fourier Analysis for Signal Processing on Graph BundlesT. Mitchell Roddenberry, Santiago Segarra. 1-5 [doi]

Optimal Mixed-ADC Arrangement for DOA Estimation Via CRB Using ULAXinnan Zhang, Yuanbo Cheng, Xiaolei Shang, Jun Liu. 1-5 [doi]

Learning Speech Representations with Flexible Hidden Feature DimensionsHuaizhen Tang, Xulong Zhang 0001, Jianzong Wang, Ning Cheng 0001, Jing Xiao 0006. 1-5 [doi]

Mask the Bias: Improving Domain-Adaptive Generalization of CTC-Based ASR with Internal Language Model EstimationNilaksh Das, Monica Sunkara, Sravan Bodapati, Jinglun Cai, Devang Kulshreshtha, Jeff Farris, Katrin Kirchhoff. 1-5 [doi]

SSGD: A Smartphone Screen Glass Dataset for Defect DetectionHaonan Han, Rui Yang, Shuyan Li, Runze Hu, Xiu Li. 1-5 [doi]

UNeXt: a Low-Dose CT denoising UNet model with the modified ConvNeXt blockFarzan Niknejad Mazandarani, Paul S. Babyn, Javad Alirezaie. 1-5 [doi]

Speaker Recognition with Two-Step Multi-Modal Deep CleansingRuijie Tao, Kong-Aik Lee, Zhan Shi, Haizhou Li 0001. 1-5 [doi]

Scaling Law Analysis for Covariance Based Activity Detection in Cooperative Multi-Cell Massive MimoZiyue Wang, Ya-Feng Liu, Zhaorui Wang, Wei Yu. 1-5 [doi]

Topgformer: Topological-Based Graph Transformer for Mapping Brain Structural Connectivity to Functional ConnectivityDalu Guo, Ke Zhang, Jiaxing Li, Youyong Kong. 1-5 [doi]

MASKED-AP: Attention Pyramid Convolutional Neural Network with Mask for Cervical Cell ClassificationYu Jin, Juan Liu 0007, Hua Chen, Wensi Duan, Dehua Cao, Baochuan Pang. 1-5 [doi]

BISVP: Building Footprint Extraction Via Bidirectional Serialized Vertex PredictionMingming Zhang, Ye Du, Zhenghui Hu, Qingjie Liu, Yunhong Wang. 1-5 [doi]

A Person Identification System for the ICASSP 2023 e-Prevention ChallengeJinting Wu, Mei Tu. 1-2 [doi]

Procontext: Exploring Progressive Context Transformer for TrackingJin-Peng Lan, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Bin Luo, Xu Bao, Wangmeng Xiang, Yifeng Geng, Xuansong Xie. 1-5 [doi]

Multitrack Music Transcription with a Time-Frequency PerceiverWei Tsung Lu, Ju-Chiang Wang, Yun-Ning Hung. 1-5 [doi]

Spatio-Temporal Attention in Multi-Granular Brain Chronnectomes For Detection of Autism Spectrum DisorderJames Orme-Rogers, Ajitesh Srivastava. 1-5 [doi]

On the Importance of Different Cough Phases for COVID-19 DetectionYi Zhu, Mahil Hussain Shaik, Tiago H. Falk. 1-5 [doi]

Boosting Semi-Supervised Federated Learning with Model Personalization and Client-Variance-ReductionShuai Wang, Yanqing Xu, Yanli Yuan, Xiuhua Wang, Tony Q. S. Quek. 1-5 [doi]

DTTR: Detecting Text with TransformersJing Yang, Zhiqiang You, Zhiwei Zhong, Peng Liu, Langqi Mei, Shenguang Huang. 1-5 [doi]

Dialogue Context Modelling for Action Item Detection: Solution for ICASSP 2023 Mug Challenge Track 5Jie Huang, Xiachong Feng, Yangfan Ye, Liang Zhao, Xiaocheng Feng, Bing Qin 0001, Ting Liu 0001. 1-2 [doi]

Acoustic Source Localization in the Spherical Harmonics Domain Exploiting Low-Rank ApproximationsMaximo Cobos, Mirco Pezzoli, Fabio Antonacci, Augusto Sarti. 1-5 [doi]

Ultra Real-Time Portrait Matting via Parallel Semantic GuidanceXin Huang, Jiake Xie, Bo Xu, Han Huang, Ziwen Li, Cheng Lu 0006, Yandong Guo, Yong Tang. 1-5 [doi]

Pyramid Dynamic Inference: Encouraging Faster Inference Via Early Exit BoostingErshad Banijamali, Pegah Kharazmi, Sepehr Eghbali, Jixuan Wang, Clement Chung, Samridhi Choudhary. 1-5 [doi]

Improving Occluded Human Pose Estimation Via Linked JointsSuhang Ye, Zebo Hong, Jiawen Zheng, Shengchuan Zhang. 1-5 [doi]

On the Effectiveness of Monoaural Target Source Extraction for Distant end-to-end Automatic Speech RecognitionCatalin Zorila, Rama Doddipatla. 1-5 [doi]

Joint Channel and Direction Estimation for Ground-to-UAV Communications Enabled by a Simultaneous Reflecting and Sensing RISJiguang He, Aymen Fakhreddine, George C. Alexandropoulos. 1-5 [doi]

Multi-Channel Speaker Extraction with Adversarial Training: The Wavlab Submission to The Clarity ICASSP 2023 Grand ChallengeSamuele Cornell, Zhong-qiu Wang, Yoshiki Masuyama, Shinji Watanabe 0001, Manuel Pariente, Nobutaka Ono, Stefano Squartini. 1-2 [doi]

A Simple Scheme for Coupled Factorization for Hyperspectral Super-Resolution: Exploiting Sparsity in an Easy WayYuening Li, Wing-Kin Ma, Ruiyuan Wu, Huikang Liu. 1-5 [doi]

Cooperative Five Degrees Of Freedom Motion Estimation For A Swarm Of Autonomous VehiclesNikos Piperigkos, Aris S. Lalos, Kostas Berberidis, Christos Anagnostopoulos. 1-2 [doi]

Quickest Change Detection with Leave-one-out Density EstimationYuchen Liang, Venugopal V. Veeravalli. 1-5 [doi]

Semantic Preserving Learning for Task-Oriented Point Cloud DownsamplingJianyu Xiong, Tao Dai 0001, Yaohua Zha, Xin Wang, Shu-Tao Xia. 1-5 [doi]

Deepspace: Dynamic Spatial and Source CUE Based Source Separation for Dialog EnhancementAaron Master, Lie Lu, Jonas Samuelsson, Heidi-Maria Lehtonen, Scott Norcross, Nathan Swedlow, Audrey Howard. 1-5 [doi]

Hearttoheart: The Arts of Infant Versus Adult-Directed Speech ClassificationNajla D. Al Futaisi, Alejandrina Cristià, Björn W. Schuller. 1-5 [doi]

ECGT2T: Towards Synthesizing Twelve-Lead Electrocardiograms from Two Asynchronous LeadsYong-Yeon Jo, Young Sang Choi, Jong-Hwan Jang, Joon-myoung Kwon. 1-5 [doi]

Optimizing Distributed Multi-Sensor Multi-Target Tracking Algorithm Based On Labeled Multi-Bernoulli FilterHonggang Liu, Jinlong Yang, Yue Xu, Le Yang. 1-5 [doi]

Emotion Recognition in Conversation from Variable-Length ContextMian Zhang, Xiabing Zhou, Wenliang Chen, Min Zhang 0005. 1-5 [doi]

A Token-Level Contrastive Framework for Sign Language TranslationBiao Fu, Peigen Ye, Liang Zhang, Pei Yu, Cong Hu, Xiaodong Shi, Yidong Chen. 1-5 [doi]

Joint Antenna Selection and Beamforming in Integrated Automotive Radar Sensing-Communications with Quantized Double Phase ShiftersLifan Xu, Shunqiao Sun, Yimin D. Zhang, Athina P. Petropulu. 1-5 [doi]

BreathIE: Estimating Breathing Inhale Exhale Ratio Using Motion Sensor Data from Consumer EarbudsNafiul Rashid, Md Mahbubur Rahman, Tousif Ahmed, Jilong Kuang, Jun Alex Gao. 1-5 [doi]

A Perturbation-Based Policy Distillation Framework with Generative Adversarial NetsLihua Zhang, Quan Liu, Xiongzhen Zhang, Yapeng Xu. 1-5 [doi]

Transformer-Based Deep Hashing Method for Multi-Scale Feature FusionChao He, Hongxi Wei. 1-5 [doi]

Learning Task-Aligned Mask Query for Instance SegmentationBin Fu, Hongliang He, Pengxu Wei, Jie Chen 0001. 1-5 [doi]

Streaming Multi-Channel Speech Separation with Online Time-Domain Generalized Wiener FilterYi Luo. 1-5 [doi]

EMIX: A Data Augmentation Method for Speech Emotion RecognitionAn Dang, Toan H. Vu, Le Dinh Nguyen, Jia-Ching Wang. 1-5 [doi]

Hypothesis Test for Leakage Detection in Water Pipelines with High-Dimensional Sensor SignalsLiusha Yang, Matthew R. McKay, Xun Wang. 1-5 [doi]

Performance Comparison of TTS Models for Brazilian Portuguese to Establish a BaselineWilmer Lobato, Felipe Farias, William Cruz, Marcellus Amadeus. 1-5 [doi]

Prompt Makes mask Language Models Better Adversarial AttackersHe Zhu, Ce Li, Haitian Yang, Yan Wang, Weiqing Huang. 1-5 [doi]

To Regularize or Not to Regularize: The Role of Positivity in Sparse Array Interpolation with a Single SnapshotMehmet Can Hücümenoglu, Pulak Sarangi, Robin Rajamäki, Piya Pal. 1-5 [doi]

An Experimental Study on Sound Event Localization and Detection Under Realistic Testing ConditionsShutong Niu, Jun Du, Qing Wang 0008, Li Chai 0002, Huaxin Wu, Zhaoxu Nian, Lei Sun, Yi Fang, Jia Pan, Chin-Hui Lee 0001. 1-5 [doi]

Self-Paced Partial Domain-Aware Learning for Face Anti-SpoofingZhiyi Chen, Yao Lu, Xinzhe Deng, Jia Meng, Shengchuan Zhang, Liujuan Cao. 1-5 [doi]

Multi-Modal Domain Generalization for Cross-Scene Hyperspectral Image ClassificationYuxiang Zhang 0005, Mengmeng Zhang, Wei Li, Ran Tao 0003. 1-5 [doi]

Learning Cross-Lingual Visual Speech RepresentationsAndreas Zinonos, Alexandros Haliassos, Pingchuan Ma 0001, Stavros Petridis, Maja Pantic. 1-5 [doi]

Does a Quieter City Mean Fewer Complaints? The Sounds of New York City During Covid-19 LockdownMark Cartwright, Magdalena Fuentes, Charlie Mydlarz, Fabio Miranda 0001, Juan Pablo Bello. 1-5 [doi]

SCSGNet: Spatial-Correlated and Shape-Guided Network for Breast Mass SegmentationQingqiu Li, Jilan Xu, Runtian Yuan, Yuejie Zhang, Rui Feng. 1-5 [doi]

Biologically-Inspired Continual Learning of Human Motion SequencesJoachim Ott, Shih-Chii Liu. 1-5 [doi]

Joint Cryo-ET Alignment and Reconstruction with Neural Deformation FieldsValentin Debarnot, Sidharth Gupta, Konik Kothari, Ivan Dokmanic. 1-5 [doi]

Efficient Monaural Speech Enhancement with Universal Sample Rate Band-Split RNNJianwei Yu, Yi Luo. 1-5 [doi]

TT-Net: Dual-Path Transformer Based Sound Field Translation in the Spherical Harmonic DomainYiwen Wang, Zijian Lan, Xihong Wu, Tianshu Qu. 1-5 [doi]

Learning from the Raw Domain: Cross Modality Distillation for Compressed Video Action RecognitionYufan Liu, Jiajiong Cao, Weiming Bai, Bing Li 0001, Weiming Hu. 1-5 [doi]

Early Detection of Cognitive Decline Using Voice Assistant CommandsEli Kurtz, Youxiang Zhu, Tiffany M. Driesse, Bang Tran, John A. Batsis, Robert M. Roth, Xiaohui Liang. 1-5 [doi]

Unsupervised Vocal Dereverberation with Diffusion-Based Generative ModelsKoichi Saito, Naoki Murata, Toshimitsu Uesaka, Chieh-Hsin Lai, Yuhta Takida, Takao Fukui, Yuki Mitsufuji. 1-5 [doi]

MAST: Multiscale Audio Spectrogram TransformersSreyan Ghosh, Ashish Seth, Srinivasan Umesh, Dinesh Manocha. 1-5 [doi]

An Auto-Encoder Based Method for Camera Fingerprint CompressionKaixuan Zhang, Zihan Liu, Jiashang Hu, Shilin Wang. 1-5 [doi]

A Magnetic Framelet-Based Convolutional Neural Network for Directed GraphsLequan Lin, Junbin Gao. 1-5 [doi]

A Unitary Transform Based Generalized Approximate Message PassingJiang Zhu 0004, Xiangming Meng, Xupeng Lei, Qinghua Guo 0001. 1-5 [doi]

Relate Auditory Speech To Eeg By Shallow-Deep Attention-Based NetworkFan Cui, Liyong Guo, Lang He, Jiyao Liu, Ercheng Pei, Yujun Wang, Dongmei Jiang. 1-2 [doi]

Peak-First CTC: Reducing the Peak Latency of CTC Models by Applying Peak-First RegularizationZhengkun Tian, Hongyu Xiang, Min Li, Feifei Lin, Ke Ding, Guanglu Wan. 1-5 [doi]

Delay-Penalized Transducer for Low-Latency Streaming ASRWei Kang 0006, Zengwei Yao, Fangjun Kuang, Liyong Guo, Xiaoyu Yang, Long Lin, Piotr Zelasko, Daniel Povey. 1-5 [doi]

Optimal Compression for Minimizing Classification Error Probability: An Information-Theoretic ApproachJingchao Gao, Ao Tang, Weiyu Xu. 1-5 [doi]

Structured State Space Decoder for Speech Recognition and SynthesisKoichi Miyazaki, Masato Murata, Tomoki Koriyama. 1-5 [doi]

Color Guided Depth Map Super-Resolution with Nonlocla Autoregres-Sive ModelingWei Xu, Na Qi, Qing Zhu, Jingzhong Qi, Longlu Huang, Kun Cao, Yuxin Bao, Qianwen Wang. 1-5 [doi]

MossFormer: Pushing the Performance Limit of Monaural Speech Separation Using Gated Single-Head Transformer with Convolution-Augmented Joint Self-AttentionsShengkui Zhao, Bin Ma. 1-5 [doi]

Wiener Filtering Without Covariance Matrix InversionPranav U. Damale, Edwin K. P. Chong, Louis L. Scharf. 1-5 [doi]

Confidence-Based Event-Centric Online Video Question Answering on a Newly Constructed ATBS DatasetWeikai Kong, Shuhong Ye, Chenglin Yao, Jianfeng Ren. 1-5 [doi]

Towards Trustworthy Multi-Label Sewer Defect Classification via Evidential Deep LearningChenyang Zhao, Chuanfei Hu, Hang Shao, Zhe Wang, Yongxiong Wang. 1-5 [doi]

Spteae: A Soft Prompt Transfer Model for Zero-Shot Cross-Lingual Event Argument ExtractionHuipeng Ma, Qiu Tang, Ni Zhang, Rui Xu, Yanhua Shao, Wei Yan, Yaojun Wang. 1-5 [doi]

Improving fast-slow Encoder based Transducer with Streaming DeliberationKe Li, Jay Mahadeokar, Jinxi Guo, Yangyang Shi, Gil Keren, Ozlem Kalinli, Michael L. Seltzer, Duc Le. 1-5 [doi]

LEAPT: Learning Adaptive Prefix-to-Prefix Translation For Simultaneous Machine TranslationLei Lin, Shuangtao Li, Xiaodong Shi. 1-5 [doi]

A Patient Invariant Model Towards the Prediction of Freezing of GaitNasimuddin Ahmed, Shivam Singhal, Aniruddha Sinha, Avik Ghose. 1-5 [doi]

LMCodec: A Low Bitrate Speech Codec with Causal Transformer ModelsTeerapat Jenrungrot, Michael Chinen, W. Bastiaan Kleijn, Jan Skoglund, Zalán Borsos, Neil Zeghidour, Marco Tagliasacchi. 1-5 [doi]

Time-Domain Speech Enhancement Assisted by Multi-Resolution Frequency Encoder and DecoderHao Shi, Masato Mimura, Longbiao Wang, Jianwu Dang 0001, Tatsuya Kawahara. 1-5 [doi]

ICASSP 2023 Spoken Language Understanding Grand ChallengeAkshat Shrivastava, Suyoun Kim, Paden Tomasello, Ali Elkahky, Daniel Lazar, Trang Le, Shan Jiang, Duc Le, Aleksandr Livshits, Ahmed Aly. 1-2 [doi]

Enhancing the Efficiency of WMMSE and FP for Beamforming by Minorization-MaximizationZepeng Zhang, Ziping Zhao, Kaiming Shen. 1-5 [doi]

Spatial Correlation Fusion Network for Few-Shot SegmentationXueliang Wang, Wenqi Huang, Wenming Yang, Qingmin Liao. 1-5 [doi]

Locale Encoding for Scalable Multilingual Keyword Spotting ModelsPai Zhu, Hyun-Jin Park, Alex Park 0001, Angelo Scorza Scarpati, Ignacio Lopez-Moreno. 1-5 [doi]

Mabnet: Master Assistant Buddy Network With Hybrid Learning for Image RetrievalRohit Agarwal, Gyanendra Das, Saksham Aggarwal, Alexander Horsch, Dilip K. Prasad. 1-5 [doi]

Reliable Beamforming at Terahertz Bands: Are Causal Representations the Way Forward?Christo Kurisummoottil Thomas, Walid Saad. 1-5 [doi]

Lexicon-injected Semantic Parsing for Task-Oriented DialogXiaojun Meng, Wenlin Dai, Yasheng Wang, Baojun Wang, Zhiyong Wu 0003, Xin Jiang 0002, Qun Liu 0001. 1-5 [doi]

Towards Controllable Audio Texture MorphingChitralekha Gupta, Purnima Kamath, Yize Wei, Zhuoyao Li, Suranga Nanayakkara, Lonce Wyse. 1-5 [doi]

SFR: Semantic-Aware Feature Rendering of Point CloudYaohua Zha, Rongsheng Li, Tao Dai 0001, Jianyu Xiong, Xin Wang, Shu-Tao Xia. 1-5 [doi]

Adapting Exploratory Behaviour in Active Inference for Autonomous DrivingSheida Nozari, Ali Krayani, Pablo Marin, Lucio Marcenaro, David Martín 0001, Carlo S. Regazzoni. 1-5 [doi]

Single Domain Dynamic Generalization for Iris Presentation Attack DetectionYachun Li, Jingjing Wang, Yuhui Chen, Di Xie, Shiliang Pu. 1-5 [doi]

Tempo vs. Pitch: Understanding Self-Supervised Tempo EstimationGiovana Morais, Matthew E. P. Davies, Marcelo Queiroz, Magdalena Fuentes. 1-5 [doi]

IR-ECG: Invertible Reconstruction of ECGPeng Wang, Xi Huang, Li Cui. 1-5 [doi]

Class-Aware Contextual Information for Semantic SegmentationHuadong Tang, Youpeng Zhao, Yingying Jiang, Zhuoxin Gan, Qiang Wu. 1-5 [doi]

Utilization of Bessel Beams in Wideband Sub Terahertz Communication Systems to Mitigate Beamsplit Effects in the Near-fieldArjun Singh, Vitaly Petrov, Josep Miquel Jornet. 1-5 [doi]

Revisit Out-Of-Vocabulary Problem For Slot Filling: A Unified Contrastive Framework With Multi-Level Data AugmentationsDaichi Guo, Guanting Dong, Dayuan Fu, Yuxiang Wu, Chen Zeng, Tingfeng Hui, Liwen Wang, Xuefeng Li, Zechen Wang, Keqing He, Xinyue Cui, Weiran Xu. 1-5 [doi]

Joint Discriminator and Transfer Based Fast Domain Adaptation For End-To-End Speech RecognitionHang Shao, Tian Tan, Wei Wang, Xun Gong 0005, Yanmin Qian. 1-5 [doi]

Improving Massively Multilingual ASR with Auxiliary CTC ObjectivesWilliam Chen, Brian Yan, Jiatong Shi, Yifan Peng, Soumi Maiti, Shinji Watanabe 0001. 1-5 [doi]

Enhancing Robustness and Imperceptibility of Blind Watermarking with Improved Message ProcessorYufeng Wu, Baowei Wang, Changyu Dai, Yi Yuan, Bin Li, Weiqian Zheng, Hao Wu. 1-5 [doi]

Predicting Multi-Codebook Vector Quantization Indexes for Knowledge DistillationLiyong Guo, Xiaoyu Yang, Quandong Wang, Yuxiang Kong, Zengwei Yao, Fan Cui, Fangjun Kuang, Wei Kang 0006, Long Lin, Mingshuang Luo, Piotr Zelasko, Daniel Povey. 1-5 [doi]

A Few Shot Learning of Singing Technique Conversion Based on Cycle Consistency Generative Adversarial NetworksPo-Wei Chen, Von-Wun Soo. 1-5 [doi]

HQP-MVS:High-Quality Plane Priors Assisted Multi-View Stereo for Low-Textured AreasZefan Tian, Rongjie Wang, Zhenyu Wang 0002, Ronggang Wang. 1-5 [doi]

Evopose: A Recursive Transformer for 3D Human Pose Estimation with Kinematic Structure PriorsYaqi Zhang, Yan Lu, Bin Liu 0016, Zhiwei Zhao, Qi Chu 0001, Nenghai Yu. 1-5 [doi]

Cross-Modality depth Estimation via Unsupervised Stereo RGB-to-infrared TranslationShi Tang, Xinchen Ye, Fei Xue, Rui Xu 0002. 1-5 [doi]

Saliency-Driven Hierarchical Learned Image Coding for MachinesKristian Fischer, Fabian Brand, Christian Blum 0004, André Kaup. 1-5 [doi]

Interpolation of Spatial Room Impulse Responses Using Partial Optimal TransportAaron Geldert, Nils Meyer-Kahlen, Sebastian J. Schlecht. 1-5 [doi]

CyFi-TTS: Cyclic Normalizing Flow with Fine-Grained Representation for End-to-End Text-to-SpeechIn-Sun Hwang, Youngsub Han, Byoung-Ki Jeon. 1-5 [doi]

A3S: Adversarial Learning of Semantic Representations for Scene-Text SpottingMasato Fujitake. 1-5 [doi]

Dual-Feature Enhancement for Weakly Supervised Temporal Action LocalizationSiying Liu, Qiankun Liu, Qi Chu 0001, Bin Liu 0016, Nenghai Yu. 1-5 [doi]

Deep Implicit Distribution Alignment Networks for cross-Corpus Speech Emotion RecognitionYan Zhao, Jincen Wang, Yuan Zong, Wenming Zheng, Hailun Lian, Li Zhao 0003. 1-5 [doi]

Spatial Graph Signal Interpolation with an Application for Merging BCI Datasets with Various DimensionalitiesYassine El Ouahidi, Lucas Drumetz, Giulia Lioi, Nicolas Farrugia, Bastien Pasdeloup, Vincent Gripon. 1-5 [doi]

Automatic Classification of Vocal Intensity Category from SpeechManila Kodali, Sudarsana Reddy Kadiri, Laura Laaksonen, Paavo Alku. 1-5 [doi]

Deep Autoencoding One-Class time Series Anomaly DetectionXudong Mou, Rui Wang, Tiejun Wang, Jie Sun, Bo Li, Tianyu Wo, Xudong Liu 0001. 1-5 [doi]

Modulo EEG Signal Recovery Using TransformerTianyu Geng, Feng Ji, Pratibha, Wee-Peng Tay. 1-5 [doi]

Selective Film Conditioning with CTC-Based ASR Probability for Speech EnhancementDa-Hee Yang, Joon-Hyuk Chang. 1-5 [doi]

Learning From Label Proportion with Online Pseudo-Label Decision by Regret MinimizationShinnosuke Matsuo, Ryoma Bise, Seiichi Uchida, Daiki Suehiro. 1-5 [doi]

LINK: Linguistic Steganalysis Framework with External KnowledgeJinshuai Yang, Zhongliang Yang, Xinrui Ge, Jiajun Zou, Yue Gao, Yongfeng Huang 0001. 1-5 [doi]

Self-Supervised Learning with Bi-Label Masked Speech Prediction for Streaming Multi-Talker Speech RecognitionZili Huang, Zhuo Chen 0006, Naoyuki Kanda, Jian Wu, Yiming Wang, Jinyu Li, Takuya Yoshioka, Xiaofei Wang 0009, Peidong Wang. 1-5 [doi]

TFCnet: Time-Frequency Domain Corrector for Speech SeparationWeinan Tong, Jiaxu Zhu, Jun Chen, Zhiyong Wu 0001, Shiyin Kang, Helen Meng. 1-5 [doi]

Compressive Sensing with Tensorized AutoencoderRakib Hyder, M. Salman Asif. 1-5 [doi]

Hybrid Ris-Assisted Interference Mitigation for Spectrum SharingFangzhou Wang, A. Lee Swindlehurst. 1-5 [doi]

Coupled CP Tensor Decomposition with Shared and Distinct Components for Multi-Task Fmri Data FusionR. A. Borsoi, Isabell Lehmann, Mohammad A. B. S. Akhonda, Vince D. Calhoun, Konstantin Usevich, David Brie, Tülay Adali. 1-5 [doi]

Context-Aware Fine-Tuning of Self-Supervised Speech ModelsSuwon Shon, Felix Wu, Kwangyoun Kim, Prashant Sridhar, Karen Livescu, Shinji Watanabe 0001. 1-5 [doi]

Vision Transformer with Progressive Tokenization for CT Metal Artifact ReductionSongwei Zheng, Dong Zhang, Chunyan Yu, Danhong Zhu, Longlong Zhu, Hao Liu, Zhongzheng Huang. 1-5 [doi]

RDO Candidate Selection for Maximizing Coding Efficiency in a Practical HEVC EncoderJoose Sainio, Alexandre Mercat, Jarno Vanne. 1-5 [doi]

Self Supervised Bert for Legal Text ClassificationArghya Pal, Sailaja Rajanala, Raphaël C.-W. Phan, KokSheik Wong. 1-5 [doi]

Bimodal Fusion Network for Basic Taste Sensation Recognition from Electroencephalography and ElectromyographyHan Gao 0006, Shuo Zhao, Huiyan Li, Li Liu, You Wang 0001, Ruifen Hu, Jin Zhang, Guang Li 0001. 1-5 [doi]

Sparse Non-Contact Multiple People Localization and Vital Signs Monitoring Via FMCW RadarYonathan Eder, Zhuoyang Liu, Yonina C. Eldar. 1-5 [doi]

Hyperbolic Audio Source SeparationDarius Petermann, Gordon Wichern, Aswin Shanmugam Subramanian, Jonathan Le Roux. 1-5 [doi]

DRL Path Planning for UAV-Aided V2X Networks: Comparing Discrete to Continuous Action SpacesLeonardo Spampinato, Alessia Tarozzi, Chiara Buratti, Riccardo Marini. 1-5 [doi]

Sparse Error Correction for Power Network ParametersDilan Senaratne, Jinsub Kim. 1-5 [doi]

An Antispoofing Approach in Biometric Authentication System for a SmartcardHan-Sol Lee, Moonkyu Song, Junseo Lee, Yeol-Min Seong, Ducksoo Kim, Kwanghyuk Bae, Seongwook Song. 1-5 [doi]

Soft Dynamic Time Warping for Multi-Pitch Estimation and BeyondMichael Krause 0002, Christof Weiß, Meinard Müller. 1-5 [doi]

Volumetric Attribute Compression for 3D Point Clouds Using Feedforward Network with Geometric AttentionTam Thuc Do, Philip A. Chou, Gene Cheung. 1-5 [doi]

VE-KWS: Visual Modality Enhanced End-to-End Keyword SpottingAo Zhang, He Wang, Pengcheng Guo, Yihui Fu, Lei Xie 0001, Yingying Gao, Shilei Zhang, Junlan Feng. 1-5 [doi]

Automatic Camera Pose Estimation by Key-Point Matching of Reference ObjectsJinchen Zeng, Rick Butler, John van den Dobbelsteen, Benno H. W. Hendriks, Maarten Van der Elst, Justin Dauwels. 1-5 [doi]

The Multimodal Information Based Speech Processing (Misp) 2022 Challenge: Audio-Visual Diarization And RecognitionZhe Wang, Shilong Wu, Hang Chen, Mao-Kui He, Jun Du, Chin-Hui Lee 0001, Jingdong Chen, Shinji Watanabe 0001, Sabato Marco Siniscalchi, Odette Scharenborg, Diyuan Liu, Baocai Yin, Jia Pan, Jianqing Gao, Cong Liu 0006. 1-5 [doi]

Lightweight Prosody-TTS for Multi-Lingual Multi-Speaker ScenarioGiridhar Pamisetty, Sahukari Chaitanya Varun, K. Sri Rama Murty. 1-2 [doi]

A Graph Neural Network Multi-Task Learning-Based Approach for Detection and Localization of Cyberattacks in Smart GridsAbdulrahman Takiddin, Rachad Atat, Muhammad Ismail 0001, Katherine R. Davis 0001, Erchin Serpedin. 1-5 [doi]

CLIP4VideoCap: Rethinking Clip for Video Captioning with Multiscale Temporal Fusion and Commonsense KnowledgeTanvir Mahmud, Feng Liang, Yaling Qing, Diana Marculescu. 1-5 [doi]

A Spatio-Temporal Decomposition Network for Compressed Video Quality EnhancementKai Wang, Fangdong Chen, Zongmiao Ye, Li Wang, Xiaoyang Wu, Shiliang Pu. 1-5 [doi]

Improving Audio Captioning Using Semantic Similarity MetricsRehana Mahfuz, Yinyi Guo, Erik Visser. 1-5 [doi]

Improved Deep Speaker Localization and Tracking: Revised Training Paradigm and Controlled LatencyAlexander Bohlender, Liesbeth Roelens, Nilesh Madhu. 1-5 [doi]

Improved Appliance Transient Feature Extraction Via Template MatchingBo Liu 0072, Fenglei Chang, Wenpeng Luan, Bochao Zhao. 1-5 [doi]

Improving Accented Speech Recognition with Multi-Domain TrainingLucas Maison, Yannick Estève. 1-5 [doi]

The R3VIVAL Dataset: Repository of Room Responses and 360 Videos of a Variable Acoustics LabFlorian Klein, Sebastià V. Amengual Garí. 1-5 [doi]

Low in Resolution, High in Precision: UAV Detection with Super-Resolution and Motion Information ExtractionHanzhuo Wang, Xingjian Wang, Chengwei Zhou, Wenchao Meng, Zhiguo Shi 0001. 1-5 [doi]

Audio-Visual Speaker Diarization in the Framework of Multi-User Human-Robot InteractionTimothée Dhaussy, Bassam Jabaian, Fabrice Lefèvre, Radu Horaud. 1-5 [doi]

Combining Loss Reweighting and Sample Resampling for Long-Tailed Instance SegmentationYaochi Zhao, Sen Chen, Qiong Chen, Zhuhua Hu. 1-5 [doi]

Preserving Background Sound in Noise-Robust Voice Conversion Via Multi-Task LearningJixun Yao, Yi Lei, Qing Wang 0039, Pengcheng Guo, Ziqian Ning, Lei Xie 0001, Hai Li, Junhui Liu, Danming Xie. 1-5 [doi]

Predictive Skim: Contrastive Predictive Coding for Low-Latency Online Speech SeparationChenda Li, Yifei Wu, Yanmin Qian. 1-5 [doi]

Improving Transformer-Based Networks with Locality for Automatic Speaker VerificationMufan Sang, Yong Zhao 0008, Gang Liu 0001, John H. L. Hansen, Jian Wu. 1-5 [doi]

Continilm: A Continual Learning Scheme for Non-Intrusive Load MonitoringStavros Sykiotis, Maria Kaselimi, Anastasios Doulamis, Nikolaos Doulamis. 1-5 [doi]

Bag of Tricks with Quantized Convolutional Neural Networks for Image ClassificationJie Hu 0019, Mengze Zeng, Enhua Wu. 1-5 [doi]

Lightweight, Multi-Speaker, Multi-Lingual Indic Text-to-SpeechAbhayjeet Singh, Amala Nagireddi, Deekshitha G, Jesuraja Bandekar, Roopa R., Sandhya Badiger, Sathvik Udupa, Prasanta Kumar Ghosh, Hema A. Murthy, Heiga Zen, Pranaw Kumar, Kamal Kant, Amol Bole, Bira Chandra Singh, Keiichi Tokuda, Mark Hasegawa-Johnson, Philipp Olbrich. 1-2 [doi]

Pseudo Multi-Source Domain Extension and Selective Pseudo-Labeling for Unsupervised Domain Adaptive Medical Image SegmentationXiaokang Liu, Zhiqiang Wang, Kai Hu 0002, Xieping Gao. 1-5 [doi]

Does Your Model Think Like an Engineer? Explainable AI for Bearing Fault Detection with Deep LearningThomas Decker 0004, Michael Lebacher, Volker Tresp. 1-5 [doi]

MPE4G : Multimodal Pretrained Encoder for Co-Speech Gesture GenerationGwantae Kim, Seonghyeok Noh, Insung Ham, Hanseok Ko. 1-5 [doi]

Logo-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial Expression RecognitionFuyan Ma, Bin Sun 0001, Shutao Li. 1-5 [doi]

Learnt Mutual Feature Compression for Machine VisionTie Liu, Mai Xu, Shengxi Li, Chaoran Chen, Li Yang, Zhuoyi Lv. 1-5 [doi]

Logovit: Local-Global Vision Transformer for Object Re-IdentificationNguyen-Phan, Ta Duc Huy, Soan Thi Minh Duong, Nguyen Hoang Tran, Sam Tran, Dao Huu Hung, Chanh D. Tr. Nguyen, Trung H. Bui, Steven Q. H. Truong. 1-5 [doi]

Rate-Distortion Optimization with Alternative References for UGC Video CompressionXin Xiong, Eduardo Pavez, Antonio Ortega, Balu Adsumilli. 1-5 [doi]

A Dual-Path Transformer Network for Scene Text DetectionJingyu Lin, Yan Yan, Hanzi Wang. 1-5 [doi]

Disambiguation of Cognitive Impairment Diagnosis with EEG-Based Dual-Contrastive LearningZhenxi Song, Zian Pei, Huixia Ren, Lin Zhu, Yi Guo, Zhiguo Zhang. 1-5 [doi]

Semantics-Disentangled Contrastive Embedding for Generalized Zero-Shot LearningJian Ni, Yong Liao. 1-5 [doi]

MoLE : Mixture Of Language Experts For Multi-Lingual Automatic Speech RecognitionYoohwan Kwon, Soo-Whan Chung. 1-5 [doi]

Powerful and Extensible WFST Framework for Rnn-Transducer LossesAleksandr Laptev, Vladimir Bataev, Igor Gitman, Boris Ginsburg. 1-5 [doi]

Test Your Samples Jointly: Pseudo-Reference for Image Quality EvaluationMarcelin Tworski, Stéphane Lathuilière. 1-5 [doi]

Explicit and Implicit Knowledge Distillation via Unlabeled DataYuzheng Wang, Zuhao Ge, Zhaoyu Chen, Xian Liu, Chuangjia Ma, Yunquan Sun, Lizhe Qi. 1-5 [doi]

Depth Estimation for a Single Omnidirectional Image with Reversed-Gradient Warming-up Thresholds DiscriminatorYihong Wu, Yuwen Heng, Mahesan Niranjan, Hansung Kim. 1-5 [doi]

Promoting Cooperation in Multi-Agent Reinforcement Learning via Mutual HelpYunbo Qiu, Yue Jin, Lebin Yu, Jian Wang 0030, Xudong Zhang. 1-5 [doi]

Mutually Guided Few-Shot Learning For Relational Triple ExtractionChengmei Yang, Shuai Jiang, Bowei He, Chen Ma 0001, Lianghua He. 1-5 [doi]

Pseudo-Query Generation For Semi-Supervised Visual Grounding With Knowledge DistillationJianglin Jin, Jiabo Ye, Xin Lin, Liang He 0001. 1-5 [doi]

Improving Adversarial Robustness with Hypersphere Embedding and Angular-Based RegularizationsOlukorede Fakorede, Ashutosh Nirala, Modeste Atsague, Jin Tian. 1-5 [doi]

CAT: Causal Audio Transformer for Audio ClassificationXiaoyu Liu 0003, Hanlin Lu, Jianbo Yuan, Xinyu Li. 1-5 [doi]

Dynamic Signed Graph LearningAbdullah Karaaslanli, Selin Aviyente. 1-5 [doi]

Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the InputDaisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino. 1-5 [doi]

Make Your Enemy Your Friend: Improving Image Rotation Angle Estimation with HarmonicsKun Yu, Morteza Darvish Morshedi Hosseini, Anjie Peng, Hui Zeng, Miroslav Goljan. 1-5 [doi]

SEPDIFF: Speech Separation Based on Denoising Diffusion ModelBo Chen, Chao Wu, Wenbin Zhao. 1-5 [doi]

Permutation Invariant Training for Paraphrase IdentificationJun Bai, Chuantao Yin, Hanhua Hong, Jianfei Zhang, Chen Li, Yanmeng Wang, Wenge Rong. 1-5 [doi]

SLBERT: A Novel Pre-Training Framework for Joint Speech and Language ModelingOnkar Susladkar, Prajwal Gatti, Santosh Kumar Yadav. 1-5 [doi]

Interpretable Multi-Scale Neural Network for Granger Causality DiscoveryChenchen Fan, Yixin Wang, Yahong Zhang, Wenli Ouyang. 1-5 [doi]

Exploiting Multi-Decision and Deep Refinement for Ultrasound Image SegmentationWenjing Liu, Xuanya Li, Kai Hu, Xieping Gao. 1-5 [doi]

Streaming Voice Conversion via Intermediate Bottleneck Features and Non-Streaming Teacher GuidanceYuanzhe Chen, Ming Tu, Tang Li 0001, Xin Li, Qiuqiang Kong, Jiaxin Li, Zhichao Wang, Qiao Tian, Yuping Wang, Yuxuan Wang. 1-5 [doi]

On Negative Sampling for Contrastive Audio-Text RetrievalHuang Xie, Okko Räsänen, Tuomas Virtanen. 1-5 [doi]

SPECTRANET-SO(3): Learning Satellite Orientation from Optical Spectra by Implicitly Modeling Mutually Exclusive Probability Distributions on The Rotation ManifoldMatthew Phelps, Ryan Swindle, J. Zachary Gazak, Andrew Vandenberg, Justin Fletcher. 1-5 [doi]

An Adaptive DFE Using Light-Pattern-Protection Algorithm in 12 NM CMOS TechnologyShiyuan Xing, Changlong Lin, Yuchen Li, Huandong Wang. 1-5 [doi]

Adaptive Non-Local Generative Adversarial Networks for Low-Dose CT Image DenoisingLinlin Yang, Hongying Liu, Fanhua Shang, Yuanyuan Liu 0001. 1-5 [doi]

Integrating Syntactic and Semantic Knowledge in AMR Parsing with Heterogeneous Graph Attention NetworkYikemaiti Sataer, Chuanqi Shi, Miao Gao, Yunlong Fan, Bin Li, Zhiqiang Gao. 1-5 [doi]

Target Speaker Extraction with Ultra-Short Reference Speech by VE-VE FrameworkLei Yang, Wei Liu, Lufen Tan, Jaemo Yang, Han-gil Moon. 1-5 [doi]

On the Quantization of Recurrent Neural Networks for Smiles GenerationAdriano Durao, Joel P. Arrais, Bernardete Ribeiro, Gabriel Falcao. 1-5 [doi]

Articulation GAN: Unsupervised Modeling of Articulatory LearningGasper Begus, Alan Zhou, Peter Wu, Gopala Krishna Anumanchipalli. 1-5 [doi]

SFEMGN: Image Denoising with Shallow Feature Enhancement Network and Multi-Scale ConvGRUQidong Wang, Lili Guo, Shifei Ding, Jian Zhang, Xiao Xu. 1-5 [doi]

Adaptive Data Augmentation for Contrastive LearningYuhan Zhang, He Zhu, Shan Yu. 1-5 [doi]

Spatially Informed Independent vector analysis for Source Extraction based on the convolutive Transfer Function ModelXianrui Wang, Andreas Brendel, Gongping Huang, Yichen Yang, Walter Kellermann, Jingdong Chen. 1-5 [doi]

Möbius Total Variation for Directed Acyclic GraphsVedran Mihal, Markus Püschel. 1-5 [doi]

High-Level Feature Fusion Network for Session-Based Social RecommendationLiuyin Wang, Mingchao Li, Hai-Tao Zheng 0002. 1-5 [doi]

Convolutional Recurrent Neural Networks for the Classification of Cetacean Bioacoustic PatternsDimitris N. Makropoulos, Antigoni Tsiami, Aristides Prospathopoulos, Dimitris Kassis, Alexandros Frantzis, Emmanuel K. Skarsoulis, George Piperakis, Petros Maragos. 1-5 [doi]

Articulatory Representation Learning via Joint Factor Analysis and Neural Matrix FactorizationJiachen Lian, Alan W. Black, Yijing Lu, Louis Goldstein, Shinji Watanabe 0001, Gopala Krishna Anumanchipalli. 1-5 [doi]

Joint Microstrip Selection and Beamforming Design for MmWave Systems with Dynamic Metasurface AntennasWei Huang, Haiyang Zhang, Nir Shlezinger, Yonina C. Eldar. 1-5 [doi]

Benchmarking White Blood Cell Classification under Domain ShiftSatoshi Tsutsui, Zhengyang Su, Bihan Wen. 1-5 [doi]

Cascading and Direct Approaches to Unsupervised Constituency Parsing on Spoken SentencesYuan Tseng, Cheng-I Jeff Lai, Hung-yi Lee. 1-5 [doi]

Incorporating Reliability in Graph Information Propagation by Fluid Dynamics Diffusion: A case of Multimodal Semisupervised Deep LearningAndrea Marinoni, Marine Mercier, Qian Shi, Sivasakthy Selvakumaran, Mark Girolami. 1-5 [doi]

Improving Learning Objectives for Speaker Verification from the Perspective of Score ComparisonMin Hyun Han, Sung Hwan Mun, Minchan Kim, Myeonghun Jeong, SungHwan Ahn, Nam Soo Kim. 1-5 [doi]

Building Blocks for a Complex-Valued Transformer ArchitectureFlorian Eilers, Xiaoyi Jiang 0001. 1-5 [doi]

GaPP: Multi-Target Tracking with Gaussian ProcessesFred Goodyer, Bashar I. Ahmad, Simon J. Godsill. 1-5 [doi]

Unsupervised Fine-Tuning Data Selection for ASR Using Self-Supervised Speech ModelsReem Gody, David Harwath. 1-5 [doi]

Whether Contribution of Features Differ Between Video-Mediated and In-Person Meetings in Important Utterance EstimationFumio Nihei, Ryo Ishii, Yukiko I. Nakano, Atsushi Fukayama, Takao Nakamura. 1-5 [doi]

WL-MSR: Watch and Listen for Multimodal Subtitle RecognitionJiawei Liu, Hao Wang, Weining Wang, Xingjian He, Jing Liu. 1-5 [doi]

Framewise Wavegan: High Speed Adversarial Vocoder In Time Domain With Very Low Computational ComplexityAhmed Mustafa, Jean-Marc Valin, Jan Büthe, Paris Smaragdis, Mike Goodwin. 1-5 [doi]

Large-Scale Language Model Rescoring on Long-Form DataTongzhou Chen, Cyril Allauzen, Yinghui Huang, Daniel S. Park, David Rybach, W. Ronny Huang, Rodrigo Cabrera, Kartik Audhkhasi, Bhuvana Ramabhadran, Pedro J. Moreno 0001, Michael Riley 0001. 1-5 [doi]

Embrace Smaller Attention: Efficient Cross-Modal Matching with Dual Gated Attention FusionWeikuo Guo, Xiangwei Kong. 1-5 [doi]

Simultaneous Reconstruction and Uncertainty Quantification for TomographyAgnimitra Dasgupta, Carlo Graziani, Zichao Wendy Di. 1-5 [doi]

Learned Kalman Filtering in Latent Space with High-Dimensional DataItay Buchnik, Damiano Steger, Guy Revach, Ruud J. G. van Sloun, Tirza Routtenberg, Nir Shlezinger. 1-5 [doi]

BEANS: The Benchmark of Animal SoundsMasato Hagiwara, Benjamin Hoffman, Jen-Yu Liu, Maddie Cusimano, Felix Effenberger, Katie Zacarian. 1-5 [doi]

SS-ADMM: Stationary and Sparse Granger Causal Discovery for Cortico-Muscular CouplingFarwa Abbas, Verity M. McClelland, Zoran Cvetkovic, Wei Dai 0001. 1-5 [doi]

ViT-Cat: Parallel Vision Transformers With Cross Attention Fusion for Popularity Prediction in MEC NetworksZohreh Hajiakhondi-Meybodi, Arash Mohammadi 0001, Ming Hou 0002, Jamshid Abouei, Konstantinos N. Plataniotis. 1-5 [doi]

Distributed Online Learning With Adversarial Participants In An Adversarial EnvironmentXingrong Dong, Zhaoxian Wu, Qing Ling 0001, Zhi Tian. 1-5 [doi]

Dual-graph co-representation learning for knowledge-Graph Enhanced RecommendationXinbiao Liu, Bin Liang, Junyu Niu, Chaofeng Sha, Dong Wu. 1-5 [doi]

Multiple Acoustic Features Speech Emotion Recognition Using Cross-Attention TransformerYurun He, Nobuaki Minematsu, Daisuke Saito. 1-5 [doi]

Overview of the L3DAS23 Challenge on Audio-Visual Extended RealityChristian Marinoni, Riccardo F. Gramaccioni, Changan Chen, Aurelio Uncini, Danilo Comminiello. 1-2 [doi]

Relapse Prediction from Long-Term Wearable Data Using Self-Supervised Learning and Survival AnalysisE. Fekas, Athanasia Zlatintsi, Panagiotis Paraskevas Filntisis, Christos Garoufis, Niki Efthymiou, Petros Maragos. 1-5 [doi]

Chord-Conditioned Melody Harmonization With Controllable HarmonicityShangda Wu, Xiaobing Li, Maosong Sun. 1-5 [doi]

A Lightweight Fourier Convolutional Attention Encoder for Multi-Channel Speech EnhancementSiyu Sun, Jian Jin, Zhe Han, Xianjun Xia, Li Chen, Yijian Xiao, Piao Ding, Shenyi Song, Roberto Togneri, Haijian Zhang. 1-5 [doi]

Practice of the Conformer Enhanced Audio-Visual Hubert on Mandarin and EnglishXiaoming Ren, Chao Li, Shenjian Wang, Biao Li. 1-5 [doi]

Unsupervised Video Anomaly Detection For Stereotypical Behaviours in AutismJiaqi Gao, Xinyang Jiang, Yuqing Yang 0001, Dongsheng Li 0002, Lili Qiu. 1-5 [doi]

Log-Can: Local-Global Class-Aware Network For Semantic Segmentation of Remote Sensing ImagesXiaowen Ma, Mengting Ma, Chenlu Hu, Zhiyuan Song, Ziyan Zhao, Tian Feng, Wei Zhang. 1-5 [doi]

Integrating the Sensing and Radio Communications Channel Modelling From Radar Mutual InterferenceNarcís Cardona, J. Samuel Romero, Wenfei Yang, Jian Li. 1-5 [doi]

Overcoming the Seesaw in Monocular 3D Object Detection Via Language Knowledge TransferringWeichen Xu, Tianhao Fu. 1-5 [doi]

Audio Barlow Twins: Self-Supervised Audio Representation LearningJonah Anton, Harry Coppock, Pancham Shukla, Björn W. Schuller. 1-5 [doi]

Improving Automatic Sleep Staging Via Temporal Smoothness RegularizationHuy Phan, Elisabeth R. M. Heremans, Oliver Y. Chén, Philipp Koch, Alfred Mertins, Maarten De Vos. 1-5 [doi]

Kalmanbot: Kalmannet-Aided Bollinger Bands for Pairs TradingHaoran Deng, Guy Revach, Hai Morgenstern, Nir Shlezinger. 1-5 [doi]

Divcon: Learning Concept Sequences for Semantically Diverse Image CaptioningYue Zheng, Ya-Li Li, Shengjin Wang. 1-5 [doi]

Sanet: Spatial Attention Network with Global Average Contrast Learning for Infrared Small Target DetectionJiewen Zhu, Shengjia Chen, Lexiao Li, Luping Ji. 1-5 [doi]

Conversation-Oriented ASR with Multi-Look-Ahead CBS ArchitectureHuaibo Zhao, Shinya Fujie, Tetsuji Ogawa, Jin Sakuma, Yusuke Kida, Tetsunori Kobayashi. 1-5 [doi]

A Meta-Gnn Approach to Personalized Seizure Detection and ClassificationAbdellah Rahmani, Arun Venkitaraman, Pascal Frossard. 1-5 [doi]

Multimodal Facial Action unit Detection with Physiological SignalsZhihua Li, Lijun Yin. 1-5 [doi]

NNSVS: A Neural Network-Based Singing Voice Synthesis ToolkitRyuichi Yamamoto, Reo Yoneyama, Tomoki Toda. 1-5 [doi]

Robust Monocular Localization of Drones by Adapting Domain Maps to Depth Prediction InaccuraciesPriyesh Shukla, Sureshkumar S., Alex C. Stutts, Sathya Ravi, Theja Tulabandhula, Amit Ranjan Trivedi. 1-5 [doi]

Loss Function Design for DNN-Based Sound Event Localization and Detection on Low-Resource Realistic DataQing Wang 0008, Jun Du, Zhaoxu Nian, Shutong Niu, Li Chai 0002, Huaxin Wu, Jia Pan, Chin-Hui Lee 0001. 1-5 [doi]

Delay-Aware Backpressure Routing Using Graph Neural NetworksZhongyuan Zhao 0002, Bojan Radojicic, Gunjan Verma, Ananthram Swami, Santiago Segarra. 1-5 [doi]

Restoration of Time-Varying Graph Signals using Deep Algorithm UnrollingHayate Kojima, Hikari Noguchi, Koki Yamada, Yuichi Tanaka 0001. 1-5 [doi]

Towards Zero-Shot Personalized Table-to-Text Generation with Contrastive Persona DistillationHaolan Zhan, Xuming Lin, Shaobo Cui 0001, Zhongzhou Zhao, Wei Zhou, Haiqing Chen. 1-5 [doi]

Multi-Rate Adaptive Transform Coding for Video CompressionLyndon R. Duong, Bohan Li, Cheng Chen, Jingning Han. 1-5 [doi]

Neural Fourier Shift for Binaural Speech RenderingJin Woo Lee, Kyogu Lee. 1-5 [doi]

FedEEG: Federated EEG Decoding Via inter-Subject Structure MatchingWenlong Hang, Jiaxing Li, Shuang Liang, Yuan Wu, Baiying Lei, Jing Qin 0001, Yu Zhang, Kup-Sze Choi. 1-5 [doi]

COVID-19 Detection from Speech in Noisy ConditionsShuo Liu, Adria Mallol-Ragolta, Björn W. Schuller. 1-5 [doi]

Using Modified Adult Speech as Data Augmentation for Child Speech RecognitionZijian Fan, Xinwei Cao, Giampiero Salvi, Torbjørn Svendsen. 1-5 [doi]

Distance-Based Online Label Inference Attacks Against Split LearningJunlin Liu, Xinchen Lyu. 1-5 [doi]

Passive Acoustic Tracking of Whales in 3-DJunsu Jang, Florian Meyer, Eric R. Snyder, Sean M. Wiggins, Simone Baumann-Pickering, John A. Hildebrand. 1-5 [doi]

Joint Human Orientation-Activity Recognition Using WIFI Signals for Human-Machine InteractionHojjat Salehinejad, Navid Hasanzadeh, Radomir Djogo, Shahrokh Valaee. 1-5 [doi]

Building Change Detection Using Cross-Temporal Feature Interaction NetworkYuchao Feng, Jiawei Jiang, Honghui Xu, Jianwei Zheng 0001. 1-5 [doi]

Learned Generative Misspecified Lower BoundHai Victor Habi, Hagit Messer, Yoram Bresler. 1-5 [doi]

Low-Rank Plus Sparse Trajectory Decomposition for Direct Exoplanet ImagingSimon Vary, Hazan Daglayan, Laurent Jacques, Pierre-Antoine Absil. 1-5 [doi]

Local Graph-Homomorphic Processing for Privatized Distributed SystemsElsa Rizk, Stefan Vlaski, Ali H. Sayed. 1-5 [doi]

Frame-Level Multi-Label Playing Technique Detection Using Multi-Scale Network and Self-Attention MechanismDichucheng Li, Mingjin Che, Wenwu Meng, Yulun Wu, Yi Yu 0001, Fan Xia, Wei Li 0032. 1-5 [doi]

Ensemble Graph Q-Learning for Large Scale NetworksTalha Bozkus, Urbashi Mitra. 1-5 [doi]

Synthetic Pseudo Anomalies for Unsupervised Video Anomaly Detection: A Simple Yet Efficient Framework Based on Masked AutoencoderXiangyu Huang, Caidan Zhao, Chenxing Gao, Lvdong Chen, Zhiqiang Wu 0001. 1-5 [doi]

Joint Symbol-Level Precoding and Sub-Block-Level RIS Design for Dual-Function Radar-CommunicationsLinlong Wu, Bowen Wang, Ziyang Cheng, Bhavani Shankar Mysore Rama Rao, Björn E. Ottersten. 1-5 [doi]

Bit Error and Block Error Rate Training for ML-Assisted CommunicationReinhard Wiesmayr, Gian Marti, Chris Dick, Haochuan Song, Christoph Studer. 1-5 [doi]

Token2vec: A Joint Self-Supervised Pre-Training Framework Using Unpaired Speech and TextXianghu Yue, Junyi Ao, Xiaoxue Gao, Haizhou Li 0001. 1-5 [doi]

Distributed Admm with Limited Communications Via Deep UnfoldingYoav Noah, Nir Shlezinger. 1-5 [doi]

Robust Online Multiband Drift Estimation in Electrophysiology DataCharlie Windolf, Angelique C. Paulk, Yoav Kfir, Eric Trautmann, Domokos Meszéna, William Muñoz, Irene Caprara, Mohsen Jamali, Julien Boussard, Ziv M. Williams, Sydney S. Cash, Liam Paninski, Erdem Varol. 1-5 [doi]

Soft Label Coding for end-to-end Sound Source Localization with ad-hoc Microphone ArraysLinfeng Feng, Yijun Gong, Xiao-lei Zhang. 1-5 [doi]

HuBERT-AGG: Aggregated Representation Distillation of Hidden-Unit Bert for Robust Speech RecognitionWei Wang, Yanmin Qian. 1-5 [doi]

SMUG: Towards Robust Mri Reconstruction by Smoothed UnrollingHui Li, Jinghan Jia, Shijun Liang, Yuguang Yao, Saiprasad Ravishankar, Sijia Liu 0001. 1-5 [doi]

Few but Informative Local Hash Code Matching for Image RetrievalZechao Hu, Adrian G. Bors. 1-5 [doi]

Recurrent Fine-Grained Self-Attention Network for Video Crowd CountingJifan Zhang, Zhe Wu, Xinfeng Zhang 0001, Guoli Song, Yaowei Wang, Jie Chen 0001. 1-5 [doi]

Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised Style Extractor and Hierarchical Modeling in Speech SynthesisChunyu Qiang, Peng Yang, Hao Che, Ying Zhang, Xiaorui Wang, Zhongyuan Wang 0006. 1-5 [doi]

A Multi-Channel Aggregation Framework for Object Detection in Large-Scale SAR ImageChule Yang, Chao Zhang, Zunlin Fan, Zeting Yu, Qianchong Sun, Mengyuan Dai. 1-5 [doi]

Toroidal Probabilistic Spherical Discriminant AnalysisAnna Silnova, Niko Brümmer, Albert Swart, Lukás Burget. 1-5 [doi]

Synthesizer Preset Interpolation Using Transformer Auto-EncodersGwendal Le Vaillant, Thierry Dutoit. 1-5 [doi]

Asymmetric Polynomial Loss for Multi-Label ClassificationYusheng Huang, Jiexing Qi, Xinbing Wang, Zhouhan Lin. 1-5 [doi]

E-Prevention: The ICASSP-2023 Challenge on Person Identification and Relapse Detection from Continuous Recordings of BiosignalsAthanasia Zlatintsi, Panagiotis Paraskevas Filntisis, Niki Efthymiou, Christos Garoufis, George Retsinas, Thomas Sounapoglou, Ilias Maglogiannis, Panayiotis Tsanakas, Nikolaos Smyrnis, Petros Maragos. 1-2 [doi]

Towards Scale Adaptive Underwater Detection Through Refined Pyramid GridXiaoheng Deng, Lirong Liao, Ping Jiang, Yurong Qian. 1-5 [doi]

Deep AHS: A Deep Learning Approach to Acoustic Howling SuppressionHao Zhang, Meng Yu, Dong Yu. 1-5 [doi]

Recursive/Iterative Unique Projection-Aggregation Decoding of Reed-Muller CodesMarzieh Hashemipour-Nazari, Renate Debets, Kees Goossens, Alexios Balatsoukas-Stimming. 1-5 [doi]

String-Based Molecule Generation Via Multi-Decoder VAEKisoo Kwon, Kuhwan Jeong, JungHyun Park, Hwidong Na, Jinwoo Shin. 1-5 [doi]

Second-Order Statistic Deviation to Model Anomalies in the Design of Unsupervised DetectorsAndriy Enttsel, Filippo Martinini, Alex Marchioni, Mauro Mangia, Riccardo Rovatti, Gianluca Setti. 1-5 [doi]

Contrastive Learning with Dialogue Attributes for Neural Dialogue GenerationJie Tan, Hengyi Cai, Hongshen Chen, Hong Cheng, Helen Meng, Zhuoye Ding. 1-5 [doi]

Quantifying Catastrophic Forgetting in Continual Federated LearningChristophe Dupuy, Jimit Majmudar, Jixuan Wang, Tanya G. Roosta, Rahul Gupta 0001, Clement Chung, Jie Ding 0002, Salman Avestimehr. 1-5 [doi]

Self-Attention Based Action Segmentation Using Intra-And Inter-Segment RepresentationsConstantin Patsch, Eckehard G. Steinbach. 1-5 [doi]

ERSAM: Neural Architecture Search for Energy-Efficient and Real-Time Social Ambiance MeasurementChaojian Li, Wenwan Chen, Jiayi Yuan, Yingyan Celine Lin, Ashutosh Sabharwal. 1-5 [doi]

Unsupervised Anomaly Detection and Localization of Machine Audio: A Gan-Based ApproachAnbai Jiang, Wei-Qiang Zhang, YuFeng Deng, Pingyi Fan, Jia Liu. 1-5 [doi]

Wordreg: Mitigating the Gap between Training and Inference with Worst-Case Drop RegularizationJun Xia, Ge Wang, Bozhen Hu, Cheng Tan 0012, Jiangbin Zheng, Yongjie Xu, Stan Z. Li. 1-5 [doi]

Study on the Fairness of Speaker Verification Systems Across Accent and Gender GroupsMariel Estévez, Luciana Ferrer. 1-5 [doi]

Target Sound Extraction with Variable Cross-Modality CluesChenda Li, Yao Qian, Zhuo Chen 0006, Dongmei Wang, Takuya Yoshioka, Shujie Liu 0001, Yanmin Qian, Michael Zeng 0001. 1-5 [doi]

VQ-CL: Learning Disentangled Speech Representations with Contrastive Learning and Vector QuantizationHuaizhen Tang, Xulong Zhang 0001, Jianzong Wang, Ning Cheng 0001, Jing Xiao 0006. 1-5 [doi]

Light Field Compression Via Compact Neural Scene RepresentationJinglei Shi, Christine Guillemot. 1-5 [doi]

Modeling Global Latent Semantic in Multi-Turn Conversations with Random Context ReconstructionChengwen Zhang, Danqin Wu. 1-5 [doi]

Identifying Entrainment in Task-Oriented ConversationsRun Chen, Seokhwan Kim, Alexandros Papangelis, Julia Hirschberg, Yang Liu 0004, Dilek Hakkani-Tür. 1-5 [doi]

Multi-View Millimeter-Wave Imaging Over Wireless Cellular NetworkXin Tong, Zhaoyang Zhang 0001, Zhaohui Yang 0001. 1-5 [doi]

A Robust Kalman Filter Based Approach for Indoor Robot Positionning with Multi-Path Contaminated UWB DataJustin Cano, Yi Ding, Gaël Pagès, Eric Chaumette, Jerome Le Ny. 1-5 [doi]

Convolution-Based Channel-Frequency Attention for Text-Independent Speaker VerificationJingyu Li, Yusheng Tian, Tan Lee. 1-5 [doi]

Enhancing and Adversarial: Improve ASR with Speaker LabelsWei Zhou, Haotian Wu, Jingjing Xu, Mohammad Zeineldeen, Christoph Lüscher, Ralf Schlüter, Hermann Ney. 1-5 [doi]

Target Velocity Estimation for Quantization-Based Cooperative MIMO Radar and Communications SystemZhen Wang, Xuedan Yan, Qian He 0002, Rick S. Blum. 1-5 [doi]

Large Covariance Matrix Estimation with Oracle Statistical RateQuan Wei, Ziping Zhao 0002. 1-5 [doi]

Elastic Graph Transformer Networks for EEG-Based Emotion RecognitionWei-Bang Jiang, Xu Yan, Wei-Long Zheng, Bao-Liang Lu. 1-5 [doi]

Client Selection for Generalization in Accelerated Federated Learning: A Bandit ApproachDan Ben Ami, Kobi Cohen, Qing Zhao 0001. 1-5 [doi]

Enhancing Spatio-Spectral Regularization by Structure Tensor Modeling for Hyperspectral Image DenoisingShingo Takemoto, Shunsuke Ono. 1-5 [doi]

Learning From Positive and Unlabeled Data Using Observer-GANOmar Zamzam, Haleh Akrami, Richard M. Leahy. 1-5 [doi]

Keyword-Specific Acoustic Model Pruning for Open-Vocabulary Keyword SpottingYujie Yang, Kun Zhang, Zhiyong Wu 0001, Helen Meng. 1-5 [doi]

Efficient Feature Extraction for Non-Maximum Suppression in Visual Person DetectionCharalampos Symeonidis, Ioannis Mademlis, Ioannis Pitas, Nikos Nikolaidis 0001. 1-5 [doi]

Sparse Asynchronous Samples from Networks of Tems for Reconstruction of Classes of Non-Bandlimited SignalsMarek Hilton, Pier Luigi Dragotti. 1-5 [doi]

Multimodal Emotion Recognition Based on Deep Temporal Features Using Cross-Modal Transformer and Self-AttentionBubai Maji, Monorama Swain, Rajlakshmi Guha, Aurobinda Routray. 1-5 [doi]

TreeXGNN: can gradient-boosted decision trees help boost heterogeneous graph neural networks?Ming-Yi Hong, Shih-Yen Chang, Hao-Wei Hsu, Yi-Hsiang Huang, Chih-Yu Wang, Che Lin. 1-5 [doi]

A Compensated Shrinkage Affine Projection Algorithm for Debiased Sparse Adaptive FilteringYi Zhang, Isao Yamada. 1-5 [doi]

Nonparallel High-Quality Audio Super Resolution with Domain Adaptation and Resampling CycleGANsReo Yoneyama, Ryuichi Yamamoto, Kentaro Tachibana. 1-5 [doi]

Effective Graph-Based Modeling of Articulation Traits for Mispronunciation Detection and DiagnosisBi-Cheng Yan, Hsin-Wei Wang, Yi-Cheng Wang, Berlin Chen. 1-5 [doi]

Benchmarking Convolutional Neural Network Inference on Low-Power Edge DevicesOscar Ferraz, Helder Araujo, Vítor Silva 0001, Gabriel Falcão Paiva Fernandes. 1-5 [doi]

End-to-End Classification of Cell-Cycle Stages with Center-Cell Focus Tracker Using Recurrent Neural NetworksAbin Jose, Rijo Roy, Dennis Eschweiler, Ina Laube, Reza Azad, Daniel Moreno-Andrés, Johannes Stegmaier. 1-5 [doi]

An Application of Quantum Mechanics to Attention Methods in Computer VisionJuntao Zhang, Yihao Luo, Peng Cheng, Zehan Li, Hao Wu, Kun Yu, Wenbo An, Jun Zhou. 1-5 [doi]

Tensorized LSSVMS For Multitask RegressionJiani Liu 0002, Qinghua Tao, Ce Zhu, Yipeng Liu 0001, Johan A. K. Suykens. 1-5 [doi]

Adaptive Scale and Spatial Aggregation for Real-Time Object DetectionWei Chen 0009, Yulin He, Zhengfa Liang, Yulan Guo. 1-5 [doi]

A Variational Inequality Model for Learning Neural NetworksPatrick L. Combettes, Jean-Christophe Pesquet, Audrey Repetti. 1-5 [doi]

Cross-Training: A Semi-Supervised Training Scheme for Speech RecognitionSoheil Khorram, Anshuman Tripathi, Jaeyoung Kim, Han Lu, Qian Zhang, Rohit Prabhavalkar, Hasim Sak. 1-5 [doi]

Time-Weighted Frequency Domain Audio Representation with GMM Estimator for Anomalous Sound DetectionJian Guan, Youde Liu, Qiaoxi Zhu, Tieran Zheng, Jiqing Han 0001, Wenwu Wang 0001. 1-5 [doi]

Boosting Transferability of Adversarial Example via an Enhanced Euler's MethodAnjie Peng, Zhi Lin, Hui Zeng, Wenxin Yu, Xiangui Kang. 1-5 [doi]

Progressive Refinement Learning Based on Feature Cross Perception for Residential Areas Semantic SegmentationXinran Lyu, Libao Zhang. 1-5 [doi]

Asymptotic Distribution of Stochastic Mirror Descent Iterates in Average Ensemble ModelsTaylan Kargin, Fariborz Salehi, Babak Hassibi. 1-5 [doi]

SDTN: Speaker Dynamics Tracking Network for Emotion Recognition in ConversationJiawei Chen, Peijie Huang, Guotai Huang, Qianer Li, Yuhong Xu. 1-5 [doi]

Knowledge-Augmented Frame Semantic Parsing with Hybrid Prompt-TuningRui Zhang, Yajing Sun, Jingyuan Yang, Wei Peng. 1-5 [doi]

Noncoherent Multiuser Grassmannian Constellations for the Mimo Multiple Access ChannelJavier Álvarez-Vizoso, Diego Cuevas, Carlos Beltrán 0001, Ignacio Santamaría, Vít Tucek, Gunnar Peters. 1-5 [doi]

Enhanced Low-Resolution LiDAR-Camera Calibration via Depth Interpolation and Supervised Contrastive LearningZhikang Zhang, Zifan Yu, Suya You, Raghuveer Rao, Sanjeev Agarwal, Fengbo Ren. 1-5 [doi]

Preformer: Predictive Transformer with Multi-Scale Segment-Wise Correlations for Long-Term Time Series ForecastingDazhao Du, Bing Su 0001, Zhewei Wei. 1-5 [doi]

Infrared and Visible Image Fusion by Using Multi-Scale Transformation and Fractional-Order Gradient InformationShiwei Wu, Kang Zhang, Xia Yuan, Chunxia Zhao. 1-5 [doi]

Unsupervised Speaker Verification Using Pre-Trained Model and Label CorrectionZhicong Chen, Jie Wang, Wenxuan Hu, Lin Li 0032, Qingyang Hong. 1-5 [doi]

Associative Learning Network for Coherent Visual StorytellingXin Li, Chunping Liu, Yi Ji 0001. 1-5 [doi]

Efficient and Effective Multi-Camera Pose Estimation with Weighted M-Estimate Sample ConsensusXinyu Lin, Yingjie Zhou, Xun Zhang 0002, Yipeng Liu 0001, Ce Zhu. 1-5 [doi]

Coarse-to-Fine Covid-19 Segmentation via Vision-Language AlignmentDandan Shan, Zihan Li, Wentao Chen, Qingde Li, Jie Tian 0001, Qingqi Hong. 1-5 [doi]

Adaptive Semantic Fusion Framework for Unsupervised Monocular Depth EstimationRuoqi Li, Huimin Yu, Kaiyang Du, Zhuoling Xiao, Bo Yan, Zhengxi Yuan. 1-5 [doi]

Parafac2-Based Coupled Matrix and Tensor FactorizationsCarla Schenker, Xiulin Wang, Evrim Acar. 1-5 [doi]

Time-Resolved FMRI Shared Response Model Using Gaussian Process Factor AnalysisMohammadReza Ebrahimi, Navona Calarco, Colin Hawco, Aristotle N. Voineskos, Ashish Khisti. 1-5 [doi]

End-to-End Amp Modeling: from Data to Controllable Guitar Amplifier ModelsLauri Juvela, Eero-Pekka Damskägg, Aleksi Peussa, Jaakko Mäkinen, Thomas Sherson, Stylianos I. Mimilakis, Kimmo Rauhanen, Athanasios Gotsopoulos. 1-5 [doi]

Analysing Discrete Self Supervised Speech Representation For Spoken Language ModelingAmitay Sicherman, Yossi Adi. 1-5 [doi]

LiteG2P: A Fast, Light and High Accuracy Model for Grapheme-to-Phoneme ConversionChunfeng Wang, Peisong Huang, Yuxiang Zou, Haoyu Zhang, Shichao Liu, Xiang Yin 0006, Zejun Ma. 1-5 [doi]

Unsupervised Word Segmentation Using Temporal Gradient Pseudo-LabelsTzeviya Sylvia Fuchs, Yedid Hoshen. 1-5 [doi]

A Statistical Interpretation of the Maximum Subarray ProblemDennis Wei, Dmitry M. Malioutov. 1-5 [doi]

Electric Network Frequency Detection Using Least Absolute DeviationsChristos Korgialas, Constantine Kotropoulos. 1-5 [doi]

UNTAG: Learning Generic Features for Unsupervised Type-Agnostic Deepfake DetectionNesryne Mejri, Enjie Ghorbel, Djamila Aouada. 1-5 [doi]

Two-Stage Neural Network for ICASSP 2023 Speech Signal Improvement ChallengeMingshuai Liu, Shubo Lv, Zihan Zhang, Runduo Han, Xiang Hao, Xianjun Xia, Li Chen, Yijian Xiao, Lei Xie 0001. 1-2 [doi]

A Memory-Free Evolving Bipolar Neural Network for Efficient Multi-Label Stream LearningSourav Mishra, Suresh Sundaram 0003. 1-5 [doi]

CDHD: Contrastive Dreamer for Hint DistillationLe Yu, Tongyan Hua, Wenming Yang, Peng Ye, Qingmin Liao. 1-5 [doi]

CC-PoseNet: Towards Human Pose Estimation in Crowded ClassroomsZefang Yu, Yanping Hu, Suncheng Xiang, Ting Liu 0016, Yuzhuo Fu. 1-5 [doi]

Variational Message Passing-Based Respiratory Motion Estimation and Detection Using Radar SignalsJakob Möderl, Erik Leitinger, Franz Pernkopf, Klaus Witrisal. 1-5 [doi]

Lightweight Annotation and Class Weight Training for Automatic Estimation of Alarm Audibility in NoiseFrançois Effa, Romain Serizel, Jean-Pierre Arz, Nicolas Grimault. 1-5 [doi]

Disentangled and Robust Representation Learning for Bragging Classification in Social MediaXiang Li, Yucheng Zhou. 1-5 [doi]

Simultaneous Acoustic Echo Sorting and 3-D Room Geometry InferenceKathleen MacWilliam, Filip Elvander, Toon van Waterschoot. 1-5 [doi]

Adapter Tuning With Task-Aware Attention MechanismJinliang Lu, Feihu Jin, Jiajun Zhang 0001. 1-5 [doi]

LiNuIQA: Lightweight No-Reference Image Quality Assessment Based on Non-Uniform WeightingWook-Hyung Kim, Cheul-Hee Hahm, Anant Baijal, NamUk Kim, Ilhyun Cho, Jayoon Koo. 1-5 [doi]

Composition of Motion from Video Animation Through Learning Local TransformationsMichalis Vrigkas, Virginia Tagka, Marina E. Plissiti, Christophoros Nikou. 1-5 [doi]

Supercm: Revisiting Clustering for Semi-Supervised LearningDurgesh Singh, Ahcène Boubekki, Robert Jenssen, Michael C. Kampffmeyer. 1-5 [doi]

ψ-Net: Point Structural Information Network for No-Reference Point Cloud Quality AssessmentJian Xiong 0005, Sifan Wu, Wang Luo, Jinli Suo, Hao Gao 0005. 1-5 [doi]

Group Personalized Federated LearningZhe Liu 0011, Yue Hui, Fuchun Peng. 1-5 [doi]

Disentangled Training with Adversarial Examples for Robust Small-Footprint Keyword SpottingZhenyu Wang, Li Wan, Biqiao Zhang, Yiteng Huang, Shang-wen Li, Ming Sun, Xin Lei, Zhaojun Yang. 1-5 [doi]

Binary Sequence Set Optimization for CDMA Applications via Mixed-Integer Quadratic ProgrammingAlan Yang, Tara Yasmin Mina, Grace Xingxin Gao. 1-5 [doi]

ASSD: Synthetic Speech Detection in the AAC Compressed DomainAmit Kumar Singh Yadav, Ziyue Xiang, Emily R. Bartusiak, Paolo Bestagini, Stefano Tubaro, Edward J. Delp. 1-5 [doi]

Hierarchical Multi-Task Learning for Fabric Component Analysis Based on NIR Spectral SignalsJoseph Kim, Dong Wu, Mingmin Chi, Gaoqi Xu. 1-5 [doi]

Speaker-Aware Hierarchical Transformer For Personality Recognition In Multiparty DialoguesWenjing Han, Yirong Chen, Xiaofen Xing, Guohua Zhou, Xiangmin Xu. 1-5 [doi]

Exploring Wav2vec 2.0 Fine Tuning for Improved Speech Emotion RecognitionLi-Wei Chen, Alexander Rudnicky. 1-5 [doi]

Selinet: A Lightweight Model for Single Channel Speech SeparationHa Minh Tan, Duc Quang Vu, Jia-Ching Wang. 1-5 [doi]

RIS Reflection and Placement Optimisation for Underlay D2D Communications in Cognitive Cellular NetworksSarbani Ghose, Deepak Mishra 0001, Santi P. Maity, George C. Alexandropoulos. 1-5 [doi]

Causal Discovery and Causal Inference Based Counterfactual Fairness in Machine LearningYajing Wang, Zongwei Luo. 1-5 [doi]

Bipartite Graph Convolutional Networks with Adversarial Domain TransferDong Wu, Bin Liang, Xiangjun Liu, Xuan Zang, Mingmin Chi. 1-5 [doi]

Online Binaural Speech Separation Of Moving Speakers With A Wavesplit NetworkCong Han, Nima Mesgarani. 1-5 [doi]

Position-Aware Graph-Based Learning of Whole Slide ImagesMilan Aryal, Nasim Yahya Soltani. 1-5 [doi]

Attention-Guided Deep Learning Framework For Movement Quality AssessmentAditya Kanade, Mansi Sharma, Manivannan Muniyandi. 1-5 [doi]

A Proximal Approach to IVA-G with Convergence GuaranteesClément Cosserat, Ben Gabrielson, Émilie Chouzenoux, Jean-Christophe Pesquet, Tülay Adali. 1-5 [doi]

Provably Convergent Plug & Play Linearized ADMM, Applied to Deblurring Spatially Varying KernelsCharles Laroche, Andrés Almansa, Eva Coupeté, Matias Tassano. 1-5 [doi]

Syngen: A Syntactic Plug-And-Play Module for Generative Aspect-Based Sentiment AnalysisChengze Yu, Taiqiang Wu, Jiayi Li, Xingyu Bai, Yujiu Yang. 1-5 [doi]

Toward Privacy-Enhancing Ambulatory-Based Well-Being Monitoring: Investigating User Re-Identification Risk in Multimodal DataRavi Pranjal, Ranjana Seshadri, Rakesh Kumar Sanath Kumar Kadaba, TianTian Feng, Shrikanth S. Narayanan, Theodora Chaspari. 1-5 [doi]

Mimo Radar Transmit Beampattern Matching Via Manifold OptimizationWeijie Xiong, Jinfeng Hu, Kai Zhong. 1-5 [doi]

Diversifying Message Aggregation in Multi-Agent Communication Via Normalized Tensor Nuclear Norm RegularizationYuanzhao Zhai, Kele Xu, Bo Ding, Dawei Feng, Zijian Gao, Huaimin Wang. 1-5 [doi]

Deep Unfolded Tensor Robust PCA With Self-Supervised LearningHarry Dong, Megna Shah, Sean Donegan, Yuejie Chi. 1-5 [doi]

Personalizing Federated Learning with Over-The-Air ComputationsZihan Chen, Zeshen Li, Howard H. Yang, Tony Q. S. Quek. 1-5 [doi]

Transcription Free Filler Word Detection with Neural Semi-CRFsGe Zhu, Yujia Yan, Juan Pablo Cáceres, Zhiyao Duan. 1-5 [doi]

Masking Speech Contents by Random Splicing: is Emotional Expression Preserved?Felix Burkhardt, Anna Derington, Matthias Kahlau, Klaus R. Scherer, Florian Eyben, Björn W. Schuller. 1-5 [doi]

Audio-Driven High Definetion and Lip-Synchronized Talking Face Generation Based on Face ReenactmentXianyu Wang, Yuhan Zhang, Weihua He, Yaoyuan Wang, Minglei Li, Yuchen Wang, Jingyi Zhang, Shunbo Zhou, Ziyang Zhang. 1-5 [doi]

Cutting Through the Noise: An Empirical Comparison of Psycho-Acoustic and Envelope-based Features for Machinery Fault DetectionPeter Wibetabrock, Yvonne Richter, David Pelkmann, Zhao Ren, Gregory Palmer. 1-5 [doi]

Resource Allocation for UAV-Enabled Integrated Sensing and Communication (ISAC) via Multi-Objective OptimizationOmid Rezaei, Mohammad Mahdi Naghsh, Seyed Mohammad Karbasi, Mohammad Mahdi Nayebi. 1-5 [doi]

MHSCNET: A Multimodal Hierarchical Shot-Aware Convolutional Network for Video SummarizationWujiang Xu, Runzhong Wang, Xiaobo Guo, Shaoshuai Li, Qiongxu Ma, Yunan Zhao, Sheng Guo 0005, Zhenfeng Zhu, Junchi Yan. 1-5 [doi]

Robust Hyperspectral Anomaly Detection with Simultaneous Mixed Noise Removal via Constrained Convex OptimizationKoyo Sato, Shunsuke Ono. 1-5 [doi]

A Highly Interpretable Deep Equilibrium Network for Hyperspectral Image DeconvolutionAlexandros Gkillas, Dimitris Ampeliotis, Kostas Berberidis. 1-5 [doi]

The DKU Post-Challenge Audio-Visual Wake Word Spotting System for the 2021 MISP Challenge: Deep AnalysisHaoxu Wang, Ming Cheng, Qiang Fu, Ming Li 0026. 1-5 [doi]

HDNet: Hierarchical Dynamic Network for Gait Recognition using Millimeter-wave radarYanyan Huang, Yong Wang, Kun Shi 0003, Chaojie Gu, Yu Fu, Cheng Zhuo, Zhiguo Shi 0001. 1-5 [doi]

Deep Architecture for DOA Trajectory LocalizationShreyas Jaiswal, Ruchi Pandey, Santosh Nannuru. 1-5 [doi]

Privacy-Enhanced Federated Learning Against Attribute Inference Attack for Speech Emotion RecognitionHuan Zhao, Haijiao Chen, Yufeng Xiao, Zixing Zhang. 1-5 [doi]

UML: A Universal Monolingual Output Layer For Multilingual AsrChao Zhang, Bo Li 0028, Tara N. Sainath, Trevor Strohman, Shuo-Yiin Chang. 1-5 [doi]

Compressive Estimation of Near Field Channels for Ultra Massive-Mimo Wideband THz SystemsSimon Tarboush, Anum Ali, Tareq Y. Al-Naffouri. 1-5 [doi]

Weakly-Supervised Scene-Specific Crowd Counting Using Real-Synthetic Hybrid DataYaowu Fan, Jia Wan, Yuan Yuan, Qi Wang. 1-5 [doi]

Newton-Based Trainable Learning RateGeorge Retsinas, Giorgos Sfikas, Panagiotis Paraskevas Filntisis, Petros Maragos. 1-5 [doi]

Hierarchical Transformer for Multi-Label Trailer Genre ClassificationZihui Cai, Hongwei Ding, Xuemeng Wu, Mohan Xu, Xiaohui Cui. 1-5 [doi]

Cross-Modal Matching and Adaptive Graph Attention Network for RGB-D Scene RecognitionYuhui Guo, Xun Liang 0001, James T. Kwok, Xiangping Zheng, Bo Wu, Yuefeng Ma. 1-5 [doi]

Joint Training and Decoding for Multilingual End-to-End Simultaneous Speech TranslationWuwei Huang, Renren Jin, Wen Zhang, Jian Luan 0001, Bin Wang 0004, Deyi Xiong. 1-5 [doi]

Dual-Path Dilated Convolutional Recurrent Network with Group Attention for Multi-Channel Speech EnhancementJiaming Cheng, Cong Pang, Ruiyu Liang, Jingjie Fan, Li Zhao 0003. 1-2 [doi]

Fully Unsupervised Topic Clustering of Unlabelled Spoken Audio Using Self-Supervised Representation Learning and Topic ModelTakashi Maekaku, Yuya Fujita, Xuankai Chang, Shinji Watanabe 0001. 1-5 [doi]

Enhancing the Accuracy of Resistive In-Memory Architectures using Adaptive Signal ProcessingHan-Mo Ou, Naresh R. Shanbhag. 1-5 [doi]

ST-MVDNet++: Improve Vehicle Detection with Lidar-Radar Geometrical Augmentation via Self-TrainingYu-Jhe Li, Matthew O'Toole, Kris Kitani. 1-5 [doi]

Estimation of High-Dimensional Differential Graphs from Multi-Attribute DataJitendra K. Tugnait. 1-5 [doi]

BATT: Backdoor Attack with Transformation-Based TriggersTong Xu, Yiming Li 0004, Yong Jiang 0001, Shu-Tao Xia. 1-5 [doi]

Node-Wise Domain Adaptation Based on Transferable Attention for Recognizing Road Rage via EEGXueqi Gao, Chao Xu 0003, Yihang Song, Jing Hu 0007, Jian Xiao, Zhaopeng Meng. 1-5 [doi]

Capturing Cross-Scale Disparity for Stereo Image Super-ResolutionKun He, Changyu Li, Dongyang Zhang, Jie Shao 0001. 1-5 [doi]

Improved Training Of Mixture-Of-Experts Language GANsYekun Chai, Qiyue Yin, Junge Zhang. 1-5 [doi]

Generalized Invariant Matching Property Via LassoKang Du, Yu Xiang 0004. 1-5 [doi]

Exploiting Prompt Learning with Pre-Trained Language Models for Alzheimer's Disease DetectionYi Wang, Jiajun Deng, Tianzi Wang, Bo Zheng, Shoukang Hu, Xunying Liu, Helen Meng. 1-5 [doi]

Robust Time Series Recovery and Classification Using Test-Time Noise Simulator NetworksEun Som Jeon, Suhas Lohit, Rushil Anirudh, Pavan K. Turaga. 1-5 [doi]

Local to global prior Learning for blind Unsupervised Image super ResolutionKazuhiro Yamawaki, Xian-Hua Han. 1-5 [doi]

Phonetic Anchor-Based Transfer Learning to Facilitate Unsupervised Cross-Lingual Speech Emotion RecognitionShreya G. Upadhyay, Luz Martinez-Lucas, Bo-Hao Su, Wei-Cheng Lin, Woan-Shiuan Chien, Ya-Tse Wu, William Katz, Carlos Busso, Chi-Chun Lee. 1-5 [doi]

TOPO-MLP : A Simplicial Network without Message PassingKarthikeyan Natesan Ramamurthy, Aldo Guzmán-Sáenz, Mustafa Hajij. 1-5 [doi]

Implicit Bayes Adaptation: A Collaborative Transport ApproachBo Jiang, Hamid Krim, Tianfu Wu 0001, Derya Cansever. 1-5 [doi]

MLCGAN: Multi-Lead ECG Synthesis with Multi Label Conditional Generative Adversarial NetworkJian Wu, Liping Wang, Hailin Pan, Binyu Wang. 1-5 [doi]

Contextually-Rich Human Affect Perception Using Multimodal Scene InformationDigbalay Bose, Rajat Hebbar, Krishna Somandepalli, Shrikanth Narayanan. 1-5 [doi]

Customized Automatic Face BeautificationWang Chen, Peizhen Chen, Weijie Chen, Luojun Lin. 1-5 [doi]

Model-Matching Principle Applied to the Design of an Array-Based All-Neural Binaural Rendering System for Audio TelepresenceYicheng Hsu, Chenghung Ma, Mingsian R. Bai. 1-5 [doi]

Transadapt: A Transformative Framework for Online Test Time Adaptive Semantic SegmentationDebasmit Das, Shubhankar Borse, Hyojin Park, Kambiz Azarian, Hong Cai, Risheek Garrepalli, Fatih Porikli. 1-5 [doi]

Sparse Delay-Doppler Channel Estimation for OTFS Modulation Using 2D-MusicAkshay S. Bondre, Christ D. Richmond, Ahmed Alkhateeb, Nicolò Michelusi. 1-5 [doi]

Active Learning of non-Semantic Speech Tasks with Pretrained modelsHarlin Lee, Aaqib Saeed, Andrea L. Bertozzi. 1-5 [doi]

Free-View Expressive Talking Head Video EditingYuantian Huang, Satoshi Iizuka, Kazuhiro Fukui. 1-5 [doi]

Co-Design for Mimo Radar and Mimo Communication Aided by Reconfigurable Intelligent SurfaceDa Li, Bo Tang, Lei Xue. 1-5 [doi]

Contextual Similarity is More Valuable Than Character Similarity: An Empirical Study for Chinese Spell CheckingDing Zhang, Yinghui Li, Qingyu Zhou, Shirong Ma, Yangning Li, Yunbo Cao, Hai-Tao Zheng 0002. 1-5 [doi]

A Multi-Stage Low-Latency Enhancement System for Hearing AidsChengwei Ouyang, Kexin Fei, Haoshuai Zhou, Congxi Lu, Linkai Li. 1-2 [doi]

Play It Back: Iterative Attention For Audio RecognitionAlexandros Stergiou, Dima Damen. 1-5 [doi]

Choice Fusion As Knowledge For Zero-Shot Dialogue State TrackingRuolin Su, Jingfeng Yang, Ting-Wei Wu, Biing-Hwang Juang. 1-5 [doi]

Certified Robustness of Quantum Classifiers Against Adversarial Examples Through Quantum NoiseJhih-Cing Huang, Yu-Lin Tsai, Chao-Han Huck Yang, Cheng-Fang Su, Chia-Mu Yu, Pin-Yu Chen, Sy-Yen Kuo. 1-5 [doi]

I Hear Your True Colors: Image Guided Audio GenerationRoy Sheffer, Yossi Adi. 1-5 [doi]

A Contrastive Knowledge Transfer Framework for Model Compression and Transfer LearningKaiqi Zhao 0002, Yitao Chen, Ming Zhao. 1-5 [doi]

PCQA-Graphpoint: Efficient Deep-Based Graph Metric for Point Cloud Quality AssessmentMarouane Tliba, Aladine Chetouani, Giuseppe Valenzise, Frédéric Dufaux. 1-5 [doi]

Exploring the Role of Fricatives in Classifying Healthy Subjects and Patients with Amyotrophic Lateral Sclerosis and Parkinson's DiseaseTanuka Bhattacharjee, Yamini Belur, Atchayaram Nalini, Ravi Yadav, Prasanta Kumar Ghosh. 1-5 [doi]

Prefix Tuning for Automated Audio CaptioningMinkyu Kim, Kim Sung-Bin, Tae Hyun Oh. 1-5 [doi]

Target Speaker Voice Activity Detection with Transformers and Its Integration with End-To-End Neural DiarizationDongmei Wang, Xiong Xiao, Naoyuki Kanda, Takuya Yoshioka, Jian Wu 0027. 1-5 [doi]

Weight-Based Mask For Domain AdaptationEunseop Lee, Inhan Kim, Daijin Kim 0001. 1-5 [doi]

ACE-VC: Adaptive and Controllable Voice Conversion Using Explicitly Disentangled Self-Supervised Speech RepresentationsShehzeen Hussain, Paarth Neekhara, Jocelyn Huang, Jason Li, Boris Ginsburg. 1-5 [doi]

Light-Weight CNN-Attention Based Architecture for Hand Gesture Recognition Via ElectromyographySoheil Zabihi, Elahe Rahimian, Amir Asif, Arash Mohammadi 0001. 1-5 [doi]

CLMAE: A Liter and Faster Masked AutoencodersYiran Song, Lizhuang Ma. 1-5 [doi]

Unrestricted Anchor Graph Based GCN for Incomplete Multi-View ClusteringLiang Zhao, Zihao Wang, Yukun Yuan, Feng Ding. 1-5 [doi]

MSFORMER: Multi-Scale Transformer with Neighborhood Consensus for Feature MatchingDongyue Li, Yaping Yan, Dong Liang 0008, Songlin Du. 1-5 [doi]

Improved Indoor Localization With NLOS Signal PropagationsWei Huang, Yixin Zhao, Xuechao Wu, Le Yin. 1-5 [doi]

HappyQuokka System for ICASSP 2023 Auditory EEG ChallengeZhenyu Piao, Miseul Kim, Hyungchan Yoon, Hong-Goo Kang. 1-2 [doi]

Supervised Contrastive Learning as Multi-Objective Optimization for Fine-Tuning Large Pre-Trained Language ModelsYouness Moukafih, Mounir Ghogho, Kamel Smaïli. 1-5 [doi]

A Study of Audio Mixing Methods for Piano Transcription in Violin-Piano EnsemblesHyemi Kim, Jiyun Park, Taegyun Kwon, Dasaem Jeong, Juhan Nam. 1-5 [doi]

Learning Unbiased Rewards with Mutual Information in Adversarial Imitation LearningLihua Zhang, Quan Liu, Zhigang Huang, Lan Wu. 1-5 [doi]

Fully Distributed Federated Learning with Efficient Local CooperationsEvangelos Georgatos, Christos Mavrokefalidis, Kostas Berberidis. 1-5 [doi]

MTDL-NET: Morphological and Temporal Discriminative Learning for Heartbeat ClassificationCan Han, Suncheng Xiang, Dahong Qian. 1-5 [doi]

Efficient Implementation of Robust CUSUM Algorithm to Characterize Nanogaps Measurements with Heavy-Tailed NoiseJavier Kipen, Joakim Jaldén, Shyamprasad N. Raja, Saumey Jain. 1-5 [doi]

Automatic Segmentation of Nasopharyngeal Carcinoma in CT Images Using Dual Attention and Edge DetectionQizhi Wang, Wei Huang, Yuan Zhang, Xuanya Li, Xiongjun Ye, Kai Hu. 1-5 [doi]

Multi-Speaker Speech Synthesis from Electromyographic Signals by Soft Speech Unit PredictionKevin Scheck, Tanja Schultz. 1-5 [doi]

Aleatoric Uncertainty Estimation of Overnight Sleep Statistics Through Posterior Sampling Using Conditional Normalizing FlowsHans Van Gorp, Merel M. van Gilst, Pedro Fonseca 0002, Sebastiaan Overeem, Ruud J. G. van Sloun. 1-5 [doi]

M22: Rate-Distortion Inspired Gradient CompressionYangyi Liu, Sadaf Salehkalaibar, Stefano Rini, Jun Chen 0005. 1-5 [doi]

Hierarchical Network with Decoupled Knowledge Distillation for Speech Emotion RecognitionZiping Zhao 0001, Huan Wang, Haishuai Wang, Björn W. Schuller. 1-5 [doi]

Joint Unsupervised and Supervised Learning for Context-Aware Language IdentificationJinseok Park, Hyung Yong Kim, Jihwan Park, Byeong-Yeol Kim, Shukjae Choi, Yunkyu Lim. 1-5 [doi]

Stay In The Middle: A Semi-Supervised Model for CT Metal Artifact ReductionTao Wang, Hui Yu, Zexin Lu, Zhongzhou Zhang, Jiliu Zhou, Yi Zhang. 1-5 [doi]

Tensor Completion for Efficient and Accurate Hyperparameter Optimisation in Large-Scale Statistical LearningAaman Rebello, Kriton Konstantinidis, Yao Lei Xu, Danilo P. Mandic. 1-5 [doi]

Joint Generative-Contrastive Representation Learning for Anomalous Sound DetectionXiao-Min Zeng, Yan Song, Zhu Zhuo, Yu Zhou, Yu-Hong Li, Hui Xue, Li-Rong Dai 0001, Ian McLoughlin 0001. 1-5 [doi]

Estimation of Visual Contents from Human Brain Signals via VQA Based on Brain-Specific AttentionRyo Shichida, Ren Togo, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama. 1-5 [doi]

BadRes: Reveal the Backdoors Through Residual ConnectionMingrui He, Tianyu Chen, Haoyi Zhou, Shanghang Zhang, Jianxin Li 0002. 1-5 [doi]

Rate-Distortion Optimized Variable-Node-size Trisoup for Point Cloud CodingKyohei Unno, Kohei Matsuzaki, Satoshi Komorita, Kei Kawamura. 1-5 [doi]

Rate Splitting and Precoding Strategies for Multi-User MIMO Broadcast Channels with Common and Private StreamsLiana Khamidullina, André L. F. de Almeida, Martin Haardt. 1-5 [doi]

The NIO System for Audio-Visual Diarization and Recognition in MISP Challenge 2022Gaopeng Xu, Xianliang Wang, Sang Wang, Junfeng Yuan, Wei Guo, Wei Li, Jie Gao. 1-2 [doi]

A Hierarchical Regression Chain Framework for Affective Vocal Burst RecognitionJinchao Li, Xixin Wu, Kaitao Song, Dongsheng Li 0002, Xunying Liu, Helen Meng. 1-5 [doi]

A New Approach to Extract Fetal Electrocardiogram Using Affine Combination of Adaptive FiltersYu Xuan, Xiangyu Zhang, Shuyue Stella Li, Zihan Shen, Xin Xie, Leibny Paola García, Roberto Togneri. 1-5 [doi]

Deep Survival Analysis and Counterfactual Inference Using Balanced RepresentationsMuskan Gupta, Gokul Kannan, Ranjitha Prasad, Garima Gupta. 1-5 [doi]

Compressing Cross-Domain Representation via Lifelong Knowledge DistillationFei Ye 0004, Adrian G. Bors. 1-5 [doi]

Pre-Trained Model Representations and Their Robustness Against Noise for Speech Emotion AnalysisVikramjit Mitra, Vasudha Kowtha, Hsiang-Yun Sherry Chien, Erdrin Azemi, Carlos Avendaño. 1-5 [doi]

AERO: Audio Super Resolution in the Spectral DomainMoshe Mandel, Or Tal, Yossi Adi. 1-5 [doi]

Sequential Datum-Wise Joint Feature Selection and Classification in the Presence of External ClassifierSachini Piyoni Ekanayake, Daphney-Stavroula Zois, Charalampos Chelmis. 1-5 [doi]

S-Feature Pyramid Network and Attention Model for Drone DetectionPengcheng Dong, Chuntao Wang, Zhenyong Lu, Kai Zhang 0010, Wenbo Wan, Jian De Sun 0001. 1-2 [doi]

Towards Improved Sonar Performance Using Environment-Informed Sparse Sub-Array ProcessingAlexandre L'Her, Angélique Drémeau, Florent Le Courtois, Gaultier Real, Xavier Cristol, Yann Stéphan. 1-5 [doi]

Factorized Blank Thresholding for Improved Runtime Efficiency of Neural TransducersDuc Le, Frank Seide, Yuhao Wang, Yang Li, Kjell Schubert, Ozlem Kalinli, Michael L. Seltzer. 1-5 [doi]

Noise PSD Insensitive RTF Estimation in a Reverberant and Noisy EnvironmentChangheng Li, Richard C. Hendriks. 1-5 [doi]

Prefallkd: Pre-Impact Fall Detection Via CNN-ViT Knowledge DistillationTin-Han Chi, Kai-Chun Liu, Chia-Yeh Hsieh, Yu Tsao 0001, Chia-Tai Chan. 1-5 [doi]

Boosting Prompt-Based Few-Shot Learners Through Out-of-Domain Knowledge DistillationXiaoqing Chen, Chengyu Wang 0001, Junwei Dong, Minghui Qiu, Liang Feng, Jun Huang 0007. 1-5 [doi]

Unbiased Unsupervised Stimulus Reconstruction for EEG-Based Auditory Attention DecodingNicolas Heintz, Simon Geirnaert, Tom Francart, Alexander Bertrand. 1-5 [doi]

Learning Hypergraphs From Signals With Dual Smoothness PriorBohan Tang, Siheng Chen, Xiaowen Dong. 1-5 [doi]

CAN2V: Can-Bus Data-Based Seq2seq Model for Vehicle Velocity PredictionJae-Heung Cho, Joon-Hyuk Chang. 1-5 [doi]

Convergence Analysis of Graphical Game-Based Nash Q-Learning using the Interaction Detection Signal of N-Step ReturnYunkai Zhuang, Shangdong Yang, Wenbin Li, Yang Gao 0001. 1-5 [doi]

Spectro-Temporal Post-Filtering Via Short-Time Target Cancellation for Directional Speech Enhancement in a Dual-Microphone Hearing AIDMarcos A. Cantu, Volker Hohmann. 1-5 [doi]

Large-Scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption AugmentationYusong Wu, Ke Chen 0021, Tianyu Zhang, Yuchen Hui, Taylor Berg-Kirkpatrick, Shlomo Dubnov. 1-5 [doi]

Dual Path Modeling for Semantic Matching by Perceiving Subtle ConflictsChao Xue, Di Liang, Sirui Wang, Jing Zhang, Wei Wu. 1-5 [doi]

Graph Neural Networks for Sound Source Localization on Distributed Microphone NetworksEric Grinstein, Mike Brookes, Patrick A. Naylor. 1-5 [doi]

A Contrastive Framework to Enhance Unsupervised Sentence Representation LearningHaoyang Ma, ZeYu Li, Hongyu Guo. 1-5 [doi]

Multi-Speaker End-to-End Multi-Modal Speaker Diarization System for the MISP 2022 ChallengeTao Liu, Zhengyang Chen, Yanmin Qian, Kai Yu 0004. 1-2 [doi]

A Low-Latency Deep Hierarchical Fusion Network for Fullband Acoustic Echo CancellationHaoran Zhao, Nan Li, Runqiang Han, Xiguang Zheng, Chen Zhang, Liang Guo, Bing Yu. 1-2 [doi]

A Two-Branch Network for Video Anomaly Detection with Spatio-Temporal Feature LearningGuoqiu Li, Shengjie Chen, Yujiu Yang, Zhenhua Guo 0001. 1-5 [doi]

Audio-Text Models Do Not Yet Leverage Natural LanguageHo-Hsiang Wu, Oriol Nieto, Juan Pablo Bello, Justin Salamon. 1-5 [doi]

Contrastive Learning-Based Audio to Lyrics Alignment for Multiple LanguagesSimon Durand, Daniel Stoller, Sebastian Ewert. 1-5 [doi]

Wave-U-Net Discriminator: Fast and Lightweight Discriminator for Generative Adversarial Network-Based Speech SynthesisTakuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Shogo Seki. 1-5 [doi]

Toward Asymptotic Optimality: Sequential Unsupervised Regression of Density Ratio for Early ClassificationAkinori F. Ebihara, Taiki Miyagawa, Kazuyuki Sakurai, Hitoshi Imaoka. 1-5 [doi]

WUDA: Unsupervised Domain Adaptation Based on Weak Source Domain LabelsShengjie Liu, Chuang Zhu, Yuan Li, Wenqi Tang. 1-5 [doi]

Interweaved Graph and Attention Network for 3D Human Pose EstimationTi Wang, Hong Liu, Runwei Ding, Wenhao Li, Yingxuan You, Xia Li. 1-5 [doi]

Transceiver Design for MIMO-DFRC SystemsCai-wen, Timothy N. Davidson. 1-5 [doi]

E-Branchformer-Based E2E SLU Toward Stop on-Device ChallengeYosuke Kashiwagi, Siddhant Arora, Hayato Futami, Jessica Huynh, Shih-Lun Wu, Yifan Peng, Brian Yan, Emiru Tsunoo, Shinji Watanabe 0001. 1-2 [doi]

Multicast Beamformer Design for Mimo Coded Caching SystemsMohammad Javad Salehi, Mohammad NaseriTehrani, Antti Tölli. 1-5 [doi]

An Improved Optimal Transport Kernel Embedding Method with Gating Mechanism for Singing Voice Separation and Speaker IdentificationWeiTao Yuan, Yuren Bian, Shengbei Wang, Masashi Unoki, Wenwu Wang 0001. 1-5 [doi]

A DNN-Based Hearing-Aid Strategy For Real-Time Processing: One Size Fits AllFotios Drakopoulos, Arthur Van Den Broucke, Sarah Verhulst. 1-5 [doi]

A New Semi-Supervised Classification Method Using a Supervised Autoencoder for Biomedical ApplicationsCyprien Gille, Frédéric Guyard, Michel Barlaud. 1-5 [doi]

F0 Estimation From Telephone Speech Using Deep Feature LossSupritha M. Shetty, Shraddha Revankar, Nalini C. Iyer, K. T. Deepak. 1-5 [doi]

Enhanced Coprime Array Configuration for DoA Estimation of Non-Circular SignalsNabil Mohsen, Ammar Hawbani, Xingfu Wang, Benjamin Bairrington, Liang Zhao 0004, Saeed H. Alsamhi. 1-5 [doi]

Cross-Modal Audio-Visual Co-Learning for Text-Independent Speaker VerificationMeng Liu, Kong-Aik Lee, Longbiao Wang, Hanyi Zhang, Chang Zeng, Jianwu Dang 0001. 1-5 [doi]

A Bidirectional Joint Model for Spoken Language UnderstandingNguyen Anh Tu, Duong Xuan Hieu, Tu Minh Phuong, Ngo Xuan Bach. 1-5 [doi]

Multi-Dimensional Frequency Dynamic Convolution with Confident Mean Teacher for Sound Event DetectionShengchang Xiao, Xueshuai Zhang, Pengyuan Zhang. 1-5 [doi]

End-to-End Word-Level Disfluency Detection and Classification in Children's Reading AssessmentLavanya Venkatasubramaniam, Vishal Sunder, Eric Fosler-Lussier. 1-5 [doi]

Real-Time Audio-Visual End-To-End Speech EnhancementZirun Zhu, Hemin Yang, Min Tang, Ziyi Yang, Sefik Emre Eskimez, Huaming Wang. 1-5 [doi]

Multi-modal ASR error correction with joint ASR error detectionBinghuai Lin, Liyuan Wang. 1-5 [doi]

A Comprehensive Comparison of Projections in Omnidirectional Super-ResolutionHuicheng Pi, Senmao Tian, Ming Lu, Jiaming Liu, Yandong Guo, Shunli Zhang. 1-5 [doi]

Low Precision Representations for High Dimensional ModelsRajarshi Saha, Mert Pilanci, Andrea J. Goldsmith. 1-5 [doi]

Investigating SINDy as a Tool for Causal Discovery in Time Series SignalsAndrew O'Brien, Rosina Weber, Edward Kim. 1-5 [doi]

Healthcall Corpus and Transformer Embeddings from Healthcare Customer-Agent ConversationsNikola Lackovic, Claude Montacié, Cédric Lequilliec, Marie-José Caraty. 1-5 [doi]

End-to-End Unsupervised Sketch to Image GenerationXingming Lv, Lei Wu 0002, Zhenwei Cheng, Xiangxu Meng. 1-5 [doi]

Towards Making a Trojan-Horse Attack on Text-to-Image RetrievalFan Hu, Aozhu Chen, Xirong Li 0001. 1-5 [doi]

Time-Frequency Awareness Network For Human Mesh Recovery From VideosBoyang Zhang, Suping Wu, Meining Jia. 1-5 [doi]

MEET: A Monte Carlo Exploration-Exploitation Trade-Off for Buffer SamplingJulius Ott, Lorenzo Servadei, Jose A. Arjona-Medina, Enrico Rinaldi, Gianfranco Mauro, Daniela Sanchez Lopera, Michael Stephan, Thomas Stadelmayer, Avik Santra, Robert Wille. 1-5 [doi]

On the Role of Visual Context in Enriching Music RepresentationsKleanthis Avramidis, Shanti Stewart, Shrikanth Narayanan. 1-5 [doi]

A Multi-Scale Feature Aggregation Based Lightweight Network for Audio-Visual Speech EnhancementHaitao Xu, Liangfa Wei, Jie Zhang, Jianming Yang, Yannan Wang, Tian Gao, Xin Fang, Li-Rong Dai 0001. 1-5 [doi]

Glacier: Glass-Box Transformer for Interpretable Dynamic NeuroimagingUsman Mahmood, Zening Fu, Vince D. Calhoun, Sergey M. Plis. 1-5 [doi]

Self-Supervised Audio-Visual Speaker Representation with Co-Meta LearningHui Chen, Hanyi Zhang, Longbiao Wang, Kong-Aik Lee, Meng Liu, Jianwu Dang 0001. 1-5 [doi]

Vani: Very-Lightweight Accent-Controllable TTS for Native And Non-Native Speakers With Identity PreservationRohan Badlani, Akshit Arora, Subhankar Ghosh, Rafael Valle, Kevin J. Shih, João Felipe Santos, Boris Ginsburg, Bryan Catanzaro. 1-2 [doi]

Estimating Inharmonic Signals with Optimal Transport PriorsFilip Elvander. 1-5 [doi]

Accelerated Massive MIMO Detector Based on Annealed Underdamped Langevin DynamicsNicolas Zilberstein, Chris Dick, Rahman Doost-Mohammady, Ashutosh Sabharwal, Santiago Segarra. 1-5 [doi]

Two-Stage Video De-Raining with Spatio-Temporal Fusion and Illumination-Invariant Detail PreservationYufeng Tan, Youjun Xiang, Lei Cai, Pengcheng Wang, Ying Zhang, Yuli Fu 0001. 1-5 [doi]

Streaming Joint Speech Recognition and Disfluency DetectionHayato Futami, Emiru Tsunoo, Kentaro Shibata, Yosuke Kashiwagi, Takao Okuda, Siddhant Arora, Shinji Watanabe 0001. 1-5 [doi]

Light-Weight Sequential SBL Algorithm: An Alternative to OMPRohan R. Pote, Bhaskar D. Rao. 1-5 [doi]

Blind Source Counting and Separation with Relative Harmonic CoefficientsHuiyuan Sun, Prasanga N. Samarasinghe, Thushara D. Abhayapala. 1-5 [doi]

Beyond Rate Coding: Signal Coding and Reconstruction Using Lean Spike TrainsAnik Chattopadhyay, Arunava Banerjee. 1-5 [doi]

Cold Diffusion for Speech EnhancementHao Yen, François G. Germain, Gordon Wichern, Jonathan Le Roux. 1-5 [doi]

Prefix-Level Detection and Autocorrection of Keyboard Input ErrorsJerome R. Bellegarda. 1-5 [doi]

Estimating and Analyzing Neural Information flow using Signal Processing on GraphsFelix Schwock, Julien A. Bloch, Les Atlas, Shima Abadi, Azadeh Yazdan-Shahmorad. 1-5 [doi]

Commdre: Document-Level Relation Extraction with Self-Supervised Commonsense LearningRongzhen Li, Jiang Zhong, Zhongxuan Xue, Qizhu Dai, Chen Wang, Xue Li. 1-5 [doi]

Signal Processing Grand Challenge 2023 - E-Prevention: Sleep Behavior as an Indicator of Relapses in Psychotic PatientsKleanthis Avramidis, Kranti Adsul, Digbalay Bose, Shrikanth Narayanan. 1-2 [doi]

LMBAO: A Landmark Map for Bundle Adjustment Odometry in LiDAR SLAMLetian Zhang, Jinping Wang, Lu Jie, Nanjie Chen, Xiaojun Tan, Zhifei Duan. 1-5 [doi]

Modify: Model-Driven Face Stylization Without Style ImagesYuhe Ding, Jian Liang, Jie Cao 0002, Aihua Zheng, Ran He. 1-5 [doi]

Sparse Graph Learning with Spectrum Prior for Deep Graph Convolutional NetworksJin Zeng, Yang Liu, Gene Cheung, Wei Hu. 1-5 [doi]

Multi-Dimensional and Multi-Scale Modeling for Speech Separation Optimized by Discriminative LearningZhaoxi Mu, Xinyu Yang, Wenjing Zhu. 1-5 [doi]

SUVR: A Search-Based Approach to Unsupervised Visual Representation LearningYi-Zhan Xu, Chih-Yao Chen, Cheng-Te Li. 1-5 [doi]

Spoofed Training Data for Speech Spoofing Countermeasure Can Be Efficiently Created Using Neural VocodersXin Wang, Junichi Yamagishi. 1-5 [doi]

Soft 2D-to-3D Delivery Using Deep Graph Neural Networks for Holographic-Type CommunicationTakuya Fujihashi, Toshiaki Koike-Akino, Takashi Watanabe 0001. 1-5 [doi]

Dynamic Local and Global Context Exploration for Small Object DetectionZiji Zhang, Ping Gong, Haotian Sun, Pingping Wu, Xuanyuan Yang. 1-5 [doi]

Robust Acoustic And Semantic Contextual Biasing In Neural Transducers For Speech RecognitionXuandi Fu, Kanthashree Mysore Sathyendra, Ankur Gandhe, Jing Liu, Grant P. Strimel, Ross McGowan, Athanasios Mouchtaris. 1-5 [doi]

Kernel Estimation and Deconvolution for Blind Image Super-ResolutionJiali Gong, Hongfan Gao, Jiahao Chao, Zhou Zhou, Zhengfeng Yang, Zhenbing Zeng. 1-5 [doi]

Ternary Weight NetworksBin Liu, Fengfu Li, Xiaogang Wang 0001, Bo Zhang, Junchi Yan. 1-5 [doi]

LightGrad: Lightweight Diffusion Probabilistic Model for Text-to-SpeechJie Chen, Xingchen Song, Zhendong Peng, Binbin Zhang, Fuping Pan, Zhiyong Wu 0001. 1-5 [doi]

Exploring Progressive Hybrid-Degraded Image Processing for Homography EstimationYijun Lin, Xingzhe Su, Fengge Wu, Junsuo Zhao. 1-5 [doi]

Detecting Malicious Migration on Edge to Prevent Running Data LeakageYuchen Wong, Qingni Shen, Cong Li, Cunzhan Liu, Tianxiang Ai. 1-5 [doi]

Revisit Sampling Theory of Bandlimited Graph Signals: One Bridge Between GSP and DSPFen Wang, Taihao Li, Xue Zhang. 1-5 [doi]

LDTSF: A Label-Decoupling Teacher-Student Framework for Semi-Supervised Echocardiography SegmentationJiapeng Zhang, Yongxiong Wang, Zhiqun Pan, Zhenhui Tang, Lijun Chen, Jinlong Liu. 1-5 [doi]

Stargan-vc Based Cross-Domain Data Augmentation for Speaker VerificationHang-Rui Hu, Yan Song, Jian-Tao Zhang, Li-Rong Dai 0001, Ian McLoughlin 0001, Zhu Zhuo, Yu Zhou, Yu-Hong Li, Hui Xue. 1-5 [doi]

Generative Modeling Based Manifold Learning for Adaptive Filtering GuidanceKarim Helwani, Paris Smaragdis, Michael M. Goodwin. 1-5 [doi]

Knowledge-Aware Graph Convolutional Network with Utterance-Specific Window Search for Emotion Recognition In ConversationsXiaotong Zhang, Peng He, Han Liu, Zhengxi Yin, Xinyue Liu, Xianchao Zhang. 1-5 [doi]

CTCBERT: Advancing Hidden-Unit Bert with CTC ObjectivesRuchao Fan, Yiming Wang, Yashesh Gaur, Jinyu Li 0001. 1-5 [doi]

Decoding Musical Pitch from Human Brain Activity with Automatic Voxel-Wise Whole-Brain FMRI Feature SelectionVincent K. M. Cheung, Yueh-Po Peng, Jing-Hua Lin, Li Su 0004. 1-5 [doi]

Multitrack Music TransformerHao-Wen Dong, Ke Chen 0021, Shlomo Dubnov, Julian J. McAuley, Taylor Berg-Kirkpatrick. 1-5 [doi]

Convolutional Filtering on Sampled ManifoldsZhiyang Wang, Luana Ruiz, Alejandro Ribeiro. 1-5 [doi]

Auxiliary Pooling Layer For Spoken Language UnderstandingYukun Ma, Trung Hieu Nguyen 0001, Jinjie Ni, Wen Wang, Qian Chen 0003, Chong Zhang 0003, Bin Ma 0001. 1-5 [doi]

Exploring Complementary Features in Multi-Modal Speech Emotion RecognitionSuzhen Wang, Yifeng Ma, Yu Ding 0001. 1-5 [doi]

Prosody-Aware Speecht5 for Expressive Neural TTSYan Deng, Long Zhou, Yuanhao Yi, Shujie Liu 0001, Lei He 0005. 1-5 [doi]

Expressive-VC: Highly Expressive Voice Conversion with Attention Fusion of Bottleneck and Perturbation FeaturesZiqian Ning, Qicong Xie, Pengcheng Zhu, Zhichao Wang, Liumeng Xue, Jixun Yao, Lei Xie 0001, Mengxiao Bi. 1-5 [doi]

Align, Write, Re-Order: Explainable End-to-End Speech Translation via Operation Sequence GenerationMotoi Omachi, Brian Yan, Siddharth Dalmia, Yuya Fujita, Shinji Watanabe 0001. 1-5 [doi]

Exploring Self-Supervised Pre-Trained ASR Models for Dysarthric and Elderly Speech RecognitionShujie Hu, Xurong Xie, Zengrui Jin, Mengzhe Geng, Yi Wang, Mingyu Cui, Jiajun Deng, Xunying Liu, Helen Meng. 1-5 [doi]

Iterative Water-Filling Power and Subcarrier Allocation for Multicarrier NOMA DownlinkChin Choy Chai, Xiaoping Zhang 0003. 1-5 [doi]

Knowledge Distillation with Active Exploration and Self-Attention Based Inter-Class Variation Transfer for Image SegmentationYifan Zhang, Shaojie Li, Xuan Yang. 1-5 [doi]

Speech Reconstruction from Silent Tongue and Lip Articulation by Pseudo Target Generation and Domain Adversarial TrainingRui-Chen Zheng, Yang Ai, Zhen-Hua Ling. 1-5 [doi]

Simulating Realistic Speech Overlaps Improves Multi-Talker ASRMuqiao Yang, Naoyuki Kanda, Xiaofei Wang 0009, Jian Wu 0027, Sunit Sivasankaran, Zhuo Chen 0006, Jinyu Li 0001, Takuya Yoshioka. 1-5 [doi]

A Bayesian Perspective for Determinant Minimization Based Robust Structured Matrix FactorizationGokcan Tatli, Alper T. Erdogan. 1-5 [doi]

Learning 3D Human Pose and Shape Estimation Using Uncertainty-Aware Body Part SegmentationZiming Wang, Han Yu, Xiaoguang Zhu, Zengwen Li, Changxue Chen, Liang Song. 1-5 [doi]

Multi-Blank Transducers for Speech RecognitionHainan Xu, Fei Jia, Somshubra Majumdar, Shinji Watanabe 0001, Boris Ginsburg. 1-5 [doi]

Dual Meta Calibration Mix for Improving Generalization in Meta-LearningZe-Yu Mi, Yu-Bin Yang. 1-5 [doi]

Cross-Utterance ASR Rescoring with Graph-Based Label PropagationSrinath Tankasala, Long Chen, Andreas Stolcke, Anirudh Raju, Qianli Deng, Chander Chandak, Aparna Khare, Roland Maas, Venkatesh Ravichandran. 1-5 [doi]

Learning Dynamic Graphs under Partial ObservabilityMichele Cirillo, Vincenzo Matta, Ali H. Sayed. 1-5 [doi]

A Frequency-Domain Recursive Least-Squares Adaptive Filtering Algorithm Based On A Kronecker Product DecompositionHongsen He, Jingdong Chen, Jacob Benesty, Yi Yu 0002. 1-5 [doi]

Speech Privacy Leakage from Shared Gradients in Distributed LearningZhuohang Li, Jiaxin Zhang, Jian Liu. 1-5 [doi]

DocRED-FE: A Document-Level Fine-Grained Entity and Relation Extraction DatasetHongbo Wang, Weimin Xiong, Yifan Song, Dawei Zhu, Yu Xia, Sujian Li. 1-5 [doi]

Classifying Pathological Images Based on Multi-Instance Learning and End-to-End Attention PoolingYuqi Chen, Juan Liu 0007, Zhiqun Zuo, Peng Jiang, Yu Jin, Guangsheng Wu. 1-5 [doi]

A Large-Scale Pretrained Deep Model for Phishing URL DetectionYanbin Wang, Weifan Zhu, Haitao Xu 0002, Zhan Qin, Kui Ren 0001, Wenrui Ma. 1-5 [doi]

Output-Dependent Gaussian Process State-Space ModelZhidi Lin, Lei Cheng 0003, Feng Yin, Lexi Xu, Shuguang Cui. 1-5 [doi]

Memory-Augmented Contrastive Learning for Talking Head GenerationJianrong Wang, Yaxin Zhao, Hongkai Fan, Tianyi Xu, Qi Li, Sen Li, Li Liu. 1-5 [doi]

2NN: Self-Supervised Learning with Hierarchical Nearest Neighbors for Remote SensingJianlong Yuan, Yuanhong Xu, Zhibin Wang. 1-5 [doi]

Modulation-Based Center Alignment and Motion Mining for Spatial Temporal Action DetectionWeiji Zhao, Kefeng Huang, Chongyang Zhang. 1-5 [doi]

Retrieval-Based Natural 3D Human Motion GenerationZehan Tan, Weidong Yang, Shuai Wu. 1-5 [doi]

Multiresolution Signal Processing of Financial Market ObjectsIoana Boier. 1-5 [doi]

Joint Ann-SNN Co-training for Object Localization and Image SegmentationMarc Baltes, Nidal Abuhajar, Ye Yue, Charles D. Smith, Jundong Liu. 1-5 [doi]

Robust Dominant Periodicity Detection for Time Series with Missing DataQingsong Wen, Linxiao Yang, Liang Sun. 1-5 [doi]

Independent Vector Analysis with Multivariate Gaussian Model: a Scalable Method by Multilinear RegressionBen Gabrielson, Mingyu Sun, Mohammad A. B. S. Akhonda, Vince D. Calhoun, Tülay Adali. 1-5 [doi]

Multi-Functional Reconfigurable Intelligent SurfaceWen Wang, Wanli Ni, Hui Tian 0003, Yonina C. Eldar. 1-5 [doi]

Tayloraecnet: A Taylor Style Neural Network For Full-Band Echo CancellationWeiming Xu, Zhihao Guo. 1-2 [doi]

Online Vector Autoregressive Models Over Expanding GraphsBishwadeep Das, Elvin Isufi. 1-5 [doi]

This Changes to That : Combining Causal and Non-Causal Explanations to Generate Disease Progression in Capsule EndoscopyAnuja Vats, Ahmed Kedir Mohammed, Marius Pedersen, Nirmalie Wiratunga. 1-5 [doi]

PAGE: A Position-Aware Graph-Based Model for Emotion Cause Entailment in ConversationXiaojie Gu, Renze Lou, Lin Sun, Shangxin Li. 1-5 [doi]

Scalable Multi-Task Semantic Communication System with Feature Importance RankingJiangjing Hu, Fengyu Wang, Wenjun Xu 0001, Hui Gao 0001, Ping Zhang 0003. 1-5 [doi]

SIAST: A Slot Imbalance-Aware Self-Training Scheme for Semi-Supervised Slot FillingJiachi Liu, Sishi Xiong, Yuehuan He, Tong Zhou, Liwen Wang, Xuefeng Li, Bo Xiao. 1-5 [doi]

Measure and Countermeasure of the Capsulation Attack Against Backdoor-Based Deep Neural Network WatermarksFang-Qi Li, Shi-Lin Wang, Yun Zhu. 1-5 [doi]

Robust Log-Based Anomaly Detection with Hierarchical Contrastive LearningYuHui Zhao, Ruichun Yang, Ning Yang, Tao Lin, Qiuai Fu, Yuchi Ma. 1-5 [doi]

Raising The Limit of Image Rescaling Using Auxiliary EncodingChenzhong Yin, Zhihong Pan 0001, Xin Zhou, Le Kang, Paul Bogdan. 1-5 [doi]

HIFI++: A Unified Framework for Bandwidth Extension and Speech EnhancementPavel Andreev, Aibek Alanov, Oleg Ivanov, Dmitry P. Vetrov. 1-5 [doi]

Grad-StyleSpeech: Any-Speaker Adaptive Text-to-Speech Synthesis with Diffusion ModelsMinki Kang, Dongchan Min, Sung Ju Hwang. 1-5 [doi]

A Practical Distributed Active Noise Control Algorithm Overcoming Communication RestrictionsJunwei Ji, Dongyuan Shi, Zhengding Luo, Xiaoyi Shen, Woon-Seng Gan. 1-5 [doi]

Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion RecognitionJiaxin Ye, Xin-Cheng Wen, Yujie Wei, Yong Xu, KunHong Liu 0001, Hongming Shan. 1-5 [doi]

Training Neural Networks for Sequential Change-Point DetectionJunghwan Lee, Yao Xie 0002, Xiuyuan Cheng. 1-5 [doi]

Neural Architecture of SpeechSubba Reddy Oota, Khushbu Pahwa, Mounika Marreddy, Manish Gupta 0001, Raju S. Bapi. 1-5 [doi]

Which Country is This Picture From? New Data and Methods For Dnn-Based Country RecognitionOmran Alamayreh, Giovanna Maria Dimitri, Jun Wang, Benedetta Tondi, Mauro Barni. 1-5 [doi]

Managing Information Updating with Edge Computing: A Distributed and Learning ApproachJunyi He, Di Zhang 0010, Shumeng Liu, Yuezhi Zhou, Yaoxue Zhang. 1-5 [doi]

Bayesian Optimization with Ensemble Learning Models and Adaptive Expected ImprovementKonstantinos D. Polyzos, Qin Lu 0002, Georgios B. Giannakis. 1-5 [doi]

Tg-Critic: A Timbre-Guided Model For Reference-Independent Singing EvaluationXiaoheng Sun, Yuejie Gao, Hanyao Lin, Huaping Liu. 1-5 [doi]

Person Identification with Wearable Sensing Using Missing Feature Encoding and Multi-Stage Modality FusionPayal Mohapatra, Akash Pandey, Sinan Keten, Wei Chen, Qi Zhu. 1-2 [doi]

Multilevel FISTA for Image RestorationGuillaume Lauga, Elisa Riccietti, Nelly Pustelnik, Paulo Gonçalves 0001. 1-5 [doi]

Semi-Supervised Domain Generalization with Graph-Based ClassifierMinxiang Ye, Yifei Zhang, Shiqiang Zhu, Anhuan Xie, Senwei Xiang. 1-5 [doi]

Priv-Aug-Shap-ECGResNet: Privacy Preserving Shapley-Value Attributed Augmented Resnet for Practical Single-Lead Electrocardiogram ClassificationArijit Ukil, Leandro Marín, Antonio J. Jara. 1-5 [doi]

Learning Cross-Modal Audiovisual Representations with Ladder Networks for Emotion RecognitionLucas Goncalves, Carlos Busso. 1-5 [doi]

Fine-Grained Private Knowledge DistillationYuntong Li, Shaowei Wang 0003, Yingying Wang, Jin Li, Yuqiu Qian, Bangzhou Xin, Wei Yang. 1-5 [doi]

Hierarchical Spatial-Temporal Transformer with Motion Trajectory for Individual Action and Group Activity RecognitionXiaolin Zhu, Dongli Wang, Yan Zhou. 1-5 [doi]

Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust Speech RecognitionYuchen Hu, Chen Chen, Ruizhe Li, Qiushi Zhu, Eng Siong Chng. 1-5 [doi]

ECG Artifact Removal from Single-Channel Surface EMG Using Fully Convolutional NetworksKuan-Chen Wang, Kai-Chun Liu, Sheng-Yu Peng, Yu Tsao 0001. 1-5 [doi]

GCC-Speaker: Target Speaker Localization with Optimal Speaker-Dependent Weighting in Multi-Speaker ScenariosGuanjun Li, Wei Xue, Wenju Liu, Jiangyan Yi, Jianhua Tao. 1-5 [doi]

UCONV-Conformer: High Reduction of Input Sequence Length for End-to-End Speech RecognitionAndrei Andrusenko, Rauf Nasretdinov, Aleksei Romanenko. 1-5 [doi]

Robust M-Estimation Based Distributed Expectation Maximization Algorithm with Robust AggregationChristian A. Schroth, Stefan Vlaski, Abdelhak M. Zoubir. 1-5 [doi]

Is Quality Enoughƒ Integrating Energy Consumption in a Large-Scale Evaluation of Neural Audio Synthesis ModelsConstance Douwes, Giovanni Bindi, Antoine Caillon, Philippe Esling, Jean-Pierre Briot. 1-5 [doi]

Sample-Aware Knowledge Distillation for Long-Tailed LearningShanshan Zheng, Yachao Zhang, Hongyi Huang, Yanyun Qu. 1-5 [doi]

Semantically-Informed Deep Neural Networks For Sound RecognitionMichele Esposito, Giancarlo Valente, Yenisel Plasencia Calaña, Michel Dumontier, Bruno L. Giordano, Elia Formisano. 1-5 [doi]

Learning Gradients of Convex Functions with Monotone Gradient NetworksShreyas Chaudhari, Srinivasa Pranav, José M. F. Moura. 1-5 [doi]

He-Gan: Differentially Private Gan Using Hamiltonian Monte Carlo Based Exponential MechanismUsman Hassan, Dongjie Chen, Sen-Ching S. Cheung, Chen-Nee Chuah. 1-5 [doi]

An Evaluation Platform to Scope Performance of Synthetic Environments in Autonomous Ground Vehicles SimulationXiangyu Bai, Le Jiang, Yedi Luo, Aniket Gupta, Pushyami Kaveti, Hanumant Singh, Sarah Ostadabbas. 1-5 [doi]

Dynamic Split Computing for Efficient Deep EDGE IntelligenceArian Bakhtiarnia, Nemanja Milosevic, Qi Zhang 0013, Dragana Bajovic, Alexandros Iosifidis. 1-5 [doi]

Analysing Diffusion-based Generative Approaches Versus Discriminative Approaches for Speech RestorationJean-Marie Lemercier, Julius Richter, Simon Welker, Timo Gerkmann. 1-5 [doi]

Leveraging Heteroscedastic Uncertainty in Learning Complex Spectral Mapping for Single-Channel Speech EnhancementKuan-Lin Chen, Daniel D. E. Wong, Ke Tan 0001, Buye Xu, Anurag Kumar 0003, Vamsi Krishna Ithapu. 1-5 [doi]

Attention Localness in Shared Encoder-Decoder Model For Text SummarizationLi Huang 0002, Hongmei Wu, Qiang Gao, Guisong Liu. 1-5 [doi]

Constrained Independent Component Analysis Based on Entropy Bound Minimization for Subgroup Identification from Multi-subject fMRI DataHanlu Yang 0001, Fateme Ghayem, Ben Gabrielson, Mohammad A. B. S. Akhonda, Vince D. Calhoun, Tülay Adali. 1-5 [doi]

T5lephone: Bridging Speech and Text Self-Supervised Models for Spoken Language Understanding Via Phoneme Level T5Chan-Jan Hsu, Ho-Lam Chung, Hung-yi Lee, Yu Tsao 0001. 1-5 [doi]

The MBSTOI Binaural Intelligibility Metric Using a Close-Talking Microphone ReferencePierre Guiraud, Alastair H. Moore, Rebecca R. Vos, Patrick A. Naylor, Mike Brookes. 1-5 [doi]

Adversarial Contrastive Distillation with Adaptive DenoisingYuzheng Wang, Zhaoyu Chen, Dingkang Yang, Yang Liu, Siao Liu, Wenqiang Zhang, Lizhe Qi. 1-5 [doi]

Improved Belief Propagation Decoding of Turbo CodesYifei Shen, Yuqing Ren, Andreas Toftegaard Kristensen, Xiaohu You 0001, Chuan Zhang 0001, Andreas Burg. 1-5 [doi]

A Nested Ensemble Method to Bilevel Machine LearningLisha Chen, Momin Abbas, Tianyi Chen. 1-5 [doi]

Unifying Speech Enhancement and Separation with Gradient Modulation for End-to-End Noise-Robust Speech SeparationYuchen Hu, Chen Chen, Heqing Zou, Xionghu Zhong, Eng Siong Chng. 1-5 [doi]

Change Point Detection with Neural Online Density-Ratio EstimatorXiuheng Wang, Ricardo Augusto Borsoi, Cédric Richard, Jie Chen 0022. 1-5 [doi]

Incorporating Uncertainty from Speaker Embedding Estimation to Speaker VerificationQiongqiong Wang, Kong-Aik Lee, Tianchi Liu 0004. 1-5 [doi]

Learning To Locate Visual Answer In Video Corpus Using QuestionBin Li 0083, Yixuan Weng, Bin Sun 0001, Shutao Li. 1-5 [doi]

Personalized Lightweight Text-to-Speech: Voice Cloning with Adaptive Structured PruningSung-Feng Huang, Chia-Ping Chen, Zhi-Sheng Chen, Yu-Pao Tsai, Hung-yi Lee. 1-5 [doi]

InfoShape: Task-Based Neural Data Shaping via Mutual InformationHoma Esfahanizadeh, William Wu, Manya Ghobadi, Regina Barzilay, Muriel Médard. 1-5 [doi]

An Efficient Relay Selection Scheme for Relay-assisted HARQWeihang Ding, Mohammad Shikh-Bahaei. 1-5 [doi]

Dynamic Speech Endpoint Detection with Regression TargetsDawei Liang, Hang Su, Tarun Singh, Jay Mahadeokar, Shanil Puri, Jiedan Zhu, Edison Thomaz, Mike Seltzer. 1-5 [doi]

Benchmark of Physiological Model Based and Deep Learning Based Remote Photoplethysmography in Automotive ApplicationsZhiyu Wang, Xuezhi Yang, Hongzhou Lu, Caifeng Shan, Wenjin Wang 0002. 1-5 [doi]

Order Reduction of Multi-Channel FIR Filters by Balanced TruncationFlorian Hilgemann, Peter Jax. 1-5 [doi]

Deep Generative Fixed-Filter Active Noise ControlZhengding Luo, Dongyuan Shi, Xiaoyi Shen, Junwei Ji, Woon-Seng Gan. 1-5 [doi]

DST: Deformable Speech Transformer for Emotion RecognitionWeidong Chen, Xiaofen Xing, Xiangmin Xu, Jianxin Pang, Lan Du. 1-5 [doi]

CyPMLI: WISL-Minimized Unimodular Sequence Design via Power Method-Like IterationsArian Eamaz, Farhang Yeganegi, Mojtaba Soltanalian. 1-5 [doi]

Factorized AED: Factorized Attention-Based Encoder-Decoder for Text-Only Domain Adaptive ASRXun Gong 0005, Wei Wang, Hang Shao, Xie Chen 0001, Yanmin Qian. 1-5 [doi]

Euro: Espnet Unsupervised ASR Open-Source ToolkitDongji Gao, Jiatong Shi, Shun-Po Chuang, Leibny Paola García, Hung-yi Lee, Shinji Watanabe 0001, Sanjeev Khudanpur. 1-5 [doi]

Space-Time Graph Neural Networks with Stochastic Graph PerturbationsSamar Hadou, Charilaos I. Kanatsoulis, Alejandro Ribeiro. 1-5 [doi]

Robustness and Convergence of Mirror Descent for Blind DeconvolutionRonak Mehta, Sathya N. Ravi, Vikas Singh. 1-5 [doi]

Using Received Power in Microphone Arrays to Estimate Direction of ArrivalGustav Zetterqvist, Fredrik Gustafsson, Gustaf Hendeby. 1-5 [doi]

Code-Enhanced Fine-Grained Semantic Matching For Tag Recommendation In Software Information SitesLin Li 0001, Peipei Wang, Xinhao Zheng, Qing Xie 0002. 1-5 [doi]

Two-Stream Joint-Training for Speaker Independent Acoustic-to-Articulatory InversionJianrong Wang, Jinyu Liu, Xuewei Li, Mei Yu, Jie Gao, Qiang Fang, Li Liu. 1-5 [doi]

Surface-Sampling Based Objective Quality Assessment Metrics for MeshesChunyang Fu, Xiang Zhang, Thuong Nguyen Canh, Xiaozhong Xu, Ge Li, Shan Liu 0001. 1-5 [doi]

Instance-Aware Hierarchical Structured Policy for Prompt Learning in Vision-Language ModelsXun Wu, Guolong Wang, Zhaoyuan Liu, Xuan Dang, Zheng Qin 0003. 1-5 [doi]

Controllable Music Inpainting with Mixed-Level and Disentangled RepresentationShiqi Wei, Ziyu Wang, Weiguo Gao, Gus Xia. 1-5 [doi]

Flowgrad: Using Motion for Visual Sound Source LocalizationRajsuryan Singh, Pablo Zinemanas, Xavier Serra, Juan Pablo Bello, Magdalena Fuentes. 1-5 [doi]

CNN Filter for Super-Resolution with RPR Functionality in VVCShimin Huang, Cheolkon Jung, Yang Liu, Ming Li. 1-5 [doi]

A Template Matching Approach for Reference Picture Padding in Video CodingNicolas Horst, Priyanka Das 0005, Mathias Wien. 1-5 [doi]

Using Emotion Embeddings to Transfer Knowledge between Emotions, Languages, and Annotation FormatsGeorgios Chochlakis, Gireesh Mahajan, Sabyasachee Baruah, Keith Burghardt, Kristina Lerman, Shrikanth Narayanan. 1-5 [doi]

Unlimited Sampling in Phase SpacePeiyu Zhang, Ayush Bhandari. 1-5 [doi]

Improving Speech-to-Speech Translation Through Unlabeled TextXuan-Phi Nguyen, Sravya Popuri, Changhan Wang, Yun Tang 0002, Ilia Kulikov, Hongyu Gong. 1-5 [doi]

2CNN: Geometric Prior Based GCNN for Single-View 3D Reconstruction with Loop SubdivisionKun Cao, Na Qi, Wei Xu, Qing Zhu, Shibo Xu, Changxin Pan. 1-5 [doi]

Machine Learning Based Early Debris Detection Using Automotive Low Level Radar DataKanishka Tyagi, Shan Zhang, Yihang Zhang, John L. Kirkwood, Sanling Song, Narbik Manukian. 1-5 [doi]

Multi-Task Transformer with Relation-Attention and Type-Attention for Named Entity RecognitionYing Mo, Hongyin Tang, Jiahao Liu, Qifan Wang, Zenglin Xu, Jingang Wang, Wei Wu 0014, Zhoujun Li. 1-5 [doi]

Audio-Visual Inpainting: Reconstructing Missing Visual Information with SoundValentina Sanguineti, Sanket Kumar Thakur, Pietro Morerio, Alessio Del Bue, Vittorio Murino. 1-5 [doi]

Optimization for Robustness Evaluation Beyond ℓp MetricsHengyue Liang, Buyun Liang, Ying Cui, Tim Mitchell, Ju Sun. 1-5 [doi]

Fast Yet Effective Speech Emotion Recognition with Self-DistillationZhao Ren, Thanh-Tam Nguyen, Yi Chang, Björn W. Schuller. 1-5 [doi]

Visual Graph Reasoning NetworkDingbang Li, Xin Lin, Haibin Cai, Wenzhou Chen. 1-5 [doi]

Rethinking the Reasonability of the Test Set for Simultaneous Machine TranslationMengge Liu, Wen Zhang, Xiang Li, Jian Luan 0001, Bin Wang 0004, Yuhang Guo, Shuoying Chen. 1-5 [doi]

Multi-User Data Detection in Massive MIMO with 1-Bit ADCSAmin Radbord, Italo Atzeni, Antti Tölli. 1-5 [doi]

Body Prior Guided Graph Convolutional Neural Network for Skeleton-Based Action RecognitionQianshuo Hu, Hong Liu, Huaqiu Wang, Mengyuan Liu. 1-5 [doi]

Boosting the Accuracy of SRAM-Based in-Memory Architectures Via Maximum Likelihood-Based Error Compensation MethodHyungyo Kim, Naresh R. Shanbhag. 1-5 [doi]

On Unsupervised Uncertainty-Driven Speech Pseudo-Label Filtering and Model CalibrationNauman Dawalatabad, Sameer Khurana, Antoine Laurent, James R. Glass. 1-5 [doi]

Semi-Supervised Remote Sensing Image Change Detection Using Mean Teacher Model for Constructing Pseudo-LabelsZan Mao, Xinyu Tong, Ze Luo. 1-5 [doi]

Cross-Domain Diffusion Based Speech Enhancement for Very Noisy SpeechHeming Wang, DeLiang Wang. 1-5 [doi]

Anchored Speech Recognition with Neural TransducersDesh Raj, Junteng Jia, Jay Mahadeokar, Chunyang Wu, Niko Moritz, Xiaohui Zhang, Ozlem Kalinli. 1-5 [doi]

Consistent Estimators of a New Class of Covariance Matrix Distances in the Large Dimensional RegimeRoberto Pereira, Xavier Mestre, David Gregoratti. 1-5 [doi]

Audiodec: An Open-Source Streaming High-Fidelity Neural Audio CodecYi-Chiao Wu, Israel D. Gebru, Dejan Markovic, Alexander Richard. 1-5 [doi]

Detection of Real-Time Deepfakes in Video Conferencing with Active Probing and Corneal ReflectionHui Guo, Xin Wang 0045, Siwei Lyu. 1-5 [doi]

UFO2: A Unified Pre-Training Framework for Online and Offline Speech RecognitionLi Fu, Siqi Li, Qingtao Li, Liping Deng, Fangzhu Li, Lu Fan, Meng Chen 0006, Xiaodong He 0001. 1-5 [doi]

Learning to Locate the Text Forgery in Smartphone ScreenshotsZeqin Yu, Bin Li 0011, Yuzhen Lin, Jinhua Zeng, Jishen Zeng. 1-5 [doi]

Multi-Object Localization and Irrelevant-Semantic Separation for Nuclei Segmentation in Histopathology ImagesYa Tang, Xiongjun Ye, Xuanya Li, Zhineng Chen. 1-5 [doi]

Joint Multi-Level Feature Network for Lightweight Person Re-IdentificationYunzuo Zhang, Weili Kang, Yameng Liu, Pengfei Zhu. 1-5 [doi]

High-Dynamic Range ADC for Finite-Rate-of-Innovation SignalsSatish Mulleti, Yonina C. Eldar. 1-5 [doi]

GSWIN: Gated MLP Vision Model with Hierarchical Structure of Shifted WindowMocho Go, Hideyuki Tachibana. 1-5 [doi]

Inter-Pulse Estimation for Sperm Whale Click DetectionGuy Gubnitsky, Roee Diamant. 1-5 [doi]

SAR Image Despeckling with Residual-in-Residual Dense Generative Adversarial NetworkYunpeng Bai, Yayuan Xiao, Xuan Hou, Ying Li 0017, Changjing Shang, Qiang Shen 0001. 1-5 [doi]

PMMSD: Development of the Matrix Sentence Intelligibility Dataset for Mandarin with Lombard EffectHanchen Pei, Yuhong Yang 0001, Xufeng Chen, Qingmu Liu, Hongyang Chen, Weiping Tu, Song Lin. 1-5 [doi]

Various Performance Bounds on the Estimation of Low-Rank Probability Mass Function Tensors from Partial ObservationsTomer Hershkovitz, Martin Haardt, Arie Yeredor. 1-5 [doi]

Adapted Multimodal Bert with Layer-Wise Fusion for Sentiment AnalysisOdysseas S. Chlapanis, Georgios Paraskevopoulos, Alexandros Potamianos. 1-5 [doi]

Semi-Supervised Graph Ultra-Sparsifier Using Reweighted ℓ1 OptimizationJiayu Li, Tianyun Zhang, Shengmin Jin, Reza Zafarani. 1-5 [doi]

Multi-Resolution Sequence Aggregation and Model-Agnostic Framework for Time-Series ForecastingJuhyun Lyu, Jinseok Yang, Junghee Kim, Woohyung Lim, Wonbin Ahn, Dongwan Kang, Minjae Kim, Nam Soo Kim. 1-5 [doi]

Radar Clutter Covariance Estimation: A Nonlinear Spectral Shrinkage ApproachShashwat Jain, Vikram Krishnamurthy, Muralidhar Rangaswamy, Bosung Kang, Sandeep Gogineni. 1-5 [doi]

Combining the Silhouette and Skeleton Data for Gait RecognitionLikai Wang, Ruize Han, Wei Feng. 1-5 [doi]

One-Shot Medical Action Recognition With A Cross-Attention Mechanism And Dynamic Time WarpingLeiyu Xie, Yuxing Yang, Zeyu Fu, Syed Mohsen Naqvi. 1-5 [doi]

Differential Analysis for Networks Obeying Conservation LawsAnirudh Rayas, Rajasekhar Anguluri, Jiajun Cheng, Gautam Dasarathy. 1-5 [doi]

Regularized Deep Generative Model Learning for Real-Time Massive MIMO Channel TrackingLixiang Lian, Ben Wang. 1-5 [doi]

Efficient Siamese Network for UAV TrackingXiaohan Zhang, Dong Wang, Xiaohong Ma. 1-5 [doi]

An Automotive Radar Dataset For Object ClassificationAkshad Shyam, Kusum Komalavally, Monika Gautam, Vamshikrishna Kancharla, Vennela Gudisa, Virendra Patil, Aanandh Balasubramanian, Sumohana S. Channappayya. 1-5 [doi]

Graph Learning from Gaussian and Stationary Graph SignalsAndrei Buciulea, Antonio G. Marques. 1-5 [doi]

Once-for-All Sequence Compression for Self-Supervised Speech ModelsHsuan-Jui Chen, Yen Meng, Hung-yi Lee. 1-5 [doi]

Training Stronger Spiking Neural Networks with Biomimetic Adaptive Internal Association NeuronsHaibo Shen, Yihao Luo, Xiang Cao, Liangqi Zhang, Juyu Xiao, Tianjiang Wang. 1-5 [doi]

Diffusion Probabilistic Modeling for Fine-Grained Urban Traffic Flow Inference with Relaxed Structural ConstraintXovee Xu, Yutao Wei, Pengyu Wang, Xucheng Luo, Fan Zhou 0002, Goce Trajcevski. 1-5 [doi]

Zero-Shot Speech Emotion Recognition Using Generative Learning with Reconstructed PrototypesXinzhou Xu, Jun Deng, Zixing Zhang 0001, Zhen Yang, Björn W. Schuller. 1-5 [doi]

High-Speed Drone Detection Based On Yolo-V8Jun-Hwa Kim, Namho Kim, Chee Sun Won. 1-2 [doi]

Cross-Site Generalization for Imbalanced Epileptic ClassificationTala Abdallah, Nisrine Jrad, Fahed Abdallah, Anne Humeau-Heurtier, Patrick Van Bogaert. 1-5 [doi]

Error Analysis of Convolutional Beamspace AlgorithmsPo-Chih Chen, P. P. Vaidyanathan. 1-5 [doi]

Your Camera Improves Your Point Cloud CompressionYuhuan Lin, Tongda Xu, Ziyu Zhu, Yanghao Li, Zhe Wang, Yan Wang. 1-5 [doi]

Adaptive Knowledge Distillation Between Text and Speech Pre-Trained ModelsJinjie Ni, Yukun Ma, Wen Wang, Qian Chen 0003, Dianwen Ng, Han Lei, Trung Hieu Nguyen 0001, Chong Zhang 0003, Bin Ma 0001, Erik Cambria. 1-5 [doi]

Inter-Subnet: Speech Enhancement with Subband InteractionJun Chen, Wei Rao, Zilin Wang, Jiuxin Lin, Zhiyong Wu 0001, Yannan Wang, Shidong Shang, Helen Meng. 1-5 [doi]

CF-VTON: Multi-Pose Virtual Try-on with Cross-Domain FusionChenghu Du, Shengwu Xiong. 1-5 [doi]

Forensics for Adversarial Machine Learning Through Attack Mapping IdentificationAllen Yan, Jinsub Kim, Raviv Raich. 1-5 [doi]

Discriminative Vector Learning with Application to Single Channel Speech SeparationHa Minh Tan, Kai-Wen Liang, Jia-Ching Wang. 1-5 [doi]

DWFormer: Dynamic Window Transformer for Speech Emotion RecognitionShuaiqi Chen, Xiaofen Xing, Weibin Zhang, Weidong Chen, Xiangmin Xu. 1-5 [doi]

"Prediction of Sleepiness Ratings from Voice by Man and Machine": A Perceptual Experiment Replication StudyVincent P. Martin, Aymeric Ferron, Jean-Luc Rouas, Pierre Philip. 1-5 [doi]

Speech Modeling with a Hierarchical Transformer Dynamical VAEXiaoyu Lin, Xiaoyu Bie, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda. 1-5 [doi]

Robust Audio-Visual ASR with Unified Cross-Modal AttentionJiahong Li, Chenda Li, Yifei Wu, Yanmin Qian. 1-5 [doi]

DyLiteRADHAR: Dynamic Lightweight Slowfast Network for Human Activity Recognition Using MMWAVE RadarBiyun Sheng, Yan Bao, Fu Xiao 0001, Linqing Gui. 1-5 [doi]

Uncertainty-Aware Few-Shot Class-Incremental LearningJiancai Zhu, Jiabao Zhao, Jiayi Zhou, Liang He, Jing Yang, Zhi Zhang. 1-5 [doi]

Making Synchrosqueezing Locally Adaptive in The Time-Frequency PlaneMarcelo Alejandro Colominas, Sylvain Meignen. 1-5 [doi]

Relapse Detection in Patients with Psychotic Disorders Using Unsupervised Learning on Smartwatch SignalsSalam Hamieh, Vincent Heiries, Hussein Al Osman, Christelle Godin. 1-2 [doi]

Large Dimensional Analysis of LS-SVM Transfer Learning: Application to Polsar ClassificationCyprien Doz, Chengfang Ren, Jean Philippe Ovarlez, Romain Couillet. 1-5 [doi]

Stacking-Based Attention Temporal Convolutional Network for Action SegmentationLiu Yang, Yu Jiang, Junkun Hong, Zhenjie Wu, Zhan Yang, Jun Long. 1-5 [doi]

A Video Anomaly Detection Framework Based on Appearance-Motion Semantics Representation ConsistencyXiangyu Huang, Caidan Zhao, Zhiqiang Wu 0001. 1-5 [doi]

An Empirical Study and Improvement for Speech Emotion RecognitionZhen Wu, Yizhe Lu, Xinyu Dai. 1-5 [doi]

Salient Co-Speech Gesture Synthesizing with Discrete Motion RepresentationZijie Ye, Jia Jia 0001, Haozhe Wu, Shuo Huang, Shikun Sun, Junliang Xing. 1-5 [doi]

Utility Polelocalization by Learning from Ambient Traces on Distributed Acoustic SensingZhuocheng Jiang, Yue Tian, Yangmin Ding, Sarper Ozharar, Ting Wang. 1-5 [doi]

Spike-Based Optical Flow Estimation Via Contrastive LearningMingliang Zhai, Kang Ni, Jiucheng Xie, Hao Gao 0005. 1-5 [doi]

Nonnegative Block-Term Decomposition with the β-Divergence: Joint Data Fusion and Blind Spectral UnmixingClémence Prévost, Valentin Leplat. 1-5 [doi]

Blind Polynomial RegressionAlberto Natali, Geert Leus. 1-5 [doi]

Domain and Language Adaptation Using Heterogeneous Datasets for Wav2vec2.0-Based Speech Recognition of Low-Resource LanguageSoky Kak, Sheng Li 0010, Chenhui Chu, Tatsuya Kawahara. 1-5 [doi]

Less Is More: A Unified Architecture for Device-Directed Speech Detection with Multiple Invocation TypesOggi Rudovic, Wonil Chang, Vineet Garg, Pranay Dighe, Pramod Simha, Jack Berkowitz, Ahmed Hussen Abdelaziz, Sachin Kajarekar, Erik Marchi, Saurabh Adya. 1-5 [doi]

Improving Knowledge Distillation for Non-Intrusive Load Monitoring Through Explainability Guided LearningDjordje Batic, Giulia Tanoni, Lina Stankovic, Vladimir Stankovic 0001, Emanuele Principi. 1-5 [doi]

Robust Multi-Object Tracking With Spatial UncertaintyPin-Jie Liao, Yu-Cheng Huang, Chen-Kuo Chiang, Shang-Hong Lai. 1-5 [doi]

Deep Proximal Gradient Method for Learned Convex RegularizersAaron Berk, Yanting Ma, Petros Boufounos, Pu Wang 0004, Hassan Mansour. 1-5 [doi]

Learning Silhouettes with Group Sparse AutoencodersEmmanouil Theodosis, Demba E. Ba. 1-5 [doi]

Dataset Balancing Can Hurt Model PerformanceR. Channing Moore, Daniel P. W. Ellis, Eduardo Fonseca, Shawn Hershey, Aren Jansen, Manoj Plakal. 1-5 [doi]

Summary on the Multimodal Information Based Speech Processing (MISP) 2022 ChallengeHang Chen, Shilong Wu, Yusheng Dai, Zhe Wang, Jun Du, Chin-Hui Lee 0001, Jingdong Chen, Shinji Watanabe 0001, Sabato Marco Siniscalchi, Odette Scharenborg, Diyuan Liu, Bao-Cai Yin, Jia Pan, Jianqing Gao, Cong Liu 0006. 1-2 [doi]

Uncer2Natural: Uncertainty-Aware Unsupervised Image DenoisingChenyu Huang, Weimin Tan, Jiaxing Shi, Zhen Xing, Bo Yan 0001. 1-5 [doi]

Affinity Learning With Blind-Spot Self-Supervision for Image DenoisingYuhongze Zhou, Liguang Zhou, Issam Hadj Laradji, Tin Lun Lam, Yangsheng Xu. 1-5 [doi]

Tangent Bundle Filters and Neural Networks: From Manifolds to Cellular Sheaves and BackClaudio Battiloro, Zhiyang Wang, Hans Riess, Paolo Di Lorenzo, Alejandro Ribeiro. 1-5 [doi]

Gaussian Process Dynamical Modeling for Adaptive Inference Over GraphsQin Lu 0002, Konstantinos D. Polyzos. 1-5 [doi]

LSTM-Based Video Quality Prediction Accounting for Temporal Distortions in Videoconferencing CallsGabriel Mittag, Babak Naderi, Vishak Gopal, Ross Cutler. 1-5 [doi]

Brainnetformer: Decoding Brain Cognitive States with Spatial-Temporal Cross AttentionLeheng Sheng, Wenhan Wang, Zhiyi Shi, Jichao Zhan, Youyong Kong. 1-5 [doi]

Towards Bandwidth Estimation for Graph Signal ReconstructionAjinkya Jayawant, Antonio Ortega. 1-5 [doi]

Multi-Carrier Wideband OCDM-Based THZ Automotive RadarSangeeta Bhattacharjee, Kumar Vijay Mishra, Ramesh Annavajjala, Chandra R. Murthy. 1-5 [doi]

NBA-OMP: Near-Field Beam-Split-Aware Orthogonal Matching Pursuit for Wideband THz Channel EstimationAhmet M. Elbir, Kumar Vijay Mishra, Symeon Chatzinotas. 1-5 [doi]

Solving Audio Inverse Problems with a Diffusion ModelEloi Moliner, Jaakko Lehtinen, Vesa Välimäki. 1-5 [doi]

Flowpose: Conditional Normalizing Flows for 3D Human Pose and Shape Estimation from Monocular VideosYaoyao Du, Zixiao Zhang, Zhihao Li, Peng Wei, Qingmin Liao, Wenming Yang. 1-5 [doi]

A Dynamic Cross-Scale Transformer with Dual-Compound Representation for 3D Medical Image SegmentationRuixia Zhang, Zhiqiong Wang, Zhongyang Wang, Junchang Xin. 1-5 [doi]

STACKMAPS: A Visualization Technique for Diabetic Retinopathy GradingIsmail El-Yamany, Abdelrahman Wael, Noha Adly, Marwan Torki. 1-5 [doi]

Passive Detection of Rank-One Gaussian Signals for Known Channel Subspaces and Arbitrary NoiseDavid Ramírez 0001, Ignacio Santamaría, Louis L. Scharf. 1-5 [doi]

Wav2vec-Based Detection and Severity Level Classification of Dysarthria From SpeechFarhad Javanmardi, Saska Tirronen, Manila Kodali, Sudarsana Reddy Kadiri, Paavo Alku. 1-5 [doi]

Liveness Score-Based Regression Neural Networks for Face Anti-SpoofingYoungjun Kwak, Minyoung Jung, Hunjae Yoo, Jinho Shin, Changick Kim. 1-5 [doi]

Alternating Phase Langevin Sampling with Implicit Denoiser Priors for Phase RetrievalRohun Agrawal, Oscar Leong. 1-5 [doi]

2Net for Speech Signal ImprovementZehua Zhang, Shiyun Xu, Xuyi Zhuang, Yukun Qian, Lianyu Zhou, Mingjiang Wang. 1-2 [doi]

Decontamination Transformer For Blind Image InpaintingChun-Yi Li, Yen-Yu Lin, Wei-chen Chiu. 1-5 [doi]

SADI: A Self-Adaptive Decomposed Interpretable Framework for Electric Load Forecasting Under Extreme EventsHengbo Liu, Ziqing Ma, Linxiao Yang, Tian Zhou, Rui Xia, Yi Wang, Qingsong Wen, Liang Sun 0001. 1-5 [doi]

Data-Aware Zero-Shot Neural Architecture Search for Image RecognitionYi Fan, Zhonghan Niu, Yu-Bin Yang. 1-5 [doi]

MPS-AMS: Masked Patches Selection and Adaptive Masking Strategy Based Self-Supervised Medical Image SegmentationXiangtao Wang, Ruizhi Wang, Biao Tian, Jiaojiao Zhang, Shuo Zhang, Junyang Chen, Thomas Lukasiewicz, Zhenghua Xu. 1-5 [doi]

Lightweight Fisher Vector Transfer Learning for Video DeduplicationChris Henry, Rijun Liao, Ruiyuan Lin, Zhebin Zhang, Hongyu Sun, Zhu Li 0001. 1-5 [doi]

DisCoHead: Audio-and-Video-Driven Talking Head Generation by Disentangled Control of Head Pose and Facial ExpressionsGeumbyeol Hwang, Sunwon Hong, Seunghyun Lee, Sungwoo Park, Gyeongsu Chae. 1-5 [doi]

Decaying Contrast for Fine-Grained Video Representation LearningHeng Zhang, Bing Su. 1-5 [doi]

Metric-Oriented Speech Enhancement Using Diffusion Probabilistic ModelChen Chen, Yuchen Hu, Weiwei Weng, Eng Siong Chng. 1-5 [doi]

Self-Distillation Hashing for Efficient Hamming Space RetrievalHongjia Zhai, Hai Li, Hanzhi Zhang, Hujun Bao, Guofeng Zhang 0001. 1-5 [doi]

Blind Estimation of Audio Processing GraphSungho Lee, Jaehyun Park, Seungryeol Paik, Kyogu Lee. 1-5 [doi]

Unsupervised word Segmentation Based on Word InfluenceRuohao Yan, Huaping Zhang, Wushour Silamu, Askar Hamdulla. 1-5 [doi]

Towards Building Text-to-Speech Systems for the Next Billion UsersGokul Karthik Kumar, Praveen S. V, Pratyush Kumar, Mitesh M. Khapra, Karthik Nandakumar. 1-5 [doi]

Stabilising and Accelerating Light Gated Recurrent Units for Automatic Speech RecognitionAdel Moumen, Titouan Parcollet. 1-5 [doi]

On the Relevance of the Differences Between HRTF Measurement Setups for Machine LearningJohan Pauwels, Lorenzo Picinali. 1-5 [doi]

Code-Switching Text Generation and Injection in Mandarin-English ASRHaibin Yu, Yuxuan Hu, Yao Qian, Ma Jin, Linquan Liu, Shujie Liu 0001, Yu Shi 0001, Yanmin Qian, Edward Lin, Michael Zeng 0001. 1-5 [doi]

Feature-Rich Audio Model Inversion for Data-Free Knowledge Distillation Towards General Sound ClassificationZuheng Kang, Yayun He, Jianzong Wang, Junqing Peng, Xiaoyang Qu, Jing Xiao 0006. 1-5 [doi]

Removing Radio Frequency Interference From Auroral Kilometric Radiation With Stacked AutoencodersAllen Chang, Mary Knapp, James LaBelle, John Swoboda, Ryan Volz, Philip J. Erickson. 1-5 [doi]

CNN Filter for RPR-Based SR in VVC with Wavelet DecompositionHui Lan, Cheolkon Jung, Yang Liu, Ming Li. 1-5 [doi]

Coded Matrix Computations for D2D-Enabled Linearized Federated LearningAnindya Bijoy Das, Aditya Ramamoorthy, David J. Love, Christopher G. Brinton. 1-5 [doi]

Single-Anchor UWB Localization Using Channel Impulse Response DistributionsSitian Li, Alexios Balatsoukas-Stimming, Andreas Burg. 1-5 [doi]

Iterative Shallow Fusion of Backward Language Model for End-To-End Speech RecognitionAtsunori Ogawa, Takafumi Moriya, Naoyuki Kamo, Naohiro Tawara, Marc Delcroix. 1-5 [doi]

Intermediate Fine-Tuning Using Imperfect Synthetic Speech for Improving Electrolaryngeal Speech RecognitionLester Phillip Violeta, Ding Ma, Wen-Chin Huang, Tomoki Toda. 1-5 [doi]

Incorporating Lip Features into Audio-Visual Multi-Speaker DOA Estimation by Gated FusionYa Jiang, Hang Chen, Jun Du, Qing Wang 0008, Chin-Hui Lee 0001. 1-5 [doi]

Pushing the Limits of Self-Supervised Speaker Verification using Regularized Distillation FrameworkYafeng Chen, Siqi Zheng, Hui Wang, Luyao Cheng, Qian Chen. 1-5 [doi]

Cross Modality Knowledge Distillation for Robust Pedestrian Detection in Low Light and Adverse Weather ConditionsMazin Hnewa, Alireza Rahimpour, Justin Miller, Devesh Upadhyay, Hayder Radha. 1-5 [doi]

Gaitcotr: Improved Spatial-Temporal Representation for Gait Recognition with a Hybrid Convolution-Transformer FrameworkJingqi Li, Yuzhen Zhang, Hongming Shan, Junping Zhang. 1-5 [doi]

Enhancement of Text-Predicting Style Token With Generative Adversarial Network for Expressive Speech SynthesisHiroki Kanagawa, Yusuke Ijima. 1-5 [doi]

Medleyvox: An Evaluation Dataset for Multiple Singing Voices SeparationChang-Bin Jeon, Hyeongi Moon, Keunwoo Choi, Ben Sangbae Chon, Kyogu Lee. 1-5 [doi]

Conformer-Based Target-Speaker Automatic Speech Recognition For Single-Channel AudioYang Zhang 0089, Krishna C. Puvvada, Vitaly Lavrukhin, Boris Ginsburg. 1-5 [doi]

LABANet: Lead-Assisting Backbone Attention Network for Oral Multi-Pathology SegmentationHuabao Chen, Xiaolong Huang, Qiankun Li, Jianqing Wang, Bo Fang, Junxin Chen. 1-5 [doi]

Real-Time MRI Video Synthesis from Time Aligned Phonemes with Sequence-to-Sequence NetworksSathvik Udupa, Prasanta Kumar Ghosh. 1-5 [doi]

LED: Label Correlation Enhanced Decoder for Multi-Label Text ClassificationKefan Ma, Zheng Huang, Xinrui Deng, Jie Guo, Weidong Qiu. 1-5 [doi]

DepthFormer: Multimodal Positional Encodings and Cross-Input Attention for Transformer-based Segmentation NetworksFrancesco Barbato, Giulia Rizzoli, Pietro Zanuttigh. 1-5 [doi]

Multiscale Audio Spectrogram Transformer for Efficient Audio ClassificationWentao Zhu, Mohamed Omar. 1-5 [doi]

Efficient Quantized Constant Envelope Precoding for Multiuser Downlink Massive MIMO SystemsZheyu Wu, Ya-Feng Liu, Bo Jiang 0010, Yu-Hong Dai. 1-5 [doi]

Spatially Selective Deep Non-Linear Filters For Speaker ExtractionKristina Tesch, Timo Gerkmann. 1-5 [doi]

Deep Root Music Algorithm for Data-Driven Doa EstimationDor H. Shmuel, Julian P. Merkofer, Guy Revach, Ruud J. G. van Sloun, Nir Shlezinger. 1-5 [doi]

Fast-U2++: Fast and Accurate End-to-End Speech Recognition in Joint CTC/Attention FramesChengdong Liang, Xiao-Lei Zhang 0001, Binbin Zhang, Di Wu, Shengqiang Li, Xingchen Song, Zhendong Peng, Fuping Pan. 1-5 [doi]

Multi-Resolution Convolutional Dictionary Learning for Riverbed Dynamics ModelingE. Kobayashi, Hiroyasu Yasuda, Kiyoshi Hayasaka, Yu Otake, Shunsuke Ono, Shogo Muramatsu. 1-5 [doi]

CM-CS: Cross-Modal Common-Specific Feature Learning For Audio-Visual Video ParsingHongbo Chen, Dongchen Zhu, Guanghui Zhang, Wenjun Shi, Xiaolin Zhang, Jiamao Li. 1-5 [doi]

Exploiting Modality-Invariant Feature for Robust Multimodal Emotion Recognition with Missing ModalitiesHaolin Zuo, Rui Liu 0008, Jinming Zhao, Guanglai Gao, Haizhou Li 0001. 1-5 [doi]

Top-K Visual Tokens Transformer: Selecting Tokens for Visible-Infrared Person Re-IdentificationBin Yang 0026, Jun Chen, Mang Ye. 1-5 [doi]

Rethink Pair-Wise Self-Supervised Cross-Modal Retrieval From A Contrastive Learning PerspectiveTiantian Gong, Junsheng Wang, Liyan Zhang. 1-5 [doi]

Multispectral Image Fusion based on Super Pixel SegmentationNati Ofir. 1-5 [doi]

SD-PINN: Physics Informed Neural Networks for Spatially Dependent PDESRuixian Liu, Peter Gerstoft. 1-5 [doi]

Progressive Diversifying Policy for Multi-Agent Reinforcement LearningShaoqi Sun, Yuanzhao Zhai, Kele Xu, Dawei Feng, Bo Ding. 1-5 [doi]

A Novel Approach Based on Voronoï Cells to Classify Spectrogram Zeros of Multicomponent SignalsNils Laurent, Sylvain Meignen, Marcelo Alejandro Colominas, Juan Manuel Miramont, François Auger. 1-5 [doi]

Unsupervised Model-Based Speaker Adaptation of End-To-End Lattice-Free MMI Model for Speech RecognitionXurong Xie, Xunying Liu, Hui Chen, Hongan Wang. 1-5 [doi]

Embedding a Differentiable Mel-Cepstral Synthesis Filter to a Neural Speech Synthesis SystemTakenori Yoshimura, Shinji Takaki, Kazuhiro Nakamura, Keiichiro Oura, Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda. 1-5 [doi]

Robust Autoencoders for Collective Corruption RemovalTaihui Li, Hengkang Wang, Le Peng, Xian'e Tang, Ju Sun. 1-5 [doi]

Prune Then Distill: Dataset Distillation with Importance SamplingAnirudh S. Sundar, Gokce Keskin, Chander Chandak, I-Fan Chen, Pegah Ghahremani, Shalini Ghosh. 1-5 [doi]

Cancelling Intermodulation Distortions for Otoacoustic Emission Measurements with EarbudsBerken Utku Demirel, Khaldoon Al-Naimi, Fahim Kawsar, Alessandro Montanari. 1-5 [doi]

HITSZ TMG at ICASSP 2023 SPGC Shared Task: Leveraging Pre-Training and Distillation Method for Title Generation with Limited ResourceTianxiao Xu, Zihao Zheng, Xinshuo Hu, Zetian Sun, Yu Zhao, Baotian Hu. 1-2 [doi]

Multi-Speaker Data Augmentation for Improved end-to-end Automatic Speech RecognitionSamuel Thomas 0001, Hong-Kwang Jeff Kuo, George Saon, Brian Kingsbury. 1-5 [doi]

Multilayer Subspace Learning With Self-Sparse Robustness for Two-Dimensional Feature ExtractionHan Zhang 0012, Maoguo Gong, Feiping Nie 0001, Xuelong Li 0001. 1-5 [doi]

Robust Video Anomaly Detection Framework via Prior Knowledge and Multi-Path Frame PredictionMenghao Zhang, Jingyu Wang 0001, Jing Wang 0039, Qi Qi 0001, Zirui Zhuang, Haifeng Sun 0001, Ning Xiao. 1-5 [doi]

Attention Mixup: An Accurate Mixup Scheme Based On Interpretable Attention Mechanism for Multi-Label Audio ClassificationWuyang Liu, Yanzhen Ren, Jingru Wang. 1-5 [doi]

Distance-Based Weight Transfer for Fine-Tuning From Near-Field to Far-Field Speaker VerificationLi Zhang, Qing Wang, Hongji Wang, Yue Li, Wei Rao, Yannan Wang, Lei Xie 0001. 1-5 [doi]

MADI: Inter-Domain Matching and Intra-Domain Discrimination for Cross-Domain Speech RecognitionJiaming Zhou, Shiwan Zhao, Ning Jiang, Guoqing Zhao, Yong Qin. 1-5 [doi]

Exploring Binary Classification Loss for Speaker VerificationBing Han, Zhengyang Chen, Yanmin Qian. 1-5 [doi]

Multistage Spatial Context Models for Learned Image CompressionFangzheng Lin, Heming Sun, Jinming Liu, Jiro Katto. 1-5 [doi]

Analysis Of Noisy-Target Training For Dnn-Based Speech EnhancementTakuya Fujimura, Tomoki Toda. 1-5 [doi]

A Bandit Online Convex Optimization Approach To Distributed Energy Management In Networked SystemsIoannis Tsetis, Xiaotong Cheng, Setareh Maghsudi. 1-5 [doi]

CD-FSOD: A Benchmark For Cross-Domain Few-Shot Object DetectionWuti Xiong. 1-5 [doi]

Investigation into Phone-Based Subword Units for Multilingual End-to-End Speech RecognitionSaierdaer Yusuyin, Hao Huang, Junhua Liu, Cong Liu. 1-5 [doi]

Estimating Shapley Values of Training Utterances for Automatic Speech Recognition ModelsAli Raza Syed, Michael I. Mandel. 1-5 [doi]

Deep-Unfolded Adaptive Projected Subgradient Method For Mimo DetectionJochen Fink, Renato L. G. Cavalcante, Zoran Utkovski, Slawomir Stanczak. 1-5 [doi]

Activity-Informed Industrial Audio Anomaly Detection Via Source SeparationJaechang Kim, Yunjoo Lee, Hyun Mi Cho, Dong-Woo Kim, Chi Hoon Song, Jungseul Ok. 1-5 [doi]

Cross-Lingual Alzheimer's Disease Detection Based on Paralinguistic and Pre-Trained FeaturesXuchu Chen, Yu Pu, Jinpeng Li, Wei-Qiang Zhang. 1-2 [doi]

Self-Supervised Facial Action Unit Detection with Region and Relation LearningJuan Song, Zhilei Liu. 1-5 [doi]

Audio-Driven Facial Landmark Generation in Violin Performance using 3DCNN Network with Self Attention ModelTing-Wei Lin, Chao-Lin Liu, Li Su. 1-5 [doi]

Binauralization Robust To Camera Rotation Using 360° VideosMasaki Yoshida, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama. 1-5 [doi]

Towards Polymorphic Adversarial Examples Generation for Short TextYuhang Liang, Zheng Lin, Fengcheng Yuan, Hanwen Zhang, Lei Wang, Weiping Wang. 1-5 [doi]

On Neural Architectures for Deep Learning-Based Source Separation of Co-Channel OFDM SignalsGary C. F. Lee, Amir Weiss, Alejandro Lancho, Yury Polyanskiy, Gregory W. Wornell. 1-5 [doi]

Improving Phase-Vocoder-Based Time Stretching by Time-Directional Spectrogram SqueezingNatsuki Akaishi, Kohei Yatabe, Yasuhiro Oikawa. 1-5 [doi]

FedAudio: A Federated Learning Benchmark for Audio TasksTuo Zhang, TianTian Feng, Samiul Alam, SunWoo Lee, Mi Zhang 0002, Shrikanth S. Narayanan, Salman Avestimehr. 1-5 [doi]

Single-Shot Domain Adaptation via Target-Aware Generative AugmentationsRakshith Subramanyam, Kowshik Thopalli, Spring Berman, Pavan K. Turaga, Jayaraman J. Thiagarajan. 1-5 [doi]

Ideal: Improved Dense Local Contrastive Learning For Semi-Supervised Medical Image SegmentationHritam Basak, Soumitri Chattopadhyay, Rohit Kundu, Sayan Nag, Rammohan Mallipeddi. 1-5 [doi]

ROI-Based Deep Image Compression with Swin TransformersBinglin Li, Jie Liang, Haisheng Fu, Jingning Han. 1-5 [doi]

Resource-Efficient Transfer Learning from Speech Foundation Model Using Hierarchical Feature FusionZhouyuan Huo, Khe Chai Sim, Bo Li 0028, Dongseong Hwang, Tara N. Sainath, Trevor Strohman. 1-5 [doi]

Learn Topological Representation with Flexible Manifold LayerZiheng Jiao, Hongyuan Zhang, Xuelong Li 0001. 1-5 [doi]

Learnable Flow Model Conditioned on Graph Representation Memory for Anomaly DetectionZiyu Zhu, Wenlei Liu, Zhidong Deng. 1-5 [doi]

Drone-vs-Bird: Drone Detection Using YOLOv7 with CSRT TrackerSahaj Mistry, Shreyas Chatterjee, Ajeet K. Verma, Vinit Jakhetiya, Badri N. Subudhi, Sunil Prasad Jaiswal. 1-2 [doi]

Leveraging Sparsity with Spiking Recurrent Neural Networks for Energy-Efficient Keyword SpottingManon Dampfhoffer, Thomas Mesquida, Emmanuel Hardy, Alexandre Valentian, Lorena Anghel. 1-5 [doi]

Designing and Evaluating Speech Emotion Recognition Systems: A Reality Check Case Study with IEMOCAPNikolaos Antoniou, Athanasios Katsamanis, Theodoros Giannakopoulos, Shrikanth Narayanan. 1-5 [doi]

Explainable audio Classification of Playing Techniques with Layer-wise Relevance PropagationChanghong Wang, Vincent Lostanlen, Mathieu Lagrange. 1-5 [doi]

Self-Supervised Representations for Singing Voice ConversionTejas Jayashankar, Jilong Wu, Leda Sari, David Kant, Vimal Manohar, Qing He. 1-5 [doi]

Enhancing Unsupervised Speech Recognition with Diffusion GANSXianchao Wu. 1-5 [doi]

Cross-Modal Adversarial Contrastive Learning for Multi-Modal Rumor DetectionTing Zou, Zhong Qian, Peifeng Li, Qiaoming Zhu. 1-5 [doi]

Combining Dual-Tree Wavelet Analysis and Proximal Optimization for Anisotropic Scale-Free Texture SegmentationLeo Davy, Nelly Pustelnik, Patrice Abry. 1-5 [doi]

Unsupervised Feature Selection with self-Weighted and ℓ2,0-Norm ConstraintYongjin Yuan, Zheng Wang, Feiping Nie 0001, Xuelong Li 0001. 1-5 [doi]

Robust Adaptive Beamforming with Proximal MethodRuifu Li, Danijela Cabric. 1-5 [doi]

A Model-Based Hearing Compensation Method Using a Self-Supervised FrameworkYadong Niu, Nan Li, Xihong Wu, Jing Chen. 1-5 [doi]

Graphmad: Graph Mixup for Data Augmentation Using Data-Driven Convex ClusteringMadeline Navarro, Santiago Segarra. 1-5 [doi]

Comparison of Soft and Hard Target RNN-T Distillation for Large-Scale ASRDongseong Hwang, Khe Chai Sim, Yu Zhang 0033, Trevor Strohman. 1-5 [doi]

Achievable Error Exponents for Almost Fixed-Length M-Ary Hypothesis TestingJun Diao, Lin Zhou 0002, Lin Bai 0001. 1-5 [doi]

Speech and Noise Dual-Stream Spectrogram Refine Network With Speech Distortion Loss For Robust Speech RecognitionHaoyu Lu, Nan Li, Tongtong Song, Longbiao Wang, Jianwu Dang 0001, Xiaobao Wang, Shiliang Zhang. 1-5 [doi]

Global-Context Aware Generative Protein DesignCheng Tan 0012, Zhangyang Gao, Jun Xia, Bozhen Hu, Stan Z. Li. 1-5 [doi]

On The Detection of Synthetic Images Generated by Diffusion ModelsRiccardo Corvi, Davide Cozzolino, Giada Zingarini, Giovanni Poggi, Koki Nagano, Luisa Verdoliva. 1-5 [doi]

Learning Causal Representations for Generalizable Face Anti SpoofingGuanghao Zheng, Yuchen Liu 0006, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong. 1-5 [doi]

Modelling Low-Resource Accents Without Accent-Specific TTS FrontendGeorgi Tinchev, Marta Czarnowska, Kamil Deja, Kayoko Yanagisawa, Marius Cotescu. 1-5 [doi]

Transferring Quantified Emotion Knowledge for the Detection of Depression in Alzheimer's Disease Using ForestnetsPaula Andrea Pérez-Toro, Dalia Rodríguez-Salas, Tomas Arias-Vergara, Sebastian P. Bayerl, Philipp Klumpp, Korbinian Riedhammer, Maria Schuster, Elmar Nöth, Andreas K. Maier, Juan Rafael Orozco-Arroyave. 1-5 [doi]

Fine-Grained Textual Knowledge Transfer to Improve RNN Transducers for Speech Recognition and UnderstandingVishal Sunder, Samuel Thomas 0001, Hong-Kwang Jeff Kuo, Brian Kingsbury, Eric Fosler-Lussier. 1-5 [doi]

VarietySound: Timbre-Controllable Video to Sound Generation Via Unsupervised Information DisentanglementChenye Cui, Zhou Zhao, Yi Ren 0006, Jinglin Liu, Rongjie Huang, Feiyang Chen, Zhefeng Wang, Baoxing Huai, Fei Wu. 1-5 [doi]

SLICER: Learning Universal Audio Representations Using Low-Resource Self-Supervised Pre-TrainingAshish Seth, Sreyan Ghosh, Srinivasan Umesh, Dinesh Manocha. 1-5 [doi]

Pretraining Conformer with ASR for Speaker VerificationDanwei Cai, Weiqing Wang, Ming Li, Rui Xia, Chuanzeng Huang. 1-5 [doi]

Differentiable Adaptive Short-Time Fourier Transform with Respect to the Window LengthMaxime Leiber, Yosra Marnissi, Axel Barrau, Mohamed El Badaoui. 1-5 [doi]

Space-Time Variable Density Samplings for Sparse Bandlimited Graph Signals Driven by Diffusion OperatorsQing Yao, Longxiu Huang, Sui Tang. 1-5 [doi]

JNDMix: Jnd-Based Data Augmentation for No-Reference Image Quality AssessmentJiamu Sheng, Jiayuan Fan, Peng Ye, Jianjian Cao. 1-5 [doi]

Evidence of Vocal Tract Articulation in Self-Supervised Learning of SpeechCheol Jun Cho, Peter Wu, Abdelrahman Mohamed, Gopala Krishna Anumanchipalli. 1-5 [doi]

SVMV: Spatiotemporal Variance-Supervised Motion Volume for Video Frame InterpolationYao Luo, Jinshan Pan, Jinhui Tang 0001. 1-5 [doi]

Knowledge-Graph Augmented Music Representation for Genre ClassificationHan Ding 0002, Wenjing Song, Cui Zhao, Fei Wang 0037, Ge Wang 0003, Wei Xi, Jizhong Zhao. 1-5 [doi]

SCA: Streaming Cross-Attention Alignment For Echo CancellationYang Liu, Yangyang Shi, Yun Li, Kaustubh Kalgaonkar, Sriram Srinivasan, Xin Lei. 1-5 [doi]

On the Value of Stochastic Side Information in Online LearningJunzhang Jia, Xuetong Wu, Jamie S. Evans, Jingge Zhu. 1-5 [doi]

Progressive Multi-Stage Neural Audio Codec with Psychoacoustic Loss and DiscriminatorByeong Hyeon Kim, Hyungseob Lim, Jihyun Lee, Inseon Jang, Hong-Goo Kang. 1-5 [doi]

HYDRA-HGR: A Hybrid Transformer-Based Architecture for Fusion of Macroscopic and Microscopic Neural Drive InformationMansooreh Montazerin, Elahe Rahimian, Farnoosh Naderkhani, Seyed Farokh Atashzar, Hamid Alinejad-Rokny, Arash Mohammadi 0001. 1-5 [doi]

Active Selection of Source Patients in Transfer Learning for Epileptic Seizure Detection Using Riemannian ManifoldToshiki Orihara, Kazi Mahmudul Hassan, Toshihisa Tanaka. 1-5 [doi]

ICStega: Image Captioning-based Semantically Controllable Linguistic SteganographyXilong Wang, Yaofei Wang, Kejiang Chen, Jinyang Ding, Weiming Zhang 0001, Nenghai Yu. 1-5 [doi]

BECTRA: Transducer-Based End-To-End ASR with Bert-Enhanced EncoderYosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe 0001. 1-5 [doi]

Question Answering System with Sparse and Noisy FeedbackDjallel Bouneffouf 0001, Oznur Alkan, Raphaël Féraud, Baihan Lin. 1-5 [doi]

M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image RetrievalLayne Berry, Yi-Jen Shih, Hsuan-Fu Wang, Heng-Jui Chang, Hung-yi Lee, David Harwath. 1-5 [doi]

Structured Pruning of Self-Supervised Pre-Trained Models for Speech Recognition and UnderstandingYifan Peng, Kwangyoun Kim, Felix Wu, Prashant Sridhar, Shinji Watanabe 0001. 1-5 [doi]

Raw Ultrasound-Based Phonetic Segments Classification Via Mask ModelingKang You, Bo Liu, Kele Xu, Yunsheng Xiong, Qisheng Xu, Ming Feng, Tamás Gábor Csapó, Boqing Zhu. 1-5 [doi]

Robust and Parallelizable Tensor Completion Based on Tensor Factorization and Maximum Correntropy CriterionYicong He, George K. Atia. 1-5 [doi]

Jazznet: A Dataset of Fundamental Piano Patterns for Music Audio Machine Learning ResearchTosiron Adegbija. 1-5 [doi]

Bias Identification with RankPix SaliencySalamata Konate, Léo Lebrat, Rodrigo Santa Cruz, Clinton Fookes, Andrew P. Bradley, Olivier Salvado. 1-5 [doi]

Context-Aware Coherent Speaking Style Prediction with Hierarchical Transformers for Audiobook Speech SynthesisShun Lei, Yixuan Zhou, Liyang Chen, Zhiyong Wu 0001, Shiyin Kang, Helen Meng. 1-5 [doi]

Repetition Counting from Compressed Videos Using Sparse Residual SimilarityRishabh Khurana, Jayesh Rajkumar Vachhani, Sourabh Vasant Gothe, Pranay Kashyap. 1-5 [doi]

Adaptive Simulated Annealing Through Alternating Rényi Divergence MinimizationThomas Guilmeau, Émilie Chouzenoux, Víctor Elvira. 1-5 [doi]

Enlightening the Student in Knowledge DistillationYujie Zheng, Chong Wang, Yi Chen, Jiangbo Qian, Jun Wang, Jiafei Wu. 1-5 [doi]

Ancient Chinese Word Segmentation and Part-of-Speech Tagging Using Distant SupervisionShuo Feng, Piji Li. 1-5 [doi]

Bayesian Methods for Optical Flow Estimation Using a Variational Approximation, with Applications to UltrasoundJan Dorazil, Bernard H. Fleury, Franz Hlawatsch. 1-5 [doi]

Learning Graph Laplacian from Intrinsic Patterns via Gaussian ProcessKoshi Watanabe, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama. 1-5 [doi]

Vitasd: Robust Vision Transformer Baselines for Autism Spectrum Disorder Facial DiagnosisXu Cao, Wenqian Ye, Elena Sizikova, Xue Bai, Megan Coffee, Hongwu Zeng, Jianguo Cao. 1-5 [doi]

Prosody Is Not Identity: A Speaker Anonymization Approach Using Prosody CloningSarina Meyer, Florian Lux, Julia Koch, Pavel Denisov, Pascal Tilli, Ngoc Thang Vu. 1-5 [doi]

A Study on Bias and Fairness in Deep Speaker RecognitionAmirhossein Hajavi, Ali Etemad. 1-5 [doi]

Networked Policy Gradient Play in Markov Potential GamesSarper Aydin, Ceyhun Eksin. 1-5 [doi]

Surrogate Based Post-HOC Calibration for Distributional ShiftJun Zhang. 1-5 [doi]

Quantum Graph TransformersGeorgios Kollias, Vassilis Kalantzis, Theodoros Salonidis, Shashanka Ubaru. 1-5 [doi]

Towards Practical Edge Inference Attacks Against Graph Neural NetworksKailai Li, Jiawei Sun, Ruoxin Chen, Wei Ding, Kexue Yu, Jie Li 0002, Chentao Wu. 1-5 [doi]

ImagineNet: Target Speaker Extraction with Intermittent Visual Cue Through Embedding InpaintingZexu Pan, Wupeng Wang, Marvin Borsdorf, Haizhou Li 0001. 1-5 [doi]

Filler Word Detection with Hard Category Mining and Inter-Category Focal LossZhiyuan Zhao, Lijun Wu, Chuanxin Tang, Dacheng Yin, Yucheng Zhao, Chong Luo. 1-5 [doi]

Nord: Non-Matching Reference Based Relative Depth Estimation from Binaural SpeechPranay Manocha, Israel D. Gebru, Anurag Kumar 0003, Dejan Markovic, Alexander Richard. 1-5 [doi]

Hierarchical Graph Learning for Stock Market Prediction Via a Domain-Aware Graph Pooling OperatorArie N. Arya, Yao Lei Xu, LJubisa Stankovic, Danilo P. Mandic. 1-5 [doi]

Navigating and Reaching Therapeutic Goals with Dynamical Systems in Conversation-Based InterventionsVictor Ardulov, Shrikanth Narayanan. 1-5 [doi]

A Method of Constructing and Automatically Labeling Radio Frequency Signal Training Dataset for UAVChao Liu, Ruipeng Ma, Zheng Si, Mingmin Chi. 1-5 [doi]

Unsupervised Out-of-Distribution Detection Using Few in-Distribution SamplesChandan Gautam, Aditya Kane, Savitha Ramasamy, Suresh Sundaram 0002. 1-5 [doi]

Select The Best: Enhancing Graph Representation with Adaptive Negative Sample SelectionXiangping Zheng, Xun Liang 0001, Bo Wu. 1-5 [doi]

A Bayesian Perspective on Noise2Noise: Theory and ExtensionsSarah Miller, Christina Karam, Achour Idoughi, Kodai Kikuchi, Keigo Hirakawa. 1-5 [doi]

Distributed Quantum Sensing Network with Geographically Constrained Measurement StrategiesYingkang Cao, Xiaodi Wu. 1-5 [doi]

Multi-Resolution Location-Based Training for Multi-Channel Continuous Speech SeparationHassan Taherian, DeLiang Wang. 1-5 [doi]

Exploiting Sparse Recovery Algorithms for Semi-Supervised Training of Deep Neural Networks for Direction-of-Arrival EstimationMurtiza Ali, Aditya Arie Nugraha, Karan Nathwani. 1-5 [doi]

Recouple Event Field via Probabilistic Bias for Event ExtractionXingyu Bai, Taiqiang Wu, Han Guo, Zhe Zhao 0006, Xuefeng Yang, Jiayi Li, Weijie Liu 0002, Qi Ju, Weigang Guo, Yujiu Yang. 1-5 [doi]

Evaluating Parameter-Efficient Transfer Learning Approaches on SURE Benchmark for Speech UnderstandingYingting Li, Ambuj Mehrish, Rishabh Bhardwaj, Navonil Majumder, Bo Cheng, Shuai Zhao 0001, Amir Zadeh 0001, Rada Mihalcea, Soujanya Poria. 1-5 [doi]

Neural Maximum-a-Posteriori Beamforming for Ultrasound ImagingBen Luijten, Boudewine W. Ossenkoppele, Nico de Jong, Martin D. Verweij, Yonina C. Eldar, Massimo Mischi, Ruud J. G. van Sloun. 1-5 [doi]

Towards Trustworthy Phoneme Boundary Detection with Autoregressive Model and Improved Evaluation MetricHyeongju Kim, Hyeong-Seok Choi. 1-5 [doi]

Dual-Based Online Learning of Dynamic Network TopologiesSeyed Saman Saboksayr, Gonzalo Mateos. 1-5 [doi]

A Flow-Guided Non-Local Alignment Network for Video Compressive Sensing ReconstructionChao Zhou 0007, Can Chen, Dengyin Zhang. 1-5 [doi]

An Adapter Based Multi-Label Pre-Training for Speech Separation and EnhancementTianrui Wang, Xie Chen, Zhuo Chen, Shu Yu, Weibin Zhu. 1-5 [doi]

Meta Learning for Domain Agnostic Soft PromptMing-Yen Chen, Mahdin Rohmatillah, Ching-Hsien Lee, Jen-Tzung Chien. 1-5 [doi]

Wireless Sensing for Simultaneous Human Vocal Sound and Heart Sound RecognitionYu Rong, Kumar Vijay Mishra, Daniel W. Bliss. 1-5 [doi]

Efficient Speech Translation with Dynamic Latent PerceiversIoannis Tsiamas, Gerard I. Gállego, José A. R. Fonollosa, Marta R. Costa-Jussà. 1-5 [doi]

Mcrood: Multi-Class Radar Out-Of-Distribution DetectionSabri Mustafa Kahya, Muhammet Sami Yavuz, Eckehard G. Steinbach. 1-5 [doi]

Self-Supervised Learning-Based Source Separation for Meeting DataYuang Li, Xianrui Zheng, Philip C. Woodland. 1-5 [doi]

Phonetic RNN-Transducer for Mispronunciation DiagnosisDaniel Yue Zhang, Soumya Saha, Sarah Campbell. 1-5 [doi]

Dual-Path Cross-Modal Attention for Better Audio-Visual Speech ExtractionZhongweiyang Xu, Xulin Fan, Mark Hasegawa-Johnson. 1-5 [doi]

Model-Based Spectral Reconstruction Of Interferometric AcquisitionsMohamad Jouni, Daniele Picone, Mauro Dalla Mura. 1-5 [doi]

A Frequency-Weighted Leaky Fxlms Algorithm with Application to Feedback Active Noise Control SystemsYu Tang, Hongwei Zhang. 1-5 [doi]

Thermal Infrared Image Inpainting Via Edge-Aware GuidanceZeyu Wang, Haibin Shen, Changyou Men, Quan Sun, Kejie Huang. 1-5 [doi]

Online Residual-Based Key Frame Sampling with Self-Coach Mechanism and Adaptive Multi-Level Feature FusionRui Zhang, Yang Hua, Tao Song, Zhengui Xue, Ruhui Ma, Haibing Guan. 1-5 [doi]

Clicker: Attention-Based Cross-Lingual Commonsense Knowledge TransferRuolin Su, Zhongkai Sun, Sixing Lu, Chengyuan Ma, Chenlei Guo. 1-5 [doi]

MvCo-DoT: Multi-View Contrastive Domain Transfer Network for Medical Report GenerationRuizhi Wang, Xiangtao Wang, Zhenghua Xu, Wenting Xu, Junyang Chen, Thomas Lukasiewicz. 1-5 [doi]

Maximum Likelihood Distillation for Robust Modulation ClassificationJavier Maroto, Gérôme Bovet, Pascal Frossard. 1-5 [doi]

Zephyr: Zero-Shot Punctuation RestorationMinghan Wang, Yinglu Li, Jiaxin Guo, Xiaosong Qiao, Chang Su 0001, Min Zhang 0005, Shimin Tao, Hao Yang 0006. 1-5 [doi]

Densitytoken: Weakly-Supervised Crowd Counting with Density ClassificationZaiyi Hu, Binglu Wang, Xuelong Li 0001. 1-5 [doi]

Boosting Fine-Grained Sketch-Based Image Retrieval with Self-Supervised LearningZhaolong Zhang, Yangdong Chen, Yuejie Zhang, Rui Feng, Tao Zhang. 1-5 [doi]

Improving the Stochastic Gradient Descent's Test Accuracy by Manipulating the ℓ∞ Norm of its Gradient ApproximationPaul Rodriguez. 1-5 [doi]

Speech-Based Emotion Recognition with Self-Supervised Models Using Attentive Channel-Wise Correlations and Label SmoothingSofoklis Kakouros, Themos Stafylakis, Ladislav Mosner, Lukás Burget. 1-5 [doi]

A Mathematical Model for Neuronal Activity and Brain Information Processing CapacityYu Zheng, David C. Zhu, Jian Ren 0001, Taosheng Liu, Karl Friston, Tongtong Li. 1-5 [doi]

Accidental Learners: Spoken Language Identification in Multilingual Self-Supervised ModelsTravis M. Bartley, Fei Jia, Krishna C. Puvvada, Samuel Kriman, Boris Ginsburg. 1-5 [doi]

Improving Contextual Biasing with Text InjectionTara N. Sainath, Rohit Prabhavalkar, Diamantino Caseiro, Pat Rondon, Cyril Allauzen. 1-5 [doi]

Adaptable End-to-End ASR Models Using Replaceable Internal LMs and Residual SoftmaxKeqi Deng, Philip C. Woodland. 1-5 [doi]

Efficient Compressed Video Action Recognition Via Late Fusion with a Single NetworkHayato Terao, Wataru Noguchi, Hiroyuki Iizuka, Masahito Yamamoto. 1-5 [doi]

A Multi-Stage Triple-Path Method For Speech Separation in Noisy and Reverberant EnvironmentsZhaoxi Mu, Xinyu Yang, Xiangyuan Yang, Wenjing Zhu. 1-5 [doi]

Wekws: A Production First Small-Footprint End-to-End Keyword Spotting ToolkitJie Wang, Menglong Xu, Jingyong Hou, Binbin Zhang, Xiao-Lei Zhang 0001, Lei Xie 0001, Fuping Pan. 1-5 [doi]

DEHRFormer: Real-Time Transformer for Depth Estimation and Haze Removal from Varicolored Haze ScenesSixiang Chen, Tian Ye, Jun Shi, Yun Liu 0002, Jingxia Jiang, Erkang Chen, Peng Chen. 1-5 [doi]

Resolving Doppler Ambiguity Via Spread Phase Alignment in FDA-MIMO RadarYanxing Wang, Shengqi Zhu, Guisheng Liao, Lan Lan, Zhuochen Chen, Feilong Liu. 1-5 [doi]

SC-Net: Salient Point and Curvature Based Adversarial Point Cloud Generation NetworkZihao Zhang, Nan Sang, Xupeng Wang, Mumuxin Cai. 1-5 [doi]

Autovocoder: Fast Waveform Generation from a Learned Speech Representation Using Differentiable Digital Signal ProcessingJacob J. Webber, Cassia Valentini-Botinhao, Evelyn Williams, Gustav Eje Henter, Simon King. 1-5 [doi]

Matching-Based Term Semantics Pre-Training for Spoken Patient Query UnderstandingZefa Hu, Xiuyi Chen, Haoran Wu, Minglun Han, Ziyi Ni, Jing Shi 0003, Shuang Xu, Bo Xu 0002. 1-5 [doi]

A New Probabilistic Distance Metric with Application in Gaussian Mixture ReductionAhmad Sajedi, Yuri A. Lawryshyn, Konstantinos N. Plataniotis. 1-5 [doi]

Mitigating Unintended Memorization in Language Models Via Alternating TeachingZhe Liu 0011, Xuedong Zhang, Fuchun Peng. 1-5 [doi]

A Geometric Surrogate for Simulation CalibrationLincon S. Souza, Bojan Batalo, Keisuke Yamazaki. 1-5 [doi]

Continual Learning for On-Device Speech Recognition Using Disentangled ConformersAnuj Diwan, Ching-feng Yeh, Wei-Ning Hsu, Paden Tomasello, Eunsol Choi, David Harwath, Abdelrahman Mohamed. 1-5 [doi]

Improving Text-Audio Retrieval by Text-Aware Attention Pooling and Prior Matrix Revised LossYifei Xin, Dongchao Yang, Yuexian Zou. 1-5 [doi]

Domain Adaptation without Catastrophic Forgetting on a Small-Scale Partially-Labeled Corpus for Speech Emotion RecognitionZhi Zhu, Yoshinao Sato. 1-5 [doi]

Modular Conformer Training for Flexible End-to-End ASRKartik Audhkhasi, Brian Farris, Bhuvana Ramabhadran, Pedro J. Moreno 0001. 1-5 [doi]

Exploring Instance Relation for Decentralized Multi-Source Domain AdaptationYikang Wei, Yahong Han. 1-5 [doi]

Enhancing the Vocal Range of Single-Speaker Singing Voice Synthesis with Melody-Unsupervised Pre-TrainingShaohuan Zhou, Xu Li, Zhiyong Wu 0001, Ying Shan, Helen Meng. 1-5 [doi]

Lost In Translation: Generating Adversarial Examples Robust to Round-Trip TranslationNeel Bhandari, Pin-Yu Chen. 1-5 [doi]

Real-Time Wireless ECG-Derived Respiration Rate Estimation using an Autoencoder with a DCT LayerHongyi Pan, Xin Zhu, Zhilu Ye, Pai-Yen Chen, Ahmet Enis Cetin. 1-5 [doi]

PCSalmix: Gradient Saliency-Based Mix Augmentation for Point Cloud ClassificationTao Hong, Zeren Zhang, Jinwen Ma. 1-5 [doi]

Difference Coarrays of Rational ArraysPranav Kulkarni, P. P. Vaidyanathan. 1-5 [doi]

A Learnable Spatial Mapping for Decoding the Directional Focus of Auditory Attention Using EEGYuanming Zhang, Haoxin Ruan, Ziyan Yuan, Haoliang Du, Xia Gao, Jing Lu. 1-5 [doi]

Unified Keyword Spotting and Audio Tagging on Mobile Devices with TransformersHeinrich Dinkel, Yongqing Wang, Zhiyong Yan, Junbo Zhang, Yujun Wang. 1-5 [doi]

Personalized Task Load Prediction in Speech CommunicationRobert P. Spang, Karl El Hajal, Sebastian Möller 0001, Milos Cernak. 1-5 [doi]

Distributed Signal Processing for Out-of-System Interference Suppression in Cell-Free Massive MIMOZakir Hussain Shaik, Erik G. Larsson. 1-5 [doi]

Efficient Speech Quality Assessment Using Self-Supervised Framewise EmbeddingsKarl El Hajal, Zihan Wu 0009, Neil Scheidwasser-Clow, Gasser Elbanna, Milos Cernak. 1-5 [doi]

Ensemble Prosody Prediction For Expressive Speech SynthesisTian Huey Teh, Vivian Hu, Devang S. Ram Mohan, Zack Hodari, Christopher G. R. Wallis, Tomás Gómez Ibarrondo, Alexandra Torresquintero, James Leoni, Mark Gales, Simon King. 1-5 [doi]

Self-Attention for Enhanced OAMP Detection in MIMO SystemsAlexander Fuchs 0009, Christian Knoll 0002, Nima N. Moghadam, Alexey Pak, Jinliang Huang, Erik Leitinger, Franz Pernkopf. 1-5 [doi]

Lasso-Based Fast Residual Recovery For Modulo SamplingShaik Basheeruddin Shah, Satish Mulleti, Yonina C. Eldar. 1-5 [doi]

NRTSI: Non-Recurrent Time Series ImputationSiyuan Shan, Yang Li, Junier B. Oliva. 1-5 [doi]

MCNET: Fuse Multiple Cues for Multichannel Speech EnhancementYujie Yang, Changsheng Quan, Xiaofei Li. 1-5 [doi]

QTROJAN: A Circuit Backdoor Against Quantum Neural NetworksCheng Chu, Lei Jiang, Martin Swany, Fan Chen 0001. 1-5 [doi]

Music Mixing Style Transfer: A Contrastive Learning Approach to Disentangle Audio EffectsJunghyun Koo, Marco A. Martínez Ramírez, Wei-Hsiang Liao, Stefan Uhlich, Kyogu Lee, Yuki Mitsufuji. 1-5 [doi]

MRML: Multimodal Rumor Detection by Deep Metric LearningLiwen Peng, Songlei Jian, Dongsheng Li 0001, Siqi Shen. 1-5 [doi]

Multi-Stream Facial Adaptive Network for Expression Recognition from a Single ImageBaichuan Zhang, Fanyang Meng, Runwei Ding, Mengyuan Liu. 1-5 [doi]

Fine-Grained Emotional Control of Text-to-Speech: Learning to Rank Inter- and Intra-Class Emotion IntensitiesShijun Wang, Jón Guðnason, Damian Borth. 1-5 [doi]

CB-Conformer: Contextual Biasing Conformer for Biased Word RecognitionYaoxun Xu, Baiji Liu, Qiaochu Huang, Xingchen Song, Zhiyong Wu 0001, Shiyin Kang, Helen Meng. 1-5 [doi]

M-CTRL: A Continual Representation Learning Framework with Slowly Improving Past Pre-Trained ModelJin-Seong Choi, Jae Hong Lee, Chae Won Lee, Joon-Hyuk Chang. 1-5 [doi]

Misspecified Cramér-Rao Bound of RIS-Aided Localization Under Geometry MismatchPinjun Zheng, Hui Chen 0014, Tarig Ballal, Henk Wymeersch, Tareq Y. Al-Naffouri. 1-5 [doi]

On The Design and Training Strategies for Rnn-Based Online Neural Speech Separation SystemsKai Li, Yi Luo. 1-5 [doi]

AVES: Animal Vocalization Encoder Based on Self-SupervisionMasato Hagiwara. 1-5 [doi]

FCIR: Rethink Aerial Image Super Resolution with Fourier AnalysisYan Zhang, Pengcheng Zheng, Jianan Jiang, Xiao Pu, Xinbo Gao 0001. 1-5 [doi]

OPT: One-shot Pose-Controllable Talking Head GenerationJin Liu, Xi Wang, Xiaomeng Fu, Yesheng Chai, Cai Yu, Jiao Dai, Jizhong Han. 1-5 [doi]

Learning to Balance the Global Coherence and Informativeness in Knowledge-Grounded Dialogue GenerationChenxu Niu, Yue Hu, Wei Peng, Yuqiang Xie. 1-5 [doi]

Temporal Contrastive Learning with CurriculumShuvendu Roy, Ali Etemad. 1-5 [doi]

Efficient Protein Structural Class Prediction Via Chaos Game Representation and Recurrent Neural NetworksMichaela Areti Zervou, Effrosyni Doutsi, Panagiotis Tsakalides. 1-5 [doi]

DecomFormer: Decompose Self-Attention Via Fourier Transform for VHR Aerial Image Scene ClassificationYan Zhang, Xiyuan Gao, Xiao Pu, Tao Wang, Xinbo Gao 0001. 1-5 [doi]

Individual Sub-Band Estimation Approach to Bandwidth Extension and Enhancement of Coded SpeechYoungwon Choi, Eunkyun Lee, Inseon Jang, Jong Won Shin. 1-5 [doi]

Improving Retrieval-Based Dialogue System Via Syntax-Informed AttentionTengtao Song, Nuo Chen, Ji-jiang, Zhihong Zhu, Yuexian Zou. 1-5 [doi]

SQuId: Measuring Speech Naturalness in Many LanguagesThibault Sellam, Ankur Bapna, Joshua Camp, Diana Mackinnon, Ankur P. Parikh, Jason Riesa. 1-5 [doi]

Neural Optimization Of Geometry And Fixed Beamformer For Linear Microphone ArraysLongfei Yan, Weilong Huang, W. Bastiaan Kleijn, Thushara D. Abhayapala. 1-5 [doi]

Co-Operative CNN for Visual Saliency Prediction on WCE ImagesGeorge Dimas, Anastasios Koulaouzidis, Dimitris K. Iakovidis. 1-5 [doi]

Deformable Cross Attention for Learning Optical FlowRokia Abdeen, Xuezhi Xiang, Ning Lv, Abdulmotaleb El-Saddik. 1-5 [doi]

Piecewise Position Encoding in Convolutional Neural Network for Cough-Based Covid-19 DetectionJiakun Shen, Xueshuai Zhang, Pengyuan Zhang, Yonghong Yan 0002, Shaoxing Zhang, Zhihua Huang, Yanfen Tang, Yu Wang, Fujie Zhang, Aijun Sun. 1-5 [doi]

Sparsity Constraint Implementation for the Joint Eigenvalue Decomposition of MatricesRemi Andre, Xavier Luciani. 1-5 [doi]

Efficient Privacy Preserving Graph Neural Network for Node ClassificationXinjun Pei, Xiaoheng Deng, Shengwei Tian, Kaiping Xue. 1-5 [doi]

Estimating Normalized Graph Laplacians in Financial MarketsJosé Vinícius de Miranda Cardoso, Jiaxi Ying, Sandeep Kumar 0005, Daniel P. Palomar. 1-5 [doi]

Towards Accurate and Real-Time End-of-Speech EstimationYifeng Fan, Colin Vaz, Di He, Jahn Heymann, Viet Anh Trinh, Zhe Zhang, Venkatesh Ravichandran. 1-5 [doi]

Multi-Dimensional Signal Recovery Using Low-Rank DeconvolutionDavid Reixach. 1-5 [doi]

Robust multi-modal speech emotion recognition with ASR error adaptationBinghuai Lin, Liyuan Wang. 1-5 [doi]

Toward Auto-Evaluation With Confidence-Based Category Relation-Aware RegressionJiexin Wang, Jiahao Chen, Bing Su. 1-5 [doi]

Exploring Universal Singing Speech Language Identification Using Self-Supervised Learning Based Front-End FeaturesXingming Wang, Hao Wu, Chen Ding, Chuanzeng Huang, Ming Li. 1-5 [doi]

TSPTQ-ViT: Two-Scaled Post-Training Quantization for Vision TransformerYu-Shan Tai, Ming-Guang Lin, An-Yeu Andy Wu. 1-5 [doi]

Source-Filter HiFi-GAN: Fast and Pitch Controllable High-Fidelity Neural VocoderReo Yoneyama, Yi-Chiao Wu, Tomoki Toda. 1-5 [doi]

Ontology-Aware Network for Zero-Shot Sketch-Based Image RetrievalHaoxiang Zhang, He Jiang, Ziqiang Wang, Deqiang Cheng. 1-5 [doi]

ITER-SIS: Robust Unlimited Sampling Via Iterative Signal SievingRuiming Guo, Ayush Bhandari. 1-5 [doi]

Weakly- and Semi-Supervised Object LocalizationZhen-Tang Huang, Yan-He Chen, Mei-Chen Yeh. 1-5 [doi]

Using Machine Learning to Understand the Relationships Between Audiometric Data, Speech Perception, Temporal Processing, And CognitionRana M. Khalil, Alexandra Papanicolaou, Renee Ti Chou, Bobby E. Gibbs, Samira Anderson, Sandra Gordon-Salant, Michael P. Cummings, Matthew J. Goupell. 1-5 [doi]

On Word Error Rate Definitions and Their Efficient Computation for Multi-Speaker Speech Recognition SystemsThilo von Neumann, Christoph Böddeker, Keisuke Kinoshita, Marc Delcroix, Reinhold Haeb-Umbach. 1-5 [doi]

Meta-Dag: Meta Causal Discovery Via Bilevel OptimizationSongtao Lu, Tian Gao. 1-5 [doi]

Is Multi-Task Learning an Upper Bound for Continual Learning?Zihao Wu, Huy Tran, Hamed Pirsiavash, Soheil Kolouri. 1-5 [doi]

Multimodal Propaganda Detection Via Anti-Persuasion Prompt enhanced contrastive learningJian Cui, Lin Li, Xin Zhang, Jingling Yuan. 1-5 [doi]

Higher-Order Link Prediction Via Learnable Maximum Mean DiscrepancyGeorgios Vasileios Karanikolas, Alba Pagès-Zamora, Georgios B. Giannakis. 1-5 [doi]

Robust Video Object Segmentation with Restricted AttentionHuaizheng Zhang, Pinxue Guo, Zhongwen Le, Wenqiang Zhang. 1-5 [doi]

The Role of Initial Entanglement in Adaptive Gibbs State Preparation on Quantum ComputersSophia E. Economou, Ada Warren, Edwin Barnes. 1-5 [doi]

Adversarial Network Pruning by Filter Robustness EstimationXinlu Zhuang, Yunjie Ge, Baolin Zheng, Qian Wang 0002. 1-5 [doi]

Geometry-Aware DOA Estimation Using a Deep Neural Network with Mixed-Data Input FeaturesUlrik Kowalk, Simon Doclo, Jörg Bitzer. 1-5 [doi]

Graph Neural Networks for Object Type Classification Based on Automotive Radar Point Clouds and SpectraLoveneet Saini, Axel Acosta 0001, Gor Hakobyan. 1-5 [doi]

Uncertainty Estimation in Deep Speech Enhancement Using Complex Gaussian Mixture ModelsHuajian Fang, Timo Gerkmann. 1-5 [doi]

Classification of Synthetic Facial Attributes by Means of Hybrid Classification/Localization Patch-Based AnalysisJun Wang, Benedetta Tondi, Mauro Barni. 1-5 [doi]

Batch-Ensemble Stochastic Neural Networks for Out-of-Distribution DetectionXiongjie Chen, Yunpeng Li, Yongxin Yang. 1-5 [doi]

Bilateral Coarse-to-Fine Network for Point Cloud CompletionTran Thanh Phong Nguyen, Son Lam Phung, Vinod Gopaldasani, Jane Whitelaw. 1-5 [doi]

Robust Binaural Sound Localisation with Temporal AttentionQi Hu, Ning Ma 0002, Guy J. Brown. 1-5 [doi]

Does Human Speech Follow Benford's Law?Leo Hsu, Visar Berisha. 1-5 [doi]

Robust Data-Driven Accelerated Mirror DescentHong-ye Tan, Subhadip Mukherjee, Junqi Tang, Andreas Hauptmann, Carola-Bibiane Schönlieb. 1-5 [doi]

Image Inpainting with Semantic-Aware TransformerShiyu Chen, Wenxin Yu, Qi Wang, Jun Gong, Peng Chen. 1-5 [doi]

Zone Plate Virtual Lenses for Memory-Constrained NLOS ImagingPablo Luesia-Lahoz, Diego Gutierrez, Adolfo Muñoz. 1-5 [doi]

Doppler-Coded Joint Division Multiple Access Waveform for Automotive MIMO RadarYanhua Wang, Qiubo Pei, Xueyao Hu, Jiamin Long, Hao Yu, Le Zheng. 1-5 [doi]

Real-Time Speech Interruption Analysis: from Cloud to Client DeploymentQuchen Fu, Szu-Wei Fu, Yaran Fan, Yu Wu, Zhuo Chen, Jayant Gupchup, Ross Cutler. 1-5 [doi]

A DNN Based Normalized Time-Frequency Weighted Criterion for Robust Wideband DoA EstimationKuan-Lin Chen, Ching Hua Lee, Bhaskar D. Rao, Harinath Garudadri. 1-5 [doi]

Leveraging Large Text Corpora For End-To-End Speech SummarizationKohei Matsuura, Takanori Ashihara, Takafumi Moriya, Tomohiro Tanaka, Atsunori Ogawa, Marc Delcroix, Ryo Masumura. 1-5 [doi]

Diffroll: Diffusion-Based Generative Music Transcription with Unsupervised Pretraining CapabilityKin Wai Cheuk, Ryosuke Sawata, Toshimitsu Uesaka, Naoki Murata, Naoya Takahashi, Shusuke Takahashi, Dorien Herremans, Yuki Mitsufuji. 1-5 [doi]

Numerical Semantic Modeling for Implicit Discourse Relation RecognitionChenxu Wang, Ping Jian, Hai Wang. 1-5 [doi]

Subspace Modeling Enabled High-Sensitivity X-Ray Chemical ImagingJizhou Li, Bin Chen, Guibin Zan, Guannan Qian, Piero Pianetta, Yijin Liu. 1-5 [doi]

HARQ Delay Minimization of 5G Wireless Network with Imperfect FeedbackWeihang Ding, Mohammad Shikh-Bahaei. 1-5 [doi]

W2KPE: Keyphrase Extraction with Word-Word RelationWen Cheng, Shichen Dong, Wei Wang. 1-2 [doi]

Personalized Federated Learning on Long-Tailed Data via Adversarial Feature AugmentationYang Lu, Pinxin Qian, Gang Huang, Hanzi Wang. 1-5 [doi]

Continual Cell Instance Segmentation of Microscopy ImagesTzu-Ting Chuang, Ting-Yun Wei, Yu-Hsing Hsieh, Chu-Song Chen, Huei-Fang Yang. 1-5 [doi]

Understandable Relu Neural Network For Signal ClassificationMarie Guyomard, Susana Barbosa, Lionel Fillatre. 1-5 [doi]

A Study on the Integration of Pipeline and E2E SLU Systems for Spoken Semantic Parsing Toward Stop Quality ChallengeSiddhant Arora, Hayato Futami, Shih-Lun Wu, Jessica Huynh, Yifan Peng, Yosuke Kashiwagi, Emiru Tsunoo, Brian Yan, Shinji Watanabe 0001. 1-2 [doi]

EEG Emotion Recognition Via Ensemble Learning RepresentationsBilal Taha, Dae-Yon Hwang, Dimitrios Hatzinakos. 1-5 [doi]

Vararray Meets T-Sot: Advancing the State of the Art of Streaming Distant Conversational Speech RecognitionNaoyuki Kanda, Jian Wu 0027, Xiaofei Wang 0009, Zhuo Chen 0006, Jinyu Li 0001, Takuya Yoshioka. 1-5 [doi]

A Discriminative Multi-Channel Noise Feature Representation Model for Image Manipulation LocalizationYang Zhou, Hongxia Wang, Qiang Zeng, Rui Zhang, Sijiang Meng. 1-5 [doi]

ICASSP 2023 Auditory EEG Decoding ChallengeLies Bollens, Mohammad Jalilpour-Monesi, Bernd Accou, Jonas Vanthornhout, Hugo Van Hamme, Tom Francart. 1-2 [doi]

Channel-Driven Decentralized Bayesian Federated Learning for Trustworthy Decision Making in D2D NetworksLuca Barbieri, Osvaldo Simeone, Monica Nicoli. 1-5 [doi]

Optimized Dithering for Quantization Index ModulationShanxiang Lyu. 1-5 [doi]

Spatio-Temporal Structure Consistency for Semi-Supervised Medical Image ClassificationWentao Lei, Lei Liu, Li Liu. 1-5 [doi]

Quantpipe: Applying Adaptive Post-Training Quantization For Distributed Transformer Pipelines In Dynamic Edge EnvironmentsHaonan Wang, Connor Imes, Souvik Kundu 0002, Peter A. Beerel, Stephen P. Crago, John Paul Walters. 1-5 [doi]

Topology Uncertainty Modeling For Imbalanced Node Classification on GraphsJiayi Gao, Jiaxing Li, Ke Zhang, Youyong Kong. 1-5 [doi]

Classification of the Cervical Vertebrae Maturation (CVM) Stages Using the Tripod NetworkSalih Atici, Hongyi Pan, Mohammed H. Elnagar, Veerasathpurush Allareddy, Omar Suhaym, Rashid Ansari, Ahmet Enis Çetin. 1-5 [doi]

mmWave Wi-Fi Trajectory Estimation with Continuous-Time Neural Dynamic LearningCristian J. Vaca-Rubio, Pu Wang 0004, Toshiaki Koike-Akino, Ye Wang 0001, Petros Boufounos, Petar Popovski. 1-5 [doi]

Improved Small Sample Hypothesis Testing Using the Uncertain Likelihood RatioJames Zachary Hare, Lance M. Kaplan. 1-5 [doi]

MRNET: Multi-Refinement Network for Dual-Pixel Images Defocus DeblurringDafeng Zhang, Xiaobing Wang, Zhezhu Jin. 1-5 [doi]

Data Augmentation Based On Invariant Shape Blending For Deep Learning ClassificationEmna Ghorbel, Mahmoud Ghorbel, Slim M'hiri. 1-5 [doi]

A Causal Convolutional Approach for Packet Loss Concealment in Low Powered DevicesSteven Davy, Niamh Belton, Joshua Tobin, Owais Bin Zuber, Liu Dong, Yuan Xuewen. 1-5 [doi]

RCDPT: Radar-Camera Fusion Dense Prediction TransformerChen-Chou Lo, Patrick Vandewalle. 1-5 [doi]

Regularized Neural Detection for Millimeter Wave Massive Mimo Communication Systems with One-Bit AdcsAditya Sant, Bhaskar D. Rao. 1-5 [doi]

Autonomous Navigation of a Robotic Swarm in Space Exploration MissionsSiwei Zhang, Tobias Baumgartner, Emanuel Staudinger, Robert Pöhlmann, Fabio Broghammer, Armin Dammann. 1-5 [doi]

Diffusion-Based Generative Speech Source SeparationRobin Scheibler, Youna Ji, Soo-Whan Chung, Jaeuk Byun, Soyeon Choe, Min-Seok Choi. 1-5 [doi]

Single-Shot Fractional Fourier Phase RetrievalYixiao Yang, Ran Tao. 1-5 [doi]

Improving Contextual Spelling Correction by External Acoustics Attention and Semantic Aware Data AugmentationXiaoqiang Wang, Yanqing Liu, Jinyu Li 0001, Sheng Zhao. 1-5 [doi]

Diffusionnet: An Efficient Framework to Classify Single-Molecule Images with Latent Entropy MinimizationSoumee Guha, Olivia de Cuba, Andreas Gahlmann, Scott T. Acton. 1-5 [doi]

IQGAN: Robust Quantum Generative Adversarial Network for Image Synthesis On NISQ DevicesCheng Chu, Grant Skipper, Martin Swany, Fan Chen 0001. 1-5 [doi]

Single-Particle Tracking by Graph TransformerSatoshi Kamiya, Kazuhiro Hotta, Taka-aki Tsunoyama, Akihiro Kusumi. 1-5 [doi]

Rethink Long-Tailed Recognition with Vision TransformsZhengzhuo Xu, Shuo Yang, Xingjun Wang, Chun Yuan. 1-5 [doi]

Waveform Boundary Detection for Partially Spoofed AudioZexin Cai, Weiqing Wang, Ming Li. 1-5 [doi]

WAVELET2VEC: A Filter Bank Masked Autoencoder for EEG-Based Seizure Subtype ClassificationRuimin Peng, Changming Zhao, Yifan Xu, Jun Jiang, Guangtao Kuang, Jianbo Shao, Dongrui Wu. 1-5 [doi]

ClassA Entropy for the Analysis of Structural Complexity of Physiological SignalsHongjian Xiao, Ling Li, Danilo P. Mandic. 1-5 [doi]

Tell Model Where to Attend: Improving Interpretability of Aspect-Based Sentiment Classification via Small Explanation AnnotationsZhenxiao Cheng, Jie Zhou 0015, Wen Wu 0006, Qin Chen, Liang He 0001. 1-5 [doi]

VPPT: Visual Pre-Trained Prompt Tuning Framework for Few-Shot Image ClassificationZhao Song 0011, Ke Yang, Naiyang Guan, JunJie Zhu, Peng Qiao, Qingyong Hu. 1-5 [doi]

Auto-AVSR: Audio-Visual Speech Recognition with Automatic LabelsPingchuan Ma 0001, Alexandros Haliassos, Adriana Fernandez-Lopez, Honglie Chen, Stavros Petridis, Maja Pantic. 1-5 [doi]

Video Captioning via Relation-Aware Graph LearningYi Zheng, Heming Jing, Qiujie Xie, Yuejie Zhang, Rui Feng, Tao Zhang, Shang Gao 0003. 1-5 [doi]

Improving CTC-Based ASR Models With Gated Interlayer CollaborationYuting Yang, Yuke Li, Binbin Du. 1-5 [doi]

Subspace Hybrid Beamforming for Head-Worn Microphone ArraysSina Hafezi, Alastair H. Moore, Pierre Guiraud, Patrick A. Naylor, Jacob Donley, Vladimir Tourbabin, Thomas Lunner. 1-5 [doi]

Improving the Modality Representation with multi-view Contrastive Learning for Multimodal Sentiment AnalysisPeipei Liu, Xin Zheng, Hong Li 0004, Jie Liu, Yimo Ren, Hongsong Zhu, Limin Sun. 1-5 [doi]

Adaptive Mask Co-Optimization for Modal Dependence in Multimodal LearningYing Zhou, Xuefeng Liang, Shiquan Zheng, Huijun Xuan, Takatsune Kumada. 1-5 [doi]

A Multi-Modal Approach For Context-Aware Network Traffic ClassificationBo Pang, Yongquan Fu, Siyuan Ren, Siqi Shen, Ye Wang, Qing Liao 0001, Yan Jia 0001. 1-5 [doi]

Joint Modeling for ASR Correction and Dialog State TrackingDeyuan Wang, Tiantian Zhang, Caixia Yuan, Xiaojie Wang. 1-5 [doi]

Shuffled Autoregression for Motion InterpolationShuo Huang, Jia Jia 0001, Zongxin Yang, Wei Wang, Haozhe Wu, Yi Yang, Junliang Xing. 1-5 [doi]

FedPrompt: Communication-Efficient and Privacy-Preserving Prompt Tuning in Federated LearningHaodong Zhao, Wei Du, Fangqi Li, Peixuan Li, Gongshen Liu. 1-5 [doi]

Spatial-Domain Object Detection Under Mimo-Fmcw Automotive Radar InterferenceSian Jin, Pu Wang 0004, Petros Boufounos, Ryuhei Takahashi, Sumit Roy 0001. 1-5 [doi]

Training Sound Event Detection with Soft Labels from Crowdsourced AnnotationsIrene Martín-Morató, Manu Harju, Paul Ahokas, Annamaria Mesaros. 1-5 [doi]

Wespeaker: A Research and Production Oriented Speaker Embedding Learning ToolkitHongji Wang, Chengdong Liang, Shuai Wang 0016, Zhengyang Chen, Binbin Zhang, Xu Xiang, Yanlei Deng, Yanmin Qian. 1-5 [doi]

SSVMR: Saliency-Based Self-Training for Video-Music RetrievalXuxin Cheng, Zhihong Zhu, Hongxiang Li, Yaowei Li, Yuexian Zou. 1-5 [doi]

Neural Diarization with Non-Autoregressive Intermediate AttractorsYusuke Fujita, Tatsuya Komatsu, Robin Scheibler, Yusuke Kida, Tetsuji Ogawa. 1-5 [doi]

Spatial Cross-Attention for Transformer-Based Image CaptioningKhoa Anh Ngo, Kyuhong Shim, Byonghyo Shim. 1-5 [doi]

JPEG Pleno Call for Proposals Responses Quality AssessmentJoão Prazeres, Zhe Luo, António M. G. Pinheiro, Luís Alberto da Silva Cruz, Stuart W. Perry. 1-5 [doi]

Small-Footprint Slimmable Networks for Keyword SpottingZuhaib Akhtar, Mohammad Omar Khursheed, Dongsu Du, Yuzong Liu. 1-5 [doi]

MID-Attribute Speaker Generation Using Optimal-Transport-Based Interpolation of Gaussian Mixture ModelsAya Watanabe, Shinnosuke Takamichi, Yuki Saito, Detai Xin, Hiroshi Saruwatari. 1-5 [doi]

Input-Dependent Dynamical Channel Association For Knowledge DistillationQiankun Tang, Yuan Zhang, Xiaogang Xu, Jun Wang, Yimin Guo. 1-5 [doi]

One-Shot Action Detection via Attention Zooming InHe-Yen Hsieh, Ding-Jie Chen, Cheng-Wei Chang, Tyng-Luh Liu. 1-5 [doi]

A Novel State Connection Strategy for Quantum Computing to Represent and Compress Digital ImagesMd. Ershadul Haque, Manoranjan Paul, Anwar Ulhaq, Tanmoy Debnath. 1-5 [doi]

Adversarial Permutation Invariant Training for Universal Sound SeparationEmilian Postolache, Jordi Pons, Santiago Pascual, Joan Serrà. 1-5 [doi]

Multi-Scale Receptive Field Graph Model for Emotion Recognition in ConversationsJie Wei, Guanyu Hu, Luu Anh Tuan, Xinyu Yang, Wenjing Zhu. 1-5 [doi]

Learning to Explain: a Gradient-based Attribution Method for Interpreting Super-Resolution NetworksAnni Yu, Yu-Bin Yang. 1-5 [doi]

Vision, Deduction and Alignment: An Empirical Study on Multi-Modal Knowledge Graph AlignmentYangning Li, Jiaoyan Chen, Yinghui Li, Yuejia Xiang, Xi Chen, Hai-Tao Zheng 0002. 1-5 [doi]

Nowcasting of Extreme Precipitation Using Deep Generative ModelsHaoran Bi, Maksym Kyryliuk, Zhiyi Wang, Cristian Meo, Yanbo Wang, Ruben Imhoff, Remko Uijlenhoet, Justin Dauwels. 1-5 [doi]

Transformer-based tracking Network for Maneuvering TargetsYushu Zhang, Gang Li, Xiao-Ping Zhang, You He. 1-5 [doi]

Tensor Low Rank Column-Wise Compressive Sensing for Dynamic ImagingSilpa Babu, Selin Aviyente, Namrata Vaswani. 1-5 [doi]

Speech Dereverberation with a Reverberation Time Shortening TargetRui Zhou, Wenye Zhu, Xiaofei Li. 1-5 [doi]

Rethinking Rule-Based Approaches in Session-Based RecommendationLiuyin Wang, Mingchao Li, Hai-Tao Zheng 0002. 1-5 [doi]

G2PL: Lexicon Enhanced Chinese Polyphone Disambiguation Using Bert Adapter with a New DatasetHaifeng Zhao 0001, Hongzhi Wan, Lili Huang, Mingwei Cao. 1-5 [doi]

Learning to Auto-Correct for High-Quality SpectrogramsZhiyang Zhou, Shihui Liu. 1-5 [doi]

Energy Regularized RNNS for solving non-stationary Bandit problemsMichael Rotman, Lior Wolf. 1-5 [doi]

Projected Hierarchical ALS for Generalized Boolean Matrix FactorizationRodrigo Cabral Farias, Sebastian Miron. 1-5 [doi]

PFT-SSR: Parallax Fusion Transformer for Stereo Image Super-ResolutionHansheng Guo, Juncheng Li, Guangwei Gao, Zhi Li, Tieyong Zeng. 1-5 [doi]

Speech-Text Based Multi-Modal Training with Bidirectional Attention for Improved Speech RecognitionYuhang Yang, Haihua Xu, Hao Huang, Eng Siong Chng, Sheng Li 0010. 1-5 [doi]

Perceive and Predict: Self-Supervised Speech Representation Based Loss Functions for Speech EnhancementGeorge Close, William Ravenscroft, Thomas Hain, Stefan Goetze. 1-5 [doi]

Representation of Vocal Tract Length Transformation Based on Group TheoryAtsushi Miyashita, Tomoki Toda. 1-5 [doi]

Two-Branch Multi-Scale Deep Neural Network for Generalized Document Recapture Attack DetectionJiaxing Li, Chenqi Kong, Shiqi Wang 0001, Haoliang Li. 1-5 [doi]

UAV Local Path Planning Based on Improved Proximal Policy Optimization AlgorithmJiahao Xu, Xufeng Yan, Cui Peng, Xinquan Wu, Lipeng Gu, Yanbiao Niu. 1-5 [doi]

Ripple Sparse Self-Attention for Monaural Speech EnhancementQiquan Zhang, Hongxu Zhu, Qi Song, Xinyuan Qian, Zhaoheng Ni, Haizhou Li 0001. 1-5 [doi]

Bayesian Cramér-Rao Bound Estimation With Score-Based ModelsEvan Scope Crafts, Bo Zhao. 1-5 [doi]

Active IRS-Assisted MIMO Channel Estimation and PredictionMirza Asif Haider, Saidur R. Pavel, Yimin D. Zhang, Elias Aboutanios. 1-5 [doi]

Time-Aware Multiway Adaptive Fusion Network for Temporal Knowledge Graph Question AnsweringYonghao Liu, Di Liang, Fang Fang, Sirui Wang, Wei Wu 0014, Rui Jiang. 1-5 [doi]

Multi-View Graph Regularized Deep Autoencoder-Like NMF FrameworkLiang Zhao, Zihao Wang, Ziyue Wang, Zhikui Chen. 1-5 [doi]

Applying Symmetrical Component Transform for Industrial Appliance Classification in Non-Intrusive Load MonitoringAnthony Faustine, Lucas Pereira. 1-5 [doi]

Zero-Shot Sound Event Classification Using a Sound Attribute Vector with Global and Local Feature LearningYihan Lin, Xunquan Chen, Ryoichi Takashima, Tetsuya Takiguchi. 1-5 [doi]

Structured Errors-in-Variables Modelling for Cortico-Muscular Coherence EnhancementZhenghao Guo, Verity M. McClelland, Wei Dai 0001, Zoran Cvetkovic. 1-5 [doi]

Batch Normalization Damages Federated Learning on NON-IID Data: Analysis and RemedyYanmeng Wang, Qingjiang Shi, Tsung-Hui Chang. 1-5 [doi]

AutoGCF: Personalized Aggregation on Neural Graph Collaborative FilteringXiaohu You 0001, Chi Li, Jianwei Xu, Mi Zhang. 1-5 [doi]

A Probabilistic Framework for Pruning Transformers Via a Finite Admixture of KeysTan M. Nguyen, Tam Nguyen, Long Bui, Hai Do, Duy Khuong Nguyen, Dung D. Le, Hung Tran-The, Nhat Ho, Stanley J. Osher, Richard G. Baraniuk. 1-5 [doi]

Sine: Similarity-Regularized Intra-Class Exploitation for Cross-Granularity Few-Shot LearningJinhai Yang, Hua Yang. 1-5 [doi]

Efficient Learning of Balanced Signature GraphsGerald Matz, Claudio Verardo, Thomas Dittrich 0001. 1-5 [doi]

Signal Analysis-Synthesis Using the Quantum Fourier TransformAradhita Sharma, Glen S. Uehara, Vivek Sivaraman Narayanaswamy, Leslie Miller, Andreas Spanias. 1-5 [doi]

Fast Single-Person 2D Human Pose Estimation Using Multi-Task Convolutional Neural NetworksChristos Papaioannidis, Ioannis Mademlis, Ioannis Pitas. 1-5 [doi]

Wireless Power Transfer Using Chirp WaveformsArijit Roy, Constantinos Psomas, Ioannis Krikidis. 1-5 [doi]

Stochastic Optimization of Vector Quantization Methods in Application to Speech and Image ProcessingMohammad Hassan Vali, Tom Bäckström. 1-5 [doi]

Visual Onoma-to-Wave: Environmental Sound Synthesis from Visual Onomatopoeias and Sound-Source ImagesHien Ohnaka, Shinnosuke Takamichi, Keisuke Imoto, Yuki Okamoto, Kazuki Fujii, Hiroshi Saruwatari. 1-5 [doi]

Balanced Deep CCA for Bird Vocalization DetectionSumit Kumar, B. Anshuman, Linus Rüttimann, Richard H. R. Hahnloser, Vipul Arora 0001. 1-5 [doi]

Knowledge Transfer for on-Device Speech Emotion Recognition With Neural Structured LearningYi Chang, Zhao Ren, Thanh-Tam Nguyen, Kun Qian 0003, Björn W. Schuller. 1-5 [doi]

Information Extraction from Pill Bottle Images via Text StitchingRahul Kumar Gupta, Shilka Roy, Sujit Jos, V. S. Unni, Lauren Lavoie, Frederic Medous, Walter Smith. 1-5 [doi]

A Contrastive Embedding-Based Domain Adaptation Method for Lung Sound Recognition in Children Community-Acquired PneumoniaDongmin Huang, Lingwei Wang, Hongzhou Lu, Wenjin Wang. 1-5 [doi]

A Sentiment and Syntactic-Aware Graph Convolutional Network for Aspect-Level Sentiment ClassificationYuxin Yang, Xia Sun, Qiang Lu, Richard F. E. Sutcliffe, Jun Feng 0003. 1-5 [doi]

Accelerated Distributed Stochastic Non-Convex Optimization over Time-Varying Directed NetworksYiyue Chen, Abolfazl Hashemi, Haris Vikalo. 1-5 [doi]

AE-Flow: Autoencoder Normalizing FlowJakub Mosinski, Piotr Bilinski, Thomas Merritt, Abdelhamid Ezzerg, Daniel Korzekwa. 1-5 [doi]

Do Prosody Transfer Models Transfer ProsodyƒAtli Þór Sigurgeirsson, Simon King. 1-5 [doi]

Focusing on Targets for Improving Weakly Supervised Visual GroundingViet Quoc Pham, Nao Mishima. 1-5 [doi]

Not All Classes are Equal: Adaptively Focus-Aware Confidence for Semi-Supervised Object DetectionHui Zhu, Yongchun Lü, Hongyu Zhao, Guoqing Zhao, Xiaofang Zhao. 1-5 [doi]

Quantized Precoding and RIS-Assisted Modulation for Integrated Sensing and Communications SystemsR. S. Prasobh Sankar, Sundeep Prabhakar Chepuri. 1-5 [doi]

3D Point Cloud Completion Based on Multi-Scale DegradationJianing Long, Qingmeng Zhu, Hao He, ZhiPeng Yu, Qilin Zhang, Zhihong Zhang. 1-5 [doi]

Prior-Enhanced Temporal Action Localization Using Subject-Aware Spatial AttentionYifan Liu, Youbao Tang, Ning Zhang, Ruei-Sung Lin, Haoqian Wang. 1-5 [doi]

2 Continuous Boundary EstimationPrasenjit Mondal, Ayush Pant, Sachin Soni. 1-5 [doi]

Cough Detection Using Millimeter-Wave Fmcw RadarKawon Han, Songcheol Hong. 1-5 [doi]

Memory-Augmented U-Transformer For Multivariate Time Series Anomaly DetectionShuxin Qin, Yongcan Luo, Gaofeng Tao. 1-5 [doi]

The Role of Memory in Social Learning When Sharing Partial OpinionsMichele Cirillo, Virginia Bordignon, Vincenzo Matta, Ali H. Sayed. 1-5 [doi]

Volumetric 3D Reconstruction with Window-Wise Global Feature AggregationShihao Ren, Yikang Ding, Jinli Liao, Xinghui Li, Jia Guo, WenSen Feng, Xueqian Wang. 1-5 [doi]

Convolutional Recurrent MetriCGAN With Spectral Dimension Compression For Full-Band Speech EnhancementZhongshu Hou, Qinwen Hu, Tianchi Sun, Yuxiang Hu, Changbao Zhu, Kai Chen. 1-2 [doi]

Bias Reduced Semidefinite Relaxation Method for Multistatic Localization in the Absence of Transmitter Position And Its SynchronizationJian Pei, Gang Wang 0007, K. C. Ho 0001, Lei Huang 0001. 1-5 [doi]

Training Large-Vocabulary Neural Language Models by Private Federated Learning for Resource-Constrained DevicesMingbin Xu, Congzheng Song, Ye Tian, Neha Agrawal, Filip Granqvist, Rogier C. van Dalen, Xiao Zhang, Arturo Argueta, Shiyi Han, Yaqiao Deng, Leo Liu, Anmol Walia, Alex Jin. 1-5 [doi]

Towards A Unified Conformer Structure: from ASR to ASV TaskDexin Liao, Tao Jiang, Feng Wang, Lin Li 0032, Qingyang Hong. 1-5 [doi]

On the Robustness of Non-Intrusive Speech Quality Model by Adversarial ExamplesHsin-Yi Lin, Huan-Hsin Tseng, Yu Tsao 0001. 1-5 [doi]

FEW-Shot Continual Learning with Weight Alignment and Positive Enhancement for Bioacoustic Event DetectionXiaoxiao Wu, Dongxing Xu, Haoran Wei, Yanhua Long. 1-5 [doi]

Empathetic Response Generation via Emotion Cause Transition GraphYushan Qian, Bo Wang, Ting-En Lin, Yinhe Zheng, Ying Zhu, Dongming Zhao, Yuexian Hou, Yuchuan Wu, Yongbin Li. 1-5 [doi]

Explanations for Automatic Speech RecognitionXiaoliang Wu, Peter Bell 0001, Ajitha Rajan. 1-5 [doi]

Transient Dictionary Learning for Compressed Time-of-Flight ImagingMiguel Heredia Conde. 1-5 [doi]

CRFAST: Clip-Based Reference-Guided Facial Image Semantic TransferAilin Li, Lei Zhao, Zhiwen Zuo, Zhizhong Wang, Wei Xing, Dongming Lu. 1-5 [doi]

Improved Mask-Based Neural Beamforming for Multichannel Speech Enhancement by Snapshot Matching MaskingChing Hua Lee, Chouchang Yang, Yilin Shen, Hongxia Jin. 1-5 [doi]

Simple Pooling Front-Ends for Efficient Audio ClassificationXubo Liu, Haohe Liu, Qiuqiang Kong, Xinhao Mei, Mark D. Plumbley, Wenwu Wang 0001. 1-5 [doi]

Image Fusion Via Slice-Based Convolutional Sparse RepresentationJingchen Xu, Yali Zhang, Ze Li, Jinjia Wang. 1-5 [doi]

Abusive Activity Detection with Multi-Modality Based on Convolutional Neural NetworkJisoo Kim, Hyebin Ahn, Byounghyun Yoo. 1-5 [doi]

Calibrating AI Models for Few-Shot Demodulation VIA Conformal PredictionKfir M. Cohen, Sangwoo Park, Osvaldo Simeone, Shlomo Shamai Shitz. 1-5 [doi]

Super-Resolution Information Enhancement for Crowd CountingJiahao Xie, Wei Xu, Dingkang Liang, Zhanyu Ma, Kongming Liang, Weidong Liu, Rui Wang, Ling Jin. 1-5 [doi]

KEPS-NET: Robust Parking slot Detection based Keypoint estimation for High Localization AccuracyJaewoo Lee, Kapje Sung, Daeul Park, Younghan Jeon. 1-5 [doi]

A Progressive Neural Network for Acoustic Echo CancellationZhuangqi Chen, Xianjun Xia, Siyu Sun, Ziqian Wang, Cheng Chen, Guoliang Xie, Pingjian Zhang, Yijian Xiao. 1-2 [doi]

Image Adversarial Steganography Based on Joint DistortionZexin Fan, Kejiang Chen, Chuan Qin 0003, Kai Zeng, Weiming Zhang 0001, Nenghai Yu. 1-5 [doi]

Speech Enhancement with Intelligent Neural Homomorphic SynthesisShulin He, Wei Rao, Jinjiang Liu, Jun Chen, Yukai Ju, Xueliang Zhang 0001, Yannan Wang, Shidong Shang. 1-5 [doi]

Sampling Order-Limited Signals on the SphereMuhammad Salaar Arif Khan, Salman Nadeem, Zubair Khalid. 1-5 [doi]

Neural Networks with Quantization ConstraintsIgnacio Hounie, Juan Elenter, Alejandro Ribeiro. 1-5 [doi]

Interpretability in the Context of Sequential Cost-Sensitive Feature AcquisitionYasitha Warahena Liyanage, Daphney-Stavroula Zois. 1-5 [doi]

Comparative Layer-Wise Analysis of Self-Supervised Speech ModelsAnkita Pasad, Bowen Shi, Karen Livescu. 1-5 [doi]

Scalable Weight Reparametrization for Efficient Transfer LearningByeonggeun Kim, Jun-Tae Lee, Seunghan Yang, Simyung Chang. 1-5 [doi]

Robust Knowledge Distillation from RNN-T Models with Noisy Training Labels Using Full-Sum LossMohammad Zeineldeen, Kartik Audhkhasi, Murali Karthick Baskar, Bhuvana Ramabhadran. 1-5 [doi]

Generalized Two-Stage Particle Filter for High DimensionsMarija Iloska, Mónica F. Bugallo. 1-5 [doi]

Online Caching with Fetching cost for Arbitrary Demand Pattern: a Drift-Plus-Penalty ApproachShashank P, B. N. Bharath. 1-5 [doi]

Inverse Quadratic Transform for Minimizing A Sum of RatiosYannan Chen, Licheng Zhao, Yaowen Zhang, Kaiming Shen. 1-5 [doi]

GTN-Bailando: Genre Consistent long-Term 3D Dance Generation Based on Pre-Trained Genre Token NetworkHaolin Zhuang, Shun Lei, Long Xiao, Weiqin Li, Liyang Chen, Sicheng Yang, Zhiyong Wu 0001, Shiyin Kang, Helen Meng. 1-5 [doi]

Terminology-Aware Medical Dialogue GenerationChen Tang, Hongbo Zhang, Tyler Loakman, Chenghua Lin, Frank Guerin. 1-5 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2023, Rhodes Island, Greece, June 4-10, 2023

Abstract

Table of Contents