IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2022, Virtual and Singapore, 23-27 May 2022

researchr

You are not signed in
Sign in
Sign up

IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2022, Virtual and Singapore, 23-27 May 2022. IEEE, 2022. [doi]

Conference: icassp2022

Abstract is missing.

Coughtrigger: Earbuds IMU Based Cough Detection Activator Using An Energy-Efficient Sensitivity-Prioritized Time Series ClassifierShibo Zhang, Ebrahim Nemati, Minh Dinh, Nathan Folkman, Tousif Ahmed, Md. Mahbubur Rahman, Jilong Kuang, Nabil Alshurafa, Alex Gao 0001. 1-5 [doi]

Adversarial Examples Detection Based on Error Level Analysis and Space MappingSizhao Huang, Shuai Wang, Jian Chen, Guozhi Li, Wenyi Wang. 1-5 [doi]

Metricbert: Text Representation Learning Via Self-Supervised Triplet TrainingItzik Malkiel, Dvir Ginzburg, Oren Barkan, Avi Caciularu, Yoni Weill, Noam Koenigstein. 1-5 [doi]

Global Optimization Solution for Dynamic Adaptive 360-Degree StreamingXuekai Wei, Mingliang Zhou, Weijia Jia 0001. 1-5 [doi]

Non-Invasive Blood Pressure Monitoring with Multi-Modal In-Ear SensingHoang Truong, Alessandro Montanari, Fahim Kawsar. 6-10 [doi]

Intelligent Wi-Fi Based Child Presence Detection SystemXiaolu Zeng, Beibei Wang 0001, Chenshu Wu, Sai Deepika Regani, K. J. Ray Liu. 11-15 [doi]

Real-Time Fall Detection Using Mmwave RadarWenxuan Li, Dongheng Zhang, Yadong Li, Zhi Wu, Jinbo Chen, Dong Zhang, Yang Hu, Qibin Sun, Yan Chen. 16-20 [doi]

Hierarchical Deep Learning Model with Inertial and Physiological Sensors Fusion for Wearable-Based Human Activity RecognitionDae-Yon Hwang, Pai Chet Ng, Yuanhao Yu, Yang Wang, Petros Spachos, Dimitrios Hatzinakos, Konstantinos N. Plataniotis. 21-25 [doi]

Speech Recovery For Real-World Self-Powered Intermittent DevicesYu-Chen Lin, Tsun-An Hsieh, Kuo-Hsuan Hung, Cheng Yu, Harinath Garudadri, Yu Tsao 0001, Tei-Wei Kuo. 26-30 [doi]

Phase Control of Parametric Array Loudspeaker by Optimizing Sideband WeightsAi Okano, Yoshinobu Kajikawa. 31-35 [doi]

Low-Latency Human-Computer Auditory Interface Based on Real-Time Vision AnalysisFlorian Scalvini, Camille Bordeau, Maxime Ambard, Cyrille Migniot, Julien Dubois. 36-40 [doi]

Robust Adaptive Noise Canceller Algorithm with Snr-Based Stepsize Control and Noise-Path Gain CompensationAkihiko Sugiyama. 41-45 [doi]

Neartracker: Acoustic 2-D Target Tracking with Nearby Reflector in Siso SystemChao Liu, Linlin Gao, Ruobing Jiang. 46-50 [doi]

An Efficient Method For Generic Dsp Implementation Of Dilated ConvolutionHarinarayanan. E. V, Sachin Ghanekar. 51-55 [doi]

Compression-Aware Projection with Greedy Dimension Reduction for Convolutional Neural Network ActivationsYu-Shan Tai, Chieh-Fang Teng, Cheng-Yang Chang, An-Yeu Andy Wu. 56-60 [doi]

Optimizing The Consumption Of Spiking Neural Networks With Activity RegularizationSimon Narduzzi, Siavash Arjomand Bigdeli, Shih-Chii Liu, L. Andrea Dunbar. 61-65 [doi]

IMPQ: Reduced Complexity Neural Networks Via Granular Precision AssignmentSujan Kumar Gonugondla, Naresh R. Shanbhag. 66-70 [doi]

Rate Coding Or Direct Coding: Which One Is Better For Accurate, Robust, And Energy-Efficient Spiking Neural Networks?Youngeun Kim, Hyoungseob Park, Abhishek Moitra, Abhiroop Bhattacharjee, Yeshwanth Venkatesha, Priyadarshini Panda. 71-75 [doi]

PYXIS: An Open-Source Performance Dataset Of Sparse AcceleratorsLinghao Song, Yuze Chi, Jason Cong. 76-80 [doi]

Fast Fault Diagnosis Method Of Rolling Bearings In Multi-Sensor Measurement EnviromentZuozhou Pan, Zhiping Lin, Yuanjin Zheng, Zong Meng. 81-85 [doi]

Detecting Anomaly in Chemical Sensors via Regularized Contrastive LearningDiaa Badawi, Ishaan Bassi, Sule Ozev, Ahmet Enis Çetin. 86-90 [doi]

Evolutionary Neural Architecture Design of Liquid State Machine for Image ClassificationCheng Tang, Junkai Ji, Qiuzhen Lin, Yan Zhou. 91-95 [doi]

Invisible and Efficient Backdoor Attacks for Compressed Deep Neural NetworksHuy Phan, Yi Xie 0001, Jian Liu, Yingying Chen, Bo Yuan. 96-100 [doi]

Tensor-Based Orthogonal Matching Pursuit with Phase Rotation for Channel Estimation In Hybrid Beamforming Mimo-Ofdm SystemsCheng-Hung Lo, Pei-Yun Tsai. 101-105 [doi]

Spain-Net: Spatially-Informed Stereophonic Music Source SeparationDarius Petermann, Minje Kim. 106-110 [doi]

Improved Singing Voice Separation with Chromagram-Based Pitch-Aware RemixingSiyuan Yuan, Zhepei Wang, Umut Isik, Ritwik Giri, Jean-Marc Valin, Michael M. Goodwin, Arvindh Krishnaswamy. 111-115 [doi]

Don't Separate, Learn To Remix: End-To-End Neural Remixing With Joint OptimizationHaici Yang, Shivani Firodiya, Nicholas J. Bryan, Minje Kim. 116-120 [doi]

Few-Shot Musical Source SeparationYu Wang 0105, Daniel Stoller, Rachel M. Bittner, Juan Pablo Bello. 121-125 [doi]

Source Separation By Steering Pretrained Music ModelsEthan Manilow, Patrick O'Reilly, Prem Seetharaman, Bryan Pardo. 126-130 [doi]

Infant Crying Detection In Real-World EnvironmentsXuewen Yao, Megan Micheletti, Mckensey Johnson, Edison Thomaz, Kaya de Barbaro. 131-135 [doi]

Wikitag: Wikipedia-Based Knowledge Embeddings Towards Improved Acoustic Event ClassificationQin Zhang, Qingming Tang, Chieh-Chi Kao, Ming Sun 0007, Yang Liu, Chao Wang 0018. 136-140 [doi]

Urban Sound & Sight: Dataset And Benchmark For Audio-Visual Urban Scene UnderstandingMagdalena Fuentes, Bea Steers, Pablo Zinemanas, Martín Rocamora, Luca Bondi, Julia Wilkins, Qianyi Shi, Yao Hou, Samarjit Das, Xavier Serra, Juan Pablo Bello. 141-145 [doi]

Real-World On-Board Uav Audio Data Set For Propeller AnomaliesSai Srinadhu Katta, Kide Vuojärvi, Sivaprasad Nandyala, Ulla-Maria Kovalainen, Lauren Baddeley. 146-150 [doi]

Vocalsound: A Dataset for Improving Human Vocal Sounds RecognitionYuan Gong, Jin Yu, James R. Glass. 151-155 [doi]

Wearable Seld Dataset: Dataset For Sound Event Localization And Detection Using Wearable Devices Around HeadKento Nagatomo, Masahiro Yasuda, Kohei Yatabe, Shoichiro Saito, Yasuhiro Oikawa. 156-160 [doi]

Tunet: A Block-Online Bandwidth Extension Model Based On Transformers And Self-Supervised PretrainingViet Anh Nguyen, Anh H. T. Nguyen, Andy W. H. Khong. 161-165 [doi]

DRC-NET: Densely Connected Recurrent Convolutional Neural Network for Speech DereverberationJinjiang Liu, Xueliang Zhang. 166-170 [doi]

Customizable End-To-End Optimization Of Online Neural Network-Supported Dereverberation For Hearing DevicesJean-Marie Lemercier, Joachim Thiemann, Raphael Koning, Timo Gerkmann. 171-175 [doi]

Importance of Switch Optimization Criterion in Switching WPE DereverberationNaoyuki Kamo, Rintaro Ikeshita, Keisuke Kinoshita, Tomohiro Nakatani. 176-180 [doi]

Audio-To-Symbolic Arrangement Via Cross-Modal Music Representation LearningZiyu Wang 0008, Dejing Xu, Gus Xia, Ying Shan. 181-185 [doi]

Music Phrase Inpainting Using Long-Term Representation and Contrastive LossShiqi Wei, Gus Xia, Yixiao Zhang, Liwei Lin, Weiguo Gao. 186-190 [doi]

Melons: Generating Melody With Long-Term Structure Using Transformers And Structure GraphYi Zou, Pei Zou, Yi Zhao, Kaixiang Zhang, Ran Zhang, Xiaorui Wang. 191-195 [doi]

Difficulty-Aware Neural Band-to-Piano Score Arrangement based on Note- and Statistic-Level CriteriaMoyu Terao, Yuki Hiramatsu, Ryoto Ishizuka, Yiming Wu, Kazuyoshi Yoshii. 196-200 [doi]

Score Difficulty Analysis for Piano Performance Education based on FingeringPedro Ramoneda, Nazif Can Tamer, Vsevolod Eremenko, Xavier Serra, Marius Miron. 201-205 [doi]

A Neural Network-based Howling Detection Method for Real-Time Communication ApplicationsZhipeng Chen, Yiya Hao, Yaobin Chen, Gong Chen, Liang Ruan. 206-210 [doi]

Alarm Sound Detection Using Topological Signal ProcessingTomer Fireaizen, Saar Ron, Omer Bobrowski. 211-215 [doi]

A Method For Estimating The Grouping Of Participants In Classroom Group Work Using Only Audio InformationOsamu Ichikawa, Yuuto Shima, Takahiro Nakayama, Hajime Shirouzu. 216-220 [doi]

Environmental Sound Extraction Using Onomatopoeic WordsYuki Okamoto, Shota Horiguchi, Masaaki Yamamoto, Keisuke Imoto, Yohei Kawaguchi. 221-225 [doi]

Echo-Aware Adaptation of Sound Event Localization and Detection in Unknown EnvironmentsMasahiro Yasuda, Yasunori Ohishi, Shoichiro Saito. 226-230 [doi]

On Adversarial Robustness Of Large-Scale Audio Visual LearningJuncheng B. Li, Shuhui Qu, Xinjian Li, Bernie Po-Yao Huang, Florian Metze. 231-235 [doi]

Adversarial Sample Detection for Speaker Verification by Neural VocodersHaibin Wu, Po-Chun Hsu, Ji Gao, Shanshan Zhang, Shen Huang, Jian Kang 0006, Zhiyong Wu 0001, Helen Meng, Hung-yi Lee. 236-240 [doi]

Amicable Examples for Informed Source SeparationNaoya Takahashi, Yuki Mitsufuji. 241-245 [doi]

Multi-Modal Pre-Training for Automated Speech RecognitionDavid M. Chan, Shalini Ghosh, Debmalya Chakrabarty, Björn Hoffmeister. 246-250 [doi]

Speaker-Targeted Audio-Visual Speech Recognition Using a Hybrid CTC/Attention Model with Interference LossRyota Tsunoda, Ryo Aihara, Ryoichi Takashima, Tetsuya Takiguchi, Yoshie Imai. 251-255 [doi]

Time-Domain Audio-Visual Speech Separation on Low Quality VideosYifei Wu, Chenda Li, Jinfeng Bai, Zhongqin Wu, Yanmin Qian. 256-260 [doi]

Complex-Valued Spatial Autoencoders for Multichannel Speech EnhancementMhd Modar Halimeh, Walter Kellermann. 261-265 [doi]

Multichannel Noise Reduction Using Dilated Multichannel U-Net and Pre-Trained Single-Channel NetworkZhi-Wei Tan, Anh H. T. Nguyen, Yuan Liu, Andy W. H. Khong. 266-270 [doi]

One Model to Enhance Them All: Array Geometry Agnostic Multi-Channel Personalized Speech EnhancementHassan Taherian, Sefik Emre Eskimez, Takuya Yoshioka, Huaming Wang, Zhuo Chen 0006, Xuedong Huang 0001. 271-275 [doi]

Multi-Channel Speech Denoising for Machine EarsCong Han, Emine Merve Kaya, Kyle Hoefer, Malcolm Slaney, Simon Carlile. 276-280 [doi]

Localization based Sequential Grouping for Continuous Speech SeparationZhong-qiu Wang, DeLiang Wang. 281-285 [doi]

Convolutional Weighted Minimum Mean Square Error Filter for Joint Source Separation and DereverberationMieszko Fras, Marcin Witkowski, Konrad Kowalczyk. 286-290 [doi]

Improving Source Separation by Explicitly Modeling Dependencies between SourcesEthan Manilow, Curtis Hawthorne, Cheng-Zhi Anna Huang, Bryan Pardo, Jesse H. Engel. 291-295 [doi]

Music Source Separation With Deep Equilibrium ModelsYuichiro Koyama, Naoki Murata, Stefan Uhlich, Giorgio Fabbro, Shusuke Takahashi, Yuki Mitsufuji. 296-300 [doi]

Harmonic and Percussive Sound Separation Based on Mixed Partial Derivative of Phase SpectrogramNatsuki Akaishi, Kohei Yatabe, Yasuhiro Oikawa. 301-305 [doi]

On Loss Functions and Evaluation Metrics for Music Source SeparationEnric Gusó, Jordi Pons, Santiago Pascual, Joan Serrà. 306-310 [doi]

Time-Balanced Focal Loss for Audio Event DetectionSangwook Park, Mounya Elhilali. 311-315 [doi]

Multi-ACCDOA: Localizing And Detecting Overlapping Sounds From The Same Class With Auxiliary Duplicating Permutation Invariant TrainingKazuki Shimada, Yuichiro Koyama, Shusuke Takahashi, Naoya Takahashi, Emiru Tsunoo, Yuki Mitsufuji. 316-320 [doi]

Improved Representation Learning For Acoustic Event Classification Using Tree-Structured OntologyArman Zharmagambetov, Qingming Tang, Chieh-Chi Kao, Qin Zhang, Ming Sun 0007, Viktor Rozgic, Jasha Droppo, Chao Wang 0018. 321-325 [doi]

Temporal Contrastive-Loss for Audio Event DetectionSandeep Kothinti, Mounya Elhilali. 326-330 [doi]

A Frame Loss of Multiple Instance Learning for Weakly Supervised Sound Event DetectionXu Wang, Xiangjinzi Zhang, Yunfei Zi, Shengwu Xiong. 331-335 [doi]

Pseudo Strong Labels for Large Scale Weakly Supervised Audio TaggingHeinrich Dinkel, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang. 336-340 [doi]

Individualized Hear-Through For Acoustic Transparency Using PCA-Based Sound Pressure Estimation At The EardrumWenyu Jin 0002, Tim Schoof, Henning F. Schepker. 341-345 [doi]

On Spectral and Temporal Sparsification of Speech Signals for the Improvement of Speech Perception in CI ListenersBenjamin Lentz, Rainer Martin 0001, Kirsten Oberländer, Christiane Völter. 346-350 [doi]

A Differentiable Optimisation Framework for The Design of Individualised DNN-based Hearing-Aid StrategiesFotios Drakopoulos, Sarah Verhulst. 351-355 [doi]

Personalized speech enhancement: new models and Comprehensive evaluationSefik Emre Eskimez, Takuya Yoshioka, Huaming Wang, Xiaofei Wang, Zhuo Chen 0006, Xuedong Huang 0001. 356-360 [doi]

Dynamic Sliding Window for Realtime Denoising NetworksJinxu Xiang, Yuyang Zhu, Rundi Wu, Ruilin Xu 0001, Yuko Ishiwaka, Changxi Zheng. 361-365 [doi]

Bloom-Net: Blockwise Optimization for Masking Networks Toward Scalable and Efficient Speech EnhancementSunwoo Kim 0003, Minje Kim. 366-370 [doi]

HGCN: Harmonic Gated Compensation Network for Speech EnhancementTianrui Wang, Weibin Zhu, Yingying Gao, Junlan Feng, Shilei Zhang. 371-375 [doi]

Speech Enhancement with Neural Homomorphic SynthesisWenbin Jiang, Zhijun Liu, Kai Yu, Fei Wen. 376-380 [doi]

A Bayesian Permutation Training Deep Representation Learning Method for Speech Enhancement with Variational AutoencoderYang Xiang, Jesper Lisby Højvang, Morten Højfeldt Rasmussen, Mads Græsbøll Christensen. 381-385 [doi]

Integrating Statistical Uncertainty into Neural Network-Based Speech EnhancementHuajian Fang, Tal Peer, Stefan Wermter, Timo Gerkmann. 386-390 [doi]

Unsupervised Speech Enhancement with Speech Recognition Embedding and Disentanglement LossesViet Anh Trinh, Sebastian Braun. 391-395 [doi]

Musicyolo: A Sight-Singing Onset/Offset Detection Framework Based on Object Detection Instead of Spectrum FramesXianke Wang, Wei Xu, Weiming Yang, Wenqing Cheng. 396-400 [doi]

Modeling Beats and Downbeats with a Time-Frequency TransformerYun-Ning Hung, Ju-Chiang Wang, Xuchen Song, Wei Tsung Lu, Minz Won. 401-405 [doi]

Hierarchical Classification of Singing Activity, Gender, and Type in Complex Music RecordingsMichael Krause 0002, Meinard Müller. 406-410 [doi]

Deepchorus: A Hybrid Model of Multi-Scale Convolution And Self-Attention for Chorus DetectionQiqi He, Xiaoheng Sun, Yi Yu 0001, Wei Li 0012. 411-415 [doi]

To Catch A Chorus, Verse, Intro, or Anything Else: Analyzing a Song with Structural FunctionsJu-Chiang Wang, Yun-Ning Hung, Jordan B. L. Smith. 416-420 [doi]

A Novel 1D State Space for Efficient Music Rhythmic AnalysisMojtaba Heydari, Matthew McCallum, Andreas Ehmann, Zhiyao Duan. 421-425 [doi]

Upmixing Via Style Transfer: A Variational Autoencoder for Disentangling Spatial Images And Musical ContentHaici Yang, Sanna Wager, Spencer Russell, Mike Luo, Minje Kim, Wontak Kim. 426-430 [doi]

Spatial Mixup: Directional Loudness Modification as Data Augmentation for Sound Event Localization and DetectionRicardo Falcón Pérez, Kazuki Shimada, Yuichiro Koyama, Shusuke Takahashi, Yuki Mitsufuji. 431-435 [doi]

Towards Faster Continuous Multi-Channel HRTF Measurements Based On Learning System ModelsTobias Kabzinski, Peter Jax. 436-440 [doi]

Towards Fast And Convenient End-To-End HRTF PersonalizationBowen Zhi, Dmitry N. Zotkin, Ramani Duraiswami. 441-445 [doi]

Wishart Localization Prior On Spatial Covariance Matrix In Ambisonic Source Separation Using Non-Negative Tensor FactorizationMateusz Guzik, Konrad Kowalczyk. 446-450 [doi]

Improving Lyrics Alignment Through Joint Pitch DetectionJiawen Huang, Emmanouil Benetos, Sebastian Ewert. 451-455 [doi]

Learning Music Audio Representations Via Weak Language SupervisionIlaria Manco, Emmanouil Benetos, Elio Quinton, György Fazekas. 456-460 [doi]

On the Prediction of the Frequency Response of a Wooden Plate from Its Mechanical ParametersDavid Giuseppe Badiane, Raffaele Malvermi, Sebastian Gonzalez, Fabio Antonacci, Augusto Sarti. 461-465 [doi]

Automatic DJ Transitions with Differentiable Audio Effects and Generative Adversarial NetworksBo-Yu Chen, Wei-Han Hsu, Wei-Hsiang Liao, Marco A. Martínez Ramírez, Yuki Mitsufuji, Yi-Hsuan Yang. 466-470 [doi]

Self-Supervised Representation Learning for Unsupervised Anomalous Sound Detection Under Domain ShiftHan Chen, Yan Song, Li-Rong Dai 0001, Ian McLoughlin 0001, Lin Liu. 471-475 [doi]

Federated Self-Training for Data-Efficient Audio RecognitionVasileios Tsouvalas, Aaqib Saeed, Tanir Ozcelebi. 476-480 [doi]

Federated Self-Supervised Learning for Acoustic Event ClassificationMeng Feng, Chieh-Chi Kao, Qingming Tang, Ming Sun 0007, Viktor Rozgic, Spyros Matsoukas, Chao Wang 0018. 481-485 [doi]

Temporal Knowledge Distillation for on-device Audio ClassificationKwangHee Choi, Martin Kersner, Jacob Morton, Buru Chang. 486-490 [doi]

Streaming on-Device Detection of Device Directed Speech from Voice and Touch-Based InvocationOgnjen (Oggi) Rudovic, Akanksha Bindal, Vineet Garg, Pramod Simha, Pranay Dighe, Sachin Kajarekar. 491-495 [doi]

Multi-Frame Full-Rank Spatial Covariance Analysis for Underdetermined BSS in Reverberant EnvironmentsHiroshi Sawada, Rintaro Ikeshita, Keisuke Kinoshita, Tomohiro Nakatani. 496-500 [doi]

Flow-Based Fast Multichannel Nonnegative Matrix Factorization for Blind Source SeparationAditya Arie Nugraha, Kouhei Sekiguchi, Mathieu Fontaine 0002, Yoshiaki Bando, Kazuyoshi Yoshii. 501-505 [doi]

Harvesting Partially-Disjoint Time-Frequency Information for Improving Degenerate Unmixing Estimation TechniqueYudong He, He Wang, Qifeng Chen, Richard H. Y. So. 506-510 [doi]

Investigation And Comparison of Optimization Methods for Variational Autoencoder-Based Underdetermined Multichannel Source SeparationShogo Seki, Hirokazu Kameoka, Li Li 0063. 511-515 [doi]

HBP: An Efficient Block Permutation Solver Using Hungarian Algorithm and Spectrogram Inpainting for Multichannel Audio Source SeparationLi Li 0063, Hirokazu Kameoka, Shogo Seki. 516-520 [doi]

EAD-Conformer: a Conformer-Based Encoder-Attention-Decoder-Network for Multi-Task Audio Source SeparationChenxing Li, Yang Wang, Feng Deng, Zhuo Zhang, Xiaorui Wang, Zhongyuan Wang. 521-525 [doi]

The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World SoundtracksDarius Petermann, Gordon Wichern, Zhong-qiu Wang, Jonathan Le Roux. 526-530 [doi]

Phase Shifted Bedrosian Filterbank: An Interpretable Audio Front-End for Time-Domain Audio Source SeparationFélix Mathieu, Thomas Courtat, Gaël Richard, Geoffroy Peeters. 531-535 [doi]

Harmonicity Plays a Critical Role in DNN Based Versus in Biologically-Inspired Monaural Speech Segregation SystemsRahil Parikh, Ilya Kavalerov, Carol Y. Espy-Wilson, Shihab Shamma. 536-540 [doi]

Multi-Channel Narrow-Band Deep Speech Separation with Full-Band Permutation Invariant TrainingChangsheng Quan, Xiaofei Li. 541-545 [doi]

Csenet: Complex Squeeze-and-Excitation Network for Speech Depression Level PredictionCunhang Fan, Zhao Lv, Shengbing Pei, Mingyue Niu. 546-550 [doi]

Ubilung: Multi-Modal Passive-Based Lung Health AssessmentEbrahim Nemati, Xuhai Xu, Viswam Nathan, Korosh Vatanparvar, Tousif Ahmed, Md. Mahbubur Rahman, Daniel McCaffrey, Jilong Kuang, Alex Gao 0001. 551-555 [doi]

The Second Dicova Challenge: Dataset and Performance Analysis for Diagnosis of Covid-19 Using AcousticsNeeraj Kumar Sharma, Srikanth Raj Chetupalli, Debarpan Bhattacharya, Debottam Dutta, Pravin Mote, Sriram Ganapathy. 556-560 [doi]

Supervised and Self-Supervised Pretraining Based Covid-19 Detection Using Acoustic Breathing/Cough/Speech SignalsXing-yu Chen, Qiu-Shi Zhu, Jie Zhang, Li-Rong Dai 0001. 561-565 [doi]

Exploring Auditory Acoustic Features for The Diagnosis of Covid-19Madhu R. Kamble, Jose Patino 0001, Maria A. Zuluaga, Massimiliano Todisco. 566-570 [doi]

Fast-Rir: Fast Neural Diffuse Room Impulse Response GeneratorAnton Ratnarajah, Shi-Xiong Zhang, Meng Yu 0003, Zhenyu Tang 0001, Dinesh Manocha, Dong Yu 0001. 571-575 [doi]

Region-to-Region Kernel Interpolation of Acoustic Transfer Function with Directional WeightingJuliano G. C. Ribeiro, Shoichi Koyama, Hiroshi Saruwatari. 576-580 [doi]

Blind Reverberation Time Estimation in Dynamic Acoustic ConditionsPhilipp Götz, Cagdas Tuna, Andreas Walther, Emanuël A. P. Habets. 581-585 [doi]

Sparse Modeling of The Early Part of Noisy Room Impulse Responses with Sparse Bayesian LearningMaozhong Fu, Jesper Rindom Jensen, Yuhan Li, Mads Græsbøll Christensen. 586-590 [doi]

Improved Simulation of Realistically-Spatialised Simultaneous Speech Using Multi-Camera Analysis in The Chime-5 DatasetJack Deadman, Jon Barker. 591-595 [doi]

A Data-Driven Approach for Acoustic Parameter Similarity Estimation of Speech RecordingMattia Papa, Clara Borrelli, Paolo Bestagini, Fabio Antonacci, Augusto Sarti, Stefano Tubaro. 596-600 [doi]

Violinist Identification Using Note-Level Timbre Feature DistributionsYudong Zhao, György Fazekas, Mark B. Sandler. 601-605 [doi]

S3T: Self-Supervised Pre-Training with Swin Transformer For Music ClassificationHang Zhao, Chen Zhang, Bilei Zhu, Zejun Ma, Kejun Zhang. 606-610 [doi]

Ambiguity Modelling with Label Distribution Learning for Music ClassificationMorgan Buisson, Pablo Alonso-Jiménez, Dmitry Bogdanov. 611-615 [doi]

Bytecover2: Towards Dimensionality Reduction of Latent Embedding for Efficient Cover Song IdentificationXingjian Du, Ke Chen 0021, Zijie Wang, Bilei Zhu, Zejun Ma. 616-620 [doi]

Tonet: Tone-Octave Network for Singing Melody Extraction from Polyphonic MusicKe Chen 0021, Shuai Yu, Cheng-i Wang, Wei Li, Taylor Berg-Kirkpatrick, Shlomo Dubnov. 621-625 [doi]

Hierarchical Graph-Based Neural Network for Singing Melody ExtractionShuai Yu, Xi Chen, Wei Li. 626-630 [doi]

On The Impact of Normalization Strategies in Unsupervised Adversarial Domain Adaptation for Acoustic Scene ClassificationMichel Olvera, Emmanuel Vincent 0001, Gilles Gasso. 631-635 [doi]

Improving Bird Classification with Unsupervised Sound SeparationTom Denton, Scott Wisdom, John R. Hershey. 636-640 [doi]

Scalable Neural Architectures for End-to-End Environmental Sound ClassificationFrancesco Paissan, Alberto Ancilotto, Alessio Brutti, Elisabetta Farella. 641-645 [doi]

HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and DetectionKe Chen 0021, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-Kirkpatrick, Shlomo Dubnov. 646-650 [doi]

Hybrid Attention-Based Prototypical Networks for Few-Shot Sound ClassificationYou Wang, David V. Anderson. 651-655 [doi]

End-to-End Complex-Valued Multidilated Convolutional Neural Network for Joint Acoustic Echo Cancellation and Noise SuppressionKarn N. Watcharasupat, Thi Ngoc Tho Nguyen, Woon-Seng Gan, Shengkui Zhao, Bin Ma. 656-660 [doi]

NN3A: Neural Network Supported Acoustic Echo Cancellation, Noise Suppression and Automatic Gain Control for Real-Time CommunicationsZiteng Wang, Yueyue Na, Biao Tian, Qiang Fu 0001. 661-665 [doi]

Deep Residual Echo Suppression and Noise Reduction: A Multi-Input FCRN Approach in a Hybrid Speech Enhancement SystemJan Franzen, Tim Fingscheidt. 666-670 [doi]

Neural Cascade Architecture for Joint Acoustic Echo and Noise SuppressionHao Zhang, DeLiang Wang. 671-675 [doi]

Cascade Multi-Channel Noise Reduction and Acoustic Feedback CancellationSantiago Ruiz, Toon van Waterschoot, Marc Moonen. 676-680 [doi]

Skim: Skipping Memory Lstm for Low-Latency Real-Time Continuous Speech SeparationChenda Li, Lei Yang, Weiqin Wang, Yanmin Qian. 681-685 [doi]

Adapting Speech Separation to Real-World Meetings using Mixture Invariant TrainingAswin Sivaraman, Scott Wisdom, Hakan Erdogan, John R. Hershey. 686-690 [doi]

Quantifying Discriminability between NMF BasesEisuke Konno, Daisuke Saito, Nobuaki Minematsu. 691-695 [doi]

Location-Based Training for Multi-Channel Talker-Independent Speaker SeparationHassan Taherian, Ke Tan 0001, DeLiang Wang. 696-700 [doi]

SDR - Medium Rare with Fast ComputationsRobin Scheibler. 701-705 [doi]

Attentionpit: Soft Permutation Invariant Training for Audio Source Separation with Attention MechanismHirokazu Kameoka, Shogo Seki, Li Li, Chihiro Watanabe. 706-710 [doi]

Locate This, Not that: Class-Conditioned Sound Event DOA EstimationOlga Slizovskaia, Gordon Wichern, Zhong-qiu Wang, Jonathan Le Roux. 711-715 [doi]

SALSA-Lite: A Fast and Effective Feature for Polyphonic Sound Event Localization and Detection with Microphone ArraysThi Ngoc Tho Nguyen, Douglas L. Jones, Karn N. Watcharasupat, Huy Phan, Woon-Seng Gan. 716-720 [doi]

SRP-DNN: Learning Direct-Path Phase Difference for Multiple Moving Sound Source LocalizationBing Yang, Hong Liu, Xiaofei Li. 721-725 [doi]

Closed-Form Single Source Direction-of-Arrival Estimator Using First-Order Relative Harmonic CoefficientsYonggang Hu, Sharon Gannot. 726-730 [doi]

A Slide-Save Based Framework for Multi-Source DOA Extraction with Closely Spaced SourcesJianhua Geng, Sifan Wang, Xin Lou. 731-735 [doi]

An End-to-End Deep Learning Framework For Multiple Audio Source Separation And LocalizationYu Chen, Bowen Liu, Zijian Zhang, Hun-Seok Kim. 736-740 [doi]

Deep Adaptation Control for Acoustic Echo CancellationAmir Ivry, Israel Cohen, Baruch Berdugo. 741-745 [doi]

Off-the-Shelf Deep Integration For Residual-Echo SuppressionAmir Ivry, Israel Cohen, Baruch Berdugo. 746-750 [doi]

A Complex Spectral Mapping with Inplace Convolution Recurrent Neural Networks For Acoustic Echo CancellationChenggang Zhang, Jinjiang Liu, Xueliang Zhang. 751-755 [doi]

Deep Adaptive Aec: Hybrid of Deep Learning and Adaptive Acoustic Echo CancellationHao Zhang, Srivatsan Kandadai, Harsha Rao, Minje Kim, Tarun Pruthi, Trausti Kristjansson. 756-760 [doi]

Computationally Efficient Fixed-Filter ANC for Speech Based on Long-Term Prediction for Headphone ApplicationsYurii Iotov, Sidsel Marie Nørholm, Valiantsin Belyi, Mads Dyrholm, Mads Græsbøll Christensen. 761-765 [doi]

End-To-End Deep Learning-Based Adaptation Control for Frequency-Domain Adaptive System IdentificationThomas Haubner, Andreas Brendel, Walter Kellermann. 766-770 [doi]

A Few-Sample Strategy for Guitar Tablature Transcription Based on Inharmonicity Analysis and Playability ConstraintsGrigoris Bastas, Stefanos Koutoupis, Maximos A. Kaliakatsos-Papakostas, Vassilis Katsouros, Petros Maragos. 771-775 [doi]

Exploring Transformer's Potential on Automatic Piano TranscriptionLongshen Ou, Ziyi Guo, Emmanouil Benetos, Jiqing Han, Ye Wang. 776-780 [doi]

A Lightweight Instrument-Agnostic Model for Polyphonic Note Transcription and Multipitch EstimationRachel M. Bittner, Juan José Bosch, David Rubinstein, Gabriel Meseguer-Brocal, Sebastian Ewert. 781-785 [doi]

Towards Automatic Transcription of Polyphonic Electric Guitar Music: A New Dataset and a Multi-Loss Transformer ModelYu-Hua Chen, Wen-Yi Hsiao, Tsu-Kuang Hsieh, Jyh-Shing Roger Jang, Yi-Hsuan Yang. 786-790 [doi]

Genre-Conditioned Acoustic Models for Automatic Lyrics Transcription of Polyphonic MusicXiaoxue Gao, Chitralekha Gupta, Haizhou Li 0001. 791-795 [doi]

Pseudo-Label Transfer from Frame-Level to Note-Level in a Teacher-Student Framework for Singing Transcription from Polyphonic MusicSangeun Kum, Jongpil Lee, Keunhyoung Luke Kim, Taehyoung Kim, Juhan Nam. 796-800 [doi]

Sound Event Detection Guided by Semantic Contexts of ScenesNoriyuki Tonami, Keisuke Imoto, Ryotaro Nagase, Yuki Okamoto, Takahiro Fukumori, Yoichi Yamashita. 801-805 [doi]

CNN-Transformer with Self-Attention Network for Sound Event DetectionKeigo Wakayama, Shoichiro Saito. 806-810 [doi]

A Mutual Learning Framework for Few-Shot Sound Event DetectionDongchao Yang, Helin Wang, Yuexian Zou, Zhongjie Ye, Wenwu Wang. 811-815 [doi]

Anomalous Sound Detection Using Spectral-Temporal Information FusionYoude Liu, Jian Guan, Qiaoxi Zhu, Wenwu Wang. 816-820 [doi]

Sparse Self-Attention for Semi-Supervised Sound Event DetectionYadong Guan, Jiabin Xue, Guibin Zheng, Jiqing Han. 821-825 [doi]

Peer Collaborative Learning for Polyphonic Sound Event DetectionHayato Endo, Hiromitsu Nishizaki. 826-830 [doi]

PostGAN: A GAN-Based Post-Processor to Enhance the Quality of Coded SpeechSrikanth Korse, Nicola Pia, Kishan Gupta, Guillaume Fuchs. 831-835 [doi]

A DNN Based Post-Filter to Enhance the Quality of Coded Speech in MDCT DomainKishan Gupta, Srikanth Korse, Bernd Edler, Guillaume Fuchs. 836-840 [doi]

A Two-Stage U-Net for High-Fidelity Denoising of Historical RecordingsEloi Moliner, Vesa Välimäki. 841-845 [doi]

Experts Versus All-Rounders: Target Language Extraction for Multiple Target LanguagesMarvin Borsdorf, Kevin Scheck, Haizhou Li 0001, Tanja Schultz. 846-850 [doi]

Category-Adapted Sound Event Enhancement with Weakly Labeled DataGuangwei Li, Xuenan Xu, Heinrich Dinkel, Mengyue Wu, Kai Yu 0004. 851-855 [doi]

Sequential MCMC Methods for Audio Signal EnhancementRubén M. Clavería, Simon J. Godsill. 856-860 [doi]

Architecture for Variable Bitrate Neural Speech Codec with Configurable Computation ComplexityTejas Jayashankar, Thilo Köhler, Kaustubh Kalgaonkar, Zhiping Xiu, Jilong Wu, Ju Lin, Prabhav Agrawal, Qing He. 861-865 [doi]

End-to-End Neural Speech Coding for Real-Time CommunicationsXue Jiang, Xiulian Peng, Chengyu Zheng, Huaying Xue, Yuan Zhang 0013, Yan Lu. 866-870 [doi]

Deep Neural Network (DNN) Audio Coder Using A Perceptually Improved Training MethodSeungmin Shin, Joon Byun, Youngcheol Park, Jongmo Sung, Seungkwon Beack. 871-875 [doi]

Progressive Multi-Stage Neural Audio Coding with Guided ReferencesChanwoo Lee, Hyungseob Lim, Jihyun Lee, Inseon Jang, Hong-Goo Kang. 876-880 [doi]

Vocbench: A Neural Vocoder Benchmark for Speech SynthesisEhab A. AlBadawy, Andrew Gibiansky, Qing He, Jilong Wu, Ming-Ching Chang, Siwei Lyu. 881-885 [doi]

Dnsmos P.835: A Non-Intrusive Perceptual Objective Speech Quality Metric to Evaluate Noise SuppressorsChandan K. A. Reddy, Vishak Gopal, Ross Cutler. 886-890 [doi]

SQAPP: No-Reference Speech Quality Assessment Via Pairwise PreferencePranay Manocha, Zeyu Jin, Adam Finkelstein. 891-895 [doi]

LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic SpeechWen-Chin Huang, Erica Cooper, Junichi Yamagishi, Tomoki Toda. 896-900 [doi]

AECMOS: A Speech Quality Assessment Metric for Echo ImpairmentMarju Purin, Sten Sootla, Mateja Sponza, Ando Saabas, Ross Cutler. 901-905 [doi]

MOS Predictor for Synthetic Speech with I-Vector InputsMiao Liu, Jing Wang, Shicong Li, Fei Xiang, Yue Yao, Lidong Yang. 906-910 [doi]

Wave-Domain Approach for Cancelling Noise Entering Open WindowsDaan Ratering, W. Bastiaan Kleijn, Jean Gonzalez Silva, Riccardo M. G. Ferrari. 911-915 [doi]

On Synchronization of Wireless Acoustic Sensor Networks in the Presence of Time-Varying Sampling Rate Offsets and Speaker ChangesTobias Gburrek, Joerg Schmalenstroeer, Reinhold Haeb-Umbach. 916-920 [doi]

Picknet: Real-Time Channel Selection for Ad Hoc Microphone ArraysTakuya Yoshioka, Xiaofei Wang, Dongmei Wang. 921-925 [doi]

End-To-End Alexa Device ArbitrationJarred Barber, Yifeng Fan, Tao Zhang. 926-930 [doi]

Instantaneous Linear Dimensionality Reduction of Multichannel Time-Series Signal for Array Signal ProcessingNatsuki Ueno, Nobutaka Ono. 931-935 [doi]

Generalized Time Domain Velocity VectorSrdan Kitic, Jérôme Daniel. 936-940 [doi]

Differentiable Digital Signal Processing Mixture Model for Synthesis Parameter Extraction from Mixture of Harmonic SoundsMasaya Kawamura, Tomohiko Nakamura, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi, Kazunobu Kondo. 941-945 [doi]

The Mirrornet : Learning Audio Synthesizer Controls Inspired by Sensorimotor InteractionYashish M. Siriwardena, Guilhem Marion, Shihab Shamma. 946-950 [doi]

Deep Performer: Score-to-Audio Music Performance SynthesisHao-Wen Dong, Cong Zhou, Taylor Berg-Kirkpatrick, Julian J. McAuley. 951-955 [doi]

KaraSinger: Score-Free Singing Voice Synthesis with VQ-VAE Using Mel-SpectrogramsChien-Feng Liao, Jen-Yu Liu, Yi-Hsuan Yang. 956-960 [doi]

Adversarial Audio Synthesis Using a Harmonic-Percussive DiscriminatorJihyun Lee, Hyungseob Lim, Chanwoo Lee, Inseon Jang, Hong-Goo Kang. 961-965 [doi]

SleepGAN: Towards Personalized Sleep Therapy MusicJing Yang, Chulhong Min, Akhil Mathur, Fahim Kawsar. 966-970 [doi]

Diversity-Controllable and Accurate Audio Captioning Based on Neural ConditionXuenan Xu, Mengyue Wu, Kai Yu 0004. 971-975 [doi]

Audioclip: Extending Clip to Image, Text and AudioAndrey Guzhov, Federico Raue, Jörn Hees, Andreas Dengel 0001. 976-980 [doi]

Can Audio Captions Be Evaluated With Image Caption Metrics?Zelin Zhou, Zhiling Zhang, Xuenan Xu, Zeyu Xie, Mengyue Wu, Kenny Q. Zhu. 981-985 [doi]

A Data-Driven Cognitive Salience Model for Objective Perceptual Audio Quality AssessmentPablo M. Delgado, Jürgen Herre. 986-990 [doi]

Improving Character Error Rate is Not Equal to Having Clean Speech: Speech Enhancement for ASR Systems with Black-Box Acoustic ModelsRyosuke Sawata, Yosuke Kashiwagi, Shusuke Takahashi. 991-995 [doi]

Effect of Noise Suppression Losses on Speech Distortion and ASR PerformanceSebastian Braun, Hannes Gamper. 996-1000 [doi]

Increasing Loudness in Audio Signals: A Perceptually Motivated Approach to Preserve Audio QualityA. Jeannerot, N. de Koeijer, P. Martínez-Nuevo, M. B. Møller, J. Dyreby, P. Prandoni. 1001-1005 [doi]

Audio Peak Reduction Using a Synced allpass FilterSebastian J. Schlecht, Leonardo Fierro, Vesa Välimäki, Juha Backman. 1006-1010 [doi]

APPLADE: Adjustable Plug-and-Play Audio Declipper Combining DNN with Sparse OptimizationTomoro Tanaka, Kohei Yatabe, Masahiro Yasuda, Yasuhiro Oikawa. 1011-1015 [doi]

Maximizing Audio Event Detection Model Performance on Small Datasets Through Knowledge Transfer, Data Augmentation, and Pretraining: an Ablation StudyDaniel Tompkins, Kshitiz Kumar, Jian Wu. 1016-1020 [doi]

Threshold Independent Evaluation of Sound Event Detection ScoresJanek Ebbers, Reinhold Haeb-Umbach, Romain Serizel. 1021-1025 [doi]

Multimodal Evaluation Method for Sound Event DetectionSeyed M. R. Modaresi, Aomar Osmani, Mohammadreza Razzazi, Abdelghani Chibani. 1026-1030 [doi]

A Benchmark of State-of-the-Art Sound Event Detection Systems Evaluated on Synthetic SoundscapesFrancesca Ronchini, Romain Serizel. 1031-1035 [doi]

Attentive Max Feature Map and Joint Training for Acoustic Scene ClassificationHye-jin Shim, Jee-weon Jung, Ju-ho Kim, Ha-Jin Yu. 1036-1040 [doi]

ORCA-PARTY: An Automatic Killer Whale Sound Type Separation Toolkit Using Deep LearningChristian Bergler, Manuel Schmitt, Andreas K. Maier, Rachael Xi Cheng, Volker Barth, Elmar Nöth. 1046-1050 [doi]

Sparsity-Based Sound Field Separation in the Spherical Harmonics DomainMirco Pezzoli, Maximo Cobos, Fabio Antonacci, Augusto Sarti. 1051-1055 [doi]

Spatial Active Noise Control Based on Individual Kernel Interpolation of Primary and Secondary Sound FieldsKazuyuki Arikawa, Shoichi Koyama, Hiroshi Saruwatari. 1056-1060 [doi]

Time-Domain Acoustic Contrast Control with A Spatial Uniformity Constraint for Personal Audio SystemsSipei Zhao, Ian S. Burnett. 1061-1065 [doi]

Generation of Personal Sound Fields in Reverberant Environments Using Interframe CorrelationLiming Shi, Guoli Ping, Xiaoxiang Shen, Mads Græsbøll Christensen. 1066-1070 [doi]

Variable Span Trade-Off Filter for Sound Zone Control with Kernel Interpolation WeightingJesper Brunnström, Shoichi Koyama, Marc Moonen. 1071-1075 [doi]

Time Domain Radial Filter Design for Spherical WavesNara Hahn, Frank-Schultz, Sascha Spors. 1076-1080 [doi]

Feature Space Message Passing Network for Medical Image Semantic SegmentationJunxiao Sun, Ke Zhang, Shuyi Niu, Yan Zhang, Youyong Kong. 1081-1085 [doi]

Cross-Domain Few-Shot Learning for Rare-Disease Skin Lesion SegmentationYixin Wang, Zhe Xu, Jiang Tian, Jie Luo, Zhongchao Shi, Yang Zhang, Jianping Fan 0007, Zhiqiang He. 1086-1090 [doi]

Adaptive Pseudo Labeling for Source-Free Domain Adaptation in Medical Image SegmentationChen Li, Wei Chen, Xin Luo, Yulin He, Yusong Tan. 1091-1095 [doi]

Object Detection and Tracking in Ultrasound Scans Using an Optical Flow and Semantic Segmentation Framework Based on Convolutional Neural NetworksAbdullah F. Al-Battal, Imanuel R. Lerman, Truong Q. Nguyen. 1096-1100 [doi]

Heuristic Dropout: An Efficient Regularization Method for Medical Image Segmentation ModelsDachuan Shi, Ruiyang Liu, Linmi Tao, Chun Yuan. 1101-1105 [doi]

Superresolution and Segmentation of OCT Scans Using Multi-Stage Adversarial Guided Attention TrainingParia Jeihouni, Omid Dehzangi, Annahita Amireskandari, Ali Dabouei, Ali Rezai, Nasser M. Nasrabadi. 1106-1110 [doi]

Heart Rate and Oxygen Saturation Estimation from Facial Video with Multimodal Physiological Data GenerationYusuke Akamatsu, Yoshifumi Onishi, Hitoshi Imaoka. 1111-1115 [doi]

EMGSE: Acoustic/EMG Fusion for Multimodal Speech EnhancementKuan-Chen Wang, Kai-Chun Liu, Hsin-Min Wang, Yu Tsao 0001. 1116-1120 [doi]

A Dilated Residual Vision Transformer for Atrial Fibrillation Detection from Stacked Time-Frequency ECG RepresentationsSawon Pratiher, Apoorva Srivastava, Yedla Bindu Priyatha, Nirmalya Ghosh, Amit Patra. 1121-1125 [doi]

Contrastive Heartbeats: Contrastive Learning for Self-Supervised ECG Representation and PhenotypingCrystal T. Wei, Ming-En Hsieh, Chien-Liang Liu, Vincent S. Tseng. 1126-1130 [doi]

Ubiquitous Physiological Prediction of SUD Patients' Wellness State Using Memory-Based Convolutional ModelsOmid Dehzangi, Paria Jeihouni, Jad Ramadan, Victor S. Finomore, Nasser M. Nasrabadi, Ali Rezai. 1131-1135 [doi]

Joint Hypoglycemia Prediction and Glucose Forecasting via Deep Multi-Task LearningMu Yang, Darpit Dave, Madhav Erraguntla, Gerard L. Coté, Ricardo Gutierrez-Osuna. 1136-1140 [doi]

SegNet-Based Deep Representation Learning for Dysphagia ClassificationSiddharth Subramani, Achuth Rao M. V, Anwesha Roy, Prasanna Suresh Hegde, Prasanta Kumar Ghosh. 1141-1145 [doi]

Robust Collaborative Learning for Sequence ModellingFrancois Buet-Golfouse, Hans Roggeman, Islam Utyagulov. 1146-1150 [doi]

A Self-Supervised Pre-Training Framework for Vision-Based Seizure ClassificationJen-Cheng Hou, Aileen McGonigal, Fabrice Bartolomei, Monique Thonnat. 1151-1155 [doi]

Design of Real-Time System Based on Machine Learning for Snoring and OSA DetectionHuaiwen Luo, Lu Zhang, Lianyu Zhou, Xu Lin, Zehuai Zhang, Mingjiang Wang. 1156-1160 [doi]

Parametric Modeling of Human Wrist for Bioimpedance-Based Physiological SensingKaan Sel, Noah Huerta, Michael S. Sacks, Roozbeh Jafari. 1161-1165 [doi]

Preliminary Results on the Generation of Artificial Handwriting Data Using a Decomposition-Recombination StrategyJosé Fernando Adrán Otero, Oscar Soláns Caballer, Pere Martí-Puig, Zhe Sun, Toshihisa Tanaka, Jordi Solé-Casals. 1166-1170 [doi]

A Style Transfer Mapping and Fine-Tuning Subject Transfer Framework Using Convolutional Neural Networks for Surface Electromyogram Pattern RecognitionSuguru Kanoga, Takayuki Hoshino, Mitsunori Tada. 1171-1175 [doi]

Feature-Based Sensing Matrix Design for Analog to Information ConvertersChencheng Guo, Hui Qian 0002, Baoling Hong. 1176-1180 [doi]

ALSNet: A Dilated 1-D CNN for Identifying ALS from Raw EMG SignalK. M. Naimul Hassan, Md. Shamiul Alam Hridoy, Naima Tasnim, Atia Faria Chowdhury, Tanvir Alam Roni, Sheikh Tabrez, Arik Subhana, Celia Shahnaz. 1181-1185 [doi]

Joint Model Order Estimation for Multiple Tensors with A Coupled Mode and Applications to the Joint Decomposition of EEG, MEG Magnetometer, and Gradiometer TensorsBilal Ahmad, Liana Khamidullina, Alexey Alexandrovich Korobkov, Alla Manina, Jens Haueisen, Martin Haardt. 1186-1190 [doi]

An Experimental Study on Transferring Data-Driven Image Compressive Sensing to Bioelectric SignalsZhikang Zhang, Jonathan Zhao, Fengbo Ren. 1191-1195 [doi]

Hand Gesture Recognition Using Temporal Convolutions and Attention MechanismElahe Rahimian, Soheil Zabihi, Amir Asif, Dario Farina, Seyed Farokh Atashzar, Arash Mohammadi 0001. 1196-1200 [doi]

Combining Multiple Style Transfer Networks and Transfer Learning For LGE-CMR SegmentationBo Fang, Junxin Chen, Wei Wang, Yicong Zhou. 1201-1205 [doi]

Multi-Domain Unpaired Ultrasound Image Artifact Removal Using a Single Convolutional Neural NetworkJaeyoung Huh, Shujaat Khan, Jong Chul Ye. 1206-1210 [doi]

Improving Ultrasound Image Classification with Local Texture QuantisationXiao Li, Huizhi Liang, Sidhartha Nagala, Jane Chen. 1211-1215 [doi]

Accelerated Intravascular Ultrasound Imaging using Deep Reinforcement LearningTristan S. W. Stevens, Nishith Chennakeshava, Frederik J. de Bruijn, Martin Pekar, Ruud J. G. van Sloun. 1216-1220 [doi]

Deep Proximal Unfolding For Image Recovery from Under-Sampled Channel Data in Intravascular UltrasoundNishith Chennakeshava, Tristan S. W. Stevens, Frederik J. de Bruijn, Andrew Hancock, Martin Pekar, Yonina C. Eldar, Massimo Mischi, Ruud J. G. van Sloun. 1221-1225 [doi]

Multiview Long-Short Spatial Contrastive Learning For 3D Medical Image AnalysisGongpeng Cao, Yiping Wang, Manli Zhang, Jing Zhang, Guixia Kang, Xin Xu. 1226-1230 [doi]

Composing Graphical Models with Generative Adversarial Networks for EEG Signal ModelingKhuong Vo, Manoj Vishwanath, Ramesh Srinivasan, Nikil D. Dutt, Hung Cao. 1231-1235 [doi]

Domain-Invariant Representation Learning from EEG with Private EncodersDavid Bethge, Philipp Hallgarten, Tobias Grosse-Puppendahl, Mohamed Kari, Ralf Mikut, Albrecht Schmidt 0001, Ozan Özdenizci. 1236-1240 [doi]

Holistic Semi-Supervised Approaches for EEG Representation LearningGuangyi Zhang 0003, Ali Etemad. 1241-1245 [doi]

Music Identification Using Brain Responses to Initial SnippetsPankaj Pandey, Gulshan Sharma, Krishna P. Miyapuram, Ramanathan Subramanian, Derek Lomas. 1246-1250 [doi]

Multi-Level Spatial-Temporal Adaptation Network for Motor Imagery ClassificationWei Xu, Jing Wang, Ziyu Jia, Zhiqing Hong, Yunze Li, Youfang Lin. 1251-1255 [doi]

Learning Subject-Invariant Representations from Speech-Evoked EEG Using Variational AutoencodersLies Bollens, Tom Francart, Hugo Van Hamme. 1256-1260 [doi]

Unsupervised Hierarchical Translation-Based Model for Multi-Modal Medical Image RegistrationXinru Dai, Tai Ma, Haibin Cai, Ying Wen. 1261-1265 [doi]

FAZ-BV: A Diabetic Macular Ischemia Grading Framework Combining Faz Attention Network and Blood Vessel Enhancement FiltersZailiang Chen, Hailei Lan, Yongan Meng, Yuchen Xiong, Jing Luo, Hailan Shen. 1266-1270 [doi]

Fracture Detection and Localization in Chest X-Rays Using Semi-Supervised Learning with Dynamic SharpeningLijuan Lu, Shun Miao, Ling Ye. 1271-1275 [doi]

Histokt: Cross Knowledge Transfer in Computational PathologyRyan Zhang, Jiadai Zhu, Stephen Yang, Mahdi S. Hosseini, Angelo Genovese, Lina Chen, Corwyn Rowsell, Savvas Damaskinos, Sonal Varma, Konstantinos N. Plataniotis. 1276-1280 [doi]

Unsupervised Deep Learning Network for Deformable Fundus Image RegistrationGiovana Augusta Benvenuto, Marilaine Colnago, Wallace Casaca. 1281-1285 [doi]

A Minimally Supervised Approach for Medical Image Quality Assessment in Domain Shift SettingsHuijuan Yang, Aaron S. Coyner, Feri Guretno, Ivan Ho Mien, Chuan-Sheng Foo, J. Peter Campbell, Susan Ostmo, Michael F. Chiang, Pavitra Krishnaswamy. 1286-1290 [doi]

A Channel Attention Based MLP-Mixer Network for Motor Imagery Decoding With EEGYanbin He, Zhiyang Lu, Jun Wang, Jun Shi 0004. 1291-1295 [doi]

Towards Closed-Loop Speech Synthesis from Stereotactic EEG: A Unit Selection ApproachMiguel Angrick, Maarten C. Ottenhoff, Lorenz Diener, Darius Ivucic, Gabriel Ivucic, Sophocles Goulis, Albert J. Colon, Louis Wagner, Dean J. Krusienski, Pieter L. Kubben, Tanja Schultz, Christian Herff. 1296-1300 [doi]

Enhancing Contextual Encoding With Stage-Confusion and Stage-Transition Estimation for EEG-Based Sleep StagingJauen Phyo, Wonjun Ko, Eunjin Jeon, Heung-Il Suk. 1301-1305 [doi]

Improving BCI-based Color Vision Assessment Using Gaussian Process RegressionHadi Habibzadeh, Kevin J. Long, Ally E. Atkins, Daphney-Stavroula Zois, James J. S. Norton. 1306-1310 [doi]

Transformer-Based Estimation of Spoken Sentences Using ElectrocorticographyShuji Komeiji, Kai Shigemi, Takumi Mitsuhashi, Yasushi Iimura, Hiroharu Suzuki, Hidenori Sugano, Koichi Shinoda, Toshihisa Tanaka. 1311-1315 [doi]

Boost Ensemble Learning for Classification of CTG SIGNALSMarzieh Ajirak, Cassandra Heiselman, J. Gerald Quirk, Petar M. Djuric. 1316-1320 [doi]

Multi-View Learning Based on Non-Redundant Fusion for Icu Patient Mortality PredictionYifan Wang, Ying Lan. 1321-1325 [doi]

Improving Phase-Rectified Signal Averaging for Fetal Heart Rate AnalysisTong Chen, Guanchao Feng, Cassandra Heiselman, J. Gerald Quirk, Petar M. Djuric. 1326-1330 [doi]

Unsupervised Clustering and Analysis of Contraction-Dependent Fetal Heart Rate SegmentsLiu Yang, Cassandra Heiselman, J. Gerald Quirk, Petar M. Djuric. 1331-1335 [doi]

A Method for Detecting Coronary Artery Disease using Noisy Ultrashort Electrocardiogram RecordingsOrestis Apostolou, Vasileios S. Charisis, Georgios Apostolidis, Leontios J. Hadjileontiadis. 1336-1340 [doi]

Multi-Task Gaussian Process Regression for the Detection of Sleep Cycles in Premature InfantsNele Sophie Brügge, Jan Graßhoff, Arne Weigenand, Philipp Rostalski. 1341-1345 [doi]

Fast Low Rank Column-Wise Compressive Sensing For Accelerated Dynamic MRISilpa Babu, Seyedehsara Nayer, Sajan Goud Lingala, Namrata Vaswani. 1346-1350 [doi]

MRI Recovery with a Self-Calibrated DenoiserSizhuo Liu, Philip Schniter, Rizwan Ahmad. 1351-1355 [doi]

3d Cross-Scale Feature Transformer Network for Brain Mr Image Super-ResolutionWanqi Zhang, Lulu Wang, Wei Chen, Yuanyuan Jia, Zhongshi He, Jinglong Du. 1356-1360 [doi]

Data Efficient Support Vector Machine Training Using the Minimum Description Length PrincipleHarsh Singh, Ognjen Arandjelovic. 1361-1365 [doi]

Multiple Instance Learning with Task-Specific Multi-Level Features for Weakly Annotated Histopathological Image ClassificationYuanpin Zhou, Yao Lu. 1366-1370 [doi]

Self-Knowledge Distillation based Self-Supervised Learning for Covid-19 Detection from Chest X-Ray ImagesGuang Li 0008, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama. 1371-1375 [doi]

Pixel-Level and Affinity-Level Knowledge Distillation for Unsupervised Segmentation of Covid-19 LesionsRui Xu 0002, Yufeng Wang, Xinchen Ye, Pengcheng Wu, Yen-Wei Chen 0001, Fangyi Xu, Wenchao Zhu, Chao Chen, Yong Zhou, Hongjie Hu, Xiaofeng Qu, Shoji Kido, Noriyuki Tomiyama. 1376-1380 [doi]

Data Shapley Value for Handling Noisy Labels: An Application in Screening Covid-19 Pneumonia from Chest CT ScansNastaran Enshaei, Moezedin Javad Rafiee, Arash Mohammadi 0001, Farnoosh Naderkhani. 1381-1385 [doi]

Accurate Multiscale Selective Fusion of CT and Video Images for Real-Time Endoscopic Camera 3D Tracking in Robotic SurgeryXiongbiao Luo. 1386-1390 [doi]

Learning Deep Pathological Features for WSI-Level Cervical Cancer GradingRuixiang Geng, Qing Liu, Shuo Feng, Yixiong Liang. 1391-1395 [doi]

Selective Scale Cascade Attention Network for Breast Cancer Histopathology Image ClassificationBowen Xu, Wenqiang Zhang. 1396-1400 [doi]

Frequency-Specific Non-Linear Granger Causality in a Network of Brain SignalsArchishman Biswas, Hernando Ombao. 1401-1405 [doi]

Epileptic Spike Detection by Recurrent Neural Networks with Self-Attention MechanismKosuke Fukumori, Noboru Yoshida, Hidenori Sugano, Madoka Nakajima, Toshihisa Tanaka. 1406-1410 [doi]

Topological Correlation of Brain SignalsJian Yin 0020, Yuan Wang. 1411-1415 [doi]

Online Detection of Scalp-Invisible Mesial-Temporal Brain Interictal Epileptiform Discharges from EEGBahman Abdi-Sargezeh, Antonio Valentín, Gonzalo Alarcón, Saeid Sanei. 1416-1420 [doi]

Leveraging Sparse Coding for EEG Based Emotion Recognition in ShootingYulu Wang, Yiwen Sun, Lei Fang, Changshui Zhang. 1421-1425 [doi]

A Novel Unsupervised Autoencoder-Based HFOs Detector in Intracranial EEG SignalsWeilai Li, Lanfeng Zhong, Weixi Xiang, Tongzhou Kang, Dakun Lai. 1426-1430 [doi]

A Novel Convolutional Neural Network Based on Adaptive Multi-Scale Aggregation and Boundary-Aware for Lateral Ventricle Segmentation on MR imagesFei Ye, Zhiqiang Wang, Sheng Zhu, Xuanya Li, Kai Hu 0002. 1431-1435 [doi]

Multiscale Attention Aggregation Network for 2D Vessel SegmentationWenTao Liu, Huihua Yang, Tong Tian, Xipeng Pan, Weijin Xu. 1436-1440 [doi]

TCRNet: Make Transformer, CNN and RNN Complement Each OtherXinxin Shan, Tai Ma, Anqi Gu, Haibin Cai, Ying Wen. 1441-1445 [doi]

Double Noise Mean Teacher Self-Ensembling Model for Semi-Supervised Tumor SegmentationKe Zheng, Junhai Xu, Jianguo Wei. 1446-1450 [doi]

Rethinking Computer-Aided Pelvis SegmentationSiming Yuan, Qing Liu, Shenghui Liao, Fuchang Han, Haitao Wei, Yingqi Zhang. 1451-1455 [doi]

Vision Transformer-Based Retina Vessel Segmentation with Deep Adaptive Gamma CorrectionHyunwoo Yu, Jae-hun Shim, Jaeho Kwak, Jou Won Song, Suk-Ju Kang. 1456-1460 [doi]

Spectral Permutation Test on Persistence DiagramsYuan Wang, Moo K. Chung, Julius Fridriksson. 1461-1465 [doi]

Multi-Task fMRI Data Fusion Using IVA and PARAFAC2Isabell Lehmann, Evrim Acar, Tanuj Hasija, Mohammad A. B. S. Akhonda, Vince D. Calhoun, Peter J. Schreier, Tülay Adali. 1466-1470 [doi]

Independent Vector Analysis Based Subgroup Identification from Multisubject fMRI DataH. Yang, Mohammad A. B. S. Akhonda, F. Ghayem, Qunfang Long, Vince D. Calhoun, Tülay Adali. 1471-1475 [doi]

Improving Brain Decoding Methods and EvaluationDamian Pascual, Béni Egressy, Nicolas Affolter, Yiming Cai, Oliver Richter, Roger Wattenhofer. 1476-1480 [doi]

Cmri2spec: Cine MRI Sequence to Spectrogram Synthesis via A Pairwise Heterogeneous TranslatorXiaofeng Liu 0001, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jangwon Kim, Georges El Fakhri, Jonghye Woo. 1481-1485 [doi]

Spatio-Temporal Attention Graph Convolution Network for Functional Connectome ClassificationWenhan Wang, Youyong Kong, Zhenghua Hou, Chunfeng Yang, Yonggui Yuan. 1486-1490 [doi]

Bilevel Learning of ℓ1 Regularizers with Closed-Form Gradients (BLORC)Avrajit Ghosh, Michael T. McCann, Saiprasad Ravishankar. 1491-1495 [doi]

Multiband Image Fusion with Controllable Error GuaranteesV. S. Unni, Ruturaj G. Gavaskar, Kunal N. Chaudhury. 1496-1500 [doi]

Weighted Graph Embedded Low-Rank Projection Learning for Feature ExtractionZhuojie Huang, Shuping Zhao, Lunke Fei, Jigang Wu. 1501-1505 [doi]

ADMM-DAD Net: A Deep Unfolding Network for Analysis Compressed SensingVasiliki Kouni, Georgios Paraskevopoulos, Holger Rauhut, George C. Alexandropoulos. 1506-1510 [doi]

High-Dimensional Sparse Bayesian Learning without Covariance MatricesAlexander Lin, Andrew H. Song, Berkin Bilgic, Demba E. Ba. 1511-1515 [doi]

A Trainable Bounded Denoiser Using Double Tight Frame Network for Snapshot Compressive ImagingBaoshun Shi, Yuxin Wang, Qiusheng Lian. 1516-1520 [doi]

Progressive Image Super-Resolution via Neural Differential EquationSeobin Park, Tae-Hyun Kim. 1521-1525 [doi]

High-Quality Self-Supervised Snapshot Hyperspectral ImagingYuhui Quan, Xinran Qin, Mingqin Chen, Yan Huang. 1526-1530 [doi]

Robust Bayesian Reconstruction of Multispectral Single-Photon 3D Lidar Data with Non-Uniform BackgroundAbderrahim Halimi, Jakeoung Koo, Robert A. Lamb, Gerald S. Buller, Steve McLaughlin 0001. 1531-1535 [doi]

Joint Calibration and Mapping of Satellite Altimetry Data Using Trainable Variational ModelsQuentin Febvre, Ronan Fablet, Julien Le Sommer, Clément Ubelmann. 1536-1540 [doi]

4D Convolutional Neural Networks for Multi-Spectral and Multi-Temporal Remote Sensing Data ClassificationMichalis Giannopoulos, Grigorios Tsagkatakis, Panagiotis Tsakalides. 1541-1545 [doi]

A New Deep Learning Method for Multispectral Image Time Series Completion Using Hyperspectral DataC. T. Cissé, A. Alboody, M. Puigt, G. Roussel, V. Vantrepotte, C. Jamet, T. K. Tran. 1546-1550 [doi]

Image Denoising with Deep Unfolding And Normalizing FlowsXinyi Wei, Hans Van Gorp, Lizeth Gonzalez-Carabarin, Daniel Freedman, Yonina C. Eldar, Ruud J. G. van Sloun. 1551-1555 [doi]

3D Texture Super Resolution via the Rendering LossRohit Ranade, Yangwen Liang, Shuangquan Wang, Dongwoon Bai, Jungwon Lee. 1556-1560 [doi]

Bundle ICP with Virtual Depth for Hand-Held 3d ScannerChanghun Sung, Byungdeok Kim. 1561-1565 [doi]

Sketched RT3D: How to Reconstruct Billions of Photons Per SecondJulián Tachella, Michael P. Sheehan, Mike E. Davies. 1566-1570 [doi]

A Generic Method to Estimate Camera Extrinsic ParametersNaveen Kuruba, Neel Badadare, Vikram Narayan, Satish Putta. 1571-1575 [doi]

Photon-Limited Deblurring Using Algorithm UnrollingYash Sanghvi, Abhiram Gnanasambandan, Stanley H. Chan. 1576-1580 [doi]

+: Novel View Synthesis with Neural Regularisation Over Multi-Plane ImagesWenpeng Xing, Jie Chen. 1581-1585 [doi]

Compressive Scanning Transmission Electron MicroscopyD. Nicholls, A. Robinson, J. Wells, A. Moshtaghpour, M. Bahri, A. Kirkland, N. Browning. 1586-1590 [doi]

Deep Iterative Phase Retrieval for PtychographySimon Welker, Tal Peer, Henry N. Chapman, Timo Gerkmann. 1591-1595 [doi]

Compressive Phase Retrieval Based On Sparse Latent Generative PriorsVinayak Killedar, Chandra Sekhar Seelamantula. 1596-1600 [doi]

Model-Based Reconstruction for Collimated Beam Ultrasound SystemsAbdulrahman Alanazi, Singanallur V. Venkatakrishnan, Hector J. Santos-Villalobos, Gregery T. Buzzard, Charles A. Bouman. 1601-1605 [doi]

Learned Acoustic Reconstruction Using Synthetic Aperture FocusingTim Straubinger, Robert Xiao, Helge Rhodin. 1606-1610 [doi]

SDETR: Attention-Guided Salient Object Detection with TransformerGuanze Liu, Bo Xu, Han Huang, Cheng Lu 0006, Yandong Guo. 1611-1615 [doi]

Evaluation of Video Coding for Machines without Ground TruthKristian Fischer, Markus Hofbauer, Christopher B. Kuhn, Eckehard G. Steinbach, André Kaup. 1616-1620 [doi]

Raw Plenoptic Video Coding Under Hexagonal Lattice Resolution of Motion VectorsThuc Nguyen Huu, Vinh Van Duong, Jonghoon Yim, Byeungwoo Jeon. 1621-1624 [doi]

Comparison of Boundary Artifact Removal Methods in Coding of Generalized Cubemap Projection Using VVCKianoush Jafari, Alireza Aminlou, Miska M. Hannuksela. 1625-1629 [doi]

Low-Complexity Multi-Model CNN in-Loop Filter for AVS3Shen Wang, Yibing Fu, Chen Zhu, Li Song, Wenjun Zhang. 1630-1634 [doi]

Unified Matrix Coding for NN Originated MIP in H.266/VVCJunyan Huo, Yu Sun, Haixin Wang, Shuai Wan, Fuzheng Yang, Ming Li. 1635-1639 [doi]

FOV-Based Coding Optimization for 360-Degree Virtual Reality VideosYuanyuan Xu, Taoyu Yang, Zengjie Tan, Haolun Lan. 1640-1644 [doi]

Multi-Hierarchy Proxy Structure for Deep Metric LearningJian Wang, Xinyue Li, Wei Song, Zhichao Zhang, Weiqi Guo. 1645-1649 [doi]

Exploiting Caption Diversity for Unsupervised Video SummarizationMichail Kaseris, Ioannis Mademlis, Ioannis Pitas. 1650-1654 [doi]

Clustering and Separating Similarities for Deep Unsupervised HashingWanqian Zhang, Dayan Wu, Chule Yang, Bo Li, Weiping Wang 0005. 1655-1659 [doi]

Enhancing Prototypical Few-Shot Learning By Leveraging The Local-Level StrategyJunying Huang, Fan Chen, Keze Wang, Liang Lin, Dongyu Zhang. 1660-1664 [doi]

Blind Unmixing Using A Double Deep Image PriorChao Zhou, Miguel R. D. Rodrigues. 1665-1669 [doi]

A New Framework for Multiple Deep Correlation Filters Based Object TrackingYi Liu, Yanjie Liang, Qiangqiang Wu, Liming Zhang 0002, Hanzi Wang. 1670-1674 [doi]

Adaptive Actor-Critic Bilateral FilterBo-Hao Chen, Hsiang-Yin Cheng, Jia-Li Yin. 1675-1679 [doi]

Domain Decomposition Algorithms for Real-Time Homogeneous Diffusion Inpainting in 4KNiklas Kämper, Joachim Weickert. 1680-1684 [doi]

Deep Temporal Interpolation of Radar-Based PrecipitationMichiaki Tatsubori, Takao Moriyama, Tatsuya Ishikawa, Paolo Fraccaro, Anne Jones, Blair Edwards, Julian Kuehnert, Sekou L. Remy. 1685-1689 [doi]

A Nonlinear Steerable Complex Wavelet Decomposition of ImagesZikai Sun, Thierry Blu. 1690-1694 [doi]

Kernel Estimation Network for Blind Super-ResolutionXiang Cao, Haibo Shen, Liangqi Zhang, Yihao Luo, Tianjiang Wang. 1695-1699 [doi]

Terahertz Image Restoration Benchmarking DatasetYixiong Zhang, Zhipeng Su, Feng Qi, Jianyang Zhou, Xiaoping Zhang 0003. 1700-1704 [doi]

Binary Dense Predictors for Human Pose Estimation Based on Dynamic Thresholds and FilteringXingrun Xing, Yalong Jiang, Baochang Zhang 0001, Wenrui Ding, Yangguang Li, Hongguang Li, Huan Peng. 1705-1709 [doi]

Self-Supervised Learning for Sentiment Analysis via Image-Text MatchingHaidong Zhu, Zhaoheng Zheng, Mohammad Soleymani 0001, Ram Nevatia. 1710-1714 [doi]

Domain-Agnostic Meta-Learning for Cross-Domain Few-Shot ClassificationWei-Yu Lee, Jheng-Yu Wang, Yu-Chiang Frank Wang. 1715-1719 [doi]

Semantic Association Network for Video Corpus Moment RetrievalDahYun Kim, Sunjae Yoon, Ji Woo Hong, Chang D. Yoo. 1720-1724 [doi]

Statistical, Spectral and Graph Representations for Video-Based Facial Expression Recognition in ChildrenNida Itrat Abbasi, Siyang Song, Hatice Gunes. 1725-1729 [doi]

Deriving Explainable Discriminative Attributes Using Confusion About Counterfactual ClassNakyeong Yang, Taegwan Kang, Kyomin Jung. 1730-1734 [doi]

Realistic Monocular-To-3d Virtual Try-On Via Multi-Scale Characteristics CaptureChenghu Du, Feng Yu 0017, Minghua Jiang, Yaxin Zhao, Xiong Wei, Tao Peng 0006, Xinrong Hu. 1735-1739 [doi]

Optimizing Latent Space Directions for Gan-Based Local Image EditingEhsan Pajouheshgar, Tong Zhang, Sabine Süsstrunk. 1740-1744 [doi]

Towards Using Clothes Style Transfer for Scenario-Aware Person Video GenerationJingning Xu, Benlai Tang, Mingjie Wang, Siyuan Bian, Wenyi Guo, Xiang Yin 0006, Zejun Ma. 1745-1749 [doi]

Multi-Domain Unsupervised Image-to-Image Translation with Appearance Adaptive ConvolutionSomi Jeong, Jiyoung Lee, Kwanghoon Sohn. 1750-1754 [doi]

VR-FAM: Variance-Reduced Encoder with Nonlinear Transformation for Facial Attribute ManipulationYifan Yuan, Siteng Ma, Junping Zhang. 1755-1759 [doi]

Wavelet-Based Unsupervised Label-to-Image TranslationGeorge Eskandar, Mohamed Abdelsamad, Karim Armanious, Shuai Zhang, Bin Yang 0009. 1760-1764 [doi]

Fast Graph Sampling for Short Video Summarization Using Gershgorin Disc AlignmentSadid Sahami, Gene Cheung, Chia-Wen Lin. 1765-1769 [doi]

Towards Practical and Efficient Long Video SummaryXiaopeng Ke, Boyu Chang, Hao Wu, Fengyuan Xu, Sheng Zhong 0002. 1770-1774 [doi]

Cut And Continuous Paste Towards Real-Time Deep Fall DetectionSunhee Hwang, Minsong Ki, Seung-Hyun Lee, Sanghoon Park, Byoung-Ki Jeon. 1775-1779 [doi]

Mannet: A Large-Scale Manipulated Image Detection Dataset And Baseline EvaluationsAditya Singh, Saheb Chhabra, Puspita Majumdar, Richa Singh 0001, Mayank Vatsa. 1780-1784 [doi]

Approaches Toward Physical and General Video Anomaly DetectionLaura Kart, Niv Cohen. 1785-1789 [doi]

Considering User Agreement in Learning to Predict the Aesthetic QualitySuiyi Ling, Andreas Pastor, Junle Wang, Patrick Le Callet. 1790-1794 [doi]

No-Reference Quality Assessment of Variable Frame-Rate Videos Using Temporal Bandpass StatisticsQi Zheng, Zhengzhong Tu, Yibo Fan, Xiaoyang Zeng, Alan C. Bovik. 1795-1799 [doi]

Towards Joint Frame-Level and MOS Quality Predictions with Low-Complexity Objective ModelsJoel Jung, Alexandre Giraud, Meijia Song, Songnan Li, Xiang Li, Shan Liu. 1800-1804 [doi]

Teaching CNNs to Mimic Human Visual Cognitive Process & Regularise Texture-Shape BiasSatyam Mohla, Anshul Nasery, Biplab Banerjee. 1805-1809 [doi]

Subjective And Objective Quality Assessment Of Mobile Gaming VideoShaoguo Wen, Suiyi Ling, Junle Wang, Ximing Chen, Yanqing Jing, Patrick Le Callet. 1810-1814 [doi]

ER-PIQA: A Task-Guided Pedestrian Image Quality Assessment Via Embedding ReconstructionYanzhe Zhong, Huadong Pan, Bangjie Tang, Zhonggeng Liu, Yiming Zhu, Jun Yin. 1815-1819 [doi]

Multiscale Crowd Counting and Localization By Multitask Point SupervisionMohsen Zand, Haleh Damirchi, Andrew Farley, Mahdiyar Molahasani, Michael A. Greenspan, Ali Etemad. 1820-1824 [doi]

Super-Resolution of Satellite Images by two-Dimensional RRDB and Edge-Enhancement Generative Adversarial NetworkYu-Zhang Chen, Tsung-Jung Liu, Kuan-Hsien Liu. 1825-1829 [doi]

Leveraging Local Temporal Information for Multimodal Scene ClassificationSaurabh Sahu, Palash Goyal. 1830-1834 [doi]

Predicting Human Motion Using Key SubsequencesMenghao Li, Mingtao Pei, Wei Liang. 1835-1839 [doi]

Dynamic Texture Recognition Using PDV Hashing and Dictionary Learning on Multi-Scale Volume Local Binary PatternRuxin Ding, Jianfeng Ren, Heng Yu, Jiawei Li 0001. 1840-1844 [doi]

Do You Live a Healthy Life? Analyzing Lifestyle by Visual Life LoggingQing Gao, Mingtao Pei, Hongyu Shen. 1845-1849 [doi]

Weighted Wavelet-Based Spectral-Spatial Transforms For CFA-Sampled Raw Camera Image Compression Considering Image FeaturesLiping Huang, Taizo Suzuki. 1850-1854 [doi]

Jmpnet: Joint Motion Prediction for Learning-Based Video CompressionDongyang Li, Zhenhong Sun, Zhiyu Tan, Xiuyu Sun, Fangyi Zhang, Yichen Qian, Hao Li 0030. 1855-1859 [doi]

A Low-Parametric Model for Bit-Rate Estimation of VVC Residual CodingFabian Brand, Christian Herglotz, André Kaup. 1860-1864 [doi]

OPTE: Online Per-Title Encoding for Live Video StreamingVignesh V. Menon, Hadi Amirpour, Mohammed Ghanbari 0001, Christian Timmerer. 1865-1869 [doi]

SADN: Learned Light Field Image Compression with Spatial-Angular DecorrelationKedeng Tong, Xin Jin, Chen Wang, Fan Jiang. 1870-1874 [doi]

Hierarchical Feature Aggregation Network for Deep Image CompressionWenfeng Li, Zongcai Du, Hao He, Jie Tang 0006, Gangshan Wu. 1875-1879 [doi]

Accurate Instance Segmentation Via Collaborative LearningTianyou Chen, Xiaoguang Hu, Jin Xiao, Guofeng Zhang 0002, Shaojie Wang. 1880-1884 [doi]

Dynamic Binary Neural Network by Learning Channel-Wise ThresholdsJiehua Zhang, Zhuo Su 0002, Yanghe Feng, Xin Lu, Matti Pietikäinen, Li Liu 0002. 1885-1889 [doi]

Self-Supervised Learning on A Lightweight Low-Light Image Enhancement Model with Curve RefinementWanyu Wu, Wei Wang, Kui Jiang, Xin Xu, Ruimin Hu. 1890-1894 [doi]

Semantically Proportional Patchmix for Few-Shot LearningJingquan Wang, Jing Xu, Yu Pan 0005, Zenglin Xu. 1895-1899 [doi]

Noise Suppression for Improved Few-Shot LearningZhikui Chen, Tiandong Ji, Suhua Zhang, Fangming Zhong. 1900-1904 [doi]

Online Continual Learning Using Enhanced Random Vector Functional Link NetworksCheryl Sze Yin Wong, Guo Yang, ArulMurugan Ambikapathi, Savitha Ramasamy. 1905-1909 [doi]

A Generalized Kernel Risk Sensitive Loss for Robust Two-Dimensional Singular Value DecompositionMiaohua Zhang, Yongsheng Gao 0001, Jun Zhou 0001. 1910-1914 [doi]

Video Frame Interpolation via Local Lightweight Bidirectional Encoding with Channel Attention CascadeXiangling Ding, Pu Huang, Dengyong Zhang, Xianfeng Zhao. 1915-1919 [doi]

Sain: Similarity-Aware Video Frame InterpolationYue Lv, Wenming Yang, Wangmeng Zuo, Qingmin Liao, Rui Zhu 0006. 1920-1924 [doi]

Self-Learned Video Super-Resolution with Augmented Spatial and Temporal ContextZejia Fan, Jiaying Liu 0001, Wenhan Yang, Wei Xiang, Zongming Guo. 1925-1929 [doi]

Deformable Convolution Dense Network for Compressed Video Quality EnhancementJiahui Liu, Mingcai Zhou, Meng Xiao. 1930-1934 [doi]

Convolutional ISTA Network with Temporal Consistency Constraints for Video Reconstruction from Event CamerasSiying Liu, Roxana Alexandru, Pier Luigi Dragotti. 1935-1939 [doi]

PMP-NET: Rethinking Visual Context for Scene Graph GenerationXuezhi Tong, Rui Wang 0032, Chuan Wang 0002, Sanyi Zhang, Xiaochun Cao. 1940-1944 [doi]

Improve Image Captioning Via Relation ModelingFeicheng Huang, Zhixin Li. 1945-1949 [doi]

Equal Loss: A Simple Loss Function for Noise Robust LearningLei Cui, Huan Peng, Yangguang Li, Chuming Li, Xingrun Xing. 1950-1954 [doi]

Informative Attention Supervision for Grounded Video DescriptionBoyang Wan, Wenhui Jiang, Yuming Fang. 1955-1959 [doi]

Spatial-Context-Aware Deep Neural Network for Multi-Class Image ClassificationJialu Zhang, Qian Zhang, Jianfeng Ren, Yitian Zhao, Jiang Liu. 1960-1964 [doi]

Transtl: Spatial-Temporal Localization Transformer for Multi-Label Video ClassificationHongjun Wu, Mengzhu Li, Yongcheng Liu, Hongzhe Liu, Cheng Xu, Xuewei Li. 1965-1969 [doi]

Deep Video Inpainting Guided by Audio-Visual Self-SupervisionKyuyeon Kim, Junsik Jung, Woo-Jae Kim, Sung-Eui Yoon. 1970-1974 [doi]

Navigating Audio-Visual Event Detection Across Mismatched ModalitiesGuangwei Li, Xuenan Xu, Mengyue Wu, Kai Yu 0004. 1975-1979 [doi]

Look, Listen and Pay More Attention: Fusing Multi-Modal Information for Video Violence DetectionDong-Lai Wei, Chen-Geng Liu, Yang Liu, Jing Liu, Xiao-guang Zhu, Xin-Hua Zeng. 1980-1984 [doi]

Multi-Modal Learning with Text Merging for TEXTVQAChangsheng Xu, Zhenlong Xu, Yifan He, Shuigeng Zhou, Jihong Guan. 1985-1989 [doi]

A Novel Part Feature Integration and Fusion Method for Fine-Grained Vehicle RecognitionPing Wang, Yijie Cao, Lei Lu. 1990-1994 [doi]

Monocular Vehicle 3D Bounding Box Estimation Using Homograhy and Geometry in Traffic SceneYiqiang Chen, Feng Liu, Ke Pei. 1995-1999 [doi]

FSM: Feature Sampling Module for Object DetectionXin Yi, Bo Ma, Jiahao Wu. 2000-2004 [doi]

Rethinking Two-B-Real Net for Real-Time Salient Object DetectionSenyun Kuang, Shijin Meng, Bo Xiao, Lv Tang, Bo Li 0115. 2005-2009 [doi]

Balanced Ranking and Sorting For Class Incremental Object DetectionBo Cui, Hui Qu, Xuhui Huang, Shan Yu. 2010-2014 [doi]

Multi-Scale Reinforcement Learning Strategy for Object DetectionYihao Luo, Xiang Cao, Juntao Zhang, Leixilan Pan, Tianjiang Wang, Qi Feng 0003. 2015-2019 [doi]

Deep Object Detection with Example Attribute Based Prediction ModulationZhihao Wu, Chengliang Liu, Chao Huang 0001, Jie Wen 0001, Yong Xu 0001. 2020-2024 [doi]

Universal Efficient Variable-Rate Neural Image CompressionShanzhi Yin, Chao Li, Youneng Bao, Yongsheng Liang, Fanyang Meng, Wei Liu. 2025-2029 [doi]

AdderIC: Towards Low Computation Cost Image CompressionBowen Li, Xin Yao 0001, Chao Li, Youneng Bao, Fanyang Meng, Yongsheng Liang. 2030-2034 [doi]

DCNGAN: A Deformable Convolution-Based GAN with QP Adaptation for Perceptual Quality Enhancement of Compressed VideoSaiping Zhang, Luis Herranz, Marta Mrak, Marc Górriz Blanch, Shuai Wan, Fuzheng Yang. 2035-2039 [doi]

Specialised Video Quality Model For Enhanced User Generated Content (UGC) With Special EffectsAnne-Flore Perrin, Yejing Xie, Tao Zhang, Yiting Liao, Junlin Li, Patrick Le Callet. 2040-2044 [doi]

Improving Maximum Likelihood Difference Scaling Method To Measure Inter Content ScaleAndreas Pastor, Lukás Krasula, Xiaoqing Zhu, Zhi Li 0001, Patrick Le Callet. 2045-2049 [doi]

Texture Information Boosts Video Quality AssessmentAo-Xiang Zhang, Yuan-Gen Wang. 2050-2054 [doi]

Plug-and-Play and Relay Regularizations on Noisy Low Rank Tensor Completion for Snapshot Multispectral Image RestorationKeisuke Ozawa. 2055-2059 [doi]

LERPS: Lighting Estimation and Relighting for Photometric StereoAshish Tiwari, Shanmuganathan Raman. 2060-2064 [doi]

A Unified Two-Stage Model for Separating Superimposed ImagesHuiyu Duan, Xiongkuo Min, Wei Shen, Guangtao Zhai. 2065-2069 [doi]

Parameter-Free Style Projection for Arbitrary Image Style TransferSiyu Huang, Haoyi Xiong, Tianyang Wang, Bihan Wen, Qingzhong Wang, Zeyu Chen, Jun Huan, Dejing Dou. 2070-2074 [doi]

Optimization of Compressive Light Field Display in Dual-Guided LearningYangfan Sun, Zhu Li, Li Li, Shizheng Wang, Wei Gao 0003. 2075-2079 [doi]

ARM 4-BIT PQ: SIMD-Based Acceleration for Approximate Nearest Neighbor Search on ARMYusuke Matsui, Yoshiki Imaizumi, Naoya Miyamoto, Naoki Yoshifuji. 2080-2084 [doi]

Iterative Learning for Distorted Image RestorationChao Wang, Yi Gu, Jie Li, Xinlei He, Zirui Zhang, Yuting Gao, Chentao Wu. 2085-2089 [doi]

2NET: Joint Exploitation and Exploration in Reinforcement Learning Based Image RestorationXiaoyu Zhang, Wei Gao 0003, Hui Yuan, Ge Li. 2090-2094 [doi]

Multiple Patch-Aware Network for Faster Real-World Image DehazingKun Yang, Juan Zhang, Xiaoqi Lang. 2095-2099 [doi]

Learning to Fuse Heterogeneous Features for Low-Light Image EnhancementZhenyu Tang, Long Ma 0002, Xiaoke Shang, Xin Fan 0001. 2100-2104 [doi]

Deep Scale-Aware Image SmoothingJiachun Li, Kunkun Qin, Ruotao Xu, Hui Ji. 2105-2109 [doi]

A Multiscale Gradient-Backpropagation Optimization Framework for Deformable Convolution Based Compressed Video EnhancementYanbo Gao, Menghu Jia, Shuai Li 0005, Xun Cai, Mao Ye, Frédéric Dufaux. 2110-2114 [doi]

Downstream Augmentation Generation For Contrastive LearningTomohiro Hayase, Suguru Yasutomi, Nakamasa Inoue. 2115-2119 [doi]

Few-Shot Learning with Improved Local Representations via Bias Rectify ModuleChao Dong, Qi Ye, Wenchao Meng, Kaixiang Yang. 2120-2124 [doi]

Image-to-Video Re-Identification via Mutual Discriminative Knowledge TransferPichao Wang, Fan Wang, Hao Li 0030. 2125-2129 [doi]

DynSNN: A Dynamic Approach to Reduce Redundancy in Spiking Neural NetworksFangxin Liu, Wenbo Zhao, Yongbiao Chen, Zongwu Wang, Fei Dai. 2130-2134 [doi]

MEJIGCLU: More Effective Jigsaw Clustering For Unsupervised Visual Representation LearningYongsheng Zhang, Qing Liu 0003, Yang Zhao, Yixiong Liang. 2135-2139 [doi]

Ganet: Unary Attention Reaches Pairwise Attention Via Implicit Group Clustering in Light-Weight CNNsCheng Zhuang, Yunlian Sun. 2140-2144 [doi]

Find The Way Back: Invertible Kernel Estimator For Blind Image Super-ResolutionTing-Wei Chang, Wei-chen Chiu, Ching-Chun Huang. 2145-2149 [doi]

Fine-Grained Dynamic Loss for Accurate Single-Image Super-ResolutionHaoquan Wang, Gang Zhang, Zhichun Lei. 2150-2154 [doi]

Multi-Frame Super-Resolution With Raw Images Via Modified Deformable ConvolutionGongzhe Li, Linwei Qiu, Haopeng Zhang 0001, Fengying Xie, Zhiguo Jiang. 2155-2159 [doi]

Local-Global Feature Aggregation for Light Field Image Super-ResolutionYan Wang, Yao Lu, Shunzhou Wang, Wenyao Zhang, Zijian Wang. 2160-2164 [doi]

Pyramid Fusion Attention Network For Single Image Super-ResolutionHao He, Zongcai Du, Wenfeng Li, Jie Tang 0006, Gangshan Wu. 2165-2169 [doi]

VCD: View-Constraint Disentanglement for Action RecognitionXian Zhong, Zhuo Zhou, Wenxuan Liu, Kui Jiang, Xuemei Jia, Wenxin Huang, Zheng Wang 0007. 2170-2174 [doi]

Privacy-Preserving Action RecognitionChengming Zou, Ducheng Yuan, Long Lan, Haoang Chi. 2175-2179 [doi]

Spatio-Temporal Motion Aggregation Network for Video Action DetectionHongcheng Zhang, Xu Zhao. 2180-2184 [doi]

TP-VIT: A Two-Pathway Vision Transformer for Video Action RecognitionYanhao Jing, Feng Wang. 2185-2189 [doi]

Learning Task-Specific Representation for Video Anomaly Detection with Spatial-Temporal AttentionYang Liu, Jing Liu, Xiaoguang Zhu, Donglai Wei, Xiaohong Huang, Liang Song. 2190-2194 [doi]

W-ART: Action Relation Transformer for Weakly-Supervised Temporal Action LocalizationMengzhu Li, Hongjun Wu, Yongcheng Liu, Hongzhe Liu, Cheng Xu, Xuewei Li. 2195-2199 [doi]

MS-ROCANet: Multi-Scale Residual Orthogonal-Channel Attention Network for Scene Text DetectionJinpeng Liu, Song Wu, Dehong He, Guoqiang Xiao. 2200-2204 [doi]

Bi-Directional Normalization and Color Attention-Guided Generative Adversarial Network for Image EnhancementShan Liu, Guoqiang Xiao, Xiaohui Xu, Song Wu. 2205-2209 [doi]

Dual-Attention Network for Few-Shot SegmentationZhikui Chen, Han Wang, Suhua Zhang, Fangming Zhong. 2210-2214 [doi]

Attention Guided Invariance Selection for Local Feature DescriptorsJiapeng Li, Ge Li, Thomas H. Li. 2215-2219 [doi]

Attention Probe: Vision Transformer Distillation in the WildJiahao Wang, Mingdeng Cao, Shuwei Shi, Baoyuan Wu, Yujiu Yang. 2220-2224 [doi]

Stacked Multi-Scale Attention Network for Image ColorizationBin Jiang 0006, Fangqiang Xu, Jun Xia, Chao Yang 0015, Wei Huang, Yun Huang. 2225-2229 [doi]

CRPN: Distinguish Novel Categories Via Class-Relevant Region Proposal Network for Few-Shot Object DetectionHan Wang, Yali Li, Shengjin Wang. 2230-2234 [doi]

An Efficient Framework for Detection and Recognition of Numerical Traffic SignsZhishan Li, Mingmu Chen, Yifan He, Lei Xie 0007, Hongye Su. 2235-2239 [doi]

Divergence-Guided Feature Alignment for Cross-Domain Object DetectionZongyao Li, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama. 2240-2244 [doi]

PGTRNET: Two-Phase Weakly Supervised Object Detection with Pseudo Ground Truth RefinementJun Wang, Hefeng Zhou, Xiaohan Yu. 2245-2249 [doi]

Novel Instance Mining with Pseudo-Margin Evaluation for Few-Shot Object DetectionWeijie Liu, Chong Wang, Shenghao Yu, Chenchen Tao, Jun Wang, Jiafei Wu. 2250-2254 [doi]

BiP-Net: Bidirectional Perspective Strategy Based Arbitrary-Shaped Text Detection NetworkChuang Yang, Mulin Chen, Yuan Yuan, Qi Wang 0009. 2255-2259 [doi]

A Novel Lightweight Network for Fast Monocular Depth EstimationTim Heydrich, Yimin Yang, Xiangyu Ma, Yu Liu, Shan Du. 2260-2264 [doi]

A Lightweight Self-Supervised Training Framework for Monocular Depth EstimationTim Heydrich, Yimin Yang, Shan Du. 2265-2269 [doi]

PU-Refiner: A Geometry Refiner with Adversarial Learning for Point Cloud UpsamplingHao Liu 0044, Hui Yuan 0001, Raouf Hamzaoui, Wei Gao 0003, Shuai Li. 2270-2274 [doi]

CF-Net: Complementary Fusion Network for Rotation Invariant Point Cloud CompletionBo-Fan Chen, Yang-Ming Yeh, Yi-Chang Lu. 2275-2279 [doi]

TH-Net: A Method Of Single 3d Object Tracking Based On Transformers And Hausdorff DistanceZihao Zhang, Nan Sang, Xupeng Wang. 2280-2284 [doi]

Enrich Features for Few-Shot Point Cloud ClassificationHengxin Feng, Weifeng Liu, Yanjiang Wang 0001, Baodi Liu. 2285-2289 [doi]

Semi-Supervised 360° Depth Estimation from Multiple Fisheye Cameras with Pixel-Level Selective LossJaewoo Lee, Daeul Park, Dongwook Lee, Daehyun Ji. 2290-2294 [doi]

Underwater Stereo Matching Via Unsupervised Appearance And Feature Adaptation NetworksWei Zhong, Yazhi Yuan, Xinchen Ye, Dian Zheng, Rui Xu 0002. 2295-2299 [doi]

Domain Adaptation via Mutual Information Maximization for Handwriting RecognitionPei Tang, Liangrui Peng, Ruijie Yan, Haodong Shi, Gang Yao, Changsong Liu, Jie Li, Yuqi Zhang. 2300-2304 [doi]

Attribute-Conditioned Face Swapping Network for Low-Resolution ImagesAng Li, Jian Hu, Chilin Fu, Xiaolu Zhang, Jun Zhou. 2305-2309 [doi]

Learning Multiple Explainable and Generalizable Cues for Face Anti-SpoofingYing Bian, Peng Zhang, Jingjing Wang, Chunmao Wang, Shiliang Pu. 2310-2314 [doi]

Off-The-Grid Covariance-Based Super-Resolution Fluctuation MicroscopyBastien Laville, Laure Blanc-Féraud, Gilles Aubert. 2315-2319 [doi]

Simultaneous Nonlocal Low-Rank And Deep Priors For Poisson DenoisingZhiyuan Zha, Bihan Wen, Xin Yuan 0002, Jiantao Zhou 0001, Ce Zhu. 2320-2324 [doi]

Double Closed-Loop Network for Image DeblurringYiming Liu, Yanni Zhang, Qiang Li, Jun Kong, Miao Qi, Jianzhong Wang. 2325-2329 [doi]

Single Image De-Raining with High-Low Frequency GuidanceYing Zhang, Youjun Xiang, Lei Cai, Yuli Fu 0001, Wanliang Huo, Junjun Xia. 2330-2334 [doi]

Detail Generation and Fusion Networks for Image InpaintingWu Yang, Wuzhen Shi. 2335-2339 [doi]

Adaptive Weighted Network With Edge Enhancement Module For Monocular Self-Supervised Depth EstimationHong Liu 0008, Ying Zhu, Guoliang Hua, Weibo Huang, Runwei Ding. 2340-2344 [doi]

Pas-Mef: Multi-Exposure Image Fusion Based On Principal Component Analysis, Adaptive Well-Exposedness And Saliency MapDiclehan Karakaya, Oguzhan Ulucan, Mehmet Türkan. 2345-2349 [doi]

PDD-Net: A Precise Defect Detection Network Based on Point Set RepresentationMiaoju Ban, Runwei Ding, Jian Zhang, Tianyu Guo 0001, Tao Wang. 2350-2354 [doi]

Solving The Long-Tailed Problem Via Intra- And Inter-Category BalanceRenhui Zhang, Tiancheng Lin 0001, Rui Zhang, Yi Xu. 2355-2359 [doi]

Extracting and Distilling Direction-Adaptive Knowledge for Lightweight Object Detection in Remote Sensing ImagesZhanchao Huang, Wei Li 0032, Ran Tao 0003. 2360-2364 [doi]

Pseudo-Interacting Guided Network for Few-Shot SegmentationXiaoliu Luo, Jing Luo, Zhao Duan, Jin Tan, Taiping Zhang. 2365-2369 [doi]

Few-Shot Generation By Modeling Stereoscopic PriorsYuehui Wang, Qing Wang, Dongyu Zhang. 2370-2374 [doi]

Relative Viewpoint Estimation Based on Structured 3d Representation AlignmentKohei Matsuzaki, Kei Kawamura. 2375-2379 [doi]

Deep Markov Clustering for Panoptic SegmentationMinxiang Ye, Yifei Zhang, Shiqiang Zhu, Anhuan Xie, Dan Zhang. 2380-2384 [doi]

Multi-Task Learning Improves the Brain Stoke Lesion SegmentationLibo Liu, Chengjian Huang, Chunsheng Cai, Xiaodong Zhang, Qingmao Hu. 2385-2389 [doi]

Mixed Transformer U-Net for Medical Image SegmentationHongyi Wang, Shiao Xie, Lanfen Lin, Yutaro Iwamoto, Xian-Hua Han, Yen-Wei Chen 0001, Ruofeng Tong 0001. 2390-2394 [doi]

Contrastive Translation Learning For Medical Image SegmentationWankang Zeng, Wenkang Fan, Dongfang Shen, Yinran Chen, Xiongbiao Luo. 2395-2399 [doi]

Fast Video Object Segmentation via Dynamic YOLACTTianfang Meng, Wenqiang Zhang. 2400-2404 [doi]

Depth Removal Distillation for RGB-D Semantic SegmentationTiyu Fang, Zhen Liang, Xiuli Shao, Zihao Dong, Jinping Li. 2405-2409 [doi]

Mask-Based Attention Parallel Network for in-the-Wild Facial Expression RecognitionLingzhao Ju, Xu Zhao. 2410-2414 [doi]

SDNET: Lightweight Facial Expression Recognition For Sample DisequilibriumLifang Zhou, Siqin Li, Yi Wang, Junlin Liu. 2415-2419 [doi]

A Novel Micro-Expression Recognition Approach Using Attention-Based Magnification-Adaptive NetworksMengting Wei, Wenming Zheng, Yuan Zong, Xingxun Jiang, Cheng Lu 0005, Jiateng Liu. 2420-2424 [doi]

Lipreading Model Based On Whole-Part Collaborative LearningWeidong Tian, Housen Zhang, Chen Peng, Zhong-Qiu Zhao. 2425-2429 [doi]

What Is The Patient Looking At? Robust Gaze-Scene Intersection Under Free-Viewing ConditionsAhmed Al-Hindawi, Marcela P. Vizcaychipi, Yiannis Demiris. 2430-2434 [doi]

GAZEATTENTIONNET: Gaze Estimation with AttentionsHaoxian Huang, Luqian Ren, Zhuo Yang, Yinwei Zhan, Qieshi Zhang, Jujian Lv. 2435-2439 [doi]

Low-Light Image Enhancement via Feature RestorationYang Yang, Yonghua Zhang, Xiaojie Guo. 2440-2444 [doi]

HIRL: Hybrid Image Restoration Based on Hierarchical Deep Reinforcement Learning via Two-Step AnalysisXiaoyu Zhang, Wei Gao 0003. 2445-2449 [doi]

High-Fidelity Portrait Editing Via Exploring Differentiable Guided Sketches from the Latent SpaceChengrong Wang, Chenjie Cao, Yanwei Fu, Xiangyang Xue. 2450-2454 [doi]

Learning Adjustable Image Rescaling with Joint Optimization of Perception and DistortionZhihong Pan 0001. 2455-2459 [doi]

FSOINET: Feature-Space Optimization-Inspired Network For Image Compressive SensingWenjun Chen, Chunling Yang, Xin Yang. 2460-2464 [doi]

Disentangled Feature-Guided Multi-Exposure High Dynamic Range ImagingKeuntek Lee, Yeong Il Jang, Nam Ik Cho. 2465-2469 [doi]

Defending Against Universal Attack Via Curvature-Aware Category Adversarial TrainingPeilun Du, Xiaolong Zheng, Liang Liu 0001, Huadong Ma. 2470-2474 [doi]

SP Attack: Single-Perspective Attack for Generating Adversarial Omnidirectional ImagesYunjian Zhang, Yanwei Liu, Jinxia Liu, Pengwei Zhan, Liming Wang, Zhen Xu. 2475-2479 [doi]

Few-Shot One-Class Domain Adaptation Based On Frequency For Iris Presentation Attack DetectionYachun Li, Ying Lian, Jingjing Wang, Yuhui Chen, Chunmao Wang, Shiliang Pu. 2480-2484 [doi]

Pixinwav: Residual Steganography for Hiding Pixels in AudioMargarita Geleta, Cristina Punti, Kevin McGuinness, Jordi Pons, Cristian Canton, Xavier Giró i Nieto. 2485-2489 [doi]

A Semi-Handcrafted Keypoint Detector with Discriminative Feature EncodingYurui Xie, Ling Guan. 2490-2494 [doi]

Safari from Visual Signals: Recovering Volumetric 3d ShapesAntonio Agudo. 2495-2499 [doi]

Coupled Feature Learning Via Structured Convolutional Sparse Coding for Multimodal Image FusionFarshad G. Veshki, Sergiy A. Vorobyov. 2500-2504 [doi]

DOMAINDESC: Learning Local Descriptors With Domain AdaptationRongtao Xu, Changwei Wang, Bin Fan, Yuyang Zhang, Shibiao Xu, Weiliang Meng, Xiaopeng Zhang 0001. 2505-2509 [doi]

Multi-Head Relu Implicit Neural Representation NetworksArya Aftab, Alireza Morsali, Shahrokh Ghaemmaghami. 2510-2514 [doi]

An Efficient Method for Model Pruning Using Knowledge Distillation with Few SamplesZhaoJing Zhou, Yun Zhou, Zhuqing Jiang, Aidong Men, Haiying Wang 0005. 2515-2519 [doi]

Adaptive Intra-Group Aggregation for Co-Saliency DetectionGuangyu Ren, Tianhong Dai, Tania Stathaki. 2520-2524 [doi]

Novel Class Discovery: A Dependency ApproachTanmoy Mukherjee, Nikos Deligiannis. 2525-2528 [doi]

Single-Shot Balanced Detector for Geospatial Object DetectionYanfeng Liu, Qiang Li, Yuan Yuan, Qi Wang. 2529-2533 [doi]

Regularized Latent Space Exploration for Discriminative Face Super-ResolutionRuixin Shi, Junzheng Zhang, Yong Li, Shiming Ge. 2534-2538 [doi]

Enhancing and Dissecting Crowd Counting by Synthetic DataYi Hou, Chengyang Li, Yuheng Lu, Liping Zhu, Yuan Li, Huizhu Jia, Xiaodong Xie. 2539-2543 [doi]

Multi-Pose Virtual Try-On Via Self-Adaptive Feature FilteringChenghu Du, Feng Yu 0017, Minghua Jiang, Xiong Wei, Tao Peng 0006, Xinrong Hu. 2544-2548 [doi]

Histogram-Guided Semantic-Aware ColorizationJie Zhang, Yi Xiao, Guo Chen, Qingping Sun, Fangqiang Xu, Chi-Sing Leung. 2549-2553 [doi]

Content Preserving Scale Space Network for Fast Image Restoration from Noisy-Blurry PairsGreen Rosh K. S, Nikhil Krishnan, B. H. Pawan Prasad, Sachin Deepak Lomte. 2554-2558 [doi]

Flow-Based Point Cloud Completion Network with Adversarial RefinementRong Bao, Yurui Ren, Ge Li 0002, Wei Gao 0003, Shan Liu 0001. 2559-2563 [doi]

Weakly Supervised Point Cloud Upsampling VIA Optimal TransportZezeng Li, Weimin Wang, Na Lei, Rui Wang. 2564-2568 [doi]

Point Cloud Denoising Using Normal Vector-Based Graph Wavelet ShrinkageRyosuke Watanabe, Keisuke Nonaka, Haruhisa Kato, Eduardo Pavez, Tatsuya Kobayashi, Antonio Ortega. 2569-2573 [doi]

Dynamic Point Cloud InterpolationAnique Akhtar, Zhu Li 0001, Geert Van Der Auwera, Jianle Chen. 2574-2578 [doi]

Point Cloud Attribute Compression Via Chroma SubsamplingShashank N. Sridhara, Eduardo Pavez, Antonio Ortega, Ryosuke Watanabe, Keisuke Nonaka. 2579-2583 [doi]

Rangeinet: Fast Lidar Point Cloud Temporal InterpolationLili Zhao, Xuhu Lin, Wenyi Wang, Kai-Kuang Ma, Jianwen Chen. 2584-2588 [doi]

MBNet: A Multi-Resolution Branch Network for Semantic Segmentation Of Ultra-High Resolution ImagesLianlei Shan, Weiqiang Wang. 2589-2593 [doi]

BSOLO: Boundary-Aware One-Stage Instance Segmentation SOLOYuxuan Zhang, Wei Yang. 2594-2598 [doi]

CS-GResNet: A Simple and Highly Efficient Network for Facial Expression RecognitionShaoping Jiang, Xiangmin Xu, Fang Liu, Xiaofen Xing, Lin Wang. 2599-2603 [doi]

RCANet: Row-Column Attention Network for Semantic SegmentationBingxu Lu, Qinghua Hu, Yu Wang, Guosheng Hu. 2604-2608 [doi]

Exploring Category Consistency for Weakly Supervised Semantic SegmentationZhaozhi Xie, Hongtao Lu. 2609-2613 [doi]

Vision Transformer Equipped With Neural Resizer On Facial Expression Recognition TaskHyeonbin Hwang, Soyeon Kim, Wei-Jin Park, Jiho Seo, Kyungtae Ko, Hyeon Yeo. 2614-2618 [doi]

ISDA: Position-Aware Instance Segmentation with Deformable AttentionKaining Ying, Zhenhua Wang, Cong Bai, Pengfei Zhou. 2619-2623 [doi]

Improving Class Activation Map for Weakly Supervised Object LocalizationZhenfei Zhang, Ming-Ching Chang, Tien D. Bui. 2624-2628 [doi]

A Robust Object Segmentation Network for UnderWater ScenesRuizhe Chen, Zhenqi Fu, Yue Huang 0001, En Cheng, Xinghao Ding. 2629-2633 [doi]

A Fast and Efficient Network for Single Image Shadow DetectionLeiping Jie, Hui Zhang. 2634-2638 [doi]

Importance Sampling Cams For Weakly-Supervised SegmentationArvi Jonnarth, Michael Felsberg. 2639-2643 [doi]

DeepGBASS: Deep Guided Boundary-Aware Semantic SegmentationQingfeng Liu, Hai Su, Mostafa El-Khamy, Kee-Bong Song. 2644-2648 [doi]

Camera Calibration Through Camera Projection LossTalha Hanif Butt, Murtaza Taj. 2649-2653 [doi]

Inferring Camera Intrinsics Based on Surfaces of Revolution: A Single Image Geometric Network Approach for Camera CalibrationChristopher Walker, Yuxing Wang, Yawen Lu, Guoyu Lu. 2654-2658 [doi]

Text2video: Text-Driven Talking-Head Video Synthesis with Personalized Phoneme - Pose DictionarySibo Zhang, Jiahong Yuan, Miao Liao, Liangjun Zhang. 2659-2663 [doi]

Towards Accurate Cross-Domain in-Bed Human Pose EstimationMohamed Afham, Udith Haputhanthri, Jathurshan Pradeepkumar, Mithunjha Anandakumar, Ashwin De Silva, Chamira U. S. Edussooriya. 2664-2668 [doi]

Learning Monocular Mesh Recovery of Multiple Body Parts Via SynthesisYu Sun, Tianyu Huang, Qian Bao, Wu Liu, Wenpeng Gao, Yili Fu. 2669-2673 [doi]

LightPose: A Lightweight and Efficient Model with Transformer for Human Pose EstimationXiyang Liu, Peng Li, Ding Ni, Yan Wang, Hui Xue. 2674-2678 [doi]

On The Observability in Visual Slam NetworksQier An, Yuan Shen. 2679-2683 [doi]

Variational Bayesian Framework for Advanced Image Generation with Domain-Related VariablesYuxiao Li, Santiago Mazuelas, Yuan Shen. 2684-2688 [doi]

The Impact of JPEG Compression on Prior Image NoiseMarina Gardella, Tina Nikoukhah, Yanhao Li, Quentin Bammey. 2689-2693 [doi]

On the Use of Component Structural Characteristics for Voxel Segmentation in Semicon 3D ImagesTin Lay Nwe, Ramanpreet Singh Pahwa, Richard Chang 0002, Oo Zaw Min, Jie Wang 0042, Yiqun Li, Dongyun Lin, Shitala Prasad, Sheng Dong. 2694-2698 [doi]

Blind Source Separation via a Weak Exclusion PrincipleZihan Zhang, Thierry Blu. 2699-2703 [doi]

Graph Convolution for Re-Ranking in Person Re-IdentificationYuqi Zhang, Qi Qian 0001, Chong Liu 0002, Weihua Chen, Fan Wang, Hao Li, Rong Jin 0001. 2704-2708 [doi]

Multi-Level Relation Aware Network for Person Re-IdentificationJing Yang, Canlong Zhang, Zhixin Li, Yanping Tang. 2709-2713 [doi]

Progressive-Granularity Retrieval Via Hierarchical Feature Alignment for Person Re-IdentificationZhaopeng Dou, Zhongdao Wang, Yali Li, Shengjin Wang. 2714-2718 [doi]

Occluded Person Re-Identification Via Relational Adaptive Feature Correction LearningMinjung Kim, MyeongAh Cho, Heansung Lee, Suhwan Cho, Sangyoun Lee. 2719-2723 [doi]

Learning Semantic-Aligned Feature Representation for Text-Based Person SearchShiping Li, Min Cao, Min Zhang. 2724-2728 [doi]

Transformer-Based Person Search Model with Symmetric Online Instance MatchingXuezhi Xiang, Ning Lv, Yulong Qiao. 2729-2733 [doi]

Wassertrain: An Adversarial Training Framework Against Wasserstein Adversarial AttacksQingye Zhao, Xin Chen 0027, Zhuoyu Zhao, Enyi Tang, Xuandong Li. 2734-2738 [doi]

Efficient Universal Shuffle Attack for Visual Object TrackingSiao Liu, Zhaoyu Chen, Wei Li, Jiwei Zhu, Jiafeng Wang, Wenqiang Zhang, Zhongxue Gan. 2739-2743 [doi]

Non-Rigid Transformation Based Adversarial Attack Against 3d Object TrackingRiran Cheng, Nan Sang, Yinyuan Zhou, Xupeng Wang. 2744-2748 [doi]

Adversary Distillation for One-Shot Attacks on 3D Target TrackingZhengyi Wang, Xupeng Wang, Ferdous Sohel, Mohammed Bennamoun, Yong Liao, Jiali Yu. 2749-2453 [doi]

AdverFacial: Privacy-Preserving Universal Adversarial Perturbation Against Facial Micro-Expression LeakagesYin Yin Low, Angeline Tanvy, Raphaël C.-W. Phan, Xiaojun Chang. 2754-2758 [doi]

Interpretable Image Classification Using Sparse Oblique Decision TreesSuryabhan Singh Hada, Miguel Á. Carreira-Perpiñán. 2759-2763 [doi]

Underwater Image Enhancement Via Learning Water Type Desensitized RepresentationsZhenqi Fu, Xiaopeng Lin, Wu Wang, Yue Huang 0001, Xinghao Ding. 2764-2768 [doi]

A Wavelet-Based Dual-Stream Network for Underwater Image EnhancementZiyin Ma, Changjae Oh. 2769-2773 [doi]

Unsupervised and Untrained Underwater Image Restoration Based on Physical Image Formation ModelShu Chai, Zhenqi Fu, Yue Huang 0001, Xiaotong Tu, Xinghao Ding. 2774-2778 [doi]

Agcyclegan: Attention-Guided Cyclegan for Single Underwater Image RestorationZhenlong Wang, Weifeng Liu 0001, Yanjiang Wang 0001, Baodi Liu. 2779-2783 [doi]

Underwater Small Target Detection Based on Deformable Convolutional PyramidShuhan Qi, Jianjun Du, Mingyan Wu, Hong Yi, Linlin Tang, Tao Qian, Xuan Wang 0002. 2784-2788 [doi]

Towards Controllable and Physical Interpretable Underwater Scene SimulationKaixin Chen, Lin Zhang 0014, Ying Shen, Yicong Zhou. 2789-2793 [doi]

Graph Learning Based Autoencoder for Hyperspectral Band SelectionYongshan Zhang, Xinxin Wang, Zhenyu Wang, Xinwei Jiang, Yicong Zhou. 2794-2798 [doi]

Multitask Sparse Neural Network for Hyperspectral Image DenoisingFengchao Xiong, Minchao Ye, Jun Zhou 0001, Jianfeng Lu 0003, Yuntao Qian. 2799-2803 [doi]

Hyperspectral Image Classification Based on Co-Learning Through Dual-Architecture EnsembleChen Xiaoyue, Xianghai Cao. 2804-2808 [doi]

Material-Guided Siamese Fusion Network for Hyperspectral Object TrackingZhuanfeng Li, Fengchao Xiong, Jianfeng Lu 0003, Jun Zhou 0001, Yuntao Qian. 2809-2813 [doi]

Hyperspectral Image Super-Resolution with Deep Priors and Degradation Model InversionXiuheng Wang, Jie Chen, Cédric Richard. 2814-2818 [doi]

Geometric Low-Rank Tensor Approximation for Remotely Sensed Hyperspectral And Multispectral Imagery FusionNa Liu, Wei Li 0032, Ran Tao. 2819-2823 [doi]

Dilated Convolutional Neural Network-Based Deep Reference Picture Generation for Video CompressionHaoyue Tian, Pan Gao, Ran Wei, Manoranjan Paul. 2824-2828 [doi]

Rate Control for Learned Video CompressionYanghao Li, Xinyao Chen, JiSheng Li, Jiangtao Wen, Yuxing Han, Shan Liu, Xiaozhong Xu. 2829-2833 [doi]

Collaborative Object Detectors Adaptive to Bandwidth and ComputationJuliano S. Assine, José Cândido Silveira Santos Filho, Eduardo Valle. 2839-2843 [doi]

MA-NET: Multi-Scale Attention-Aware Network for Optical Flow EstimationMu Li, Baojiang Zhong, Kai-Kuang Ma. 2844-2848 [doi]

Modeling Human Memory in Multi-Object Tracking with TransformersYizhuo Li 0001, Cewu Lu. 2849-2853 [doi]

Real-World Adversarial Examples Via MakeupChang-sheng Lin, Chia-Yi Hsu, Pin-Yu Chen, Chia-Mu Yu. 2854-2858 [doi]

In Pursuit of Preserving the Fidelity of Adversarial ImagesJoseph Clements, Yingjie Lao. 2859-2863 [doi]

Object-Oriented Backdoor Attack Against Image CaptioningMeiling Li, Nan Zhong, Xinpeng Zhang, Zhenxing Qian, Sheng Li. 2864-2868 [doi]

Towards Robust Speech-to-Text Adversarial AttackMohammad Esmaeilpour, Patrick Cardinal, Alessandro Lameiras Koerich. 2869-2873 [doi]

Sparse Adversarial Attack For Video Via Gradient-Based Keyframe SelectionYixiao Xu, Xiaolei Liu, MingYong Yin, Teng Hu, Kangyi Ding. 2874-2878 [doi]

How Secure Are The Adversarial Examples Themselves?Hui Zeng, Kang Deng, Biwei Chen, Anjie Peng. 2879-2883 [doi]

Exploring Complementarity of Global and Local Spatiotemporal Information for Fake Face Video DetectionXiaohui Zhao, Yang Yu, Rongrong Ni, Yao Zhao. 2884-2888 [doi]

Panchromatic Imagery Copy-Paste Localization Through Data-Driven Sensor AttributionEdoardo Daniele Cannas, János Horváth, Sriram Baireddy, Paolo Bestagini, Edward J. Delp, Stefano Tubaro. 2889-2893 [doi]

Robust Video Hashing Based on Local Fluctuation Preserving for Tracking Deep Fake VideosLv Chen, Dengpan Ye, Yueyun Shang, Jiaqing Huang. 2894-2898 [doi]

ADT: Anti-Deepfake TransformerPing Wang, Kunlin Liu, Wenbo Zhou, Hang Zhou 0007, Honggu Liu, Weiming Zhang, Nenghai Yu. 2899-1903 [doi]

Eyes Tell All: Irregular Pupil Shapes Reveal GAN-Generated FacesHui Guo, Shu Hu, Xin Wang 0045, Ming-Ching Chang, Siwei Lyu. 2904-2908 [doi]

Explainable Artificial Intelligence for Authorship Attribution on Social MediaAntonio Theophilo, Rafael Padilha, Fernanda A. Andaló, Anderson Rocha 0001. 2909-2913 [doi]

Dual-Domain Low-Rank Fusion Deep Metric Learning for Off-the-Person ECG BiometricsGuiping Zhu, Mingzhu Ma, Yuwen Huang, Kuikui Wang, Gongping Yang. 2914-2918 [doi]

A Robust Deep Audio Splicing Detection Method via Singularity Detection FeatureKanghao Zhang, Shan Liang, Shuai Nie, Shulin He, Jiahui Pan, Xueliang Zhang, Haoxin Ma, Jiangyan Yi. 2919-2923 [doi]

Online Ecg Biometrics Via Hadamard CodeKuikui Wang, Gongping Yang, Yuwen Huang, Lu Yang 0005, Yilong Yin. 2924-2928 [doi]

Forensic Analysis and Localization of Multiply Compressed MP3 Audio Using TransformersZiyue Xiang, Paolo Bestagini, Stefano Tubaro, Edward J. Delp. 2929-2933 [doi]

Adaptive Matching Strategy for Multi-Target Multi-Camera TrackingChong Liu 0002, Yuqi Zhang, Weihua Chen, Fan Wang, Hao Li, Yi-Dong Shen. 2934-2938 [doi]

Generalized Face Anti-Spoofing via Cross-Adversarial Disentanglement with Mixing AugmentationHanye Huang, Youjun Xiang, Guodong Yang, Lingling Lv, Xianfeng Li, Zichun Weng, Yuli Fu 0001. 2939-2943 [doi]

Free Lunch for Cross-Domain Occluded Face Recognition without Source DataTaoshan Zhang, Youjun Xiang, Xianfeng Li, Zichun Weng, Zhen Chen 0010, Yuli Fu 0001. 2944-2948 [doi]

Coneface: Approximate Pairwise Loss for Face RecognitionZijun Zhuang, Hongtao Lu. 2949-2953 [doi]

Depth-Based Ensemble Learning Network For Face Anti-SpoofingJie Jiang, Yunlian Sun. 2954-2958 [doi]

Are GAN-based morphs threatening face recognition?Eklavya Sarkar, Pavel Korshunov, Laurent Colbois, Sébastien Marcel. 2959-2963 [doi]

Privacy Protection In Learning Fair RepresentationsYulu Jin, Lifeng Lai. 2964-2968 [doi]

Stealthy Backdoor Attack with Adversarial TrainingLe Feng, Sheng Li 0006, Zhenxing Qian, Xinpeng Zhang. 2969-2973 [doi]

Fldp: Flexible Strategy For Local Differential PrivacyDan Zhao, Hong Chen 0001, Suyun Zhao, Ruixuan Liu, Cuiping Li 0001, Xiaoying Zhang. 2974-2978 [doi]

Enhancing Utility In The Watchdog Privacy MechanismMohammad Amin Zarrabian, Ni Ding, Parastoo Sadeghi, Thierry Rakotoarivelo. 2979-2983 [doi]

Cyber-Threat Propagation over Network-Slicing ArchitecturesMichele Cirillo, Mario Di Mauro, Vincenzo Matta, Giuseppe Basileo. 2984-2988 [doi]

Privacy-Aware Communication over a Wiretap Channel with Generative NetworksEcenaz Erdemir, Pier Luigi Dragotti, Deniz Gündüz. 2989-2993 [doi]

Encrypted Image Visual Security Index via Non-Local Recognizable Degree EvaluationRan Shi, Jian Xiong 0005, Tong Qiao. 2994-2998 [doi]

Against Backdoor Attacks In Federated Learning With Differential PrivacyLu Miao, Wei Yang, Rong Hu, Lu Li, Liusheng Huang. 2999-3003 [doi]

SecMPNN: 3-Party Privacy-Preserving Molecular Structure Properties InferenceXinying Liao, Jiaye Xue, Shengxing Yu, Ximeng Liu, Jiangang Shu. 3004-3008 [doi]

Compressed Data Sharing Based On Information Bottleneck ModelBehrooz Razeghi, Shideh Rezaeifar, Sohrab Ferdowsi, Taras Holotyak, Slava Voloshynovskiy. 3009-3013 [doi]

Randomized Smoothing Under Attack: How Good is it in Practice?Thibault Maho, Teddy Furon, Erwan Le Merrer. 3014-3018 [doi]

Training Privacy-Preserving Video Analytics Pipelines by Suppressing Features That Reveal Information About Private AttributesChau Yi Li, Andrea Cavallaro. 3019-3023 [doi]

Unsupervised Anomaly Detection for Container Cloud Via BILSTM-Based Variational Auto-EncoderYulong Wang, Xingshu Chen, Qixu Wang, Run Yang, Bangzhou Xin. 3024-3028 [doi]

Applying Deep Learning to Known-Plaintext Attack on Chaotic Image Encryption SchemesFusen Wang, Jun Sang, Chunlin Huang, Bin Cai, Hong Xiang, Nong Sang. 3029-3033 [doi]

WordMarkov: A New Password Probability Model of SemanticsJiahong Xie, Haibo Cheng, Rong Zhu, Ping Wang 0003, Kaitai Liang. 3034-3038 [doi]

Efficient Identity-Based Chameleon Hash for Mobile DevicesCong Li, Qingni Shen, Zhikang Xie, Jisheng Dong, Yuejian Fang, Zhonghai Wu. 3039-3043 [doi]

Passtrans: An Improved Password Reuse Model Based on TransformerXiaoxi He, Haibo Cheng, Jiahong Xie, Ping Wang 0003, Kaitai Liang. 3044-3048 [doi]

Fostering The Robustness Of White-Box Deep Neural Network Watermarks By Neuron AlignmentFang-Qi Li, Shi-Lin Wang, Yun Zhu. 3049-3053 [doi]

Watermarking Images in Self-Supervised Latent SpacesPierre Fernandez, Alexandre Sablayrolles, Teddy Furon, Hervé Jégou, Matthijs Douze. 3054-3058 [doi]

Speech Pattern Based Black-Box Model Watermarking for Automatic Speech RecognitionHaozhe Chen, Weiming Zhang, Kunlin Liu, Kejiang Chen, Han Fang, Nenghai Yu. 3059-3063 [doi]

Encryption Resistant Deep Neural Network WatermarkingGuobiao Li, Sheng Li, Zhenxing Qian, Xinpeng Zhang. 3064-3068 [doi]

Attributable Watermarking of Speech Generative ModelsYongbaek Cho, Changhoon Kim, Yezhou Yang, Yi Ren. 3069-3073 [doi]

Exploiting Language Model For Efficient Linguistic SteganalysisBiao Yi, Hanzhou Wu, Guorui Feng, Xinpeng Zhang 0001. 3074-3078 [doi]

Patch Steganalysis: A Sampling Based Defense Against Adversarial SteganographyChuan Qin 0002, Na Zhao, Weiming Zhang, Nenghai Yu. 3079-3083 [doi]

An Effective Steganalysis for Robust Steganography with Repetitive JPEG CompressionJinliu Feng, Yaofei Wang, Kejiang Chen, Weiming Zhang, Nenghai Yu. 3084-3088 [doi]

Image Steganalysis with Convolutional Vision TransformerGe Luo 0003, Ping Wei, Shuwen Zhu, Xinpeng Zhang 0001, Zhenxing Qian, Sheng Li 0006. 3089-3093 [doi]

A Bridge between Features and Evidence for Binary Attribute-Driven Perfect PrivacyPaul-Gauthier Noé, Andreas Nautsch, Driss Matrouf, Pierre-Michel Bousquet, Jean-François Bonastre. 3094-3098 [doi]

Preserving Trajectory Privacy in Driving Data ReleaseYi Xu, Chong Xiao Wang, Yang Song, Wee-Peng Tay. 3099-3103 [doi]

Direct Design of Biquad Filter Cascades with Deep Learning by Sampling Random PolynomialsJoseph T. Colonel, Christian J. Steinmetz, Marcus Michelen, Joshua D. Reiss. 3104-3108 [doi]

An End-to-End Deep Learning Speech Coding and Denoising Strategy for Cochlear ImplantsTom Gajecki, Waldo Nogueira. 3109-3113 [doi]

Exploiting Hybrid Models of Tensor-Train Networks For Spoken Command RecognitionJun Qi 0002, Javier Tejedor. 3114-3118 [doi]

Learnable Wavelet Packet Transform for Data-Adapted SpectrogramsGaëtan Frusque, Olga Fink. 3119-3123 [doi]

Music Enhancement via Image Translation and VocodingNikhil Kandpal, Oriol Nieto, Zeyu Jin. 3124-3128 [doi]

Progressive Teacher-Student Training Framework for Music TaggingRui Lu, Baigong Zheng, Jiarui Hai, Fei Tao, Zhiyao Duan, Ji Liu. 3129-3133 [doi]

Joint Dual-Domain Matrix Factorization for ECG Biometric RecognitionKuikui Wang, Gongping Yang, Yuwen Huang, Lu Yang 0005, Yilong Yin. 3134-3138 [doi]

Iterative Self Knowledge Distillation - from Pothole Classification to Fine-Grained and Covid RecognitionKuan-Chuan Peng. 3139-3143 [doi]

Attention-based Adversarial Partial Domain AdaptationMengzhu Wang, Shan An, Xiao Luo, Xiong Peng, Wei Yu, Junyang Chen, Zhigang Luo. 3144-3148 [doi]

Group-Wise Feature Selection for Supervised LearningQi Xiao, Hebi Li, Jin Tian, Zhengdao Wang. 3149-3153 [doi]

A Light Weight Model for Video Shot Occlusion DetectionJunhua Liao, Haihan Duan, Wanbin Zhao, Yanbing Yang, Liangyin Chen. 3154-3158 [doi]

Detecting Backdoor Attacks against Point Cloud ClassifiersZhen Xiang, David J. Miller 0001, Siheng Chen, Xi Li, George Kesidis. 3159-3163 [doi]

Characterizing the Adversarial Vulnerability of Speech self-Supervised LearningHaibin Wu, Bo Zheng, Xu Li, Xixin Wu, Hung-yi Lee, Helen Meng. 3164-3168 [doi]

Universal Paralinguistic Speech Representations Using self-Supervised ConformersJoel Shor, Aren Jansen, Wei Han 0002, Daniel S. Park, Yu Zhang 0033. 3169-3173 [doi]

A Noise-Robust Self-Supervised Pre-Training Model Based Speech Representation Learning for Automatic Speech RecognitionQiu-Shi Zhu, Jie Zhang, Zi-qiang Zhang, Ming-hui Wu, Xin Fang, Li-Rong Dai 0001. 3174-3178 [doi]

An Adapter Based Pre-Training for Efficient and Scalable Self-Supervised Speech Representation LearningSamuel Kessler, Bethan Thomas, Salah Karout. 3179-3183 [doi]

DRVC: A Framework of Any-to-Any Voice Conversion with Self-Supervised LearningQiqi Wang, Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao 0006. 3184-3188 [doi]

Contrastive Prediction Strategies for Unsupervised Segmentation and Categorization of Phonemes and WordsSantiago Cuervo, Maciej Grabias, Jan Chorowski, Grzegorz Ciesielski, Adrian Lancucki, Pawel Rychlikowski, Ricard Marxer. 3189-3193 [doi]

Uncertainty in Data-Driven Kalman Filtering for Partially Known State-Space ModelsItzik Klein, Guy Revach, Nir Shlezinger, Jonas E. Mehr, Ruud J. G. van Sloun, Yonina C. Eldar. 3194-3198 [doi]

Deep Piecewise Hashing for Efficient Hamming Space RetrievalJingzi Gu, Dayan Wu, Peng Fu, Bo Li, Weiping Wang 0005. 3199-3203 [doi]

SODA: Self-Organizing Data Augmentation in Deep Neural Networks Application to Biomedical Image Segmentation TasksArnaud Deleruyelle, John Klein, Cristian Versari. 3204-3208 [doi]

Deep Impulse Responses: Estimating and Parameterizing Filters with Deep NetworksAlexander Richard, Peter Sheridan Dodds, Vamsi Krishna Ithapu. 3209-3213 [doi]

Joint Temporal Convolutional Networks and Adversarial Discriminative Domain Adaptation for EEG-Based Cross-Subject Emotion RecognitionZhipeng He, Yongshi Zhong, Jiahui Pan. 3214-3218 [doi]

Gradient Variance Loss for Structure-Enhanced Image Super-ResolutionLusine Abrahamyan, Anh Minh Truong, Wilfried Philips, Nikos Deligiannis. 3219-3223 [doi]

Label-Occurrence-Balanced Mixup for Long-Tailed RecognitionShaoyu Zhang 0001, Chen Chen 0036, Xiujuan Zhang, Silong Peng. 3224-3228 [doi]

TNTC: Two-Stream Network with Transformer-Based Complementarity for Gait-Based Emotion RecognitionChuanfei Hu, Weijie Sheng, Bo Dong, Xinde Li. 3229-3233 [doi]

A free lunch from ViT: adaptive attention multi-scale fusion Transformer for fine-grained visual recognitionYuan Zhang, Jian Cao, Ling Zhang, Xiangcheng Liu, Zhiyi Wang, Feng Ling, Weiqian Chen. 3234-3238 [doi]

Self-Supervised Contrastive Learning for Cross-Domain Hyperspectral Image RepresentationHyungtae Lee, Heesung Kwon. 3239-3243 [doi]

GOS: A Large-Scale Annotated Outdoor Scene Synthetic DatasetMingye Xie, Ting Liu, Yuzhuo Fu. 3244-3248 [doi]

Out-Of-Distribution As A Target Class in Semi-Supervised LearningAntoine Tadros, Sébastien Drouyer, Rafael Grompone von Gioi. 3249-3252 [doi]

Self-Supervised Acoustic Anomaly Detection Via Contrastive LearningHadi Hojjati, Narges Armanfard. 3253-3257 [doi]

Don't Speak Too Fast: The Impact of Data Bias on Self-Supervised Speech ModelsYen Meng, Yi-Hui Chou, Andy T. Liu, Hung-yi Lee. 3258-3262 [doi]

Self-Supervised Learning Method Using Multiple Sampling Strategies for General-Purpose Audio RepresentationIbuki Kuroyanagi, Tatsuya Komatsu. 3263-3267 [doi]

Self Supervised Representation Learning with Deep Clustering for Acoustic Unit Discovery from Raw SpeechVarun Krishna, Sriram Ganapathy. 3268-3272 [doi]

T-NGA: Temporal Network Grafting Algorithm for Learning to Process Spiking Audio Sensor EventsShu Wang, Yuhuang Hu, Shih-Chii Liu. 3273-3277 [doi]

Contrastive Knowledge Graph Attention Network for Request-Based Recipe RecommendationXiyao Ma, Zheng Gao, Qian Hu, Mohamed Abdelhady. 3278-3282 [doi]

TargetDrop: A Targeted Regularization Method for Convolutional Neural NetworksHui Zhu, Xiaofang Zhao. 3283-3287 [doi]

Coarse-To-Fine Unsupervised Change Detection for Remote Sensing Images Via Object-Based MRF and Inception UNETXuan Hou, Yunpeng Bai, Haonan Shi, Ying Li. 3288-3292 [doi]

Combating False Sense of Security: Breaking the Defense of Adversarial Training Via Non-Gradient Adversarial AttackMingyuan Fan, Yang Liu, Cen Chen, Shengxing Yu, Wenzhong Guo, Ximeng Liu. 3293-3297 [doi]

Dynamically Pruning Segformer for Efficient Semantic SegmentationHaoli Bai, Hongda Mao, Dinesh Nair. 3298-3302 [doi]

Deformable VisTR: Spatio Temporal Deformable Attention for Video Instance SegmentationSudhir Yarram, Jialian Wu, Pan Ji, Yi Xu, Junsong Yuan. 3303-3307 [doi]

Attentional Gated Res2net for Multivariate Time Series ClassificationChao Yang, Xianzhi Wang 0001, Lina Yao, Guodong Long, Jing Jiang 0002, Guandong Xu. 3308-3312 [doi]

Convex Clustering for Autocorrelated Time SeriesMax Revay, Victor Solo. 3313-3317 [doi]

Investigating the Potential of Auxiliary-Classifier Gans for Image Classification in Low Data RegimesAmil Dravid, Florian Schiffers, Yunan Wu, Oliver Cossairt, Aggelos K. Katsaggelos. 3318-3322 [doi]

Feature Augmentation Learning for Few-Shot Palmprint Image Recognition With Unconstrained AcquisitionKunlei Jing, Xinman Zhang, Zhiyuan Yang, Bihan Wen. 3323-3327 [doi]

Prime Knowledge with Local Pattern Consistency for Knowledge DistillationQiankun Tang, Xiaogang Xu, Jun Wang. 3328-3332 [doi]

Test-Time Detection of Backdoor Triggers for Poisoned Deep Neural NetworksXi Li, Zhen Xiang, David J. Miller 0001, George Kesidis. 3333-3337 [doi]

Multi-View Data Representation Via Deep Autoencoder-Like Nonnegative Matrix FactorizationHaonan Huang, Yihao Luo, GuoXu Zhou, Qibin Zhao. 3338-3342 [doi]

On Identifiable Polytope Characterization for Polytopic Matrix FactorizationBariscan Bozkurt, Alper T. Erdogan. 3343-3347 [doi]

Fast Learning of Fast Transforms, with GuaranteesQuoc-Tung Le, Léon Zheng, Elisa Riccietti, Rémi Gribonval. 3348-3352 [doi]

Regression Assisted Matrix Completion for Reconstructing a Propagation Field with Application to Source LocalizationHao Sun, Junting Chen. 3353-3357 [doi]

Matrix Decomposition on Graphs: A Simplified Functional ViewAbhishek Sharma, Maks Ovsjanikov. 3358-3362 [doi]

Learning to Sample for Sparse SignalsSatish Mulleti, Haiyang Zhang, Yonina C. Eldar. 3363-3367 [doi]

Mixture Model Auto-Encoders: Deep Clustering Through Dictionary LearningAlexander Lin, Andrew H. Song, Demba E. Ba. 3368-3372 [doi]

Exploring the Effect of ℓ0/ℓ2 Regularization in Neural Network Pruning using the LC ToolkitYerlan Idelbayev, Miguel Á. Carreira-Perpiñán. 3373-3377 [doi]

Dictionary Learning with Uniform Sparse Representations for Anomaly DetectionPaul Irofti, Cristian Rusu, Andrei Patrascu. 3378-3382 [doi]

Data-Driven Spatially Dependent PDE IdentificationRuixian Liu, Michael J. Bianco, Peter Gerstoft, Bhaskar D. Rao. 3383-3387 [doi]

Sparsity Improves Unsupervised Attribute Discovery in StyleganShusen Liu, Rushil Anirudh, Jayaraman J. Thiagarajan, Peer-Timo Bremer. 3388-3392 [doi]

Image-to-Graph Transformers for Chemical Structure RecognitionSanghyun Yoo, Ohyun Kwon, Hoshik Lee. 3393-3397 [doi]

A Simple Hybrid Filter Pruning for Efficient Edge InferenceS. H. Shabbeer Basha, Sheethal N. Gowda, Dakala Jayachandra. 3398-3402 [doi]

An Enhanced Deep Learning Approach for Tectonic Fault and Fracture Extraction in Very High Resolution Optical ImagesBilel Kanoun, Mohamed Abderrazak Cherif, Isabelle Manighetti, Yuliya Tarabalka, Josiane Zerubia. 3403-3407 [doi]

Joint Learning of Feature Extraction and Cost Aggregation for Semantic CorrespondenceJiwon Kim, Youngjo Min, Mira Kim, Seungryong Kim. 3408-3412 [doi]

Generalized Zero-Shot Learning Using Conditional Wasserstein AutoencoderJunhan Kim, Byonghyo Shim. 3413-3417 [doi]

MBA-RainGAN: A Multi-Branch Attention Generative Adversarial Network for Mixture of Rain RemovalYiyang Shen, Yidan Feng, Weiming Wang, Dong Liang, Jing Qin 0001, Haoran Xie 0001, Mingqiang Wei. 3418-3422 [doi]

End-to-End Keyword Spotting Using Neural Architecture Search and QuantizationDavid Peter, Wolfgang Roth, Franz Pernkopf. 3423-3427 [doi]

Synpose: A Large-Scale and Densely Annotated Synthetic Dataset for Human Pose Estimation in ClassroomZefang Yu, Yangcheng Li, Yicheng Liu, Ting Liu, Yuzhuo Fu. 3428-3432 [doi]

Stpointgcn: Spatial Temporal Graph Convolutional Network for Multiple People Recognition Using Millimeter-Wave RadarChunyu Wang, Peixian Gong, Lihua Zhang. 3433-3437 [doi]

Multiple Temporal Context Embedding Networks for Unsupervised time Series Anomaly DetectionHanhui Li, Xinggan Peng, Huiping Zhuang, Zhiping Lin. 3438-3442 [doi]

Intermix: An Interference-Based Data Augmentation and Regularization Technique for Automatic Deep Sound ClassificationRamit Sawhney, Atula Tejaswi Neerkaje. 3443-3447 [doi]

Cross-Layer Aggregation with Transformers for Multi-Label Image ClassificationWeibo Zhang, Fuqing Zhu, Jizhong Han, Tao Guo, Songlin Hu. 3448-3452 [doi]

Visual Representation Learning with Self-Supervised Attention for Low-Label High-Data RegimePrarthana Bhattacharyya, Chenge Li, Xiaonan Zhao, István Fehérvári, Jason Sun. 3453-3457 [doi]

TriBYOL: Triplet BYOL for Self-Supervised Representation LearningGuang Li 0008, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama. 3458-3462 [doi]

SAGA: Self-Augmentation with Guided Attention for Representation LearningChun-Hsiao Yeh, Cheng-Yao Hong, Yen-Chi Hsu, Tyng-Luh Liu. 3463-3467 [doi]

An Anomaly Detection Method Based on Self-Supervised Learning with Soft Label Assignment for Defect Visual InspectionChuanfei Hu, Yongxiong Wang. 3468-3472 [doi]

Contrastive Predictive Coding for Anomaly Detection of Fetal Health from the CardiotocogramBert de Vries, Iris A. M. Huijben, René D. Kok, Ruud J. G. van Sloun, Rik Vullings. 3473-3477 [doi]

Graph Fine-Grained Contrastive Representation LearningHui Tang, Xun Liang 0001, Yuhui Guo, Xiangping Zheng, Bo Wu. 3478-3482 [doi]

Position-Invariant Adversarial Attacks on Neural Modulation RecognitionZhen Yu, Yifeng Xiong, Kun He 0001, Shao Huang, Yaodong Zhao, Jie Gu. 3483-3487 [doi]

Using a Single Input to Forecast Human Action Keystates in Everyday Pick and Place ActionsHaziq Razali, Yiannis Demiris. 3488-3492 [doi]

Adversarial Robustness by Design Through Analog Computing And Synthetic GradientsAlessandro Cappelli, Ruben Ohana, Julien Launay, Laurent Meunier, Iacopo Poli, Florent Krzakala. 3493-3497 [doi]

Differentiable Programming A La MoreauVincent Roulet, Zaïd Harchaoui. 3498-3502 [doi]

Data Agnostic Filter Gating For Efficient Deep NetworksHongyan Xu, Xiu Su, Shan You, Tao Huang 0020, Fei Wang 0032, Chen Qian 0006, Changshui Zhang, Chang Xu, Dadong Wang, Arcot Sowmya. 3503-3507 [doi]

Nearest Subspace Search in The Signed Cumulative Distribution Transform Space For 1d Signal ClassificationAbu Hasnat Mohammad Rubaiyat, Mohammad Shifat-E.-Rabbi, Yan Zhuang, Shiying Li, Gustavo K. Rohde. 3508-3512 [doi]

Energy Alignment for Bias Rectification in Class Incremental LearningBowen Zhao, Chen Chen 0015, Xi Xiao, Qi Ju, Shutao Xia. 3513-3517 [doi]

A Two-Stage Contrastive Learning Framework For Imbalanced Aerial Scene RecognitionLexing Huang, Senlin Cai, Yihong Zhuang, Changxing Jing, Yue Huang 0001, Xiaotong Tu, Xinghao Ding. 3518-3522 [doi]

A Maximal Correlation Approach to Imposing Fairness in Machine LearningJoshua K. Lee, Yuheng Bu, Prasanna Sattigeri, Rameswar Panda, Gregory W. Wornell, Leonid Karlinsky, Rogério Feris. 3523-3527 [doi]

Boundary-Aware Bias Loss for Transformer-Based Aerial Image Segmentation ModelYan Zhang, Xue Jiang, Siqi Liu, Bo Hu, Xinbo Gao 0001. 3528-3532 [doi]

Investigating Robustness of Biological vs. Backprop Based LearningYanpeng Zhou, Maosen Wang, Manas Gupta, ArulMurugan Ambikapathi, Ponnuthurai Nagaratnam Suganthan, Savitha Ramasamy. 3533-3537 [doi]

Semi-Supervised Gaussian Mixture Variational Autoencoder for Pulse Shape DiscriminationAbdullah Abdulaziz, Jianxin Zhou, Angela Di Fulvio, Yoann Altmann, Stephen McLaughlin 0001. 3538-3542 [doi]

How Neural Processes Improve Graph Link PredictionHuidong Liang, Junbin Gao. 3543-3547 [doi]

Uncertainty Estimation with a VAE-Classifier Hybrid ModelShuyu Lin, Ronald Clark, Niki Trigoni, Stephen J. Roberts. 3548-3552 [doi]

Context-Aware Graph-Based Self-Supervised Learning of Whole Slide ImagesMilan Aryal, Nasim Yahya Soltani. 3553-3557 [doi]

Contrastive Sensor Transformer for Predictive Maintenance of Industrial AssetsZaharah Allah Bukhsh. 3558-3562 [doi]

Improving Anomaly Detection with a Self-Supervised Task Based on Generative Adversarial NetworkHeyan Chai, Weijun Su, Siyu Tang, Ye Ding, Binxing Fang, Qing Liao 0001. 3563-3567 [doi]

Stgat-Mad : Spatial-Temporal Graph Attention Network For Multivariate Time Series Anomaly DetectionJun Zhan, Siqi Wang, Xiandong Ma, Chengkun Wu, Canqun Yang, Detian Zeng, Shilin Wang. 3568-3572 [doi]

Dual Graph Cross-Domain Few-Shot Learning for Hyperspectral Image ClassificationYuxiang Zhang, Wei Li 0032, Mengmeng Zhang, Ran Tao 0003. 3573-3577 [doi]

Personalized Pagerank Graph Attention NetworksJulie Choi. 3578-3582 [doi]

Multi-Relation Message Passing for Multi-Label Text ClassificationMuberra Ozmen, Hao Zhang, Pengyun Wang, Mark Coates. 3583-3587 [doi]

Adaptive Attention Graph Capsule NetworkXiangping Zheng, Xun Liang 0001, Bo Wu, Yuhui Guo, Hui Tang. 3588-3592 [doi]

Graph Convolutional Networks With Autoencoder-Based Compression And Multi-Layer Graph LearningLorenzo Giusti, Claudio Battiloro, Paolo Di Lorenzo, Sergio Barbarossa. 3593-3597 [doi]

Deep Augmented Music Algorithm for Data-Driven Doa EstimationJulian P. Merkofer, Guy Revach, Nir Shlezinger, Ruud J. G. van Sloun. 3598-3602 [doi]

Convmixer: Feature Interactive Convolution with Curriculum Learning for Small Footprint and Noisy Far-Field Keyword SpottingDianwen Ng, Yunqi Chen, Biao Tian, Qiang Fu 0001, Eng Siong Chng. 3603-3607 [doi]

Semi-Supervised Source Localization With Residual Physical LearningMichael J. Bianco, Peter Gerstoft. 3608-3612 [doi]

Automated Prosody Classification for Oral Reading Fluency with Quadratic Kappa Loss and Attentive X-VectorsGeorge Sammit, Zhongjie Wu, Yihao Wang, Zhongdi Wu, Akihito Kamata, Joseph Nese, Eric C. Larson. 3613-3617 [doi]

Seed: Sound Event Early Detection Via Evidential UncertaintyXujiang Zhao, Xuchao Zhang, Wei Cheng 0002, Wenchao Yu, Yuncong Chen, Haifeng Chen, Feng Chen 0001. 3618-3622 [doi]

Rank-Based Loss For Learning Hierarchical RepresentationsInês Nolasco, Dan Stowell. 3623-3627 [doi]

On The Relaxation of Orthogonal Tensor Rank and Its Nonconvex Riemannian Optimization for Tensor CompletionKeisuke Ozawa. 3628-3632 [doi]

Robust High-Order Tensor Recovery Via Nonconvex Low-Rank ApproximationWenjin Qin, Hailin Wang, Weijun Ma, Jianjun Wang. 3633-3637 [doi]

Variational Bayesian Tensor Networks with Structured PosteriorsKriton Konstantinidis, Yao Lei Xu, Qibin Zhao, Danilo P. Mandic. 3638-3642 [doi]

Low-Rank Phase Retrieval with Structured Tensor ModelsSoo Min Kwon, Xin Li, Anand D. Sarwate. 3643-3647 [doi]

HOQRI: Higher-Order QR Iteration for Scalable Tucker DecompositionYuChen Sun, Kejun Huang. 3648-3652 [doi]

A Multi-Resolution Low-Rank Tensor DecompositionSergio Rozada, Antonio G. Marques. 3653-3657 [doi]

Exploring Heterogeneous Characteristics of Layers in ASR Models for More Efficient TrainingLillian Zhou, Dhruv Guliani, Andreas Kabel, Giovanni Motta, Françoise Beaufays. 3658-3662 [doi]

Probabilistic Fine-Grained Urban Flow Inference with Normalizing FlowsTing Zhong, Haoyang Yu, Rongfan Li, Xovee Xu, Xucheng Luo, Fan Zhou 0002. 3663-3667 [doi]

Attention-Based Dual-Stream Vision Transformer for Radar Gait RecognitionShiliang Chen, Wentao He, Jianfeng Ren, Xudong Jiang. 3668-3672 [doi]

Deep-MLE: Fusion between a Neural Network and MLE for A Single Snapshot DOA EstimationMarcio L. Lima de Oliveira, Marco Jan Gerrit Bekooij. 3673-3677 [doi]

Selective Mutual Learning: An Efficient Approach for Single Channel Speech SeparationHa Minh Tan, Duc Quang Vu, Chung-Ting Lee, Yung-hui Li, Jia-Ching Wang. 3678-3682 [doi]

Detection of Covid-19 from Joint Time and Frequency Analysis of Speech, Breathing and Cough AudioJohn B. Harvill, Yash R. Wani, Moitreya Chatterjee, Mustafa Alam, David G. Beiser, David Chestek, Mark Hasegawa-Johnson, Narendra Ahuja. 3683-3687 [doi]

Self-Critical Sequence Training for Automatic Speech RecognitionChen Chen, Yuchen Hu, Nana Hou, Xiaofeng Qi, Heqing Zou, Eng Siong Chng. 3688-3692 [doi]

FastAudio: A Learnable Audio Front-End For Spoof Speech DetectionQuchen Fu, Zhongwei Teng, Jules White, Maria E. Powell, Douglas C. Schmidt. 3693-3697 [doi]

Complex IRM-Aware Training for Voice Activity Detection Using Attention ModelYifei Zhao, Yazid Attabi, Benoît Champagne, Wei-Ping Zhu 0001. 3698-3702 [doi]

Learning Continuous Representation of Audio for Arbitrary Scale Super ResolutionJaechang Kim, Yunjoo Lee, Seunghoon Hong, Jungseul Ok. 3703-3707 [doi]

An Investigation of the Effectiveness of Phase for Audio ClassificationShunsuke Hidaka, Kohei Wakamiya, Tokihiko Kaburagi. 3708-3712 [doi]

Study of Positional Encoding Approaches for Audio Spectrogram TransformersLeonardo Pepino, Pablo Riera, Luciana Ferrer. 3713-3717 [doi]

Few-Shot Object Detection with Local Correspondence RPN and Attentive HeadJian Han, Yali Li, Shengjin Wang. 3718-3722 [doi]

Natural-Looking Adversarial Examples from Freehand SketchesHak Gu Kim, Davide Nanni, Sabine Süsstrunk. 3723-3727 [doi]

Video Anomaly Detection via Prediction Network with Enhanced Spatio-Temporal Memory ExchangeGuodong Shen, Yuqi Ouyang, Victor Sanchez. 3728-3732 [doi]

Signal Compression via Neural Implicit RepresentationsFrancesca Pistilli, Diego Valsesia, Giulia Fracastoro, Enrico Magli. 3733-3737 [doi]

Hybrid Weighting Loss for Precipitation Nowcasting from Radar ImagesYuan Cao, Lei Chen, Danchen Zhang, Leiming Ma, Hongming Shan. 3738-3742 [doi]

Adversarial Learning Enhancement for 3D Human Pose and Shape EstimationYidian Sun, Jiwei Zhang, Wendong Wang. 3743-3747 [doi]

Domain Generalized Few-Shot Image Classification via Meta Regularization NetworkMin Zhang, Siteng Huang, Donglin Wang. 3748-3752 [doi]

Generation for Unsupervised Domain Adaptation: A Gan-Based Approach for Object Classification with 3D Point Cloud DataJunxuan Huang, Junsong Yuan, Chunming Qiao. 3753-3757 [doi]

Exploring Transferability Measures and Domain Selection in Cross-Domain Slot FillingXin-Chun Li, Yan-Jia Wang, Le Gan, De-Chuan Zhan. 3758-3762 [doi]

Maximum Batch Frobenius Norm for Multi-Domain Text ClassificationYuan Wu 0002, Diana Inkpen, Ahmed El-Roby. 3763-3767 [doi]

Joint Global-Local Alignment for Domain Adaptive Semantic SegmentationSudhir Yarram, Ming Yang 0007, Junsong Yuan, Chunming Qiao. 3768-3772 [doi]

Category-Adaptive Domain Adaptation for Semantic SegmentationZhiming Wang, Yantian Luo, Danlan Huang, Ning Ge 0001, Jianhua Lu. 3773-3777 [doi]

Simpler is Better: Spectral Regularization and Up-Sampling Techniques for Variational AutoencodersSara Björk, Jonas Nordhaug Myhre, Thomas Haugland Johansen. 3778-3782 [doi]

Augmenting Molecular Deep Generative Models with Topological Data Analysis RepresentationsYair Schiff, Vijil Chenthamarakshan, Samuel C. Hoffman, Karthikeyan Natesan Ramamurthy, Payel Das. 3783-3787 [doi]

Stylegan-Induced Data-Driven Regularization for Inverse ProblemsArthur Conmy, Subhadip Mukherjee, Carola-Bibiane Schönlieb. 3788-3792 [doi]

A Closer Look at Autoencoders for Unsupervised Anomaly DetectionOyebade K. Oyedotun, Djamila Aouada. 3793-3797 [doi]

NFT-K: Non-Fungible Tangent KernelsSina Alemohammad, Hossein Babaei, C. J. Barberan, Naiming Liu, Lorenzo Luzi, Blake Mason, Richard G. Baraniuk. 3798-3802 [doi]

FDSNeT: An Accurate Real-Time Surface Defect Segmentation NetworkJian Zhang, Runwei Ding, Miaoju Ban, Tianyu Guo 0001. 3803-3807 [doi]

Path Signatures for Non-Intrusive Load MonitoringPaul Moore, Theodor-Mihai Iliant, Filip-Alexandru Ion, Yue Wu, Terry Lyons. 3808-3812 [doi]

Data-Driven Approach for the Floquet Propagator Inverse Problem SolutionAlexander Hvatov. 3813-3817 [doi]

Chunkfusion: A Learning-Based RGB-D 3D Reconstruction Framework Via Chunk-Wise IntegrationChaozheng Guo, Lin Zhang 0014, Ying Shen, Yicong Zhou. 3818-3822 [doi]

Closing the Sim-to-Real Gap in Guided Wave Damage Detection with Adversarial Training of Variational Auto-EncodersIshan D. Khurjekar, Joel B. Harley. 3823-3827 [doi]

Deep Learning on the Sphere for Multi-model Ensembling of Significant Wave HeightAndrea Littardi, Anders Hildeman, Mihalis A. Nicolaou. 3828-3832 [doi]

Local and Global Alignments for Generalizable Sensor-Based Human Activity RecognitionWang Lu, Jindong Wang, Yiqiang Chen. 3833-3837 [doi]

Study on Time-of-Flight Estimation in Ultrasonic Well Logging Tool: Model-Driven Transfer LearningWei Zhang, Zhipeng Li, Yiduo Guo, Ao Qiu, Yanjun Li, Yibing Shi. 3838-3842 [doi]

Simulation-and-Mining: Towards Accurate Source-Free Unsupervised Domain Adaptive Object DetectionPeng Yuan, Weijie Chen, Shicai Yang, Yunyi Xuan, Di Xie, Yueting Zhuang, Shiliang Pu. 3843-3847 [doi]

Target-Aware Auto-Augmentation for Unsupervised Domain Adaptive Object DetectionZhaoyang Li, Long Zhao, Weijie Chen, Shicai Yang, Di Xie, Shiliang Pu. 3848-3852 [doi]

Self-Ensemble Variance Regularization for Domain AdaptationXinyi Liu, Tao Dai, Shu-Tao Xia, Yong Jiang 0001. 3853-3857 [doi]

Transductive Clip with Class-Conditional Contrastive LearningJunchu Huang, Weijie Chen, Shicai Yang, Di Xie, Shiliang Pu, Yueting Zhuang. 3858-3862 [doi]

Controlling The Fréchet Variance Improves Batch Normalization on the Symmetric Positive Definite ManifoldReinmar J. Kobler, Jun-ichiro Hirayama, Motoaki Kawanabe. 3863-3867 [doi]

Subspace Clustering Using Unsupervised Data AugmentationMaryam Abdolali, Nicolas Gillis. 3868-3872 [doi]

Private Learning Via Knowledge Transfer with High-Dimensional TargetsDominik Fay, Jens Sjölund, Tobias J. Oechtering. 3873-3877 [doi]

Deep Deterministic Independent Component Analysis for Hyperspectral UnmixingHongming Li, Shujian Yu, José C. Príncipe. 3878-3882 [doi]

Label-Aware Ranked Loss for Robust People Counting Using Automotive In-Cabin RadarLorenzo Servadei, Huawei Sun, Julius Ott, Michael Stephan, Souvik Hazra, Thomas Stadelmayer, Daniela Sanchez Lopera, Robert Wille, Avik Santra. 3883-3887 [doi]

DeepHull: Fast Convex Hull Approximation in High DimensionsRandall Balestriero, Zichao Wang 0001, Richard G. Baraniuk. 3888-3892 [doi]

Neighbor-Augmented Transformer-Based Embedding for RetrievalJihai Zhang, Fangquan Lin, Wei Jiang, Cheng Yang, Gaoge Liu. 3893-3897 [doi]

Sentiment-Aware Distillation for Bitcoin Trend Forecasting Under Partial ObservabilityGeorgios Panagiotatos, Nikolaos Passalis, Avraam Tsantekidis, Anastasios Tefas. 3898-3902 [doi]

Robust Nonparametric Distribution Forecast with Backtest-Based Bootstrap and Adaptive Residual SelectionLongshaokan Wang, Lingda Wang, Mina Georgieva, Paulo Machado, Abinaya Ulagappa, Safwan Ahmed, Yan Lu, Arjun Bakshi, Farhad Ghassemi. 3903-3907 [doi]

Variational Bayesian Graph Convolutional Network for Robust Collaborative FilteringNozomu Onodera, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama. 3908-3912 [doi]

FINT: Field-Aware Interaction Neural Network for Click-Through Rate PredictionZhishan Zhao, Sen Yang 0003, Guohui Liu, Dawei Feng, Kele Xu. 3913-3917 [doi]

Making The Unknown More Certain: A Stacked Ensemble Classifier for Open Gesture Recognition with a Social RobotHeike Brock, Randy Gomez. 3918-3922 [doi]

Applying Differential Privacy to Tensor CompletionZheng Wei, Zhengpin Li, Xiaojun Mao, Jian Wang. 3923-3927 [doi]

Low-Complexity Attention Modelling via Graph Tensor NetworksYao Lei Xu, Kriton Konstantinidis, Shengxi Li, LJubisa Stankovic, Danilo P. Mandic. 3928-3932 [doi]

An Accelerated Rank-(L, L, 1, 1) Block Term Decomposition Of Multi-Subject Fmri Data Under Spatial Orthonormality ConstraintLi-Dan Kuang, Biao Wang, Qiu-Hua Lin, Hao-Peng Zhang, Jianming Zhang, Wenjun Li, Feng Li, Vince D. Calhoun. 3933-3937 [doi]

Improving Dynamic Graph Convolutional Network with Fine-Grained Attention MechanismBo Wu, Xun Liang 0001, Xiangping Zheng, Yuhui Guo, Hui Tang. 3938-3942 [doi]

AdaPID: An Adaptive PID Optimizer for Training Deep Neural NetworksBoxi Weng, Jian Sun 0003, Alireza Sadeghi, Gang Wang. 3943-3947 [doi]

Memory in Echo State Networks and the Controllability Matrix RankBrian Whiteaker, Peter Gerstoft. 3948-3952 [doi]

OT Cleaner: Label Correction as Optimal TransportJun Xia, Cheng Tan 0012, Lirong Wu, Yongjie Xu, Stan Z. Li. 3953-3957 [doi]

Demon: Improved Neural Network Training With Momentum DecayJohn Chen, Cameron R. Wolfe, Zhao Li, Anastasios Kyrillidis. 3958-3962 [doi]

Depth Pruning with Auxiliary Networks for TinymlJosen Daniel De Leon, Rowel Atienza. 3963-3967 [doi]

Glassoformer: A Query-Sparse Transformer for Post-Fault Power Grid Voltage PredictionYunling Zheng, Carson Hu, Guang Lin, Meng Yue, Bao Wang, Jack Xin. 3968-3972 [doi]

Sar-Shipnet: Sar-Ship Detection Neural Network via Bidirectional Coordinate Attention and Multi-Resolution Feature FusionYuwen Deng, Donghai Guan, Yanyu Chen, Weiwei Yuan, Jiemin Ji, Mingqiang Wei. 3973-3977 [doi]

Spatio-Temporal PRRS Epidemic Forecasting via Factorized Deep Generative ModelingMohammadsadegh Shamsabardeh, Bahar Azari, Beatriz Martínez-López. 3978-3982 [doi]

Fusion-Id: A Photoplethysmography and Motion Sensor Fusion Biometric Authenticator With Few-Shot on-BoardingHarshat Kumar, Hojjat Seyed Mousavi, Behrooz Shahsavari. 3983-3987 [doi]

Dynimp: Dynamic Imputation for Wearable Sensing Data through Sensory and Temporal RelatednessZepeng Huo, Taowei Ji, Yifei Liang, Shuai Huang, Zhangyang Wang, Xiaoning Qian, Bobak Mortazavi. 3988-3992 [doi]

Incremental Context Aware Attentive Knowledge TracingCheryl Sze Yin Wong, Guo Yang, Nancy F. Chen, Savitha Ramasamy. 3993-3997 [doi]

Robust and Efficient Uncertainty Aware Biosignal Classification via Early Exit EnsemblesAlexander Campbell, Lorena Qendro, Pietro Liò, Cecilia Mascolo. 3998-4002 [doi]

Temporal Cross-Graph Network for Brain Functional Activity PredictionXinyu Yuan, Wenhan Wang, Youyong Kong, Jiasong Wu, Guanyu Yang, Huazhong Shu. 4003-4007 [doi]

POPO: Pessimistic Offline Policy OptimizationQiang He, Xinwen Hou, Yu Liu. 4008-4012 [doi]

Byzantine-Robust Federated Deep Deterministic Policy GradientQifeng Lin, Qing Ling. 4013-4017 [doi]

Improving Actor-Critic Reinforcement Learning Via Hamiltonian Monte Carlo MethodDuo Xu, Faramarz Fekri. 4018-4022 [doi]

Efficient and Stable Information Directed Exploration for Continuous Reinforcement LearningMingzhe Chen, Xi Xiao, Wanpeng Zhang, Xiaotian Gao. 4023-4027 [doi]

Hypergraph-Based Reinforcement Learning for Stock Portfolio SelectionXiaojie Li, Chaoran Cui, Donglin Cao, Juan Du, Chunyun Zhang. 4028-4032 [doi]

Memory-Based Message Passing: Decoupling the Message for Propagation from DiscriminationJie Chen, Weiqi Liu, Jian Pu. 4033-4037 [doi]

PEAR: Photographic Embedding for Aesthetic RatingHao Wu, Jiangchao Yao. 4038-4042 [doi]

A Variational Bayesian Approach to Learning Latent Variables for Acoustic Knowledge TransferHu Hu, Sabato Marco Siniscalchi, Chao-Han Huck Yang, Chin-Hui Lee. 4041-4045 [doi]

Gradient-Weighted Class Activation Mapping for Spatio Temporal Graph Convolutional NetworkPratyusha Das, Antonio Ortega. 4043-4047 [doi]

Deep Learning Based Off-Angle Iris RecognitionEhsaneddin Jalilian, Georg Wimmer, Andreas Uhl, Mahmut Karakaya. 4048-4052 [doi]

Towards Robust Visual Transformer Networks via K-Sparse AttentionSajjad Amini, Shahrokh Ghaemmaghami. 4053-4057 [doi]

A Global to Local Guiding Network for Missing Data ImputationWei Wang, Yimeng Chai, Yue Li. 4058-4062 [doi]

LocUNet: Fast Urban Positioning Using Radio Maps and Deep LearningÇagkan Yapar, Ron Levie, Gitta Kutyniok, Giuseppe Caire. 4063-4067 [doi]

LiteHAR: Lightweight Human Activity Recognition from WIFI Signals with Random Convolution KernelsHojjat Salehinejad, Shahrokh Valaee. 4068-4072 [doi]

CDX-NET: Cross-Domain Multi-Feature Fusion Modeling Via Deep Neural Networks for Multivariate Time Series Forecasting in AIOpsJiajia Li, Ling Dai, Feng Tan, Hui Shen, Zikai Wang, Bin Sheng, Pengwei Hu. 4073-4077 [doi]

A Clustering-based ML Scheme for Capacity Approaching Soft Level Sensing in 3D TLC NANDLi-Wei Liu, Yen-Ching Liao, Hsie-Chia Chang. 4078-4082 [doi]

Dynamic Resource Optimization for Adaptive Federated Learning Empowered by Reconfigurable Intelligent SurfacesClaudio Battiloro, Mattia Merluzzi, Paolo Di Lorenzo, Sergio Barbarossa. 4083-4087 [doi]

Learning-Based Resource Allocation with Dynamic Data Rate ConstraintsPourya Behmandpoor, Panagiotis Patrinos, Marc Moonen. 4088-4092 [doi]

⋆Qihan Du, Li Yu 0002, Huiyuan Li, Youfang Leng, Ningrui Ou. 4093-4097 [doi]

Competitive Multi-Agent Reinforcement Learning with Self-Supervised RepresentationDijia Su, Jason D. Lee, John M. Mulvey, H. Vincent Poor. 4098-4102 [doi]

Model-Based Online Learning for Resource Sharing in Joint Radar-Communication SystemsPetteri Pulkkinen, Visa Koivunen. 4103-4107 [doi]

Qrelation: an Agent Relation-Based Approach for Multi-Agent Reinforcement Learning Value Function FactorizationSiqi Shen, Jun Liu, Mengwei Qiu, Weiquan Liu, Cheng Wang, Yongquan Fu, Qinglin Wang, Peng Qiao. 4108-4112 [doi]

Denoising-Guided Deep Reinforcement Learning For Social RecommendationQihan Du, Li Yu 0002, Huiyuan Li, Youfang Leng, Ningrui Ou, Junyao Xiang. 4113-4117 [doi]

An Efficient DP-SGD Mechanism for Large Scale NLU ModelsChristophe Dupuy, Radhika Arava, Rahul Gupta, Anna Rumshisky. 4118-4122 [doi]

MAKD: MULTIPLE Auxiliary Knowledge DistillationZehan Chen, Xuan Jin, Yuan He, Hui Xue 0001. 4123-4127 [doi]

Feature Imitating NetworksSari Saba-Sadiya, Tuka Waddah AlHanai, Mohammad M. Ghassemi. 4128-4132 [doi]

Over-Parameterized Network Solves Phase Retrieval EffectivelyJi Li, Chao Wang. 4133-4137 [doi]

Deep Spatio-Temporal Wind Power ForecastingJiangyuan Li, Mohammadreza Armandpour. 4138-4142 [doi]

Multiple Kernel K-Means Clustering with Simultaneous Spectral RotationJitao Lu, Yihang Lu, Rong Wang 0001, Feiping Nie 0001, Xuelong Li 0001. 4143-4147 [doi]

Multitask Gaussian Process With Hierarchical Latent InteractionsKai Chen, Twan van Laarhoven, Elena Marchiori, Feng Yin, Shuguang Cui. 4148-4152 [doi]

Discrete Multi-Kernel K-Means with Diverse and Optimal Kernel LearningYihang Lu, Jitao Lu, Rong Wang 0001, Feiping Nie 0001. 4153-4157 [doi]

Access Control for Privacy-Preserving Gaussian Process RegressionTakayuki Nakachi, Yitu Wang. 4158-4162 [doi]

Scalable Ridge Leverage Score Sampling for the Nyström MethodFarah Cherfaoui, Hachem Kadri, Liva Ralaivola. 4163-4167 [doi]

On Submodular Set Cover Problems for Near-Optimal Online Kernel Basis SelectionHrusikesha Pradhan, Alec Koppel, Ketan Rajawat. 4168-4172 [doi]

Improving Feature Generalizability with Multitask Learning in Class Incremental LearningDong Ma 0001, Chi Ian Tang, Cecilia Mascolo. 4173-4177 [doi]

Adversarial Mask Transformer for Sequential LearningHou Lio, Shang-En Li, Jen-Tzung Chien. 4178-4182 [doi]

Online Learning with Probabilistic FeedbackPouya M. Ghari, Yanning Shen. 4183-4187 [doi]

Data Incubation - Synthesizing Missing Data for Handwriting RecognitionJen-Hao Rick Chang, Martin Bresler, Youssouf Chherawala, Adrien Delaye, Thomas Deselaers, Ryan S. Dixon, Oncel Tuzel. 4188-4192 [doi]

Tracking the Dimensions of Latent Spaces of Gaussian Process Latent Variable ModelsYuhao Liu, Petar M. Djuric. 4193-4197 [doi]

Controlled Sensing and Anomaly Detection Via Soft Actor-Critic Reinforcement LearningChen Zhong, Mustafa Cenk Gursoy, Senem Velipasalar. 4198-4202 [doi]

Win The Lottery Ticket Via Fourier Analysis: Frequencies Guided Network PruningYuzhang Shang, Bin Duan, Ziliang Zong, Liqiang Nie, Yan Yan 0002. 4203-4207 [doi]

SparseBFA: Attacking Sparse Deep Neural Networks with the Worst-Case Bit Flips on CoordinatesKyungmi Lee, Anantha P. Chandrakasan. 4208-4212 [doi]

Learning Monocular 3D Human Pose Estimation With Skeletal InterpolationZiyi Chen, Akihiro Sugimoto, Shang-Hong Lai. 4218-4222 [doi]

Training Stable Graph Neural Networks Through Constrained LearningJuan Cerviño, Luana Ruiz, Alejandro Ribeiro. 4223-4227 [doi]

Mismatched Supervised LearningXun Xian, Mingyi Hong, Jie Ding 0002. 4228-4232 [doi]

Supervised Training of Siamese Spiking Neural Networks with Earth Mover's DistanceMateusz Pabian, Dominik Rzepka, Miroslaw Pawlak. 4233-4237 [doi]

On The Effectiveness of Active Learning by Uncertainty Sampling in Classification of High-Dimensional Gaussian Mixture DataXiaoyi Mai, Salman Avestimehr, Antonio Ortega, Mahdi Soltanolkotabi. 4238-4242 [doi]

Neural Collapse in Deep Homogeneous Classifiers and The Role of Weight DecayAkshay Rangamani, Andrzej Banburski-Fahey. 4243-4247 [doi]

Synthesis of Adversarial Samples in Two-Stage ClassifiersIsmail R. Alkhouri, Alvaro Velasquez, George K. Atia. 4248-4252 [doi]

Synergistic Network Learning and Label Correction for Noise-Robust Image ClassificationChen Gong, Kong Bin, Eric J. Seibel, Xin Wang 0045, Youbing Yin, Qi Song. 4253-4257 [doi]

Social Welfare Maximization in Cross-Silo Federated LearningJianan Chen 0009, Qin Hu 0001, Honglu Jiang. 4258-4262 [doi]

Privacy-Preserving Distributed Expectation Maximization for Gaussian Mixture Model Using Subspace PerturbationQiongxiu Li, Jaron Skovsted Gundersen, Katrine Tjell, Rafal Wisniewski, Mads Græsbøll Christensen. 4263-4267 [doi]

A Communication Efficient Quasi-Newton Method for Large-Scale Distributed Multi-Agent OptimizationYichuan Li, Petros G. Voulgaris, Nikolaos M. Freris. 4268-4272 [doi]

A Byzantine-Resilient Dual Subgradient Method for Vertical Federated LearningKun Yuan, Zhaoxian Wu, Qing Ling. 4273-4277 [doi]

Byzantine-Robust Aggregation with Gradient Difference Compression and Stochastic Variance Reduction for Federated LearningHeng Zhu, Qing Ling. 4278-4282 [doi]

Variance Reduction-Boosted Byzantine Robustness in Decentralized Stochastic OptimizationJie Peng, Weiyu Li, Qing Ling. 4283-4287 [doi]

Integer-Only Zero-Shot Quantization for Efficient Speech RecognitionSehoon Kim, Amir Gholami, Zhewei Yao, Nicholas Lee, Patrick Wang, Aniruddha Nrusimha, Bohan Zhai, Tianren Gao, Michael W. Mahoney, Kurt Keutzer. 4288-4292 [doi]

nnSpeech: Speaker-Guided Conditional Variational Autoencoder for Zero-Shot Multi-speaker text-to-speechBotao Zhao, Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao 0006. 4293-4297 [doi]

Noise-Robust Speech Recognition With 10 Minutes Unparalleled In-Domain DataChen Chen, Nana Hou, Yuchen Hu, Shashank Shirol, Eng Siong Chng. 4298-4302 [doi]

Enhancing Class Understanding Via Prompt-Tuning For Zero-Shot Text ClassificationYuhao Dan, Jie Zhou, Qin Chen, Qingchun Bai, Liang He 0001. 4303-4307 [doi]

Filteraugment: An Acoustic Environmental Data Augmentation MethodHyeonuk Nam, Seong-Hu Kim, Yong-Hwa Park. 4308-4312 [doi]

The Representation Jensen-Rényi DivergenceJhoan Keider Hoyos Osorio, Oscar Skean, Austin J. Brockmeier, Luis Gonzalo Sánchez Giraldo. 4313-4317 [doi]

Multi-View Information Bottleneck Without Variational ApproximationQi Zhang, Shujian Yu, Jingmin Xin, Badong Chen. 4318-4322 [doi]

Time-Frequency and Geometric Analysis of Task-Dependent Learning in Raw Waveform Based Acoustic ModelsDevansh Gupta, Vinayak Abrol. 4323-4327 [doi]

Channel Redundancy and Overlap in Convolutional Neural Networks with Channel-Wise NNK GraphsDavid Bonet, Antonio Ortega, Javier Ruiz Hidalgo, Sarath Shekkizhar. 4328-4332 [doi]

FedClean: A Defense Mechanism against Parameter Poisoning Attacks in Federated LearningAbhishek Kumar, Vivek Khimani, Dimitris Chatzopoulos, Pan Hui 0001. 4333-4337 [doi]

A Method to Reveal Speaker Identity in Distributed ASR Training, and How to Counter ITTrung Dang, Om Thakkar 0001, Swaroop Ramaswamy, Rajiv Mathews, Peter Chin, Françoise Beaufays. 4338-4342 [doi]

On The Convergence of ADAM-Type Algorithms for Solving Structured Single Node and Decentralized Min-Max Saddle Point GamesBabak Barazandeh, Kristal Curtis, Chandrima Sarkar, Ram Sriharsha, George Michailidis. 4343-4347 [doi]

Partial Variable Training for Efficient on-Device Federated LearningTien-Ju Yang, Dhruv Guliani, Françoise Beaufays, Giovanni Motta. 4348-4352 [doi]

Gradient Staleness in Asynchronous Optimization Under Random Communication DelaysHaider Al-Lawati, Stark C. Draper. 4353-4357 [doi]

Tempo: Improving Training Performance in Cross-Silo Federated LearningChen Ying, Baochun Li, Bo Li. 4358-4362 [doi]

DMANET: Deep Learning-Based Differential Microphone Arrays for Multi-Channel Speech SeparationXiaokang Yang, Jianguo Wei. 4363-4367 [doi]

Amicable Examples for Informed Source SeparationNaoya Takahashi, Yuki Mitsufuji. 4368-4372 [doi]

Remix-Cycle-Consistent Learning on Adversarially Learned Separator for Accurate and Stable Unsupervised Speech SeparationKohei Saijo, Tetsuji Ogawa. 4373-4377 [doi]

An Information Maximization Based Blind Source Separation Approach for Dependent and Independent SourcesAlper T. Erdogan. 4378-4382 [doi]

Blind Separation of Linear-Quadratic Mixtures of Mutually Independent and Autocorrelated SourcesShahram Hosseini, Yannick Deville. 4383-4387 [doi]

Large-Scale Independent Component Analysis By Speeding Up Lie Group TechniquesMatthias Hermann, Georg Umlauf, Matthias O. Franz. 4388-4392 [doi]

Predicting the Generalization Gap in Deep Models using AnchoringVivek Sivaraman Narayanaswamy, Rushil Anirudh, Irene Kim, Yamen Mubarka, Andreas Spanias, Jayaraman J. Thiagarajan. 4393-4397 [doi]

When Does Backdoor Attack Succeed in Image Reconstruction? A Study of Heuristics vs. Bi-Level SolutionVardaan Taneja, Pin-Yu Chen, Yuguang Yao, Sijia Liu. 4398-4402 [doi]

Mixed Knowledge Relation Transformer for Image CaptioningTianyu Chen, Zhixin Li, Jiahui Wei, Tiantao Xian. 4403-4407 [doi]

Balanced Stripe-Wise Pruning In The FilterZheng Huo, Chong Wang, Weiwei Chen, Yuqi Li, Jun Wang, Jiafei Wu. 4408-4412 [doi]

Gan-Based Joint Activity Detection and Channel Estimation for Grant-Free Random AccessShuang Liang, Yinan Zou, Yong Zhou 0006. 4413-4417 [doi]

Cascading Bandit Under Differential PrivacyKun Wang, Jing Dong 0008, Baoxiang Wang 0001, Shuai Li. 4418-4422 [doi]

Iterative Re-weighted Least Squares Algorithms for Non-negative Sparse and Group-sparse RecoveryAngshul Majumdar. 4423-4427 [doi]

Exact Partitioning of High-Order Planted Models with A Tensor Nuclear Norm ConstraintChuyang Ke, Jean Honorio. 4428-4432 [doi]

No More Than 6ft Apart: Robust K-Means via Radius Upper BoundsAhmed Imtiaz Humayun, Randall Balestriero, Anastasios Kyrillidis, Richard G. Baraniuk. 4433-4437 [doi]

Deep Kernel Learning Networks with Multiple Learning PathsPing Xu, Yue Wang, Xiang Chen, Zhi Tian. 4438-4442 [doi]

Provable Sample Complexity Guarantees For Learning Of Continuous-Action Graphical Games With Nonparametric UtilitiesAdarsh Barik, Jean Honorio. 4443-4447 [doi]

Cross-Modal Knowledge Distillation For Vision-To-Sensor Action RecognitionJianyuan Ni, Raunak Sarbajna, Yang Liu, Anne H. H. Ngu, Yan Yan. 4448-4452 [doi]

CLIPCAM: A Simple Baseline For Zero-Shot Text-Guided Object And Action LocalizationHsuan-An Hsia, Che-Hsien Lin, Bo-Han Kung, Jhao-Ting Chen, Daniel Stanley Tan, Jun-Cheng Chen, Kai-Lung Hua. 4453-4457 [doi]

Exploring Dual Stream Global Information For Image CaptioningTiantao Xian, Zhixin Li, Tianyu Chen, Huifang Ma. 4458-4462 [doi]

Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote SensingGeorgii Mikriukov, Mahdyar Ravanbakhsh, Begüm Demir. 4463-4467 [doi]

Robust Thermal Infrared Pedestrian Detection By Associating Visible Pedestrian KnowledgeSungjune Park, Dae Hwi Choi, Jung-Uk Kim, Yong Man Ro. 4468-4472 [doi]

A Generalized Hierarchical Nonnegative Tensor DecompositionJoshua Vendrow, Jamie Haddock, Deanna Needell. 4473-4477 [doi]

Two Strategies Toward Lightweight Image Super-ResolutionZongcai Du, Jie Liu 0040, Jie Tang 0006, Gangshan Wu. 4478-4482 [doi]

On Mini-Batch Training with Varying Length Time SeriesBrian Kenji Iwana. 4483-4487 [doi]

ACP: Adaptive Channel Pruning for Efficient Neural NetworksYuan Zhang, Yuan Yuan, Qi Wang. 4488-4492 [doi]

Bayesian Continual Imputation and Prediction For Irregularly Sampled Time Series DataYang Guo, Jeanette Wen Jun Poh, Cheryl Sze Yin Wong, Savitha Ramasamy. 4493-4497 [doi]

Confidence-Aware Multi-Teacher Knowledge DistillationHailin Zhang, Defang Chen, Can Wang. 4498-4502 [doi]

Learnable Hypergraph Laplacian for Hypergraph LearningJiying Zhang, Yuzhao Chen, Xi Xiao, Runiu Lu, Shu-Tao Xia. 4503-4507 [doi]

Graph Learning From Multivariate Dependent Time Series Via A Multi-Attribute FormulationJitendra K. Tugnait. 4508-4512 [doi]

Generalized Sliced Probability MetricsSoheil Kolouri, Kimia Nadjahi, Shahin Shahrampour, Umut Simsekli. 4513-4517 [doi]

Recovery of Noisy Pooled Tests via Learned Factor Graphs with Application to COVID-19 TestingEyal Fishel Ben-Knaan, Yonina C. Eldar, Nir Shlezinger. 4518-4522 [doi]

A Remedy For Distributional Shifts Through Expected Domain TranslationJean-Christophe Gagnon-Audet, Soroosh Shahtalebi, Frank Rudzicz, Irina Rish. 4523-4527 [doi]

Deterministic Transform Based Weight Matrices for Neural NetworksPol Grau Jurado, Xinyue Liang, Saikat Chatterjee. 4528-4532 [doi]

Adaptive Group Testing with Mismatched ModelsMingzhou Fan, Byung-Jun Yoon, Francis J. Alexander, Edward R. Dougherty, Xiaoning Qian. 4533-4537 [doi]

Mixed In Time And Modality: Curse Or Blessingƒ Cross-Instance Data Augmentation for Weakly Supervised Multimodal Temporal FusionYonggang Zhu, Chao Tian, Zhuqing Jiang, Aidong Men, Haiying Wang 0005, Qingchao Chen. 4538-4542 [doi]

MTAF: Shopping Guide Micro-Videos Popularity Prediction Using Multimodal and Temporal Attention Fusion ApproachNingrui Ou, Li Yu, Huiyuan Li, Qihan Du, Junyao Xiang, Wei Gong. 4543-4547 [doi]

Learning To Integrate Vision Data Into Road Network DataOliver Stromann, Seyed Alireza Razavi, Michael Felsberg. 4548-4552 [doi]

Hierarchical Signal Fusion Network for Pulsar Detection with Phase-Correlation and Signal AttentionsHuajian Wu, Mingmin Chi. 4553-4557 [doi]

Recognition Of Silently Spoken Word From Eeg Signals Using Dense Attention Network (DAN)Sahil Datta, Akuha Aondoakaa, Jorunn Jo Holmberg, Elena Antonova. 4558-4562 [doi]

Wav2CLIP: Learning Robust Audio Representations from ClipHo-Hsiang Wu, Prem Seetharaman, Kundan Kumar, Juan Pablo Bello. 4563-4567 [doi]

Asd-Transformer: Efficient Active Speaker Detection Using Self And Multimodal TransformersGourav Datta, Tyler Etchart, Vivek Yadav, Varsha Hedau, Pradeep Natarajan, Shih-Fu Chang. 4568-4572 [doi]

Mmlatch: Bottom-Up Top-Down Fusion For Multimodal Sentiment AnalysisGeorgios Paraskevopoulos, Efthymios Georgiou, Alexandros Potamianos. 4573-4577 [doi]

Multi-Channel Attentive Graph Convolutional Network with Sentiment Fusion for Multimodal Sentiment AnalysisLuwei Xiao, Xingjiao Wu, Wen Wu, Jing Yang 0023, Liang He 0001. 4578-4582 [doi]

Learning Music Sequence Representation From Text SupervisionTianyu Chen, Yuan Xie, Shuai Zhang, Shaohan Huang, Haoyi Zhou, Jianxin Li. 4583-4587 [doi]

Enhancing Affective Representations Of Music-Induced Eeg Through Multimodal Supervision And Latent Domain AdaptationKleanthis Avramidis, Christos Garoufis, Athanasia Zlatintsi, Petros Maragos. 4588-4592 [doi]

Towards Learning Universal Audio RepresentationsLuyu Wang, Pauline Luc, Yan Wu 0010, Adrià Recasens, Lucas Smaira, Andrew Brock, Andrew Jaegle, Jean-Baptiste Alayrac, Sander Dieleman, João Carreira, Aäron Van Den Oord. 4593-4597 [doi]

Differentiable Wavetable SynthesisSiyuan Shan, Lamtharn Hantrakul, Jitong Chen, Matt Avent, David Trevelyan. 4598-4602 [doi]

Neural Audio-To-Score Music Transcription For Unconstrained Polyphony Using Compact Output RepresentationsVíctor Arroyo, Jose J. Valero-Mas, Jorge Calvo-Zaragoza, Antonio Pertusa. 4603-4607 [doi]

End-To-End Music Remastering System Using Self-Supervised And Adversarial TrainingJunghyun Koo, Seungryeol Paik, Kyogu Lee. 4608-4612 [doi]

Avqvc: One-Shot Voice Conversion By Vector Quantization With Applying Contrastive LearningHuaizhen Tang, Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao 0006. 4613-4617 [doi]

Towards Speaker Age Estimation With Label Distribution LearningShijing Si, Jianzong Wang, Junqing Peng, Jing Xiao 0006. 4618-4622 [doi]

Distributed Audio-Visual Parsing Based On Multimodal Transformer and Deep Joint Source Channel CodingPenghong Wang, Jiahui Li, Mengyao Ma, Xiaopeng Fan. 4623-4627 [doi]

TalkingFlow: Talking Facial Landmark Generation with Multi-Scale Normalizing Flow NetworkSen Liang, Zhize Zhou, Rong Li, Juyong Zhang, Hujun Bao. 4628-4632 [doi]

Incorporating Gaze Behavior Using Joint Embedding With Scene Context for Driver Takeover DetectionYuning Qiu, Carlos Busso, Teruhisa Misu, Kumar Akash. 4633-4637 [doi]

Multi-View And Multi-Modal Event Detection Utilizing Transformer-Based Multi-Sensor FusionMasahiro Yasuda, Yasunori Ohishi, Shoichiro Saito, Noboru Harado. 4638-4642 [doi]

Distributed Label Dequantized Gaussian Process Latent Variable Model for Multi-View Data IntegrationKoshi Watanabe, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama. 4643-4647 [doi]

Co-Attention-Guided Bilinear Model for Echo-Based Depth EstimationGo Irie, Takashi Shibata 0001, Akisato Kimura. 4648-4652 [doi]

Modeling The Detection Capability Of High-Speed Spiking CamerasJunwei Zhao, Zhaofei Yu, Lei Ma 0008, Ziluo Ding, Shiliang Zhang, Yonghong Tian 0001, Tiejun Huang 0001. 4653-4657 [doi]

Modernn: Towards Fine-Grained Motion Details for Spatiotemporal Predictive LearningZenghao Chai, Zhengzhuo Xu, Chun Yuan. 4658-4662 [doi]

Graph-Based Point Cloud Denoising Using Shape-Aware Consistency For Free-Viewpoint VideoKeisuke Nonaka, Ryosuke Watanabe, Haruhisa Kato, Tatsuya Kobayashi, Eduardo Pavez, Antonio Ortega. 4663-4667 [doi]

DCSN: Deformable Convolutional Semantic Segmentation Neural Network for Non-Rigid ScenesBor-Sheng Huang, Chih-Chung Hsu, Wo-Ting Liao, Han-Yi Kao, Xian-Yun Wang. 4668-4672 [doi]

Transformer-Based Domain Adaptation for Event Data ClassificationJunwei Zhao, Shiliang Zhang, Tiejun Huang 0001. 4673-4677 [doi]

Multimodal Emotion Recognition with Surgical and Fabric MasksZiqing Yang 0003, Katherine Nayan, Zehao Fan, Houwei Cao. 4678-4682 [doi]

Human Emotion Recognition Using Multi-Modal Biological Signals Based On Time Lag-Considered Correlation MaximizationYuya Moroto, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama. 4683-4687 [doi]

Multi-Modal Emotion Recognition with Self-Guided Modality CalibrationMixiao Hou, Zheng Zhang 0006, Guangming Lu. 4688-4692 [doi]

Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion Recognition?Vandana Rajan, Alessio Brutti, Andrea Cavallaro. 4693-4697 [doi]

A Pre-Trained Audio-Visual Transformer for Emotion RecognitionMinh Tran, Mohammad Soleymani 0001. 4698-4702 [doi]

Memobert: Pre-Training Model with Prompt-Based Learning for Multimodal Emotion RecognitionJinming Zhao, Ruichen Li, Qin Jin, Xinchao Wang, Haizhou Li 0001. 4703-4707 [doi]

Global-Local Feature Enhancement Network for Robust Object Detection using mmWave Radar and CameraKaikai Deng, Dong Zhao, Qiaoyue Han, Zihan Zhang, Shuyue Wang, Huadong Ma. 4708-4712 [doi]

Learning Correlation for Online Multiple Object TrackingYing Wang, Chihui Zhuang, Haihui Ye, Yan Yan, Hanzi Wang. 4713-4717 [doi]

Bounding Box Distribution Learning and Center Point Calibration for Robust Visual TrackingChihui Zhuang, Yanjie Liang, Yan Yan, Yang Lu, Hanzi Wang. 4718-4722 [doi]

Multi-Focus Guided Semantic Aggregation for Video Object DetectionHaihui Ye, Guangge Wang, Yang Lu, Yan Yan, Hanzi Wang. 4723-4727 [doi]

Enhancing Contrastive Learning with Temporal Cognizance for Audio-Visual Representation GenerationChandrashekhar Lavania, Shiva Sundaram, Sundararajan Srinivasan, Katrin Kirchhoff. 4728-4732 [doi]

Cross-Modal Knowledge Distillation in Multi-Modal Fake News DetectionZimian Wei, Hengyue Pan, Linbo Qiao, Xin Niu, Peijie Dong, Dongsheng Li 0001. 4733-4737 [doi]

Training Strategies for Automatic Song Writing: A Unified Framework PerspectiveTao Qian, Jiatong Shi, Shuai Guo, Peter Wu, Qin Jin. 4738-4742 [doi]

Residual-Guided Personalized Speech Synthesis based on Face ImageJianrong Wang, Zixuan Wang, Xiaosheng Hu, Xuewei Li, Qiang Fang, Li Liu. 4743-4747 [doi]

Sketch StorytellingYucheng Zhou. 4748-4752 [doi]

MAG+: An Extended Multimodal Adaptation Gate for Multimodal Sentiment AnalysisXianbing Zhao, Yixin Chen, Wanting Li, Lei Gao, Buzhou Tang. 4753-4757 [doi]

Image-Text Alignment and Retrieval Using Light-Weight TransformerWenrui Li, Xiaopeng Fan. 4758-4762 [doi]

A General Framework For Incomplete Cross-Modal Retrieval With Missing Labels And Missing ModalitiesMingyang Li, Shao-Lun Huang, Lin Zhang. 4763-4767 [doi]

Subgraph Representation Learning with Hard Negative Samples for Inductive Link PredictionHeeyoung Kwak, Hyunkyung Bae, Kyomin Jung. 4768-4772 [doi]

Deep Hashing with Hash Center Update for Efficient Image RetrievalAbin Jose, Daniel Filbert, Christian Rohlfing, Jens-Rainer Ohm. 4773-4777 [doi]

Prototype-Based Inter-Camera Learning for Person Re-IdentificationLin Wang, Wanqian Zhang, Dayan Wu, Pingting Hong, Bo Li. 4778-4782 [doi]

DHWP: Learning High-Quality Short Hash Codes Via Weight PruningZeyu Ma, Yuhang Guo, Xiao Luo, Chong Chen 0002, Minghua Deng, Wei Cheng, Guangming Lu. 4783-4787 [doi]

Node Slicing Broad Learning System for Text ClassificationFagui Liu, Xinjie Wu, Chao Li. 4788-4792 [doi]

Audio-Text Retrieval in ContextSiyu Lou, Xuenan Xu, Mengyue Wu, Kai Yu 0004. 4793-4797 [doi]

Improved Meta Learning for Low Resource Speech RecognitionSatwinder Singh, Ruili Wang, Feng Hou. 4798-4802 [doi]

Quantized Winograd Acceleration for CONV1D Equipped ASR Models on Mobile DevicesYiwu Yao, Chengyu Wang 0001, Jun Huang. 4803-4807 [doi]

Acoustic-to-Articulatory Inversion Based on Speech Decomposition and Auxiliary FeatureJianrong Wang, Jinyu Liu, Longxuan Zhao, Shanyu Wang, Ruiguo Yu, Li Liu. 4808-4812 [doi]

An Audio-Saliency Masking Transformer for Audio Emotion Classification in MoviesYa-Tse Wu, Jeng-Lin Li, Chi-Chun Lee. 4813-4817 [doi]

Generative Adversarial Network Including Referring Image Segmentation For Text-Guided Image ManipulationYuto Watanabe, Ren Togo, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama. 4818-4822 [doi]

Text2Poster: Laying Out Stylized Texts on Retrieved ImagesChuhao Jin, Hongteng Xu, Ruihua Song, Zhiwu Lu 0001. 4823-4827 [doi]

Deep Rank Cross-Modal Hashing with Semantic Consistent for Image-Text RetrievalXiaoqing Liu, Huanqiang Zeng, Yifan Shi, Jianqing Zhu, Kai-Kuang Ma. 4828-4832 [doi]

VQA-BC: Robust Visual Question Answering Via Bidirectional ChainingMingrui Lao, Yanming Guo, Wei Chen 0072, Nan Pu, Michael S. Lew. 4833-4837 [doi]

Type-Aware Medical Visual Question AnsweringAnda Zhang, Wei Tao, Ziyan Li, Haofen Wang, Wenqiang Zhang. 4838-4842 [doi]

From Bottom-Up To Top-Down: Characterization Of Training Process In Gaze ModelingRon M. Hecht, Ke Liu, Noa Garnett, Ariel Telpaz, Omer Tsimhoni. 4843-4847 [doi]

Meta Talk: Learning To Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking Face With High DefinitionYuhan Zhang, Weihua He, Minglei Li, Kun Tian, Ziyang Zhang, Jie Cheng, Yaoyuan Wang, Jianxing Liao. 4848-4852 [doi]

Map: Multispectral Adversarial Patch to Attack Person DetectionTaeheon Kim, Hong Joo Lee, Yong Man Ro. 4853-4857 [doi]

Genre-Conditioned Long-Term 3D Dance Generation Driven by MusicYuhang Huang, Junjie Zhang, Shuyan Liu, Qian Bao, Dan Zeng, Zhineng Chen, Wu Liu. 4858-4862 [doi]

Learning Sound Localization Better from Semantically Similar SamplesArda Senocak, Hyeonggon Ryu, Junsik Kim 0001, In-So Kweon. 4863-4867 [doi]

Bi-Directional Modality Fusion Network For Audio-Visual Event LocalizationShuo Liu, Weize Quan, Yuan Liu, Dong-Ming Yan 0001. 4868-4872 [doi]

Dynamic Multi-Scale Loss Balance for Object DetectionYihao Luo, Xiang Cao, Juntao Zhang, Peng Cheng, Tianjiang Wang, Qi Feng 0003. 4873-4877 [doi]

Latent Space Slicing for Enhanced Entropy Modeling In Learning-Based Point Cloud Geometry CompressionNicolas Frank, Davi Lazzarotto, Touradj Ebrahimi. 4878-4882 [doi]

DAM-GAN : Image Inpainting Using Dynamic Attention Map Based on Fake Texture DetectionDongmin Cha, Daijin Kim. 4883-4887 [doi]

Improving Reference-Based Image Colorization For Line Arts Via Feature Aggregation And Contrastive LearningShukai Wu, Qingqin Wang, Shuchang Xu, Sanyuan Zhang. 4888-4892 [doi]

Few-Shot Gaze Estimation with Model Offset PredictorsJiawei Ma, Xu Zhang, Yue Wu, Varsha Hedau, Shih-Fu Chang. 4893-4897 [doi]

Adversarial Examples for Image Cropping in Social MediaMasatomo Yoshida, Masahiro Okuda. 4898-4902 [doi]

Robust Adaptive Beamforming Based on Power Method Processing and Spatial Spectrum MatchingSaeed Mohammadzadeh, Vítor H. Nascimento, Rodrigo C. de Lamare, Osman Kukrer. 4903-4907 [doi]

An Adaptive Orientational Beamforming Technique for Narrowband Interference RejectionJiangyan Han, Boon Poh Ng, Meng Hwa Er. 4908-4912 [doi]

Phase-Only Reconfigurable Sparse Array Beamforming Using Deep LearningSyed A. Hamza, Moeness G. Amin, Batu K. Chalise. 4913-4917 [doi]

Robust Adaptive Beamforming Maximizing the Worst-Case SINR Over Distributional Uncertainty Sets for Random INC Matrix And Signal Steering VectorYongwei Huang, Wenzheng Yang, Sergiy A. Vorobyov. 4918-4922 [doi]

Improved Beamforming Encoding for Joint Radar and CommunicationTuomas Aittomäki, Visa Koivunen. 4923-4927 [doi]

Study of the Null Directions on The Performance of Differential BeamformersXuehan Wang, Israel Cohen, Jacob Benesty, Jingdong Chen. 4928-4932 [doi]

DOA M-Estimation Using Sparse Bayesian LearningChristoph F. Mecklenbräuker, Peter Gerstoft, Esa Ollila. 4933-4937 [doi]

Learning-Aided Initialization for Variational Bayesian DOA EstimationYongsung Park, Florian Meyer, Peter Gerstoft. 4938-4942 [doi]

Neural Network-Based Compression Framework for DOA Estimation Exploiting Distributed ArraySaidur R. Pavel, Yimin D. Zhang. 4943-4947 [doi]

T-SVD Based Broadband Non-Synchronous MeasurementsLong Chen, Weize Sun, Lei Huang 0001, Guitong Chen. 4948-4952 [doi]

Low Complex Accurate Multi-Source RTF EstimationChangheng Li, Jorge Martínez 0002, Richard C. Hendriks. 4953-4957 [doi]

Multiple Offsets Multilateration: A New Paradigm for Sensor Network Calibration with Unsynchronized Reference NodesLuca Ferranti, Kalle Åström, Magnus Oskarsson, Jani Boutellier, Juho Kannala. 4958-4962 [doi]

Reference Microphone Selection and Low-Rank Approximation Based Multichannel Wiener Filter with Application to Speech RecognitionXing-yu Chen, Jie Zhang, Li-Rong Dai 0001. 4963-4967 [doi]

Incoherent Synthesis of Sparse Broadband Arrays based on a Parameter-Free Subspace ClusteringGuy Gubnitsky, Yaakov Buchris, Israel Cohen. 4968-4972 [doi]

2) for Wideband Direction-of-Arrival EstimationJake Millhiser, Pulak Sarangi, Piya Pal. 4973-4977 [doi]

Recurrent Design of Probing Waveform for Sparse Bayesian Learning Based DOA EstimationLinlong Wu, Jisheng Dai, M. R. Bhavani Shankar, Ruizhi Hu, Björn E. Ottersten. 4978-4982 [doi]

Unimodular Waveform Design with Low Correlation Levels: A Fast Algorithm Development to Support Large-Scale Code LengthsYongzhe Li, Chunxuan Shi, Ran Tao. 4983-4987 [doi]

Airborne Mimo Radar Transmit-Receive Design Under Spectral Constraint in Signal-Dependent ClutterZhihui Li 0002, Junpeng Shi, Dongming Wu, Shujie Shi, Qingsong Zhou. 4988-4992 [doi]

Weak Target Detection in Massive MIMO Radar via an Improved Reinforcement Learning ApproachWeitong Zhai, Xiangrong Wang 0001, Maria S. Greco, Fulvio Gini. 4993-4997 [doi]

RIS-Aided Monostatic Mimo Radar with Co-Located AntennasStefano Buzzi, Emanuele Grossi, Marco Lops, Luca Venturino. 4998-5002 [doi]

Convolutional Beamspace Using IIR FiltersPo-Chih Chen, P. P. Vaidyanathan. 5003-5007 [doi]

Rational Arrays for DOA EstimationPranav Kulkarni, P. P. Vaidyanathan. 5008-5012 [doi]

Localizing More Sources than Sensors in Presence of Coherent SourcesXinyao Chen, Zai Yang. 5013-5017 [doi]

Two-Snapshot DOA Estimation Via Hankel-Structured Matrix CompletionMohammad Bokaei, Saeed Razavikia, Arash Amini, Stefano Rini. 5018-5022 [doi]

A Novel Angular Estimation Method in the Presence of Nonuniform NoiseMajdoddin Esfandiari, Sergiy A. Vorobyov. 5023-5027 [doi]

Partially Relaxed Orthogonal Least Squares Weighted Subspace Fitting Direction-of-Arrival EstimationDavid Schenck, Katja Lübbe, Minh Trinh-Hoang, Marius Pesavento. 5028-5032 [doi]

A New Coprime-Array-based Configuration with Augmented Degrees of Freedom and Reduced Mutual CouplingNabil Mohsen, Ammar Hawbani, Monika Agrawal, Saeed H. Alsamhi, Liang Zhao 0004. 5033-5037 [doi]

Coarray Manifold Separation In The Spherical Harmonics Domain For Enhanced Source LocalizationShekhar Kumar Yadav, Nithin V. George. 5038-5042 [doi]

Sparse Array Source Enumeration Via Coarray Subspace OptimizationChun-Lin Liu. 5043-5047 [doi]

The Prototype Co-Prime Array with a Robust Difference Co-ArrayAhmed M. A. Shaalan, Jun Du. 5048-5052 [doi]

Doa Estimation Via Coarray Tensor Completion with Missing SlicesHang Zheng, Chengwei Zhou, André L. F. de Almeida, Yujie Gu 0001, Zhiguo Shi 0001. 5053-5057 [doi]

Half Inverted Nested Arrays with Large Hole-Free Fourth-Order Difference Co-ArraysYuan-Pon Chen, Chun-Lin Liu. 5058-5062 [doi]

Spherical Convolutional Recurrent Neural Network for Real-Time Sound Source TrackingTianle Zhong, Israel Mendoza Velázquez, Yi Ren, Héctor Manuel Pérez Meana, Yoichi Haneda. 5063-5067 [doi]

Audio-Visual Tracking of Multiple Speakers Via a PMBM FilterJinzheng Zhao, Peipei Wu, Xubo Liu, Yong Xu, Lyudmila Mihaylova, Simon J. Godsill, Wenwu Wang. 5068-5072 [doi]

Floor Plan Reconstruction with High-Precision Rf-Based TrackingGuozhen Zhu, Chenshu Wu, Beibei Wang 0001, K. J. Ray Liu. 5073-5077 [doi]

Partial Arithmetic Consensus based Distributed Intensity Particle Flow SMC-PHD Filter for Multi-Target TrackingPeipei Wu, Jinzheng Zhao, Shidrokh Goudarzi, Wenwu Wang. 5078-5082 [doi]

Multi-Modal Recurrent Fusion for Indoor LocalizationJianyuan Yu, Pu Wang, Toshiaki Koike-Akino, Philip V. Orlik. 5083-5087 [doi]

Improving Joint Sparse Hyperspectral Unmixing by Simultaneously Clustering Pixels According To Their MixturesSeyyede Fatemeh Seyyedsalehi, Hamid R. Rabiee. 5088-5092 [doi]

Global Evolution Neural Network for Segmentation of Remote Sensing ImagesXinzhe Geng, Tao Lei, Qi Chen, Jian Su, Xi He, Qi Wang, Asoke K. Nandi. 5093-5097 [doi]

Spectral-Spatial Symmetrical Aggregation Cross-Linking Multi-Modal Data Fusion NetworkJinping Wang, Jun Li, Xiaojun Tan. 5098-5102 [doi]

Relation Discovery in Nonlinearly Related Large-Scale SettingsMohammad Ali Vosoughi, Adora M. DSouza, Anas Z. Abidin, Axel Wismüller. 5103-5107 [doi]

Acoustic Imaging Aboard The International Space Station (ISS): Challenges and Preliminary ResultsLuca Bondi, Gabriel Chuang, Christopher Ick, Adarsh Dave, Charles Shelton, Brian Coltin, Trey Smith, Samarjit Das. 5108-5112 [doi]

Conjugate Augmented Spatial-Temporal Near-Field Sources Localization with Cross ArrayZhiwei Jiang, Hua Chen, Wei Liu, Ye Tian, Gang Wang. 5113 [doi]

Parametric Models for Doa Trajectory LocalizationRuchi Pandey, Santosh Nannuru. 5118-5122 [doi]

Joint Source Localization and Association Through Overcomplete Representation Under Multipath Propagation EnvironmentYuan Liu, Zhi-Wei Tan, Andy W. H. Khong, Hongwei Liu. 5123-5127 [doi]

Semidefinite Relaxation Method for Moving Object Localization Using a Stationary Transmitter at Unknown PositionRuichao Zheng, Gang Wang 0007, K. C. Ho 0001, Lei Huang 0001. 5128-5132 [doi]

Underdetermined Two-Dimensional Localization for Wideband Sources Based on Distributed Sensor Array NetworksHantian Wu, Qing Shen, Wei Liu 0001, Yibao Liang. 5133-5137 [doi]

Direct Localization: An Ising Model ApproachShiva Akbari, Shahrokh Valaee. 5138-5142 [doi]

Transient Detection with Unknown Statistics Via Source CodingAndrew Robert Finelli, Peter Willett 0001, Yaakov Bar-Shalom, Stefano Maranò 0001. 5143-5147 [doi]

Identification of Pulse Streams Of Unknown Shape From Time Encoding Machine SamplesMeghna Kalra, Yoram Bresler, Kiryung Lee. 5148-5152 [doi]

Exact Sparse Super-Resolution Via Model AggregationHongQing Yu, Heng Qiao. 5153-5157 [doi]

A CRLB Analysis of AoA Estimation Using Bluetooth 5Wentao Shi, Baoqi Huang, Kai Sun. 5158-5162 [doi]

Cramer-Rao Bound Analysis of Distributed DOA Estimation Exploiting Mixed-Precision Covariance MatrixMd. Waqeeb T. S. Chowdhury, Yimin D. Zhang. 5163-5167 [doi]

Cramér-Rao Bound and Antenna Selection Optimization for Dual Radar-Communication DesignZhaoyi Xu, Fan Liu 0005, Athina P. Petropulu. 5168-5172 [doi]

Information Theoretic Limits For Standard and One-Bit Compressed Sensing with Graph-Structured SparsityAdarsh Barik, Jean Honorio. 5173-5177 [doi]

The Data/Identity Tradeoff with Censored SensorsZachariah Sutton, Peter Willett 0001, Stefano Maranò 0001. 5178-5182 [doi]

Double-RIS Versus Single-RIS Aided Systems: Tensor-Based Mimo Channel Estimation and Design PerspectivesKhaled Ardah, Sepideh Gherekhloo, André L. F. de Almeida, Martin Haardt. 5183-5187 [doi]

Efficient Two-Stage Beam Training and Channel Estimation for Ris-Aided Mmwave Systems Via Fast Alternating Least SquaresHyeonjin Chung, Sunwoo Kim. 5188-5192 [doi]

Deep Joint Source-Channel Coding for Wireless Image Transmission with Adaptive Rate ControlMingyu Yang, Hun-Seok Kim. 5193-5197 [doi]

Deep Sequential Beamformer Learning for Multipath Channels in Mmwave Communication SystemsAditya Sant, Afshin Abdi, Joseph Soriaga. 5198-5202 [doi]

Data-Driven Optimization for Zero-Delay Lossy Source Coding with Side InformationElad Domanovitz, Daniel Severo, Ashish Khisti, Wei Yu. 5203-5207 [doi]

Distributed Image Transmission Using Deep Joint Source-Channel CodingSixian Wang, Ke Yang, Jincheng Dai, Kai Niu 0001. 5208-5212 [doi]

Adaptive Wireless Power Allocation with Graph Neural NetworksNavid Naderializadeh, Mark Eisen, Alejandro Ribeiro. 5213-5217 [doi]

Restless Multi-Armed Bandits under Exogenous Global Markov ProcessTomer Gafni, Michal Yemini, Kobi Cohen. 5218-5222 [doi]

Byzantine-Robust and Communication-Efficient Distributed Non-Convex Learning Over Non-IID DataXuechao He, Heng Zhu, Qing Ling. 5223-5227 [doi]

Communication-Efficient Online Federated Learning Framework for Nonlinear RegressionVinay Chakravarthi Gogineni, Stefan Werner 0001, Yih-Fang Huang, Anthony Kuh. 5228-5232 [doi]

S2 Reducer: High-Performance Sparse Communication to Accelerate Distributed Deep LearningKeshi Ge, Yongquan Fu, Yiming Zhang 0003, Zhiquan Lai, Xiaoge Deng, Dongsheng Li 0001. 5233-5237 [doi]

A Data-Driven Quantization Design for Distributed Testing Against Independence with Communication ConstraintsSebastian Espinosa, Jorge F. Silva, Pablo Piantanida. 5238-5242 [doi]

Power Allocation for Wireless Federated Learning Using Graph Neural NetworksBoning Li, Ananthram Swami, Santiago Segarra. 5243-5247 [doi]

Federated Multi-Armed Bandit Via Uncoordinated ExplorationZirui Yan, Quan Xiao, Tianyi Chen, Ali Tajer. 5248-5252 [doi]

Byzantine-Resilient Decentralized Collaborative LearningJian Xu, Shao-Lun Huang. 5253-5257 [doi]

Adaptive Identification of Underwater Acoustic Channel with a Mix of Static and Time-Varying ParametersMaciej Niedzwiecki, Artur Gancza, Lu Shen, Yuriy V. Zakharov. 5258-5262 [doi]

Iterative Channel Estimation and Data Detection Algorithm For OTFS ModulationRabah Ouchikh, Abdeldjalil Aïssa-El-Bey, Thierry Chonavel, Mustapha Djeddou. 5263-5267 [doi]

An Asymptotically Optimal Approximation of the Conditional Mean Channel Estimator Based on Gaussian Mixture ModelsMichael Koller 0001, Benedikt Fesl, Nurettin Turan, Wolfgang Utschick. 5268-5272 [doi]

Low Complexity Equalization for Afdm In Doubly Dispersive ChannelsAli Bemani, Nassar Ksairi, Marios Kountouris. 5273-5277 [doi]

CSI Clustering with Variational AutoencodingMichael Baur, Michael Würth, Michael Koller 0001, Andrei Vlad-Costin, Wolfgang Utschick. 5278-5282 [doi]

Massive Unsourced Random Access Based on Bilinear Vector Approximate Message PassingRamzi Ayachi, Mohamed Akrout, Volodymyr Shyianov, Faouzi Bellili, Amine Mezghani. 5283-5287 [doi]

Optimal Qos-Aware Network Slicing for Service-Oriented Networks with Flexible RoutingWei-Kun Chen, Ya-Feng Liu, Yu-Hong Dai, Zhi-Quan Luo. 5288-5292 [doi]

Byzantine-Resilient Decentralized Resource AllocationRunhua Wang, Yaohua Liu, Qing Ling. 5293-5297 [doi]

Stability Analysis of Unfolded WMMSE for Power AllocationArindam Chowdhury, Fernando Gama, Santiago Segarra. 5298-5302 [doi]

Monotonic Generalized Nash Games with Application to the Management of Energy-Aware Aloha NetworksWenbo Wang 0004, Amir Leshem. 5303-5307 [doi]

Distributed Link Sparsification for Scalable Scheduling Using Graph Neural NetworksZhongyuan Zhao, Ananthram Swami, Santiago Segarra. 5308-5312 [doi]

A Performance Analysis for Multi-Ris-Assisted Full Duplex Wireless Communication SystemFarjam Karim, Bishmita Hazarika, Sandeep Kumar Singh 0005, Keshav Singh. 5313-5317 [doi]

Joint Beam Selection and Precoding Based on Differential Evolution for Millimeter-Wave Massive MIMO SystemsYang Liu, Yancheng Hou, Jiaxuan Wei, Yinghui Zhang, Junxing Zhang, Tiankui Zhang. 5318-5322 [doi]

A Novel Negative ℓ1 Penalty Approach for Multiuser One-Bit Massive MIMO Downlink with PSK SignalingZheyu Wu, Bo Jiang, Ya-Feng Liu, Yu-Hong Dai. 5323-5327 [doi]

A Set-Theoretic Approach to Mimo DetectionJochen Fink, Renato L. G. Cavalcante, Zoran Utkovski, Slawomir Stanczak. 5328-5332 [doi]

Designing a QAM Signal Detector for Massive Mimo Systems via PS-ADMM ApproachQuan Zhang, Xuyang Zhao, Jiangtao Wang, Yongchao Wang. 5333-5337 [doi]

Power-Efficient Hybrid MIMO Receiver with Task-Specific Beamforming using Low-Resolution ADCsTimur Zirtiloglu, Nir Shlezinger, Yonina C. Eldar, Rabia Tugce Yazicigil. 5338-5342 [doi]

Mimo Detection by Variational Posterior InferenceJunbin Liu, Mingjie Shao, Wing-Kin Ma. 5343-5347 [doi]

Controlling Smart Propagation Environments: Long-Term Versus Short-Term Phase Shift OptimizationTrinh Van Chien, Tu Lam Thanh, Tran Dinh Hieu, Hieu V. Nguyen, Symeon Chatzinotas, Marco Di Renzo, Björn E. Ottersten. 5348-5352 [doi]

Deep Actor-Critic for Continuous 3D Motion Control in Mobile Relay Beamforming NetworksSpilios Evmorfos, Athina P. Petropulu. 5353-5357 [doi]

Aerial Base Station Placement Leveraging Radio Tomographic MapsDaniel Romero 0004, Pham Q. Viet, Geert Leus. 5358-5362 [doi]

Atomic Norm Based Localization and Orientation Estimation for Millimeter-Wave MIMO OFDM SystemsJianxiu Li, Maxime Ferreira Da Costa, Urbashi Mitra. 5363-5367 [doi]

Estimation Of Channels In Systems With Intelligent Reflecting SurfacesMichael Joham, Hangze Gao, Wolfgang Utschick. 5368-5372 [doi]

Distributed Hybrid Beamforming for Mmwave Cell-Free Massive MIMONuan Song, Tao Yang 0012. 5373-5377 [doi]

Quantization-Aware Precoding For Mu-Mimo With Limited-Capacity FronthaulYasaman Khorsandmanesh, Emil Björnson, Joakim Jaldén. 5378-5382 [doi]

An Online Throughput Maximization Algorithm for Green Coordinated Multi-Point SystemsYanjie Dong, Haijun Zhang, JianQiang Li, F. Richard Yu, Song Guo 0001, Victor C. M. Leung. 5383-5387 [doi]

Efficiently and Globally Solving Joint Beamforming and Compression Problem in the Cooperative Cellular Network Via Lagrangian DualityXilai Fan, Ya-Feng Liu, Liang Liu. 5388-5392 [doi]

Cell-Free Massive Mimo: Exploiting The Wax DecompositionJuan Vidal-Alegría, Jinliang Huang, Fredrik Rusek. 5393-5397 [doi]

Learning Structured Sparsity For Time-Frequency ReconstructionLei Jiang, Haijian Zhang, Lei Yu. 5398-5402 [doi]

Unlimited Sampling with Sparse Outliers: Experiments with Impulsive and Jump or Reset NoiseAyush Bhandari. 5403-5407 [doi]

Learning Approach For Fast Approximate Matrix FactorizationsHaiyan Yu, Zhen Qin, Zhihui Zhu. 5408-5412 [doi]

Parameter Estimation in Sparse Inverse Problems Using Bernoulli-Gaussian PriorPierre Barbault, Matthieu Kowalski, Charles Soussen. 5413-5417 [doi]

Sparse Recovery of Acoustic WavesMohamed Mansour. 5418-5422 [doi]

Nonlinear Signal Decomposition Based on Block Sparse ApproximationEl-Hadji Samba Diop, Karl Skretting. 5423-5427 [doi]

Block-Activated Algorithms For Multicomponent Fully Nonsmooth MinimizationMinh N. Bùi, Patrick L. Combettes, Zev Woodstock. 5428-5432 [doi]

Block-Coordinate Frank-Wolfe Algorithm And Convergence Analysis For Semi-Relaxed Optimal Transport ProblemTakumi Fukunaga, Hiroyuki Kasai. 5433-5437 [doi]

An Implicit Gradient-Type Method for Linearly Constrained Bilevel ProblemsIoannis C. Tsaknakis, Prashant Khanduri, Mingyi Hong. 5438-5442 [doi]

Screen & Relax: Accelerating The Resolution Of Elastic-Net By Safe Identification of The Solution SupportThéo Guyard, Cédric Herzet, Clément Elvira. 5443-5447 [doi]

Node-Screening Tests For The L0-Penalized Least-Squares ProblemThéo Guyard, Cédric Herzet, Clément Elvira. 5448-5452 [doi]

Proximal-Based Adaptive Simulated Annealing for Global OptimizationThomas Guilmeau, Émilie Chouzenoux, Víctor Elvira. 5453-5457 [doi]

Graphon-Aided Joint Estimation of Multiple GraphsMadeline Navarro, Santiago Segarra. 5458-5462 [doi]

Exploring Deeper Graph Convolutions for Semi-Supervised Node ClassificationAshish Tiwari, Richeek Das, Shanmuganathan Raman. 5463-5467 [doi]

Dynamic Portfolio Cuts: A Spectral Approach to Graph-Theoretic DiversificationAlvaro Arroyo, Bruno Scalzo, LJubisa Stankovic, Danilo P. Mandic. 5468-5472 [doi]

Stability of Neural Networks on Manifolds to Relative PerturbationsZhiyang Wang, Luana Ruiz, Alejandro Ribeiro. 5473-5477 [doi]

Ada-STNet: A Dynamic AdaBoost Spatio-Temporal Network for Traffic Flow PredictionJiawei Sun, Jie Li, Chentao Wu, Zili Tang, Celimuge Wu. 5478-5482 [doi]

Label Propagation Across Graphs: Node Classification Using Graph Neural Tangent KernelsArtun Bayer, Arindam Chowdhury, Santiago Segarra. 5483-5487 [doi]

Distributed Particle Filters for State Tracking on the Stiefel Manifold Using Tangent Space StatisticsClaudio J. Bordin, Caio Gomes de Figueredo, Marcelo G. S. Bruno. 5488-5492 [doi]

Human Decision Making with Bounded RationalityBaocheng Geng, Qunwei Li, Pramod K. Varshney. 5493-5497 [doi]

Unrolling Particles: Unsupervised Learning of Sampling DistributionsFernando Gama, Nicolas Zilberstein, Richard G. Baraniuk, Santiago Segarra. 5498-5502 [doi]

Scalable Data Association and Multi-Target Tracking Under a Poisson Mixture Measurement ProcessQing Li, Jiaming Liang, Simon J. Godsill. 5503-5507 [doi]

Online Learning for Latent Yule-Simon ProcessesAsher A. Hensley, Petar M. Djuric. 5508-5512 [doi]

Counting the Number of Different Scaling Exponents in Multivariate Scale-Free Dynamics: Clustering by Bootstrap in the Wavelet DomainCharles-Gérard Lucas, Patrice Abry, Herwig Wendt, Gustavo Didier. 5513-5517 [doi]

On the Acquisition of Stationary Signals Using Uniform ADCSPeter Neuhaus, Nir Shlezinger, Meik Dörpinghaus, Yonina C. Eldar, Gerhard P. Fettweis. 5518-5522 [doi]

Data-Driven Algorithms for Gaussian Measurement Matrix Design in Compressive SensingYang Sun, Jonathan Scarlett. 5523-5527 [doi]

Scattering Statistics of Generalized Spatial Poisson Point ProcessesMichael Perlmutter, Jieqian He, Matthew J. Hirn. 5528-5532 [doi]

Regularization Using Denoising: Exact and Robust Signal RecoveryRuturaj G. Gavaskar, Kunal N. Chaudhury. 5533-5537 [doi]

Graph-Structured Sparse Regularization Via Convex OptimizationHiroki Kuroda, Daichi Kitahara. 5538-5542 [doi]

Decentralized Bilevel Optimization for Personalized Client LearningSongtao Lu, Xiaodong Cui, Mark S. Squillante, Brian Kingsbury, Lior Horesh. 5543-5547 [doi]

Extreme-Point Pursuit for Unit-Modulus OptimizationMingjie Shao, Qi Dai, Wing-Kin Ma. 5548-5552 [doi]

Generalized Matching Pursuits for the Sparse Optimization of Separable ObjectivesSebastian Ament, Carla P. Gomes. 5553-5557 [doi]

Delta Distancing: A Lifting Approach to Localizing Items from User ComparisonsAndrew D. McRae, Austin Xu, Jihui Jin, Namrata Nadagouda, Nauman Ahad, Peimeng Guan, Santhosh Karnik, Mark A. Davenport. 5558-5562 [doi]

Dual Path Graph Convolutional NetworksYunhe Li, Yaochen Hu, Yingxue Zhang. 5563-5567 [doi]

On the Stability of Low Pass Graph Filter with a Large Number of Edge RewiresHoang-Son Nguyen, Yiran He, Hoi-To Wai. 5568-5572 [doi]

Spatio-Temporal Graph Complementary Scattering NetworksZida Cheng, Siheng Chen, Ya Zhang 0002. 5573-5577 [doi]

Convolutional Filtering in Simplicial ComplexesElvin Isufi, Maosheng Yang. 5578-5582 [doi]

Annihilation Filter Approach for Estimating Graph Dynamics from Diffusion ProcessesArun Venkitaraman, Pascal Frossard. 5583-5587 [doi]

Learning Gaussian Graphical Models with Differing Pairwise Sample SizesLili Zheng, Genevera I. Allen. 5588-5592 [doi]

r-Local Unlabeled Sensing: Improved Algorithm and ApplicationsAhmed Ali Abbasi, Abiy Tasissa, Shuchin Aeron. 5593-5597 [doi]

Federated Over-Air Robust Subspace Tracking from Missing DataPraneeth Narayanamurthy, Namrata Vaswani, Aditya Ramamoorthy. 5598-5602 [doi]

On Continuous-Domain Inverse Problems with Sparse Superpositions of Decaying Sinusoids as SolutionsRahul Parhi, Robert D. Nowak. 5603-5607 [doi]

Multiplication-Avoiding Variant of Power Iteration with ApplicationsHongyi Pan, Diaa Badawi, Runxuan Miao, Erdem Koyuncu, Ahmet Enis Çetin. 5608-5612 [doi]

Bona Fide Riesz Projections for Density EstimationPol del Aguila Pla, Michael Unser. 5613-5616 [doi]

Blind Modulo Analog-to-Digital Conversion of Vector ProcessesAmir Weiss, Everest W. Huang, Or Ordentlich, Gregory W. Wornell. 5617-5621 [doi]

Joint Radar-Communications Processing from A Dual-Blind Deconvolution PerspectiveEdwin Vargas, Kumar Vijay Mishra, Roman Jacome, Brian M. Sadler, Henry Arguello. 5622-5626 [doi]

Fast Multiscale Diffusion On GraphsSibylle Marcotte, Amélie Barbe, Rémi Gribonval, Titouan Vayer, Marc Sebban, Pierre Borgnat, Paulo Gonçalves. 5627-5631 [doi]

Adaptive Variational Nonlinear Chirp Mode DecompositionHao Liang, Xinghao Ding, Andreas Jakobsson, Xiaotong Tu, Yue Huang 0001. 5632-5636 [doi]

Differentiate-and-Fire Time-Encoding of Finite-Rate-of-Innovation SignalsAbijith Jagannath Kamath, Chandra Sekhar Seelamantula. 5637-5641 [doi]

Graph Learning Information CriterionKoki Yamada, Yuichi Tanaka 0001. 5642-5646 [doi]

Embedding Signals on Graphs with Unbalanced Diffusion Earth Mover's DistanceAlexander Tong 0001, Guillaume Huguet, Dennis L. Shung, Amine Natik, Manik Kuchroo, Guillaume Lajoie, Guy Wolf, Smita Krishnaswamy. 5647-5651 [doi]

Message Passing-Based Cooperative Localization with Embedded Particle FlowLukas Wielandner, Erik Leitinger, Florian Meyer, Bryan Teague, Klaus Witrisal. 5652-5656 [doi]

A Framework for Private Communication with Secret Block StructureMaxime Ferreira Da Costa, Urbashi Mitra. 5657-5661 [doi]

LMS and NLMS Algorithms for the Identification of Impulse Responses with Intrinsic Symmetric or Antisymmetric PropertiesJacob Benesty, Constantin Paleologu, Silviu Ciochina, Eduardo Vinicius Kuhn, Khaled Jamal Bakri, Rui Seara. 5662-5666 [doi]

Decentralized Learning in the Presence of Low-Rank NoiseRoula Nassif, Virginia Bordignon, Stefan Vlaski, Ali H. Sayed. 5667-5671 [doi]

Adaptive Diffusion with Compressed CommunicationMarco Carpentiero, Vincenzo Matta, Ali H. Sayed. 5672-5676 [doi]

Joint Centrality Estimation and Graph Identification from Mixture of Low Pass Graph SignalsYiran He, Hoi-To Wai. 5677-5681 [doi]

Fairness-Aware Selective Sampling on Attributed GraphsOyku Deniz Kose, Yanning Shen. 5682-5686 [doi]

A Simple Graph Neural Network via Layer SnifferDingyi Zeng, Li Zhou, Wanlong Liu, Hong Qu, Wenyu Chen. 5687-5691 [doi]

New Improved Criterion for Model Selection in Sparse High-Dimensional Linear Regression ModelsPrakash B. Gohain, Magnus Jansson. 5692-5696 [doi]

On the Use of Geodesic Triangles between Gaussian Distributions for Classification ProblemsAntoine Collas, Florent Bouchard, Guillaume Ginolhac, Arnaud Breloy, Chengfang Ren, Jean Philippe Ovarlez. 5697-5701 [doi]

A Non-Convex Proximal Approach for Centroid-Based ClassificationMewe-Hezoudah Kahanam, Laurent Le Brusquet, Ségolène Martin, Jean-Christophe Pesquet. 5702-5706 [doi]

Extending the Use of MDL for High-Dimensional Problems: Variable Selection, Robust Fitting, and Additive ModelingZhenyu Wei, Raymond K. W. Wong, Thomas C. M. Lee. 5707-5711 [doi]

Clustering Complex Subspaces in Large DimensionsRoberto Pereira, Xavier Mestre, David Gregoratti. 5712-5716 [doi]

Robust Classification with Flexible Discriminant Analysis in Heterogeneous DataPierre Houdouin, Andrew Wang, Matthieu Jonckheere, Frédéric Pascal 0001. 5717-5721 [doi]

Residual Recovery Algorithm for Modulo SamplingEyar Azar, Satish Mulleti, Yonina C. Eldar. 5722-5726 [doi]

Operator Formulation for Linear Transformations and Signal Estimation in the Joint Spatial-Slepian DomainAdeem Aslam, Zubair Khalid. 5727-5731 [doi]

Sampling Set Selection for Graph Signals under Arbitrary Signal PriorsJunya Hara, Yuichi Tanaka 0001. 5732-5736 [doi]

Determining Joint Periodicities in Multi-Time Data with Sampling UncertaintiesDavid Svedberg, Filip Elvander, Andreas Jakobsson. 5737-5741 [doi]

Unlimited Sampling with Local AveragesDorian Florescu, Ayush Bhandari. 5742-5746 [doi]

Modulo Event-Driven Sampling: System Identification and Hardware ExperimentsDorian Florescu, Ayush Bhandari. 5747-5751 [doi]

Point-Mass Filter with Decomposition of Transient DensityPetr Tichavský, Ondrej Straka, Jindrich Duník. 5752-5756 [doi]

Cramer-Rao Bound for the Time-Varying PoissonXinhui Rong, Victor Solo. 5757-5761 [doi]

Model Selection via Misspecified Cramér-Rao Bound MinimizationNadav E. Rosenthal, Joseph Tabrikian. 5762-5766 [doi]

Robust Parameter Estimation Based on the K-DivergenceYair Sorek, Koby Todros. 5767-5771 [doi]

A Convex Formulation for the Robust Estimation of Multivariate Exponential Power ModelsNora Ouzir, Jean-Christophe Pesquet, Frédéric Pascal 0001. 5772-5776 [doi]

Conditionally Factorized Variational Bayes with Importance SamplingRunze Gan, Simon J. Godsill. 5777-5781 [doi]

On the False Alarm Probability of the Normalized Matched Filter for Off-Grid Target DetectionPierre Develter, Jonathan Bosse, Olivier Rabaste, Philippe Forster, Jean Philippe Ovarlez. 5782-5786 [doi]

A Two-Stream Information Fusion Approach to Abnormal Event Detection in VideoYuxing Yang, Zeyu Fu, Syed Mohsen Naqvi. 5787-5791 [doi]

A Test for Conditional Correlation Between Random Vectors Based on Weighted U-StatisticsMarc Vilà, Jaume Riba. 5792-5796 [doi]

Semi-Supervised Standardized Detection of Periodic Signals with Application to Exoplanet DetectionSophia Sulis, David Mary, Lionel Bigot. 5797-5801 [doi]

Joint Normality Test Via Two-Dimensional ProjectionSara ElBouch, Olivier J. J. Michel, Pierre Comon. 5802-5806 [doi]

Quickest Detection of Composite and Non-Stationary Changes with Application to Pandemic MonitoringYuchen Liang, Venugopal V. Veeravalli. 5807-5811 [doi]

A Stimuli-Relevant Directed Dependency Index for Time SeriesPayam Shahsavari Baboukani, Sergios Theodoridis, Jan Østergaard. 5812-5816 [doi]

Joint Inference of Multiple Graphs with Hidden Variables from Stationary Graph SignalsSamuel Rey, Andrei Buciulea, Madeline Navarro, Santiago Segarra, Antonio G. Marques. 5817-5821 [doi]

Sparse-Group Log-Sum Penalized Graphical Model Learning For Time SeriesJitendra K. Tugnait. 5822-5826 [doi]

Wide-Sense Stationarity and Spectral Estimation for Generalized Graph SignalXingchao Jian, Wee-Peng Tay. 5827-5831 [doi]

Blind Extraction of Equitable Partitions from Graph SignalsMichael Scholkemper, Michael T. Schaub. 5832-5836 [doi]

Learning Sparse Graphs with a Core-Periphery StructureSravanthi Gurugubelli, Sundeep Prabhakar Chepuri. 5837-5841 [doi]

Optimal Combination Policies for Adaptive Social LearningPing Hu, Virginia Bordignon, Stefan Vlaski, Ali H. Saye. 5842-5846 [doi]

Seismic Fault Identification Using Graph High-Frequency Components as Input to Graph Convolutional NetworkPatitapaban Palo, Aurobinda Routray. 5847-5851 [doi]

Distributed Graph Learning With Smooth Data PriorsIsabela Cunha Maia Nobre, Mireille El Gheche, Pascal Frossard. 5852-5856 [doi]

AdverSparse: An Adversarial Attack Framework for Deep Spatial-Temporal Graph Neural NetworksJiayu Li, Tianyun Zhang, Shengmin Jin, Makan Fardad, Reza Zafarani. 5857-5861 [doi]

Multimodal Graph Signal Denoising Via Twofold Graph Smoothness Regularization with Deep Algorithm UnrollingMasatoshi Nagahama, Yuichi Tanaka 0001. 5862-5866 [doi]

Heterogeneous Graph Node Classification With Multi-Hops Relation FeaturesXiaolong Xu, Lingjuan Lyu, Hong Jin, Weiqiang Wang, Shuo Jia. 5867-5871 [doi]

Signal Recovery from Inconsistent Nonlinear ObservationsPatrick L. Combettes, Zev Woodstock. 5872-5876 [doi]

Perfect Reconstruction of Classes of Non-Bandlimited Signals from Projections with Unknown AnglesRenke Wang, Roxana Alexandru, Pier Luigi Dragotti. 5877-5881 [doi]

Short-and-Sparse Deconvolution Via Rank-One Constrained Optimization (Roco)Cheng Cheng, Wei Dai. 5882-5886 [doi]

Blind Equalization of Moving Average Channels Over Galois FieldsArie Yeredor. 5887-5891 [doi]

Sparse Subspace Tracking in High DimensionsLe Trung Thanh, Karim Abed-Meraim, Adel Hafiane, Nguyen Linh-Trung. 5892-5896 [doi]

How Can a Cognitive Radar Mask its Cognition?Kunal Pattanayak, Vikram Krishnamurthy, Christopher Berry. 5897-5901 [doi]

RTSNet: Deep Learning Aided Kalman SmoothingXiaoyong Ni, Guy Revach, Nir Shlezinger, Ruud J. G. van Sloun, Yonina C. Eldar. 5902-5906 [doi]

Generalized Autocorrelation Analysis for Multi-Target DetectionYe'Ela Shalit, Ran Weber, Asaf Abas, Shay Kreymer, Tamir Bendory. 5907-5911 [doi]

Approximating The Likelihood Ratio in Linear-Gaussian State-Space Models for Change DetectionKostas Tsampourakis, Víctor Elvira. 5912-5916 [doi]

Learning Expanding Graphs for Signal InterpolationBishwadeep Das, Elvin Isufi. 5917-5921 [doi]

Hodgelets: Localized Spectral Representations of Flows On Simplicial ComplexesT. Mitchell Roddenberry, Florian Frantzen, Michael T. Schaub, Santiago Segarra. 5922-5926 [doi]

Recovery of Graph Signals From Sign MeasurementsWenwei Liu, Hui Feng, Kaixuan Wang, Feng Ji, Bo Hu. 5927-5931 [doi]

Edge Sampling of Graphs Based on Edge SmoothnessKenta Yanagiya, Koki Yamada, Yasuo Katsuhara, Tomoya Takatani, Yuichi Tanaka 0001. 5932-5936 [doi]

WLS Design of Arma Graph Filters Using Iterative Second-Order Cone ProgrammingDarukeesan Pakiyarajah, Chamira U. S. Edussooriya. 5937-5941 [doi]

Linear-Time Sampling on Signed Graphs Via Gershgorin Disc Perfect AlignmentChinthaka Dinesh, Saghar Bagheri, Gene Cheung, Ivan V. Bajic. 5942-5946 [doi]

Privacy-Preserving Federated Multi-Task Linear Regression: A One-Shot Linear Mixing Approach Inspired By Graph RegularizationHarlin Lee, Andrea L. Bertozzi, Jelena Kovacevic, Yuejie Chi. 5947-5951 [doi]

Eco-Fedsplit: Federated Learning with Error-Compensated CompressionSarit Khirirat, Sindri Magnússon, Mikael Johansson 0001. 5952-5956 [doi]

A Time Encoding Approach to Training Spiking Neural NetworksKaren Adam. 5957-5961 [doi]

Transient Analysis of Clustered Multitask Diffusion RLS AlgorithmWei Gao 0021, Jie Chen 0022, Cédric Richard, Wentao Shi, QunFei Zhang. 5962-5966 [doi]

Improving Inference for Spatial Signals by Contextual False Discovery RatesMartin Gölz, Abdelhak M. Zoubir, Visa Koivunen. 5967-5971 [doi]

Estimation of the Admittance Matrix in Power Systems Under Laplacian and Physical ConstraintsMorad Halihal, Tirza Routtenberg. 5972-5976 [doi]

Incipient Fault Severity Estimation Using Local Mahalanobis DistanceJunjie Yang, Claude Delpha. 5977-5981 [doi]

Gridless DOA Estimation Under the Multi-Frequency ModelYifan Wu, Michael B. Wakin, Peter Gerstoft. 5982-5986 [doi]

Orthogonal Nonnegative Matrix Tri-Factorization for Community Detection in Multiplex NetworksMeiby Ortiz-Bouza, Selin Aviyente. 5987-5991 [doi]

Studying Three Families of Divergences to Compare Wide-Sense Stationary Gaussian Arma ProcessesÉric Grivel. 5992-5996 [doi]

Multivariate Multiscale Cosine Similarity EntropyHongjian Xiao, Theerasak Chanwimalueang, Danilo P. Mandic. 5997-6001 [doi]

Zeroth-Order Randomized Subspace Newton MethodsErik Berglund, Sarit Khirirat, Xiaoyu Wang. 6002-6006 [doi]

Fast and Stable Convergence of Online SGD for CV@R-Based Risk-Aware LearningDionysios S. Kalogerias. 6007-6011 [doi]

Deep Initialization for Guaranteed Unimodular Quadratic ProgrammingAmrutha Varshini Ramesh, Mojtaba Soltanalian. 6012-6016 [doi]

Continuous Speech Separation with Recurrent Selective Attention NetworkYixuan Zhang, Zhuo Chen 0006, Jian Wu 0027, Takuya Yoshioka, Peidong Wang, Zhong Meng, Jinyu Li 0001. 6017-6021 [doi]

SA-SDR: A Novel Loss Function for Separation of Meeting Style DataThilo von Neumann, Keisuke Kinoshita, Christoph Böddeker, Marc Delcroix, Reinhold Haeb-Umbach. 6022-6026 [doi]

VarArray: Array-Geometry-Agnostic Continuous Speech SeparationTakuya Yoshioka, Xiaofei Wang, Dongmei Wang, Min Tang, Zirun Zhu, Zhuo Chen 0006, Naoyuki Kanda. 6027-6031 [doi]

All-Neural Beamformer for Continuous Speech SeparationZhuohuang Zhang, Takuya Yoshioka, Naoyuki Kanda, Zhuo Chen 0006, Xiaofei Wang, Dongmei Wang, Sefik Emre Eskimez. 6032-6036 [doi]

Mining Hard Samples Locally And Globally For Improved Speech SeparationKai Wang, Yizhou Peng, Hao Huang, Ying Hu, Sheng Li 0010. 6037-6041 [doi]

Audio-Visual Multi-Channel Speech Separation, Dereverberation and RecognitionGuinan Li, Jianwei Yu, Jiajun Deng, Xunying Liu, Helen Meng. 6042-6046 [doi]

Best of Both Worlds: Multi-Task Audio-Visual Automatic Speech Recognition and Active Speaker DetectionOtavio Braga, Olivier Siohan. 6047-6051 [doi]

End-To-End Multi-Modal Speech Recognition with Air and Bone Conducted SpeechJunqi Chen, Mou Wang, Xiao-lei Zhang, Zhiyong Huang, Susanto Rahardja. 6052-6056 [doi]

End-To-End Speech Recognition with Joint Dereverberation of Sub-Band Autoregressive EnvelopesRohit Kumar, Anurenjan Purushothaman, Anirudh Sreeram, Sriram Ganapathy. 6057-6061 [doi]

Improving Noise Robustness of Contrastive Speech Representation Learning with Speech ReconstructionHeming Wang, Yao Qian, Xiaofei Wang, Yiming Wang, Chengyi Wang 0002, Shujie Liu 0001, Takuya Yoshioka, Jinyu Li 0001, DeLiang Wang. 6062-6066 [doi]

Multi-Channel Multi-Speaker ASR Using 3D Spatial FeatureYiwen Shao, Shi-Xiong Zhang, Dong Yu. 6067-6071 [doi]

Improving Cross-Lingual Speech Synthesis with Triplet Training SchemeJianhao Ye, Hongbin Zhou, Zhiba Su, Wendi He, Kaimeng Ren, Lin Li, Heng Lu. 6072-6076 [doi]

Improving Phonetic Realizations in its by Using Phoneme-Aligned GraphemesManish Sharma, Yizhi Hong, Emily Kaplan, Siamak Tazari, Rob Clark. 6077-6081 [doi]

Context-Aware Mask Prediction Network for End-to-End Text-Based Speech EditingTao Wang, Jiangyan Yi, Liqun Deng, Ruibo Fu, Jianhua Tao, Zhengqi Wen. 6082-6086 [doi]

A Study on the Efficacy of Model Pre-Training In Developing Neural Text-to-Speech SystemGuangyan Zhang, Yichong Leng, Daxin Tan, Ying Qin, Kaitao Song, Xu Tan 0003, Sheng Zhao, Tan Lee. 6087-6091 [doi]

One TTS Alignment to Rule Them AllRohan Badlani, Adrian Lancucki, Kevin J. Shih, Rafael Valle, Wei Ping, Bryan Catanzaro. 6092-6096 [doi]

Capitalization Normalization for Language Modeling with an Accurate and Efficient Hierarchical RNN ModelHao Zhang, You-Chi Cheng, Shankar Kumar, W. Ronny Huang, Mingqing Chen, Rajiv Mathews. 6097-6101 [doi]

Enhance Rnnlms with Hierarchical Multi-Task Learning for ASRMinguang Song, Yunxin Zhao. 6102-6106 [doi]

Neural-FST Class Language Model for End-to-End Speech RecognitionAntoine Bruguier, Duc Le, Rohit Prabhavalkar, Dangna Li, Zhe Liu, Bo Wang, Eun Chang, Fuchun Peng, Ozlem Kalinli, Michael L. Seltzer. 6107-6111 [doi]

LatticeBART: Lattice-to-Lattice Pre-Training for Speech RecognitionLingfeng Dai, Lu Chen, Zhikai Zhou, Kai Yu. 6112-6116 [doi]

RescoreBERT: Discriminative Speech Recognition Rescoring With BertLiyan Xu, Yile Gu, Jari Kolehmainen, Haidar Khan, Ankur Gandhe, Ariya Rastrow, Andreas Stolcke, Ivan Bulyko. 6117-6121 [doi]

Hybrid sub-word segmentation for handling long tail in morphologically rich low resource languagesSreeja Manghat, Sreeram Manghat, Tanja Schultz. 6122-6126 [doi]

Self-Supervised Speaker Verification with Simple Siamese Network and Self-Supervised RegularizationMufan Sang, HaoQi Li, Fang Liu, Andrew O. Arnold, Li Wan. 6127-6131 [doi]

Self-Supervised Speaker Recognition Training using Human-Machine DialoguesMetehan Cekic, Ruirui Li, Zeya Chen, Yuguang Yang 0004, Andreas Stolcke, Upamanyu Madhow. 6132-6136 [doi]

Multi-Task Voice Activated Framework Using Self-Supervised LearningShehzeen Hussain, Van Nguyen, Shuhua Zhang, Erik Visser. 6137-6141 [doi]

Self-Supervised Speaker Recognition with Loss-Gated LearningRuijie Tao, Kong-Aik Lee, Rohan Kumar Das, Ville Hautamäki, Haizhou Li 0001. 6142-6146 [doi]

Large-Scale Self-Supervised Speech Representation Learning for Automatic Speaker VerificationZhengyang Chen, Sanyuan Chen, Yu Wu 0012, Yao Qian, Chengyi Wang 0002, Shujie Liu 0001, Yanmin Qian, Michael Zeng 0001. 6147-6151 [doi]

Unispeech-Sat: Universal Speech Representation Learning With Speaker Aware Pre-TrainingSanyuan Chen, Yu Wu 0012, Chengyi Wang 0002, Zhengyang Chen, Zhuo Chen, Shujie Liu 0001, Jian Wu 0027, Yao Qian, Furu Wei, Jinyu Li 0001, Xiangzhan Yu. 6152-6156 [doi]

Carina - A Corpus of Aligned German Read Speech Including AnnotationsHannes Kath, Simon Stone, Stefan Rapp, Peter Birkholz. 6157-6161 [doi]

Towards Measuring Fairness in Speech Recognition: Casual Conversations Dataset TranscriptionsChunxi Liu, Michael Picheny, Leda Sari, Pooja Chitkara, Alex Xiao, Xiaohui Zhang, Mark Chou, Andres Alvarado, Caner Hazirbas, Yatharth Saraf. 6162-6166 [doi]

M2Met: The Icassp 2022 Multi-Channel Multi-Party Meeting Transcription ChallengeFan Yu, Shiliang Zhang, Yihui Fu, Lei Xie 0001, Siqi Zheng, Zhihao Du, Weilong Huang, Pengcheng Guo, Zhijie Yan, Bin Ma, Xin Xu, Hui Bu. 6167-6171 [doi]

ADIMA: Abuse Detection In Multilingual AudioVikram Gupta, Rini A. Sharon, Ramit Sawhney, Debdoot Mukherjee. 6172-6176 [doi]

Anno-MI: A Dataset of Expert-Annotated Counselling DialoguesZixiu Wu, Simone Balloccu, Vivek Kumar 0007, Rim Helaoui, Ehud Reiter, Diego Reforgiato Recupero, Daniele Riboni. 6177-6181 [doi]

WENETSPEECH: A 10000+ Hours Multi-Domain Mandarin Corpus for Speech RecognitionBinbin Zhang, Hang Lv 0001, Pengcheng Guo, Qijie Shao, Chao Yang, Lei Xie 0001, Xin Xu, Hui Bu, Xiaoyu Chen, Chenchen Zeng, Di Wu, Zhendong Peng. 6182-6186 [doi]

Wavebender GAN: An Architecture for Phonetically Meaningful Speech ManipulationGustavo Teodoro Döhler Beck, Ulme Wennberg, Zofia Malisz, Gustav Eje Henter. 6187-6191 [doi]

FRE-GAN 2: Fast and Efficient Frequency-Consistent Audio SynthesisSang-Hoon Lee, Ji-Hoon Kim, Kangeun Lee, Seong-Whan Lee. 6192-6196 [doi]

r-G2P: Evaluating and Enhancing Robustness of Grapheme to Phoneme Conversion by Controlled Noise Introducing and Contextual Information IncorporationChendong Zhao, Jianzong Wang, Xiaoyang Qu, Haoqian Wang, Jing Xiao 0006. 6197-6201 [doi]

Neural Grapheme-To-Phoneme Conversion with Pre-Trained Grapheme ModelsLu Dong, Zhi-qiang Guo, Chao-Hong Tan, Ya-Jun Hu, Yuan Jiang 0006, Zhen-Hua Ling. 6202-6206 [doi]

ISTFTNET: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating Inverse Short-Time Fourier TransformTakuhiro Kaneko, Kou Tanaka, Hirokazu Kameoka, Shogo Seki. 6207-6211 [doi]

Acoustic Application of Phase Reconstruction Algorithms in OpticsTomoki Kobayashi, Tomoro Tanaka, Kohei Yatabe, Yasuhiro Oikawa. 6212-6216 [doi]

CPT: Cross-Modal Prefix-Tuning for Speech-To-Text TranslationYukun Ma, Trung Hieu Nguyen, Bin Ma. 6217-6221 [doi]

Tackling Data Scarcity in Speech Translation Using Zero-Shot Multilingual Machine Translation TechniquesTu Anh Dinh, Danni Liu, Jan Niehues. 6222-6226 [doi]

Improving End-To-End Speech Translation Model with Bert-Based Contextual InformationJeong-Uk Bang, Min-Kyu Lee, Seung Yun, Sang-hun Kim. 6227-6231 [doi]

Context-Adaptive Document-Level Neural Machine TranslationLinlin Zhang, Zhirui Zhang, Boxing Chen, Weihua Luo, Luo Si. 6232-6236 [doi]

Integrating Multiple ASR Systems into NLP Backend with Attention FusionTakatomo Kano, Atsunori Ogawa, Marc Delcroix, Shinji Watanabe 0001. 6237-6241 [doi]

ISOMETRIC MT: Neural Machine Translation for Automatic DubbingSurafel Melaku Lakew, Yogesh Virkar, Prashant Mathur, Marcello Federico. 6242-6246 [doi]

Automatic Depression Detection: an Emotional Audio-Textual Corpus and A Gru/Bilstm-Based ModelYing Shen, Huiyu Yang, Lin Lin. 6247-6251 [doi]

Multimodal Depression Classification using Articulatory Coordination Features and Hierarchical Attention Based text EmbeddingsNadee Seneviratne, Carol Y. Espy-Wilson. 6252-6256 [doi]

Thin Slices of Depression: Improving Depression Detection Performance Through Data SegmentationRawan Alsarrani, Anna Esposito, Alessandro Vinciarelli. 6257-6261 [doi]

Climate and Weather: Inspecting Depression Detection via Emotion RecognitionWen Wu, Mengyue Wu, Kai Yu 0004. 6262-6266 [doi]

Fraug: A Frame Rate Based Data Augmentation Method for Depression Detection from Speech SignalsVijay Ravi, Jinhan Wang, Jonathan Flint, Abeer Alwan. 6267-6271 [doi]

Privacy Sensitive Speech Analysis Using Federated Learning to Assess DepressionSuhas BN, Saeed Abdullah. 6272-6276 [doi]

A Time Domain Progressive Learning Approach with SNR Constriction for Single-Channel Speech Enhancement and RecognitionZhaoxu Nian, Jun Du, Yu Ting Yeung, Renyu Wang. 6277-6281 [doi]

A Two-Step Approach to Leverage Contextual Data: Speech Recognition in Air-Traffic CommunicationsIuliia Nigmatulina, Juan Zuluaga-Gomez, Amrutha Prasad, Seyyed Saeed Sarfjoo, Petr Motlícek. 6282-6286 [doi]

Learning to Enhance or Not: Neural Network-Based Switching of Enhanced and Observed Signals for Overlapping Speech RecognitionHiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Naoyuki Kamo, Takafumi Moriya. 6287-6291 [doi]

Interactive Feature Fusion for End-to-End Noise-Robust Speech RecognitionYuchen Hu, Nana Hou, Chen Chen, Eng Siong Chng. 6292-6296 [doi]

Speaker Reinforcement Using Target Source Extraction for Robust Automatic Speech RecognitionCatalin Zorila, Rama Doddipatla. 6297-6301 [doi]

Mitigating Closed-Model Adversarial Examples with Bayesian Neural Modeling for Enhanced End-to-End Speech RecognitionChao-Han Huck Yang, Zeeshan Ahmed, Yile Gu, Joseph Szurley, Roger Ren, Linda Liu, Andreas Stolcke, Ivan Bulyko. 6302-6306 [doi]

Referee: Towards Reference-Free Cross-Speaker Style Transfer with Low-Quality Data for Expressive Speech SynthesisSongxiang Liu, Shan Yang, Dan Su 0002, Dong Yu 0001. 6307-6311 [doi]

PVAE-TTS: Adaptive Text-to-Speech via Progressive Style AdaptationJi-Hyun Lee, Sang-Hoon Lee, Ji-Hoon Kim, Seong-Whan Lee. 6312-6316 [doi]

EMOQ-TTS: Emotion Intensity Quantization for Fine-Grained Controllable Emotional Text-to-SpeechChae-Bin Im, Sang-Hoon Lee, Seung-bin Kim, Seong-Whan Lee. 6317-6321 [doi]

Joint and Adversarial Training with ASR for Expressive Speech SynthesisKaili Zhang, Cheng Gong, Wenhuan Lu, Longbiao Wang, Jianguo Wei, Dawei Liu. 6322-6326 [doi]

MSDTRON: A High-Capability Multi-Speaker Speech Synthesis System for Diverse Data Using Characteristic InformationQinghua Wu, Quanbo Shen, Jian Luan, Yujun Wang. 6327-6331 [doi]

SpeechSplit2.0: Unsupervised Speech Disentanglement for Voice Conversion without Tuning Autoencoder BottlenecksChak Ho Chan, Kaizhi Qian, Yang Zhang, Mark Hasegawa-Johnson. 6332-6336 [doi]

Document-Level Event Extraction via Human-Like Reading ProcessShiyao Cui, Xin Cong, Bowen Yu 0002, Tingwen Liu, Yucheng Wang, Jinqiao Shi. 6337-6341 [doi]

Generating Disentangled Arguments with Prompts: A Simple Event Extraction Framework That WorksJinghui Si, Xutan Peng, Chen Li, Haotian Xu, Jianxin Li. 6342-6346 [doi]

Multi-Role Event Argument Extraction as Machine Reading Comprehension with Argument Match OptimizationJingcong Tao, Youcheng Pan, Xinyu Li, Baotian Hu, Weihua Peng, Cuiyun Han, Xiaolong Wang 0001. 6347-6351 [doi]

BNU: A Balance-Normalization-Uncertainty Model for Incremental Event DetectionJia Li, Yunyan Zhang, Yifan Yang, Zhicheng An, Yefeng Zheng 0001. 6352-6356 [doi]

Wlinker: Modeling Relational Triplet Extraction As Word LinkingYongxiu Xu, Chuan Zhou 0001, Heyan Huang, Jing Yu, Yue Hu 0002. 6357-6361 [doi]

A Knowledge/Data Enhanced Method for Joint Event and Temporal Relation ExtractionXiaobin Zhang, Liangjun Zang, Peng Cheng, Yuqi Wang, Songlin Hu. 6362-6366 [doi]

AASIST: Audio Anti-Spoofing Using Integrated Spectro-Temporal Graph Attention NetworksJee-weon Jung, Hee-Soo Heo, Hemlata Tak, Hye-jin Shim, Joon Son Chung, Bong-Jin Lee, Ha-Jin Yu, Nicholas W. D. Evans. 6367-6371 [doi]

Estimating the Confidence of Speech Spoofing CountermeasureXin Wang 0037, Junichi Yamagishi. 6372-6376 [doi]

Two-Path GMM-ResNet and GMM-SENet for ASV Spoofing DetectionZhenchun Lei, Hui Yang 0007, Changhong Liu, Minglei Ma, Yingen Yang. 6377-6381 [doi]

Rawboost: A Raw Data Boosting and Augmentation Method Applied to Automatic Speaker Verification Anti-SpoofingHemlata Tak, Madhu R. Kamble, Jose Patino 0001, Massimiliano Todisco, Nicholas W. D. Evans. 6382-6386 [doi]

Explaining Deep Learning Models for Spoofing and Deepfake Detection with Shapley Additive ExplanationsWanying Ge, Jose Patino 0001, Massimiliano Todisco, Nicholas W. D. Evans. 6387-6391 [doi]

Multi-Task Learning Improves Synthetic Speech DetectionYichuan Mo, Shilin Wang. 6392-6396 [doi]

Massively Multilingual ASR: A Lifelong Learning SolutionBo Li 0028, Ruoming Pang, Yu Zhang 0033, Tara N. Sainath, Trevor Strohman, Parisa Haghani, Yun Zhu, Brian Farris, Neeraj Gaur, Manasa Prasad. 6397-6401 [doi]

Joint Unsupervised and Supervised Training for Multilingual ASRJunwen Bai, Bo Li 0028, Yu Zhang, Ankur Bapna, Nikhil Siddhartha, Khe Chai Sim, Tara N. Sainath. 6402-6406 [doi]

Multilingual Second-Pass Rescoring for Automatic Speech Recognition SystemsNeeraj Gaur, Tongzhou Chen, Ehsan Variani, Parisa Haghani, Bhuvana Ramabhadran, Pedro J. Moreno. 6407-6411 [doi]

Joint Modeling of Code-Switched and Monolingual ASR via Conditional FactorizationBrian Yan, Chunlei Zhang, Meng Yu 0003, Shi-Xiong Zhang, Siddharth Dalmia, Dan Berrebbi, Chao Weng, Shinji Watanabe 0001, Dong Yu 0001. 6412-6416 [doi]

Bilingual End-to-End ASR with Byte-Level SubwordsLiuhui Deng, Roger Hsiao, Arnab Ghoshal. 6417-6421 [doi]

A Configurable Multilingual Model is All You Need to Recognize All LanguagesLong Zhou, Jinyu Li 0001, Eric Sun, Shujie Liu 0001. 6422-6426 [doi]

Domain-Invariant Feature Learning for Cross Corpus Speech Emotion RecognitionYuan Gao, Shogo Okada, Longbiao Wang, Jiaxing Liu, Jianwu Dang. 6427-6431 [doi]

Multi-Stage Graph Representation Learning for Dialogue-Level Speech Emotion RecognitionYaodong Song, Jiaxing Liu, Longbiao Wang, Ruiguo Yu, Jianwu Dang. 6432-6436 [doi]

Speech Emotion Recognition with Global-Aware Fusion on Multi-Scale Feature RepresentationWenjing Zhu, Xiang Li. 6437-6441 [doi]

Representation Learning Through Cross-Modal Conditional Teacher-Student Training For Speech Emotion RecognitionSundararajan Srinivasan, Zhaocheng Huang, Katrin Kirchhoff. 6442-6446 [doi]

Not All Features are Equal: Selection of Robust Features for Speech Emotion Recognition in Noisy EnvironmentsSeong-Gyun Leem, Daniel Fulford, Jukka-Pekka Onnela, David Gard, Carlos Busso. 6447-6451 [doi]

Towards Transferable Speech Emotion Representation: On Loss Functions for Cross-Lingual Latent RepresentationsSneha Das, Nicole Nadine Lønfeldt, Anne Katrine Pagsberg, Line H. Clemmensen. 6452-6456 [doi]

Dementia Detection by Fusing Speech and Eye-Tracking RepresentationZhengyan Sheng, Zhiqiang Guo, Xin Li, Yunxia Li, Zhenhua Ling. 6457-6461 [doi]

Towards Interpretability of Speech Pause in Dementia Detection Using Adversarial LearningYouxiang Zhu, Bang Tran, Xiaohui Liang, John A. Batsis, Robert M. Roth. 6462-6466 [doi]

Using Spectral Sequence-to-Sequence Autoencoders to Assess Mild Cognitive ImpairmentMercedes Vetráb, José Vicente Egas López, Réka Balogh, Nóra Imre, Ildikó Hoffmann, László Tóth 0001, Magdolna Pákáski, János Kálmán, Gábor Gosztolya. 6467-6471 [doi]

Exploring Dementia Detection from Speech: Cross Corpus AnalysisAyimnisagul Ablimit, Catarina Botelho, Alberto Abad, Tanja Schultz, Isabel Trancoso. 6472-6476 [doi]

Experimental Investigation on STFT Phase Representations for Deep Learning-Based Dysarthric Speech DetectionParvaneh Janbakhshi, Ina Kodrasi. 6477-6481 [doi]

Dysfluency Classification in Stuttered Speech Using Deep Learning for Real-Time ApplicationsMelanie Jouaiti, Kerstin Dautenhahn. 6482-6486 [doi]

Embedding and Beamforming: All-Neural Causal Beamformer for Multichannel Speech EnhancementAndong Li, Wenzhe Liu, Chengshi Zheng, Xiaodong Li 0002. 6487-6491 [doi]

Improving Dual-Microphone Speech Enhancement by Learning Cross-Channel Features with Multi-Head AttentionXinmeng Xu, Rongzhi Gu, Yuexian Zou. 6492-6496 [doi]

TPARN: Triple-Path Attentive Recurrent Network for Time-Domain Multichannel Speech EnhancementAshutosh Pandey 0004, Buye Xu, Anurag Kumar 0003, Jacob Donley, Paul Calamia, DeLiang Wang. 6497-6501 [doi]

Multichannel Speech Enhancement Without BeamformingAshutosh Pandey 0004, Buye Xu, Anurag Kumar 0003, Jacob Donley, Paul Calamia, DeLiang Wang. 6502-6506 [doi]

Learning Filterbanks for End-to-End Acoustic BeamformingSamuele Cornell, Manuel Pariente, François Grondin, Stefano Squartini. 6507-6511 [doi]

Spatial-Temporal Graph Convolution Network for Multichannel Speech EnhancementMinghui Hao, Jingjing Yu, Luyao Zhang. 6512-6516 [doi]

Lattice Rescoring Based on Large Ensemble of Complementary Neural Language ModelsAtsunori Ogawa, Naohiro Tawara, Marc Delcroix, Shoko Araki. 6517-6521 [doi]

Continual Learning Using Lattice-Free MMI for Speech RecognitionHossein Hadian, Arseniy Gorin. 6522-6526 [doi]

Non-Autoregressive Transformer with Unified Bidirectional Decoder for Automatic Speech RecognitionChuan-Fei Zhang, Yan Liu, Tian-Hao Zhang, Song-Lu Chen, Feng Chen, Xu-Cheng Yin. 6527-6531 [doi]

Model-Based Approach for Measuring the Fairness in ASRZhe Liu, Irina-Elena Veliche, Fuchun Peng. 6532-6536 [doi]

Improving Confidence Estimation on Out-of-Domain Data for End-to-End Speech RecognitionQiujia Li, Yu Zhang 0033, David Qiu, Yanzhang He, Liangliang Cao, Philip C. Woodland. 6537-6541 [doi]

Parallel Composition of Weighted Finite-State TransducersShubho Sengupta, Vineel Pratap, Awni Y. Hannun. 6542-6546 [doi]

DGC-Vector: A New Speaker Embedding for Zero-Shot Voice ConversionRuitong Xiao, Haitong Zhang, Yue Lin. 6547-6551 [doi]

S3PRL-VC: Open-Source Voice Conversion Framework with Self-Supervised Speech RepresentationsWen-Chin Huang, Shu-Wen Yang, Tomoki Hayashi, Hung-yi Lee, Shinji Watanabe 0001, Tomoki Toda. 6552-6556 [doi]

Training Robust Zero-Shot Voice Conversion Models with Self-Supervised FeaturesTrung Dang, Dung N. Tran, Peter Chin, Kazuhito Koishida. 6557-6561 [doi]

A Comparison of Discrete and Soft Speech Units for Improved Voice ConversionBenjamin van Niekerk, Marc-André Carbonneau, Julian Zaïdi, Matthew Baas, Hugo Seuté, Herman Kamper. 6562-6566 [doi]

SIG-VC: A Speaker Information Guided Zero-Shot Voice Conversion System for Both Human Beings and MachinesHaozhe Zhang, Zexin Cai, Xiaoyi Qin, Ming Li. 6567-65571 [doi]

Robust Disentangled Variational Speech Representation Learning for Zero-Shot Voice ConversionJiachen Lian, Chunlei Zhang, Dong Yu 0001. 6572-6576 [doi]

Improving Dialogue Generation via Proactively Querying Grounded KnowledgeXiangyu Zhao, Longbiao Wang, Jianwu Dang. 6577-6581 [doi]

A Non-Hierarchical Attention Network with Modality Dropout for Textual Response Generation in Multimodal Dialogue SystemsRongyi Sun, Borun Chen, Qingyu Zhou, Yinghui Li, Yunbo Cao, Hai-Tao Zheng. 6582-6586 [doi]

Joint Learning for Addressee Selection and Response Generation in Multi-Party ConversationQi Song, Sheng Li 0006, Ping Wei, Ge Luo 0003, Xinpeng Zhang, Zhenxing Qian. 6587-6591 [doi]

Retrieval Enhanced Segment Generation Neural Network for Task-Oriented Dialogue SystemsMiaoxin Chen, Zibo Lin, Rongyi Sun, Kai Ouyang, Hai-Tao Zheng 0002, Rui Xie, Wei Wu. 6592-6596 [doi]

A Multi Domain Knowledge Enhanced Matching Network for Response Selection in Retrieval-Based Dialogue SystemsXiuyi Chen, Feilong Chen, Shuang Xu, Bo Xu 0002. 6597-6601 [doi]

Retrieval Bias Aware Ensemble Model for Conditional Sentence GenerationYiping Song, Zheng Xie, Jianping Li, Luchen Liu, Ming Zhang 0004, Zhiliang Tian. 6602-6606 [doi]

Effective and Inconspicuous Over-the-Air Adversarial Examples with Adaptive FilteringPatrick O'Reilly, Pranjal Awasthi, Aravindan Vijayaraghavan, Bryan Pardo. 6607-6611 [doi]

LRPD: Large Replay Parallel DatasetIvan Yakovlev, Mikhail Melnikov, Nikita Bukhal, Rostislav Makarov, Alexander Alenin, Nikita Torgashov, Anton Okhotnikov. 6612-6616 [doi]

Robust Self-Supervised Speaker Representation Learning Via Instance Mix RegularizationWoo Hyun Kang, Jahangir Alam, Abderrahim Fathan. 6617-6621 [doi]

Graph Convolutional Network Based Semi-Supervised Learning on Multi-Speaker Meeting DataFuchuan Tong, Siqi Zheng, Min Zhang, Yafeng Chen, Hongbin Suo, Qingyang Hong, Lin Li 0032. 6622-6626 [doi]

Large-Scale ASR Domain Adaptation Using Self- and Semi-Supervised LearningDongseong Hwang, Ananya Misra, Zhouyuan Huo, Nikhil Siddhartha, Shefali Garg, David Qiu, Khe Chai Sim, Trevor Strohman, Françoise Beaufays, Yanzhang He. 6627-6631 [doi]

Fast Contextual Adaptation with Neural Associative Memory for On-Device Personalized Speech RecognitionTsendsuren Munkhdalai, Khe Chai Sim, Angad Chandorkar, Fan Gao, Mason Chua, Trevor Strohman, Françoise Beaufays. 6632-6636 [doi]

Personalized Automatic Speech Recognition Trained on Small Disordered Speech DatasetsJimmy Tobin, Katrin Tomanek. 6637-6641 [doi]

Spell My Name: Keyword Boosted Speech RecognitionNamkyu Jung, Geonmin Kim, Joon Son Chung. 6642-6646 [doi]

Magic Dust for Cross-Lingual Adaptation of Monolingual Wav2vec-2.0Sameer Khurana, Antoine Laurent, James R. Glass. 6647-6651 [doi]

Text Adaptive Detection for Customizable Keyword SpottingYu Xi, Tian Tan 0002, Wangyou Zhang, Baochen Yang, Kai Yu 0004. 6652-6656 [doi]

Improving Adversarial Waveform Generation Based Singing Voice Conversion with Harmonic SignalsHaohan Guo, Zhiping Zhou, Fanbo Meng, Kai Liu. 6657-6661 [doi]

K-Converter: An Unsupervised Singing Voice Conversion SystemYing Zhang, Peng Yang, Jinba Xiao, Ye Bai, Hao Che, Xiaorui Wang. 6662-6666 [doi]

HiFi-SVC: Fast High Fidelity Cross-Domain Singing Voice ConversionYong Zhou 0003, Xiangju Lu. 6667-6671 [doi]

Towards Identity Preserving Normal to Dysarthric Voice ConversionWen-Chin Huang, Bence Mark Halpern, Lester Phillip Violeta, Odette Scharenborg, Tomoki Toda. 6672-6676 [doi]

Speaker Identity Preservation in Dysarthric Speech Reconstruction by Adversarial Speaker AdaptationDisong Wang, Songxiang Liu, Xixin Wu, Hui Lu, Lifa Sun, Xunying Liu, Helen Meng. 6677-6681 [doi]

Controllable Speech Representation Learning Via Voice Conversion and AIC LossYunyun Wang, Jiaqi Su, Adam Finkelstein, Zeyu Jin. 6682-6686 [doi]

VU-BERT: A Unified Framework for Visual DialogTong Ye, Shijing Si, Jianzong Wang, Rui Wang, Ning Cheng, Jing Xiao 0006. 6687-6691 [doi]

Integrating Pretrained Language Model for Dialogue Policy EvaluationHongru Wang 0003, Huimin Wang, Zezhong Wang, Kam-Fai Wong. 6692-6696 [doi]

Cache: Modeling Contribution-Aware Context Hierarchically for Long-Range Dialogue State TrackingJianshu Qi, Yuke Si, Longbiao Wang, Jianwu Dang. 6697-6701 [doi]

Robust Unstructured Knowledge Access in Conversational Dialogue with ASR ErrorsYik-Cheung Tam, Jiacheng Xu, Jiakai Zou, Zecheng Wang, Tinglong Liao, Shuhan Yuan. 6702-6706 [doi]

An Embarrassingly Simple Model for Dialogue Relation ExtractionFuzhao Xue, Aixin Sun, Hao Zhang 0048, Jinjie Ni, Eng Siong Chng. 6707-6711 [doi]

A Gaussian Mixture Model for Dialogue Generation with Dynamic Parameter Sharing StrategyQingqing Zhu, Pengfei Wu, Zhouxing Tan, Jiaxin Duan, Fengyu Lu, Junfei Liu. 6712-6716 [doi]

Attention Back-End for Automatic Speaker Verification with Multiple Enrollment UtterancesChang Zeng, Xin Wang 0037, Erica Cooper, Xiaoxiao Miao, Junichi Yamagishi. 6717-6721 [doi]

Simple Attention Module Based Speaker Verification with Iterative Noisy Label DetectionXiaoyi Qin, Na Li, Chao Weng, Dan Su 0002, Ming Li. 6722-6726 [doi]

Local Information Modeling with Self-Attention for Speaker VerificationBing Han, Zhengyang Chen, Yanmin Qian. 6727-6731 [doi]

Multi-View Self-Attention Based Transformer for Speaker RecognitionRui Wang, Junyi Ao, Long Zhou, Shujie Liu 0001, Zhihua Wei, Tom Ko, Qing Li, Yu Zhang. 6732-6736 [doi]

Multi-Query Multi-Head Attention Pooling and Inter-Topk Penalty for Speaker VerificationMiao Zhao, YuFeng Ma, Yiwei Ding, Yu Zheng, Min Liu, Minqiang Xu. 6737-6741 [doi]

Temporal Dynamic Convolutional Neural Network for Text-Independent Speaker Verification and Phonemic AnalysisSeong-Hu Kim, Hyeonuk Nam, Yong-Hwa Park. 6742-6746 [doi]

Exploiting Cross Domain Acoustic-to-Articulatory Inverted Features for Disordered Speech RecognitionShujie Hu, Shansong Liu, Xurong Xie, Mengzhe Geng, Tianzi Wang, Shoukang Hu, Mingyu Cui, Xunying Liu, Helen Meng. 6747-6751 [doi]

Conversational Speech Recognition by Learning Conversation-Level CharacteristicsKun Wei, Yike Zhang, Sining Sun, Lei Xie 0001, Long Ma. 6752-6756 [doi]

Exploring Machine Speech Chain For Domain AdaptationFengpeng Yue, Yan Deng, Lei He, Tom Ko, Yu Zhang. 6757-6761 [doi]

A Likelihood Ratio Based Domain Adaptation Method for E2E ModelsChhavi Choudhury, Ankur Gandhe, Xiaohan Ding, Ivan Bulyko. 6762-6766 [doi]

Retrieving Speaker Information from Personalized Acoustic Models for Speech RecognitionSalima Mdhaffar, Jean-François Bonastre, Marc Tommasi, Natalia A. Tomashenko, Yannick Estève. 6767-6771 [doi]

Non-Autoregressive End-To-End Automatic Speech Recognition Incorporating Downstream Natural Language ProcessingMotoi Omachi, Yuya Fujita, Shinji Watanabe 0001, Tianzi Wang. 6772-6776 [doi]

Toward Degradation-Robust Voice ConversionChien-Yu Huang, Kai-Wei Chang, Hung-yi Lee. 6777-6781 [doi]

Text-Free Non-Parallel Many-To-Many Voice Conversion Using Normalising FlowThomas Merritt, Abdelhamid Ezzerg, Piotr Bilinski, Magdalena Proszewska, Kamil Pokora, Roberto Barra-Chicote, Daniel Korzekwa. 6782-6786 [doi]

Direct Noisy Speech Modeling for Noisy-To-Noisy Voice ConversionChao Xie, Yi-Chiao Wu, Patrick Lumban Tobing, Wen-Chin Huang, Tomoki Toda. 6787-6791 [doi]

One-Shot Voice Conversion For Style Transfer Based On Speaker AdaptationZhichao Wang, Qicong Xie, Tao Li, Hongqiang Du, Lei Xie 0001, Pengcheng Zhu, Mengxiao Bi. 6792-6796 [doi]

Cross-Speaker Style Transfer for Text-to-Speech Using Data AugmentationManuel Sam Ribeiro, Julian Roth, Giulia Comini, Goeric Huybrechts, Adam Gabrys, Jaime Lorenzo-Trueba. 6797-6801 [doi]

An Investigation of Streaming Non-Autoregressive sequence-to-sequence Voice ConversionTomoki Hayashi, Kazuhiro Kobayashi, Tomoki Toda. 6802-6806 [doi]

A Universal Ordinal Regression for Assessing Phoneme-Level PronunciationShaoguang Mao, Frank K. Soong, Yan Xia, Jonathan Tien. 6807-6811 [doi]

A Transfer Learning Approach for Pronunciation ScoringMarcelo Sancinetti, Jazmín Vidal, Cyntia Bonomi, Luciana Ferrer. 6812-6816 [doi]

Exploring Non-Autoregressive End-to-End Neural Modeling for English Mispronunciation Detection and DiagnosisHsin-Wei Wang, Bi-Cheng Yan, Hsuan-Sheng Chiu, Yung-Chang Hsu, Berlin Chen. 6817-6821 [doi]

Phoneme Mispronunciation Detection By Jointly Learning To AlignBinghuai Lin, Liyuan Wang. 6822-6826 [doi]

An Approach to Mispronunciation Detection and Diagnosis with Acoustic, Phonetic and Linguistic (APL) EmbeddingsWenxuan Ye, Shaoguang Mao, Frank K. Soong, Wenshan Wu, Yan Xia, Jonathan Tien, Zhiyong Wu 0001. 6827-6831 [doi]

Masked Acoustic Unit for Mispronunciation Detection and CorrectionZhan Zhang, Yuehai Wang, Jianyi Yang. 6832-6836 [doi]

Investigating Self-Supervised Learning for Speech Enhancement and SeparationZili Huang, Shinji Watanabe 0001, Shu-Wen Yang, Paola García, Sanjeev Khudanpur. 6837-6841 [doi]

TFPSNet: Time-Frequency Domain Path Scanning Network for Speech SeparationLei Yang, Wei Liu, Weiqin Wang. 6842-6846 [doi]

Efficient Monaural Speech Separation with Multiscale Time-Delay SamplingShuang-qing Qian, Lijian Gao, Hongjie Jia, Qirong Mao. 6847-6851 [doi]

Toward mmWave-Based Sound Enhancement and SeparationMuhammed Zahid Ozturk, Chenshu Wu, Beibei Wang 0001, K. J. Ray Liu. 6852-6856 [doi]

DPT-FSNet: Dual-Path Transformer Based Full-Band and Sub-Band Fusion Network for Speech EnhancementFeng Dang, Hangting Chen, Pengyuan Zhang. 6857-6861 [doi]

Real-M: Towards Speech Separation on Real MixturesCem Subakan, Mirco Ravanelli, Samuele Cornell, François Grondin. 6862-6866 [doi]

Spoken Language Recognition with Cluster-Based ModelingStanislaw Kacprzak, Magdalena Rybicka, Konrad Kowalczyk. 6867-6871 [doi]

Phonotactic Language Recognition Using A Universal Phoneme Recognizer and A Transformer ArchitectureDavid Romero, Luis Fernando D'Haro, Marcos Estecha-Garitagoitia, Christian Salamea. 6872-6876 [doi]

Improved Language Identification Through Cross-Lingual Self-Supervised LearningAndros Tjandra, Diptanu Gon Choudhury, Frank Zhang 0001, Kritika Singh, Alexis Conneau, Alexei Baevski, Assaf Sela, Yatharth Saraf, Michael Auli. 6877-6881 [doi]

Language Adaptive Cross-Lingual Speech Representation Learning with Sparse Sharing Sub-NetworksYizhou Lu, Mingkun Huang, Xinghua Qu, Pengfei Wei, Zejun Ma. 6882-6886 [doi]

Investigation of Robustness of Hubert Features from Different Layers to Domain, Accent and Language VariationsPratik Kumar, Vrunda N. Sukhadia, S. Umesh. 6887-6891 [doi]

Combining Unsupervised and Text Augmented Semi-Supervised Learning For Low Resourced Autoregressive Speech RecognitionChak-Fai Li, Francis Keith, William Hartmann, Matthew Snover. 6892-6896 [doi]

Key-Sparse Transformer for Multimodal Speech Emotion RecognitionWeidong Chen, Xiaofeng Xing, Xiangmin Xu, Jichen Yang, Jianxin Pang. 6897-6901 [doi]

Neural Architecture Search for Speech Emotion RecognitionXixin Wu, Shoukang Hu, Zhiyong Wu 0001, Xunying Liu, Helen Meng. 6902-6906 [doi]

Multi-Lingual Multi-Task Speech Emotion Recognition Using wav2vec 2.0Mayank Sharma. 6907-6911 [doi]

LIGHT-SERNET: A Lightweight Fully Convolutional Neural Network for Speech Emotion RecognitionArya Aftab, Alireza Morsali, Shahrokh Ghaemmaghami, Benoît Champagne. 6912-6916 [doi]

Multimodal Transformer with Learnable Frontend and Self Attention for Emotion RecognitionSoumya Dutta, Sriram Ganapathy. 6917-6921 [doi]

Speech Emotion Recognition Using Self-Supervised FeaturesEdmilson Da Silva Morais, Ron Hoory, Weizhong Zhu, Itai Gat, Matheus Damasceno, Hagai Aronowitz. 6922-6926 [doi]

Using Acoustic Deep Neural Network Embeddings to Detect Multiple Sclerosis From SpeechGábor Gosztolya, László Tóth 0001, Veronika Svindt, Judit Bóna, Ildikó Hoffmann. 6927-6931 [doi]

Repetition Assessment for Speech and Language Disorders: A Study of the Logopenic Variant of Primary Progressive AphasiaR'mani Haulcy, Katerina Placek, Brian Tracey, Adam Vogel, James Glass. 6932-6936 [doi]

Speech Tasks Relevant to Sleepiness Determined With Deep Transfer LearningBang Tran, Youxiang Zhu, Xiaohui Liang, James W. Schwoebel, Lindsay A. Warrenburg. 6937-6941 [doi]

Phase Continuity: Learning Derivatives of Phase Spectrum for Speech EnhancementDoyeon Kim, Hyewon Han, Hyeon-Kyeong Shin, Soo-Whan Chung, Hong-Goo Kang. 6942-6946 [doi]

Continual Self-Training With Bootstrapped Remixing For Speech EnhancementEfthymios Tzinis, Yossi Adi, Vamsi K. Ithapu, Buye Xu, Anurag Kumar 0003. 6947-6951 [doi]

Alleviating the Loss-Metric Mismatch in Supervised Single-Channel Speech EnhancementYang Yang, Hui Zhang, Xueliang Zhang, Huaiwen Zhang. 6952-6956 [doi]

A Priori SNR Estimation for Speech Enhancement Based on PESQ-Induced Reinforcement LearningTong Lei, Haoxin Ruan, Kai Chen, Jing Lu. 6957-6961 [doi]

A Training Framework for Stereo-Aware Speech Enhancement Using Deep Neural NetworksBahareh Tolooshams, Kazuhito Koishida. 6962-6966 [doi]

Joint Magnitude Estimation and Phase Recovery Using Cycle-In-Cycle GAN for Non-Parallel Speech EnhancementGuochen Yu, Andong Li, Yutian Wang, Yinuo Guo, Hui Wang, Chengshi Zheng. 6967-6971 [doi]

Privacy Attacks for Automatic Speech Recognition Acoustic Models in A Federated Learning FrameworkNatalia A. Tomashenko, Salima Mdhaffar, Marc Tommasi, Yannick Estève, Jean-François Bonastre. 6972-6976 [doi]

VADOI: Voice-Activity-Detection Overlapping Inference for End-To-End Long-Form Speech RecognitionJinhan Wang, Xiaosu Tong, Jinxi Guo, Di He, Roland Maas. 6977-6981 [doi]

Torchaudio: Building Blocks for Audio and Speech ProcessingYao-Yuan Yang, Moto Hira, Zhaoheng Ni, Artyom Astafurov, Caroline Chen, Christian Puhrsch, David Pollack, Dmitriy Genzel, Donny Greenberg, Edward Z. Yang, Jason Lian, Jeff Hwang, Ji Chen, Peter Goldsborough, Sean Narenthiran, Shinji Watanabe 0001, Soumith Chintala, Vincent Quenneville-Bélair. 6982-6986 [doi]

Unsupervised Model Adaptation for End-to-End ASRGanesh Sivaraman, Ricardo Casal, Matt Garland, Elie Khoury 0001. 6987-6991 [doi]

Speech Recognition Using Biologically-Inspired Neural NetworksThomas Bohnstingl, Ayush Garg 0006, Stanislaw Wozniak, George Saon, Evangelos Eleftheriou, Angeliki Pantazi. 6992-6996 [doi]

ASSEM-VC: Realistic Voice Conversion by Assembling Modern Speech Synthesis TechniquesKang-Wook Kim, Seung Won Park, Junhyeok Lee, Myun-chul Joe. 6997-7001 [doi]

Minimizing Residuals for Native-Nonnative Voice Conversion in a Sparse, Anchor-Based Representation of SpeechChristopher Liberatore, Ricardo Gutierrez-Osuna. 7002-7006 [doi]

Improving Recognition-Synthesis Based any-to-one Voice Conversion with Cyclic TrainingYan-Nian Chen, Li-juan Liu, Ya-Jun Hu, Yuan Jiang 0006, Zhen-Hua Ling. 7007-7011 [doi]

NVC-Net: End-To-End Adversarial Voice ConversionBac Nguyen, Fabien Cardinaux. 7012-7016 [doi]

U-GAT-VC: Unsupervised Generative Attentional Networks for Non-Parallel Voice ConversionSheng Shi, Jiahao Shao, Yifei Hao, Yangzhou Du, Jianping Fan 0007. 7017-7021 [doi]

Disentangling Content and Fine-Grained Prosody Information Via Hybrid ASR Bottleneck Features for Voice ConversionXintao Zhao, Feng Liu, Changhe Song, Zhiyong Wu 0001, Shiyin Kang, Deyi Tuo, Helen Meng. 7022-7026 [doi]

A Commonsense Knowledge Enhanced Network with Retrospective Loss for Emotion Recognition in Spoken DialogYunhe Xie, Chengjie Sun, Zhenzhou Ji. 7027-7031 [doi]

Hierarchical and Multi-View Dependency Modelling Network for Conversational Emotion RecognitionYu-Ping Ruan, Shu-Kai Zheng, Taihao Li, Fen Wang, Guanxiong Pei. 7032-7036 [doi]

MM-DFN: Multimodal Dynamic Fusion Network for Emotion Recognition in ConversationsDou Hu 0001, Xiaolong Hou, Lingwei Wei, Lian-Xin Jiang, Yang Mo. 7037-7041 [doi]

Modeling Intention, Emotion and External World in Dialogue SystemsWei Peng 0008, Yue Hu 0002, Luxi Xing, Yuqiang Xie, Xingsheng Zhang, Yajing Sun. 7042-7046 [doi]

A Neural Prosody Encoder for End-to-End Dialogue Act ClassificationKai Wei, Dillon Knox, Martin Radfar, Thanh Tran, Markus Müller, Grant P. Strimel, Nathan Susanj, Athanasios Mouchtaris, Maurizio Omologo. 7047-7051 [doi]

Improving Contextual Coherence in Variational Personalized and Empathetic Dialogue AgentsJing Yang Lee, Kong-Aik Lee, Woon-Seng Gan. 7052-7056 [doi]

Fusion and Orthogonal Projection for Improved Face-Voice AssociationMuhammad Saad Saeed, Muhammad Haris Khan, Shah Nawaz, Muhammad Haroon Yousaf, Alessio Del Bue. 7057-7061 [doi]

OpenFEAT: Improving Speaker Identification by Open-Set Few-Shot Embedding Adaptation with TransformerK. C. Kishan, Zhenning Tan, Long Chen, Minho Jin, Eunjung Han, Andreas Stolcke, Chul Lee. 7062-7066 [doi]

Towards Lightweight Applications: Asymmetric Enroll-Verify Structure for Speaker VerificationQingjian Li, Lin Yang, Xuyang Wang, Xiaoyi Qin, Junjie Wang, Ming Li. 7067-7071 [doi]

Speaker Embedding Conversion for Backward and Cross-Channel CompatibilityTianxiang Chen, Elie Khoury 0001. 7072-7076 [doi]

Improving Fairness in Speaker Verification via Group-Adapted Fusion NetworkHua Shen, Yuguang Yang 0004, Guoli Sun, Ryan Langman, Eunjung Han, Jasha Droppo, Andreas Stolcke. 7077-7081 [doi]

CS-REP: Making Speaker Verification Networks Embracing Re-ParameterizationRuiteng Zhang, Jianguo Wei, Wenhuan Lu, Lin Zhang, Yantao Ji, Junhai Xu, Xugang Lu. 7082-7086 [doi]

Distilhubert: Speech Representation Learning by Layer-Wise Distillation of Hidden-Unit BertHeng-Jui Chang, Shu-Wen Yang, Hung-yi Lee. 7087-7091 [doi]

Improving Self-Supervised Learning for Speech Recognition with Intermediate Layer SupervisionChengyi Wang 0002, Yu Wu, Sanyuan Chen, Shujie Liu 0001, Jinyu Li 0001, Yao Qian, Zhenglu Yang. 7092-7096 [doi]

Wav2vec-Switch: Contrastive Learning from Original-Noisy Speech Pairs for Robust Speech RecognitionYiming Wang, Jinyu Li 0001, Heming Wang, Yao Qian, Chengyi Wang, Yu Wu. 7097-7101 [doi]

Efficient Adapter Transfer of Self-Supervised Speech Models for Automatic Speech RecognitionBethan Thomas, Samuel Kessler, Salah Karout. 7102-7106 [doi]

An Exploration of Hubert with Large Number of Cluster Units and Model Assessment Using Bayesian Information CriterionTakashi Maekaku, Xuankai Chang, Yuya Fujita, Shinji Watanabe 0001. 7107-7111 [doi]

Optimize Wav2vec2s Architecture for Small Training Set Through Analyzing its Pre-Trained Models Attention PatternLiu Chen, Meysam Asgari, Hiroko H. Dodge. 7112-7116 [doi]

Part-of-Speech Models Compression Methods for on-Device Grapheme-to-Phoneme ConversionMarek Kubis, Maxime Méloux, Pawel Skórzewski, Marcin Lewandowski, Gunu Jho, Hyoungmin Park. 7117-7121 [doi]

An End-to-End Chinese Text Normalization Model Based on Rule-Guided Flat-Lattice TransformerWenlin Dai, Changhe Song, Xiang Li, Zhiyong Wu 0003, Huashan Pan, Xiulin Li, Helen Meng. 7122-7126 [doi]

Chinese Spelling Text Generation of Mathematical FormulasSu Dong, Shan Liu, Sicen Liu, Buzhou Tang. 7127-7131 [doi]

Polyphone Disambiguation and Accent Prediction Using Pre-Trained Language Models in Japanese TTS Front-EndRem Hida, Masaki Hamada, Chie Kamada, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki Kumakura. 7132-7136 [doi]

Data Augmentation for Long-Tailed and Imbalanced Polyphone Disambiguation in MandarinYang Zhang, Haitong Zhang, Yue Lin. 7137-7141 [doi]

Leveraging Bilinear Attention to Improve Spoken Language UnderstandingDongsheng Chen, Zhiqi Huang, Yuexian Zou. 7142-7146 [doi]

Building Robust Spoken Language Understanding by Cross Attention Between Phoneme Sequence and ASR HypothesisZexun Wang, Yuquan Le, Yi Zhu, Yuming Zhao, Mingchao Feng, Meng Chen 0006, Xiaodong He 0002. 7147-7151 [doi]

Integration of Pre-Trained Networks with Continuous Token Interface for End-to-End Spoken Language UnderstandingSeunghyun Seo, Donghyun Kwak, Bowon Lee. 7152-7156 [doi]

Tie Your Embeddings Down: Cross-Modal Latent Spaces for End-to-end Spoken Language UnderstandingBhuvan Agrawal, Markus Müller, Samridhi Choudhary, Martin Radfar, Athanasios Mouchtaris, Ross McGowan, Nathan Susanj, Siegfried Kunzmann. 7157-7161 [doi]

Improving End-to-end Models for Set Prediction in Spoken Language UnderstandingHong-Kwang Jeff Kuo, Zoltán Tüske, Samuel Thomas 0001, Brian Kingsbury, George Saon. 7162-7166 [doi]

ESPnet-SLU: Advancing Spoken Language Understanding Through ESPnetSiddhant Arora, Siddharth Dalmia, Pavel Denisov, Xuankai Chang, Yushi Ueda, Yifan Peng, Yuekai Zhang, Sujay Kumar, Karthik Ganesan, Brian Yan, Ngoc Thang Vu, Alan W. Black, Shinji Watanabe 0001. 7167-7171 [doi]

The Coral++ Algorithm for Unsupervised Domain Adaptation of Speaker RecognitionRongjin Li, Weibin Zhang, Dongpeng Chen. 7172-7176 [doi]

Learning Domain-Invariant Transformation for Speaker VerificationHanyi Zhang, Longbiao Wang, Kong-Aik Lee, Meng Liu, Jianwu Dang, Hui Chen. 7177-7181 [doi]

Domain Robust Deep Embedding Learning for Speaker RecognitionHang-Rui Hu, Yan Song, Ying Liu, Li-Rong Dai 0001, Ian McLoughlin, Lin Liu. 7182-7186 [doi]

Tackling the Score Shift in Cross-Lingual Speaker Verification by Exploiting Language InformationJenthe Thienpondt, Brecht Desplanques, Kris Demuynck. 7187-7191 [doi]

Domain Adaptation for Speaker Recognition in Singing and Spoken VoiceAnurag Chowdhury, Austin Cozzo, Arun Ross. 7192-7196 [doi]

CDMA: Cross-Domain Distance Metric Adaptation for Speaker VerificationJianchen Li, Jiqing Han, Hongwei Song. 7197-7201 [doi]

Word Order does not Matter for Speech RecognitionVineel Pratap, Qiantong Xu, Tatiana Likhomanenko, Gabriel Synnaeve, Ronan Collobert. 7202-7206 [doi]

Contrastive Siamese Network for Semi-Supervised Speech RecognitionSoheil Khorram, Jaeyoung Kim, Anshuman Tripathi, Han Lu, Qian Zhang, Hasim Sak. 7207-7211 [doi]

Sequence Transduction with Graph-Based SupervisionNiko Moritz, Takaaki Hori, Shinji Watanabe 0001, Jonathan Le Roux. 7212-7216 [doi]

Speechmoe2: Mixture-of-Experts Model with Improved RoutingZhao You, Shulin Feng, Dan Su 0002, Dong Yu 0001. 7217-7221 [doi]

Supervised Attention in Sequence-to-Sequence Models for Speech RecognitionGene-Ping Yang, Hao Tang. 7222-7226 [doi]

End-to-End Speech Recognition from Federated Acoustic ModelsYan Gao, Titouan Parcollet, Salah Zaiem, Javier Fernández-Marqués, Pedro P. B. de Gusmao, Daniel J. Beutel, Nicholas D. Lane. 7227-7231 [doi]

HiFiDenoise: High-Fidelity Denoising Text to Speech with Adversarial NetworksLichao Zhang, Yi Ren 0006, Liqun Deng, Zhou Zhao. 7232-7236 [doi]

VISinger: Variational Inference with Adversarial Learning for End-to-End Singing Voice SynthesisYongmao Zhang, Jian Cong, Heyang Xue, Lei Xie 0001, Pengcheng Zhu, Mengxiao Bi. 7237-7241 [doi]

A Melody-Unsupervision Model for Singing Voice SynthesisSoonbeom Choi, Juhan Nam. 7242-7246 [doi]

Transformer-S2A: Robust and Efficient Speech-to-AnimationLiyang Chen, Zhiyong Wu 0001, Jun Ling, Runnan Li, Xu Tan 0003, Sheng Zhao. 7247-7251 [doi]

VCVTS: Multi-Speaker Video-to-Speech Synthesis Via Cross-Modal Knowledge Transfer from Voice ConversionDisong Wang, Shan Yang, Dan Su 0002, Xunying Liu, Dong Yu 0001, Helen Meng. 7252-7256 [doi]

Fast Task-Specific Adaptation in Spoken Language Assessment with Meta-LearningBinghuai Lin, Liyuan Wang. 7257-7261 [doi]

Transformer-Based Multi-Aspect Multi-Granularity Non-Native English Speaker Pronunciation AssessmentYuan Gong, Ziyi Chen, Iek Heng Chu, Peng Chang, James R. Glass. 7262-7266 [doi]

A Model for Assessor Bias in Automatic Pronunciation AssessmentJose Antonio Lopez Saenz, Thomas Hain. 7267-7271 [doi]

Unified Multimodal Punctuation Restoration Framework for Mixed-Modality CorpusYaoming Zhu, Liwei Wu, Shanbo Cheng, Mingxuan Wang. 7272-7276 [doi]

Punctuation Prediction for Streaming On-Device Speech RecognitionZhikai Zhou, Tian Tan 0002, Yanmin Qian. 7277-7281 [doi]

ASR Error Correction with Dual-Channel Self-Supervised LearningFan Zhang, Mei Tu, Song Liu, Jinyao Yan. 7282-7286 [doi]

L-SpEx: Localized Target Speaker ExtractionMeng Ge, Chenglin Xu, Longbiao Wang, Eng Siong Chng, Jianwu Dang, Haizhou Li 0001. 7287-7291 [doi]

DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation and ExtractionJiangyu Han, Yanhua Long, Lukás Burget, Jan Cernocký. 7292-7296 [doi]

Mixed Precision DNN Quantization for Overlapped Speech Separation and RecognitionJunhao Xu, Jianwei Yu, Xunying Liu, Helen Meng. 7297-7301 [doi]

The Impact of Removing Head Movements on Audio-Visual Speech EnhancementZhiqi Kang, Mostafa Sadeghi, Radu Horaud, Xavier Alameda-Pineda, Jacob Donley, Anurag Kumar 0003. 7302-7306 [doi]

VSEGAN: Visual Speech Enhancement Generative Adversarial NetworkXinmeng Xu, Yang Wang, Dongxiang Xu, Yiyuan Peng, Cong Zhang, Jie Jia, Binbin Chen. 7308-7311 [doi]

Endpoint Detection for Streaming End-to-End Multi-Talker ASRLiang Lu 0001, Jinyu Li 0001, Yifan Gong 0001. 7312-7316 [doi]

Continuous Streaming Multi-Talker ASR with Dual-Path TransducersDesh Raj, Liang Lu 0001, Zhuo Chen 0006, Yashesh Gaur, Jinyu Li 0001. 7317-7321 [doi]

Extended Graph Temporal Classification for Multi-Speaker End-to-End ASRXuankai Chang, Niko Moritz, Takaaki Hori, Shinji Watanabe 0001, Jonathan Le Roux. 7322-7326 [doi]

ADA-VAD: Unpaired Adversarial Domain Adaptation for Noise-Robust Voice Activity DetectionTaesoo Kim, Jiho Chang, Jong Hwan Ko. 7327-7331 [doi]

Multi-Channel End-To-End Neural Diarization with Distributed MicrophonesShota Horiguchi, Yuki Takashima, Paola García, Shinji Watanabe 0001, Yohei Kawaguchi. 7332-7336 [doi]

Multi-Channel Speaker Diarization Using Spatial Features for MeetingsNaijun Zheng, Na Li, Jianwei Yu, Chao Weng, Dan Su 0002, Xunying Liu, Helen Meng. 7337-7341 [doi]

Speaker Normalization for Self-Supervised Speech Emotion RecognitionItai Gat, Hagai Aronowitz, Weizhong Zhu, Edmilson Da Silva Morais, Ron Hoory. 7342-7346 [doi]

Sentiment-Aware Automatic Speech Recognition Pre-Training for Enhanced Speech Emotion RecognitionAyoub Ghriss, Bo Yang, Viktor Rozgic, Elizabeth Shriberg, Chao Wang 0018. 7347-7351 [doi]

Confidence Estimation for Speech Emotion Recognition Based on the Relationship Between Emotion Categories and PrimitivesYang Li, Constantinos Papayiannis, Viktor Rozgic, Elizabeth Shriberg, Chao Wang 0018. 7352-7356 [doi]

AuxFormer: Robust Approach to Audiovisual Emotion RecognitionLucas Goncalves, Carlos Busso. 7357-7361 [doi]

Fusing ASR Outputs in Joint Training for Speech Emotion RecognitionYuanchao Li, Peter Bell 0001, Catherine Lai. 7362-7366 [doi]

Speech Emotion Recognition with Co-Attention Based Multi-Level Acoustic InformationHeqing Zou, Yuke Si, Chen Chen, Deepu Rajan, Eng Siong Chng. 7367-7371 [doi]

Multi-Modal Acoustic-Articulatory Feature Fusion For Dysarthric Speech RecognitionZhengjun Yue, Erfan Loweimi, Zoran Cvetkovic, Heidi Christensen, Jon Barker. 7372-7376 [doi]

Raw Source and Filter Modelling for Dysarthric Speech RecognitionZhengjun Yue, Erfan Loweimi, Zoran Cvetkovic. 7377-7381 [doi]

Synthesizing Dysarthric Speech Using Multi-Speaker Tts For Dysarthric Speech RecognitionMohammad Soleymanpour, Michael T. Johnson, Rahim Soleymanpour, Jeffrey Berry. 7382-7386 [doi]

Towards Interpreting Deep Learning Models to Understand Loss of Speech Intelligibility in Speech Disorders Step 2: Contribution of the Emergence of Phonetic TraitsSondes Abderrazek, Corinne Fredouille, Alain Ghio, Muriel Lalain, Christine Meunier, Virginie Woisard. 7387-7391 [doi]

Constant Q Cepstral coefficients for classification of normal vs. Pathological infant cryHemant A. Patil, Ankur T. Patil, Aastha Kachhi. 7392-7396 [doi]

Nonverbal Sound Detection for Disordered SpeechColin Lea, Zifang Huang, Dhruv Jain, Lauren Tooley, Zeinab Liaghat, Shrinath Thelapurath, Leah Findlater, Jeffrey P. Bigham. 7397-7401 [doi]

Conditional Diffusion Probabilistic Model for Speech EnhancementYen-Ju Lu, Zhong-qiu Wang, Shinji Watanabe 0001, Alexander Richard, Cheng Yu, Yu Tsao 0001. 7402-7406 [doi]

Deepfilternet: A Low Complexity Speech Enhancement Framework for Full-Band Audio Based On Deep FilteringHendrik Schröter, Alberto N. Escalante-B., Tobias Rosenkranz, Andreas Maier 0001. 7407-7411 [doi]

MetricGAN-U: Unsupervised Speech Enhancement/ Dereverberation Based Only on Noisy/ Reverberated SpeechSzu-Wei Fu, Cheng Yu, Kuo-Hsuan Hung, Mirco Ravanelli, Yu Tsao 0001. 7412-7416 [doi]

Uformer: A Unet Based Dilated Complex & Real Dual-Path Conformer Network for Simultaneous Speech Enhancement and DereverberationYihui Fu, Yun Liu, Jingdong Li, Dawei Luo, Shubo Lv, Yukai Jv, Lei Xie. 7417-7421 [doi]

Attenuation Of Acoustic Early Reflections In Television Studios Using Pretrained Speech Synthesis Neural NetworkTomer Rosenbaum, Israel Cohen, Emil Winebrand. 7422-7426 [doi]

Non-Autoregressive ASR with Self-Conditioned Folded EncodersTatsuya Komatsu. 7427-7431 [doi]

Have Best of Both Worlds: Two-Pass Hybrid and E2E Cascading Framework for Speech RecognitionGuoli Ye, Vadim Mazalov, Jinyu Li 0001, Yifan Gong 0001. 7432-7436 [doi]

Conformer-Based Hybrid ASR System For Switchboard DatasetMohammad Zeineldeen, Jingjing Xu, Christoph Lüscher, Wilfried Michel, Alexander Gerstenberger, Ralf Schlüter, Hermann Ney. 7437-7441 [doi]

Improving Factored Hybrid HMM Acoustic Modeling without State TyingTina Raissi, Eugen Beck, Ralf Schlüter, Hermann Ney. 7442-7446 [doi]

Auditory-Based Data Augmentation for end-to-end Automatic Speech RecognitionZehai Tu, Jack Deadman, Ning Ma 0002, Jon Barker. 7447-7451 [doi]

Deliberation of Streaming RNN-Transducer by Non-Autoregressive DecodingWeiran Wang, Ke Hu, Tara N. Sainath. 7452-7456 [doi]

Neural HMMS Are All You Need (For High-Quality Attention-Free TTS)Shivam Mehta, Éva Székely, Jonas Beskow, Gustav Eje Henter. 7457-7461 [doi]

Autoregressive Variational Autoencoder with a Hidden Semi-Markov Model-Based Structured Attention for Speech SynthesisTakato Fujimoto, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda. 7462-7466 [doi]

PAMA-TTS: Progression-Aware Monotonic Attention for Stable SEQ2SEQ TTS with Accurate Phoneme Duration ControlYunchao He, Jian Luan 0001, Yujun Wang. 7467-7471 [doi]

Improving Fastspeech TTS with Efficient Self-Attention and Compact Feed-Forward NetworkYujia Xiao, Xi Wang, Lei He, Frank K. Soong. 7472-7476 [doi]

Varianceflow: High-Quality and Controllable Text-to-Speech using Variance Information via Normalizing FlowYoonhyung Lee, Jinhyeok Yang, Kyomin Jung. 7477-7481 [doi]

Mixer-TTS: Non-Autoregressive, Fast and Compact Text-to-Speech Model Conditioned on Language Model EmbeddingsOktai Tatanov, Stanislav Beliaev, Boris Ginsburg. 7482-7486 [doi]

Knowledge Augmented Bert Mutual Network in Multi-Turn Spoken DialoguesTing-Wei Wu, Biing-Hwang Juang. 7487-7491 [doi]

TINYS2I: A Small-Footprint Utterance Classification Model with Contextual Support for On-Device SLUAnastasios Alexandridis, Kanthashree Mysore Sathyendra, Grant P. Strimel, Pavel Kveton, Jon Webb, Athanasios Mouchtaris. 7492-7496 [doi]

Towards End-to-End Integration of Dialog History for Improved Spoken Language UnderstandingVishal Sunder, Samuel Thomas 0001, Hong-Kwang Jeff Kuo, Jatin Ganhotra, Brian Kingsbury, Eric Fosler-Lussier. 7497-7501 [doi]

Improving Spoken Language Understanding by Enhancing Text RepresentationThai Binh Nguyen. 7502-7506 [doi]

Multi-Task RNN-T with Semantic Decoder for Streamable Spoken Language UnderstandingXuandi Fu, Feng-Ju Chang, Martin Radfar, Kai Wei, Jing Liu, Grant P. Strimel, Kanthashree Mysore Sathyendra. 7507-7511 [doi]

A Bert Based Joint Learning Model with Feature Gated Mechanism for Spoken Language UnderstandingWang Zhang, Lei Jiang 0003, Shaokang Zhang, Shuo Wang, Jianlong Tan. 7512-7516 [doi]

MFA: TDNN with Multi-Scale Frequency-Channel Attention for Text-Independent Speaker Verification with Short UtterancesTianchi Liu 0004, Rohan Kumar Das, Kong-Aik Lee, Haizhou Li 0001. 7517-7521 [doi]

MLP-SVNET: A Multi-Layer Perceptrons Based Network for Speaker VerificationBing Han, Zhengyang Chen, Bei Liu, Yanmin Qian. 7522-7526 [doi]

Real Additive Margin Softmax for Speaker VerificationLantian Li, Ruiqian Nai, Dong Wang 0013. 7527-7531 [doi]

Statistical Pyramid Dense Time Delay Neural Network for Speaker VerificationZi-Kai Wan, Qinghua Ren, You-cai Qin, Qirong Mao. 7532-7536 [doi]

On the Importance of Different Frequency Bins for Speaker VerificationAiwen Deng, Shuai Wang, Wenxiong Kang, Feiqi Deng. 7537-7541 [doi]

Self-Knowledge Distillation via Feature Enhancement for Speaker VerificationBei Liu, Haoyu Wang, Zhengyang Chen, Shuai Wang, Yanmin Qian. 7542-7546 [doi]

Joint Ego-Noise Suppression and Keyword Spotting on Sweeping RobotsYueyue Na, Ziteng Wang, Liang Wang, Qiang Fu. 7547-7551 [doi]

Progressive Continual Learning for Spoken Keyword SpottingYizheng Huang, Nana Hou, Nancy F. Chen. 7552-7556 [doi]

Unified Speculation, Detection, and Verification Keyword SpottingGengshen Fu, Thibaud Senechal, Aaron Challenner, Tao Zhang. 7557-7561 [doi]

Learning Decoupling Features Through Orthogonality RegularizationLi Wang, Rongzhi Gu, Weiji Zhuang, Peng Gao, Yujun Wang, Yuexian Zou. 7562-7566 [doi]

Temporal Early Exiting for Streaming Speech Commands RecognitionRaphael Tang, Karun Kumar, Ji Xin, Piyush Vyas, Wenyan Li, Gefei Yang, Yajie Mao, G. Craig Murray, Jimmy Lin. 7567-7571 [doi]

A Study of Designing Compact Audio-Visual Wake Word Spotting System Based on Iterative Fine-Tuning in Neural Network PruningHengshun Zhou, Jun Du, Chao-Han Huck Yang, Shifu Xiong, Chin-Hui Lee. 7572-7576 [doi]

Prosospeech: Enhancing Prosody with Quantized Vector Pre-Training in Text-To-SpeechYi Ren 0006, Ming Lei, Zhiying Huang, Shiliang Zhang, Qian Chen, Zhijie Yan, Zhou Zhao. 7577-7581 [doi]

Prosodyspeech: Towards Advanced Prosody Model for Neural Text-to-SpeechYuanhao Yi, Lei He, Shifeng Pan, Xi Wang, Yujia Xiao. 7582-7586 [doi]

Hierarchical Prosody Modeling and Control in Non-Autoregressive Parallel Neural TTSTuomo Raitio, Jiangchuan Li, Shreyas Seshadri. 7587-7591 [doi]

Discourse-Level Prosody Modeling with a Variational Autoencoder for Non-Autoregressive Expressive Speech SynthesisNing-Qian Wu, Zhaoci Liu, Zhen-Hua Ling. 7592-7596 [doi]

Unsupervised Word-Level Prosody Tagging for Controllable Speech SynthesisYiwei Guo, Chenpeng Du, Kai Yu 0004. 7597-7601 [doi]

A Character-Level Span-Based Model for Mandarin Prosodic Structure PredictionXueyuan Chen, Changhe Song, Yixuan Zhou, Zhiyong Wu 0001, Changbin Chen, Zhongqin Wu, Helen Meng. 7602-7606 [doi]

Slim: Explicit Slot-Intent Mapping with Bert for Joint Multi-Intent Detection and Slot FillingFengyu Cai, Wanhao Zhou, Fei Mi, Boi Faltings. 7607-7611 [doi]

Joint Multiple Intent Detection and Slot Filling Via Self-DistillationLisong Chen, Peilin Zhou, Yuexian Zou. 7612-7616 [doi]

A Graph Attention Interactive Refine Framework with Contextual Regularization for Jointing Intent Detection and Slot FillingZhanbiao Zhu, Peijie Huang, Haojing Huang, Shudong Liu, Leyi Lao. 7617-7621 [doi]

Adjacency Pairs-Aware Hierarchical Attention Networks for Dialogue Intent ClassificationJiabao Xu, Peijie Huang, Youming Peng, Jiande Ding, Boxi Huang, Simin Huang. 7622-7626 [doi]

Advin: Automatically Discovering Novel Domains and Intents from User Text UtterancesNikhita Vedula, Rahul Gupta, Aman Alok, Mukund Sridhar, Shankar Ananthakrishnan. 7627-7631 [doi]

A New Data Augmentation Method for Intent Classification Enhancement and its Application on Spoken Conversation DatasetsZvi Kons, Aharon Satt, Hong-Kwang Kuo, Samuel Thomas 0001, Boaz Carmeli, Ron Hoory, Brian Kingsbury. 7632-7636 [doi]

Robust Speaker Verification with Joint Self-Supervised and Supervised LearningKai Wang, Xiaolei Zhang, Miao Zhang, Yuguang Li, Jaeyun Lee, Kiho Cho, Sung Un Park. 7637-7641 [doi]

Robust Speaker Verification Using Population-Based Data AugmentationWeiwei Lin, Man-Wai Mak. 7642-7646 [doi]

RawNeXt: Speaker Verification System For Variable-Duration Utterances With Deep Layer Aggregation And Extended Dynamic Scaling PoliciesJu-ho Kim, Hye-jin Shim, Jungwoo Heo, Ha-Jin Yu. 7647-7651 [doi]

Contrastive-mixup Learning for Improved Speaker VerificationXin Zhang, Minho Jin, Roger Cheng, Ruirui Li, Eunjung Han, Andreas Stolcke. 7652-7656 [doi]

A Study of The Robustness of Raw Waveform Based Speaker Embeddings Under Mismatched ConditionsGe Zhu, Frank Cwitkowitz, Zhiyao Duan. 7657-7661 [doi]

Disentangled Speaker Embedding for Robust Speaker VerificationLu Yi, Man-Wai Mak. 7662-7666 [doi]

Performance-Efficiency Trade-Offs in Unsupervised Pre-Training for Speech RecognitionFelix Wu, Kwangyoun Kim, Jing Pan, Kyu J. Han, Kilian Q. Weinberger, Yoav Artzi. 7667-7671 [doi]

Advancing Momentum Pseudo-Labeling with Conformer and Initialization StrategyYosuke Higuchi, Niko Moritz, Jonathan Le Roux, Takaaki Hori. 7672-7676 [doi]

Tts4pretrain 2.0: Advancing the use of Text and Speech in ASR Pretraining with Consistency and Contrastive LossesZhehuai Chen, Yu Zhang 0033, Andrew Rosenberg, Bhuvana Ramabhadran, Pedro J. Moreno, Gary Wang. 7677-7681 [doi]

SYNT++: Utilizing Imperfect Synthetic Data to Improve Speech RecognitionTing-Yao Hu, Mohammadreza Armandpour, Ashish Shrivastava, Jen-Hao Rick Chang, Hema Koppula, Oncel Tuzel. 7682-7686 [doi]

Pseudo-Labeling for Massively Multilingual Speech RecognitionLoren Lugosch, Tatiana Likhomanenko, Gabriel Synnaeve, Ronan Collobert. 7687-7691 [doi]

DP-DWA: Dual-Path Dynamic Weight Attention Network With Streaming Dfsmn-San For Automatic Speech RecognitionDongpeng Ma, Yiwen Wang, Liqiang He, Mingjie Jin, Dan Su 0002, Dong Yu 0001. 7692-7696 [doi]

SERAB: A Multi-Lingual Benchmark for Speech Emotion RecognitionNeil Scheidwasser-Clow, Mikolaj Kegler, Pierre Beckmann, Milos Cernak. 7697-7701 [doi]

Enhancing Privacy Through Domain Adaptive Noise Injection For Speech Emotion RecognitionTianTian Feng, Hanieh Hashemi, Murali Annavaram, Shrikanth S. Narayanan. 7702-7706 [doi]

Selective Multi-Task Learning For Speech Emotion Recognition Using Corpora Of Different StylesHeran Zhang, Masato Mimura, Tatsuya Kawahara, Kenkichi Ishizuka. 7707-7711 [doi]

Frontend Attributes Disentanglement for Speech Emotion RecognitionYuxuan Xi, Yan Song 0001, Li-Rong Dai 0001, Ian McLoughlin 0001, Lin Liu. 7712-7716 [doi]

Exploiting Annotators' Typed Description of Emotion Perception to Maximize Utilization of Ratings for Speech Emotion RecognitionHuang-Cheng Chou, Wei-Cheng Lin, Chi-Chun Lee, Carlos Busso. 7717-7721 [doi]

Automated Audio Captioning Using Transfer Learning and Reconstruction Latent Space Similarity RegularizationAndrew Koh, Fuzhao Xue, Chng Eng Siong. 7722-7726 [doi]

Fast-Slow Transformer for Visually Grounding SpeechPuyuan Peng, David Harwath. 7727-7731 [doi]

Audio-Visual Scene-Aware Dialog and Reasoning Using Audio-Visual Transformers with Joint Student-Teacher LearningAnkit P. Shah, Shijie Geng, Peng Gao, Anoop Cherian, Takaaki Hori, Tim K. Marks, Jonathan Le Roux, Chiori Hori. 7732-7736 [doi]

AIMNet: Adaptive Image-Tag Merging Network For Automatic Medical Report GenerationJijun Shi, Shanshe Wang, Ronggang Wang, Siwei Ma. 7737-7741 [doi]

Adversarial Input Ablation for Audio-Visual LearningDavid Xu, David Harwath. 7742-7746 [doi]

Gated Multimodal Fusion with Contrastive Learning for Turn-Taking Prediction in Human-Robot DialogueJiudong Yang, PeiYing Wang, Yi Zhu, Mingchao Feng, Meng Chen 0006, Xiaodong He 0002. 7747-7751 [doi]

Joint Far- and Near-End Speech Intelligibility Enhancement Based on the Approximated Speech Intelligibility IndexAndreas Jonas Fuglsig, Jan Østergaard, Jesper Jensen 0001, Lars Søndergaard Bertelsen, Peter Mariager, Zheng-Hua Tan. 7752-7756 [doi]

Attention-Based Fusion for Bone-Conducted and Air-Conducted Speech Enhancement in the Complex DomainHeming Wang, Xueliang Zhang, DeLiang Wang. 7757-7761 [doi]

A Two-Step Backward Compatible Fullband Speech Enhancement SystemXu Zhang, LianWu Chen, Xiguang Zheng, Xinlei Ren, Chen Zhang, Liang Guo, Bing Yu. 7762-7766 [doi]

S-DCCRN: Super Wide Band DCCRN with Learnable Complex Feature for Speech EnhancementShubo Lv, Yihui Fu, Mengtao Xing, Jiayao Sun, Lei Xie, Jun Huang, Yannan Wang, Tao Yu. 7767-7771 [doi]

Cognitive Coding Of SpeechReza Lotfidereshgi, Philippe Gournay. 7772-7776 [doi]

Speech Enhancement for Low Bit Rate Speech CodecJu Lin, Kaustubh Kalgaonkar, Qing He, Xin Lei. 7777-7781 [doi]

Consistent Training and Decoding for End-to-End Speech Recognition Using Lattice-Free MMIJinchuan Tian, Jianwei Yu, Chao Weng, Shi-Xiong Zhang, Dan Su 0002, Dong Yu 0001, Yuexian Zou. 7782-7786 [doi]

Being Greedy Does Not Hurt: Sampling Strategies for End-To-End Speech RecognitionJahn Heymann, Egor Lakomkin, Leif Rädel. 7787-7791 [doi]

Investigating Sequence-Level Normalisation For CTC-Like End-to-End ASRZeyu Zhao, Peter Bell 0001. 7792-7796 [doi]

Hierarchical Conditional End-to-End ASR with CTC and Multi-Granular Subword UnitsYosuke Higuchi, Keita Karube, Tetsuji Ogawa, Tetsunori Kobayashi. 7797-7801 [doi]

Optimizing Alignment of Speech and Language Latent Spaces for End-To-End Speech Recognition and UnderstandingWei Wang 0010, Shuo Ren, Yao Qian, Shujie Liu 0001, Yu Shi 0001, Yanmin Qian, Michael Zeng 0001. 7802-7806 [doi]

Minimum Word Error Training For Non-Autoregressive Transformer-Based Code-Switching ASRYizhou Peng, Jicheng Zhang, Haihua Xu, Hao Huang, Eng Siong Chng. 7807-7811 [doi]

Connecting Targets via Latent Topics And Contrastive Learning: A Unified Framework For Robust Zero-Shot and Few-Shot Stance DetectionRui Liu, Zheng Lin 0001, Peng Fu, Yuanxin Liu, Weiping Wang. 7812-7816 [doi]

Prior-Bert and Multi-Task Learning for Target-Aspect-Sentiment Joint DetectionCai Ke, Qingyu Xiong, Chao Wu, Zikai Liao, Hualing Yi. 7817-7821 [doi]

Cross-Target Stance Detection Via Refined Meta-LearningHuishan Ji, Zheng Lin 0001, Peng Fu, Weiping Wang. 7822-7826 [doi]

A Robust Contrastive Alignment Method for Multi-Domain Text ClassificationXuefeng Li, Hao Lei, Liwen Wang, Guanting Dong, Jinzheng Zhao, Jiachi Liu, Weiran Xu, Chunyun Zhang. 7827-7831 [doi]

Incremental User Embedding Modeling for Personalized Text ClassificationRuixue Lian, Che-Wei Huang, Yuqing Tang, Qilong Gu, Chengyuan Ma, Chenlei Guo. 7832-7836 [doi]

Block-Sparse Adversarial Attack to Fool Transformer-Based Text ClassifiersSahar Sadrizadeh, Ljiljana Dolamic, Pascal Frossard. 7837-7841 [doi]

MANNER: Multi-View Attention Network For Noise ErasureHyun-Joon Park, Byung Ha Kang, WooSeok Shin, Jin Sob Kim, Sung Won Han. 7842-7846 [doi]

Dual-Branch Attention-In-Attention Transformer for Single-Channel Speech EnhancementGuochen Yu, Andong Li, Chengshi Zheng, Yinuo Guo, Yutian Wang, Hui Wang. 7847-7851 [doi]

Time-Frequency Attention for Monaural Speech EnhancementQiquan Zhang, Qi Song, Zhaoheng Ni, Aaron Nicolson, Haizhou Li 0001. 7852-7856 [doi]

FullSubNet+: Channel Attention Fullsubnet with Complex Spectrograms for Speech EnhancementJun Chen, Zilin Wang, Deyi Tuo, Zhiyong Wu 0001, Shiyin Kang, Helen Meng. 7857-7861 [doi]

Cross-Domain Speech Enhancement with a Neural Cascade ArchitectureHeming Wang, DeLiang Wang. 7862-7866 [doi]

Speech Denoising in the Waveform Domain With Self-AttentionZhifeng Kong, Wei Ping, Ambrish Dantrey, Bryan Catanzaro. 7867-7871 [doi]

SRU++: Pioneering Fast Recurrence with Attention for Speech RecognitionJing Pan, Tao Lei 0001, Kwangyoun Kim, Kyu J. Han, Shinji Watanabe 0001. 7872-7876 [doi]

Lattention: Lattice-Attention in ASR RescoringPrabhat Pandey, Sergio Duarte Torres, Ali Orkan Bayer, Ankur Gandhe, Volker Leutnant. 7877-7881 [doi]

Learning Acoustic Frame Labeling for Phoneme Segmentation with Regularized Attention MechanismBinghuai Lin, Liyuan Wang. 7882-7886 [doi]

Listen, Know and Spell: Knowledge-Infused Subword Modeling for Improving ASR Performance of OOV Named EntitiesNilaksh Das, Duen Horng Chau, Monica Sunkara, Sravan Bodapati, Dhanush Bekal, Katrin Kirchhoff. 7887-7891 [doi]

Joint Speech Recognition and Audio CaptioningChaitanya Narisetty, Emiru Tsunoo, Xuankai Chang, Yosuke Kashiwagi, Michael Hentschel, Shinji Watanabe 0001. 7892-7896 [doi]

Speaker GenerationDaisy Stanton, Matt Shannon, Soroosh Mariooryad, R. J. Skerry-Ryan, Eric Battenberg, Tom Bagby, David Kao. 7897-7901 [doi]

Voice Filter: Few-Shot Text-to-Speech Speaker Adaptation Using Voice Conversion as a Post-Processing ModuleAdam Gabrys, Goeric Huybrechts, Manuel Sam Ribeiro, Chung-Ming Chien, Julian Roth, Giulia Comini, Roberto Barra-Chicote, Bartek Perz, Jaime Lorenzo-Trueba. 7902-7906 [doi]

Fine-Grained Style Control In Transformer-Based Text-To-Speech SynthesisLi-Wei Chen, Alexander Rudnicky. 7907-7911 [doi]

Using Multiple Reference Audios and Style Embedding Constraints for Speech SynthesisCheng Gong, Longbiao Wang, Zhenhua Ling, Ju Zhang, Jianwu Dang. 7912-7916 [doi]

Enhancing Speaking Styles in Conversational Text-to-Speech Synthesis with Graph-Based Multi-Modal Context ModelingJingbei Li, Yi Meng, Chenyi Li, Zhiyong Wu 0001, Helen Meng, Chao Weng, Dan Su 0002. 7917-7921 [doi]

Towards Expressive Speaking Style Modelling with Hierarchical Context Information for Mandarin Speech SynthesisShun Lei, Yixuan Zhou, Liyang Chen, Zhiyong Wu 0001, Shiyin Kang, Helen Meng. 7922-7926 [doi]

SLUE: New Benchmark Tasks For Spoken Language Understanding Evaluation on Natural SpeechSuwon Shon, Ankita Pasad, Felix Wu, Pablo Brusco, Yoav Artzi, Karen Livescu, Kyu J. Han. 7927-7931 [doi]

Towards Reducing the Need for Speech Training Data to Build Spoken Language Understanding SystemsSamuel Thomas 0001, Hong-Kwang Jeff Kuo, Brian Kingsbury, George Saon. 7932-7936 [doi]

Improving Cross-Modal Understanding in Visual Dialog Via Contrastive LearningFeilong Chen, Xiuyi Chen, Shuang Xu, Bo Xu 0002. 7937-7941 [doi]

News Recommendation Via Multi-Interest News Sequence ModellingRongyao Wang, Shoujin Wang, Wenpeng Lu, Xueping Peng. 7942-7946 [doi]

Multi-Level Contrastive Learning for Cross-Lingual AlignmentBeiduo Chen, Wu Guo, Bin Gu, Quan Liu, Yongchao Wang. 7947-7951 [doi]

Augmentation Strategy Optimization for Language UnderstandingChang-Ting Chu, Mahdin Rohmatillah, Ching-Hsien Lee, Jen-Tzung Chien. 7952-7956 [doi]

Multi-Feature Integration for Speaker Embedding ExtractionSreekanth Sankala, B. Shaik Mohammad Rafi, K. Sri Rama Murty. 7957-7961 [doi]

Learnable Nonlinear Compression for Robust Speaker VerificationXuechen Liu, Md. Sahidullah, Tomi Kinnunen. 7962-7966 [doi]

Fine-Tuning Wav2Vec2 for Speaker RecognitionNik Vaessen, David A. van Leeuwen. 7967-7971 [doi]

Graph Attentive Feature Aggregation for Text-Independent Speaker VerificationHye-jin Shim, Jungwoo Heo, Jae-Han Park, Ga-Hui Lee, Ha-Jin Yu. 7972-7976 [doi]

Multisv: Dataset for Far-Field Multi-Channel Speaker VerificationLadislav Mosner, Oldrich Plchot, Lukás Burget, Jan Honza Cernocký. 7977-7981 [doi]

Multi-Channel Speaker Verification with Conv-Tasnet Based BeamformerLadislav Mosner, Oldrich Plchot, Lukás Burget, Jan Honza Cernocký. 7982-7986 [doi]

LETR: A Lightweight and Efficient Transformer for Keyword SpottingKevin Ding, Martin Zong, Jiakui Li, Baoxiang Li. 7987-7991 [doi]

Compressing Transformer-Based ASR Model by Task-Driven Loss and Attention-Based Multi-Level Feature DistillationYongjie Lv, Longbiao Wang, Meng Ge, Sheng Li 0010, Chenchen Ding, Lixin Pan, Yuguang Wang, Jianwu Dang, Kiyoshi Honda. 7992-7996 [doi]

Spatial Processing Front-End for Distant ASR Exploiting Self-Attention Channel CombinatorDushyant Sharma, Rong Gong, James Fosburgh, Stanislav Yu. Kruchinin, Patrick A. Naylor, Ljubomir Milanovic. 7997-8001 [doi]

Efficient Sequence Training of Attention Models Using Approximative RecombinationNils-Philipp Wynands, Wilfried Michel, Jan Rosendahl, Ralf Schlüter, Hermann Ney. 8002-8006 [doi]

Neufa: Neural Network Based End-to-End Forced Alignment with Bidirectional Attention MechanismJingbei Li, Yi Meng, Zhiyong Wu 0001, Helen Meng, Qiao Tian, Yuping Wang, Yuxuan Wang. 8007-8011 [doi]

Conformer-Based Speech Recognition with Linear Nyström Attention and Rotary Position EmbeddingLahiru Samarakoon, Tsun-Yat Leung. 8012-8016 [doi]

Multilingual Text-To-Speech Training Using Cross Language Voice Conversion And Self-Supervised Learning Of Speech RepresentationsJilong Wu, Adam Polyak, Yaniv Taigman, Jason Fong, Prabhav Agrawal, Qing He. 8017-8021 [doi]

Towards Lifelong Learning of Multilingual Text-to-Speech SynthesisMu Yang, Shaojin Ding, Tianlong Chen, Tong Wang, Zhangyang Wang. 8022-8026 [doi]

Zero-Shot Cross-Lingual Transfer Using Multi-Stream Encoder and Efficient Speaker RepresentationYibin Zheng, Zewang Zhang, Xinhui Li, Wenchao Su, Li Lu. 8027-8031 [doi]

Visualtts: TTS with Accurate Lip-Speech Synchronization for Automatic Voice OverJunchen Lu, Berrak Sisman, Rui Liu 0008, Mingyang Zhang, Haizhou Li 0001. 8032-8036 [doi]

Duration Modeling of Neural TTS for Automatic DubbingJohanes Effendi, Yogesh Virkar, Roberto Barra-Chicote, Marcello Federico. 8037-8041 [doi]

Learning to Predict Speech in Silent Videos Via Audiovisual AnalogyRavindra Yadav, Ashish Sardana, Vinay P. Namboodiri, Rajesh M. Hegde. 8042-8046 [doi]

Self-Attention for Incomplete Utterance RewritingYong Zhang, Zhitao Li, Jianzong Wang, Ning Cheng, Jing Xiao 0006. 8047-8051 [doi]

Multi-Turn Incomplete Utterance Restoration As Object DetectionWangjie Jiang, Siheng Li, Jiayi Li, Yujiu Yang. 8052-8056 [doi]

CLseg: Contrastive Learning of Story Ending GenerationYuqiang Xie, Yue Hu 0002, Luxi Xing, Yunpeng Li, Wei Peng 0008, Ping Guo. 8057-8061 [doi]

Explicitly Modeling Importance and Coherence for Timeline SummarizationQianren Mao, Jianxin Li, Jiazheng Wang, Xi Li, Peng Hao, Lihong Wang, Zheng Wang. 8062-8066 [doi]

TED Talk Teaser Generation with Pre-Trained ModelsGianluca Vico, Jan Niehues. 8067-8071 [doi]

End-to-End Speech Summarization Using Restricted Self-AttentionRoshan Sharma, Shruti Palaskar, Alan W. Black, Florian Metze. 8072-8076 [doi]

Turn-to-Diarize: Online Speaker Diarization Constrained by Transformer Transducer Speaker Turn DetectionWei Xia, Han Lu, Quan Wang, Anshuman Tripathi, Yiling Huang, Ignacio Lopez-Moreno, Hasim Sak. 8077-8081 [doi]

Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number of Speakers Using End-to-End Speaker-Attributed ASRNaoyuki Kanda, Xiong Xiao, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo Chen 0006, Takuya Yoshioka. 8082-8086 [doi]

A Multitask Learning Framework for Speaker Change Detection with Content Information from Unsupervised Speech DecompositionHang Su, Danyang Zhao, Long Dang, Minglei Li, Xixin Wu, Xunying Liu, Helen Meng. 8087-8091 [doi]

ASR-Aware End-to-End Neural DiarizationAparna Khare, Eunjung Han, Yuguang Yang 0004, Andreas Stolcke. 8092-8096 [doi]

Reformulating Speaker Diarization As Community Detection With Emphasis On Topological StructureSiqi Zheng, Hongbin Suo. 8097-8101 [doi]

TitaNet: Neural Model for Speaker Representation with 1D Depth-Wise Separable Convolutions and Global ContextNithin Rao Koluguri, Taejin Park, Boris Ginsburg. 8102-8106 [doi]

Transducer-Based Streaming Deliberation for Cascaded EncodersKe Hu, Tara N. Sainath, Arun Narayanan, Ruoming Pang, Trevor Strohman. 8107-8111 [doi]

Improving The Latency And Quality Of Cascaded EncodersTara N. Sainath, Yanzhang He, Arun Narayanan, Rami Botros, Weiran Wang, David Qiu, Chung-Cheng Chiu, Rohit Prabhavalkar, Alexander Gruenstein, Anmol Gulati, Bo Li, David Rybach, Emmanuel Guzman, Ian McGraw, James Qin, Krzysztof Choromanski, Qiao Liang, Robert David, Ruoming Pang, Shuo-Yiin Chang, Trevor Strohman, W. Ronny Huang, Wei Han 0002, Yonghui Wu, Yu Zhang. 8112-8116 [doi]

Improving the Fusion of Acoustic and Text Representations in RNN-TChao Zhang, Bo Li 0028, Zhiyun Lu, Tara N. Sainath, Shuo-Yiin Chang. 8117-8121 [doi]

Adaptive Discounting of Implicit Language Models in RNN-TransducersVinit Unni, Shreya Khare, Ashish R. Mittal, Preethi Jyothi, Sunita Sarawagi, Samarth Bharadwaj. 8122-8126 [doi]

Integrating Text Inputs for Training and Adapting RNN Transducer ASR ModelsSamuel Thomas 0001, Brian Kingsbury, George Saon, Hong-Kwang Jeff Kuo. 8127-8131 [doi]

Factorized Neural Transducer for Efficient Language Model AdaptationXie Chen, Zhong Meng, Sarangarajan Parthasarathy, Jinyu Li 0001. 8132-8136 [doi]

Integrating Dependency Tree into Self-Attention for Sentence RepresentationJunhua Ma, Jiajun Li, Yuxuan Liu, Shangbo Zhou, Xue Li. 8137-8141 [doi]

End-To-End Neural Coreference Resolution Revisited: A Simple Yet Effective BaselineTuan Manh Lai, Trung Bui, Doo Soon Kim. 8147-8151 [doi]

Local Context Interaction-Aware Glyph-Vectors for Chinese Sequence TaggingJunyu Lu, Pingjian Zhang. 8152-8156 [doi]

Deep Learning for Prominence Detection In Children's Read SpeechMithilesh Vaidya, Kamini Sabu, Preeti Rao. 8157-8161 [doi]

Towards A Common Speech Analysis EngineHagai Aronowitz, Itai Gat, Edmilson Da Silva Morais, Weizhong Zhu, Ron Hoory. 8162-8166 [doi]

Phone-to-Audio Alignment without Text: A Semi-Supervised ApproachJian Zhu, Cong Zhang, David Jurgens. 8167-8171 [doi]

Attachment Recognition in School-Age Children: A Multimodal Approach Based on Language and Paralanguage AnalysisHuda Alsofyani, Alessandro Vinciarelli. 8172-8176 [doi]

Determining the best Acoustic Features for Smoker IdentificationZhizhong Ma, Yuanhang Qiu, Feng Hou, Ruili Wang, Joanna Ting Wai Chu, Chris Bullen. 8177-8181 [doi]

End-to-End Low Resource Keyword Spotting Through Character Recognition and Beam-Search Re-ScoringEphrem Tibebe Mekonnen, Alessio Brutti, Daniele Falavigna. 8182-8186 [doi]

Curriculum Optimization for Low-Resource Speech RecognitionAnastasia Kuznetsova, Anurag Kumar, Jennifer Drexler Fox, Francis M. Tyers. 8187-8191 [doi]

Exploring Effective Data Utilization for Low-Resource Speech RecognitionZhikai Zhou, Wei Wang, Wangyou Zhang, Yanmin Qian. 8192-8196 [doi]

Omni-Sparsity DNN: Fast Sparsity Optimization for On-Device Streaming E2E ASR Via SupernetHaichuan Yang, Yuan Shangguan, Dilin Wang, Meng Li 0004, Pierce Chuang, Xiaohui Zhang, Ganesh Venkatesh, Ozlem Kalinli, Vikas Chandra. 8197-8201 [doi]

Analyzing The Robustness of Unsupervised Speech RecognitionGuan-Ting Lin, Chan-Jan Hsu, Da-Rong Liu, Hung-yi Lee, Yu Tsao 0001. 8202-8206 [doi]

Interpreting Intermediate Convolutional Layers In Unsupervised Acoustic Word ClassificationGasper Begus, Alan Zhou. 8207-8211 [doi]

Context Modeling with Evidence Filter for Multiple Choice Question AnsweringSicheng Yu, Hao Zhang 0048, Wei Jing, Jing Jiang 0001. 8212-8216 [doi]

From Shallow to Deep: Compositional Reasoning over Graphs for Visual Question AnsweringZihao Zhu. 8217-8221 [doi]

A Question-Oriented Propagation Network for News Reading ComprehensionLiang Wen, Houfeng Wang, Dehong Ma, Jun Fan, Yingwei Luo, Xiaolin Wang, Daiting Shi, Zhicong Cheng, Dawei Yin. 8222-8226 [doi]

Syntax-Based Graph Matching for Knowledge Base Question AnsweringLu Ma, Peng Zhang, Dan Luo, Xi Zhu, Meilin Zhou, Qi Liang 0002, Bin Wang 0004. 8227-8231 [doi]

QA4QG: Using Question Answering to Constrain Multi-Hop Question GenerationDan Su 0003, Peng Xu 0008, Pascale Fung. 8232-8236 [doi]

Pair-Level Supervised Contrastive Learning for Natural Language InferenceShuang Li, Xuming Hu, Li Lin, Lijie Wen. 8237-8241 [doi]

Acoustic Comparison of Physical Vocal Tract Models with Hard and Soft WallsPeter Birkholz, P. Häsner, Steffen Kürbis. 8242-8246 [doi]

An Error Correction Scheme for Improved Air-Tissue Boundary in Real-Time MRI Video for Speech ProductionAnwesha Roy, Varun Belagali, Prasanta Kumar Ghosh. 8247-8251 [doi]

Repeat after Me: Self-Supervised Learning of Acoustic-to-Articulatory Mapping by Vocal ImitationMarc-Antoine Georges, Julien Diard, Laurent Girin, Jean-Luc Schwartz, Thomas Hueber. 8252-8256 [doi]

Multi-Speaker Pitch Tracking via Embodied Self-Supervised LearningXiang Li, Yifan Sun, Xihong Wu, Jing Chen. 8257-8261 [doi]

Improving the Classification of Phonetic Segments from Raw Ultrasound Using Self-Supervised Learning and Hard Example MiningYunsheng Xiong, Kele Xu, Meng Jiang, Liang Cheng, Yong Dou, Jinjia Wang. 8262-8266 [doi]

The impact of cross language on acoustic-to-articulatory inversion and its influence on articulatory speech synthesisAravind Illa, Aanish Nair, Prasanta Kumar Ghosh. 8267-8271 [doi]

Transformer-Based Streaming ASR with Cumulative AttentionMohan Li, Shucong Zhang, Catalin Zorila, Rama Doddipatla. 8272-8276 [doi]

Streaming Transformer Transducer based Speech Recognition Using Non-Causal ConvolutionYangyang Shi, Chunyang Wu, Dilin Wang, Alex Xiao, Jay Mahadeokar, Xiaohui Zhang, Chunxi Liu, Ke Li, Yuan Shangguan, Varun Nagaraja, Ozlem Kalinli, Mike Seltzer. 8277-8281 [doi]

Hybrid RNN-T/Attention-Based Streaming ASR with Triggered Chunkwise Attention and Dual Internal Language Model IntegrationTakafumi Moriya, Takanori Ashihara, Atsushi Ando, Hiroshi Sato, Tomohiro Tanaka, Kohei Matsuura, Ryo Masumura, Marc Delcroix, Takahiro Shinozaki. 8282-8286 [doi]

Run-and-Back Stitch Search: Novel Block Synchronous Decoding For Streaming Encoder-Decoder ASREmiru Tsunoo, Chaitanya Narisetty, Michael Hentschel, Yosuke Kashiwagi, Shinji Watanabe 0001. 8287-8291 [doi]

Alignment-Learning Based Single-Step Decoding for Accurate and Fast Non-Autoregressive Speech RecognitionYonghe Wang, Rui Liu 0008, Feilong Bao, Hui Zhang, Guanglai Gao. 8292-8296 [doi]

Usted: Improving ASR with a Unified Speech and Text Encoder-DecoderBolaji Yusuf, Ankur Gandhe, Alex Sokolov. 8297-8301 [doi]

Improving Emotional Speech Synthesis by Using SUS-Constrained VAE and Text Encoder AggregationFengyu Yang, Jian Luan, Yujun Wang. 8302-8306 [doi]

Distribution Augmentation for Low-Resource Expressive Text-To-SpeechMateusz Lajszczak, Animesh Prasad, Arent van Korlaar, Bajibabu Bollepalli, Antonio Bonafonte, Arnaud Joly, Marco Nicolis, Alexis Moinet, Thomas Drugman, Trevor Wood, Elena Sokolova. 8307-8311 [doi]

Interactive Multi-Level Prosody Control for Expressive Speech SynthesisTobias Cornille, Fengna Wang, Jessa Bekker. 8312-8316 [doi]

Improve Few-Shot Voice Cloning Using Multi-Modal LearningHaitong Zhang, Yue Lin. 8317-8321 [doi]

Cloning One's Voice Using Very Limited Data in the WildDongyang Dai, Yuanzhe Chen, Li Chen, Ming Tu, Lu Liu, Rui Xia, Qiao Tian, Yuping Wang, Yuxuan Wang. 8322-8326 [doi]

UNET-TTS: Improving Unseen Speaker and Style Transfer in One-Shot Voice CloningRui Li, Dong Pu, Minnie Huang, Bill Huang. 8327-8331 [doi]

Improving Biomedical Named Entity Recognition with a Unified Multi-Task MRC FrameworkYiqi Tong, Fuzhen Zhuang, Deqing Wang, Haochao Ying, Binling Wang. 8332-8336 [doi]

A Multi-Task Learning Framework for Chinese Medical Procedure Entity NormalizationXuhui Sui, Kehui Song, Baohang Zhou, Ying Zhang 0015, Xiaojie Yuan. 8337-8341 [doi]

Wasserstein Cross-Lingual Alignment For Named Entity RecognitionRui Wang, Ricardo Henao. 8342-8346 [doi]

Learning Common Dependency Structure for Unsupervised Cross-Domain NerLuchen Liu, Xixun Lin, Peng Zhang, Lei Zhang, Bin Wang 0004. 8347-8351 [doi]

AISHELL-NER: Named Entity Recognition from Chinese SpeechBoli Chen, Guangwei Xu, XiaoBin Wang, Pengjun Xie, Meishan Zhang, Fei Huang 0004. 8352-8356 [doi]

Call-Sign Recognition and Understanding for Noisy Air-Traffic Transcripts Using Surveillance InformationAlexander Blatt, Martin Kocour, Karel Veselý, Igor Szöke, Dietrich Klakow. 8357-8361 [doi]

Incorporating End-to-End Framework Into Target-Speaker Voice Activity DetectionWeiqing Wang, Ming Li. 8362-8366 [doi]

Multi-Scale Speaker Embedding-Based Graph Attention Networks For Speaker DiarisationYoungki Kwon, Hee-Soo Heo, Jee-weon Jung, You Jin Kim, Bong-Jin Lee, Joon Son Chung. 8367-8371 [doi]

Towards end-to-end Speaker Diarization with Generalized Neural Speaker ClusteringChunlei Zhang, Jiatong Shi, Chao Weng, Meng Yu 0003, Dong Yu 0001. 8372-8376 [doi]

Auxiliary Loss of Transformer with Residual Connection for End-to-End Speaker DiarizationYechan Yu, Dongkeon Park, Hong Kook Kim. 8377-8381 [doi]

Tight Integration Of Neural- And Clustering-Based Diarization Through Deep Unfolding Of Infinite Gaussian Mixture ModelKeisuke Kinoshita, Marc Delcroix, Tomoharu Iwata. 8382-8386 [doi]

Improving Separation-Based Speaker Diarization Via Iterative Model Refinement And Speaker Embedding Based Post-ProcessingShutong Niu, Jun Du, Lei Sun, Chin-Hui Lee. 8387-8391 [doi]

Knowledge Distillation from Language Model to Acoustic Model: A Hierarchical Multi-Task Learning ApproachMun-Hak Lee, Joon-Hyuk Chang. 8392-8396 [doi]

Improving Pseudo-Label Training For End-To-End Speech Recognition Using Gradient MaskShaoshi Ling, Chen Shen, Meng Cai, Zejun Ma. 8397-8401 [doi]

Multi-Turn RNN-T for Streaming Recognition of Multi-Party SpeechIlya Sklyar, Anna Piunova, Xianrui Zheng, Yulan Liu. 8402-8406 [doi]

On Language Model Integration for RNN Transducer Based Speech RecognitionWei Zhou, Zuoyun Zheng, Ralf Schlüter, Hermann Ney. 8407-8411 [doi]

Caching Networks: Capitalizing on Common Speech for ASRAnastasios Alexandridis, Grant P. Strimel, Ariya Rastrow, Pavel Kveton, Jon Webb, Maurizio Omologo, Siegfried Kunzmann, Athanasios Mouchtaris. 8412-8416 [doi]

GPU-Accelerated Forward-Backward Algorithm with Application to Lattice-Free MMILucas Ondel, Léa-Marie Lam-Yee-Mui, Martin Kocour, Caio Filippo Corro, Lukás Burget. 8417-8421 [doi]

ItôWave: Itô Stochastic Differential Equation is all You Need for Wave GenerationShoule Wu, Ziqiang Shi. 8422-8426 [doi]

Multi-Sample Subband Wavernn Via Multivariate GaussianHiroki Kanagawa, Yusuke Ijima. 8427-8431 [doi]

Infergrad: Improving Diffusion Models for Vocoder by Considering Inference in TrainingZehua Chen, Xu Tan 0003, Ke Wang, Shifeng Pan, Danilo P. Mandic, Lei He, Sheng Zhao. 8432-8436 [doi]

Neural Speech Synthesis on a Shoestring: Improving the Efficiency of LpcnetJean-Marc Valin, Umut Isik, Paris Smaragdis, Arvindh Krishnaswamy. 8437-8441 [doi]

Generalization Ability of MOS Prediction NetworksErica Cooper, Wen-Chin Huang, Tomoki Toda, Junichi Yamagishi. 8442-8446 [doi]

On the Interplay between Sparsity, Naturalness, Intelligibility, and Prosody in Speech SynthesisCheng-I Jeff Lai, Erica Cooper, Yang Zhang, Shiyu Chang, Kaizhi Qian, Yi-Lun Liao, Yung-Sung Chuang, Alexander H. Liu, Junichi Yamagishi, David D. Cox, James R. Glass. 8447-8451 [doi]

Phonology Recognition in American Sign LanguageFederico Tavella, Aphrodite Galata, Angelo Cangelosi. 8452-8456 [doi]

Spatio-Temporal Graph Convolutional Networks for Continuous Sign Language RecognitionMaria Parelli, Katerina Papadimitriou, Gerasimos Potamianos, Georgios Pavlakos, Petros Maragos. 8457-8461 [doi]

Sensors to Sign Language: A Natural Approach to Equitable CommunicationThomas Fouts, Ali Hindy, Chris Tanner. 8462-8466 [doi]

Accurate and Resource-Efficient Lipreading with Efficientnetv2 and TransformersAlexandros Koumparoulis, Gerasimos Potamianos. 8467-8471 [doi]

Training Strategies for Improved Lip-ReadingPingchuan Ma 0001, Yujiang Wang 0001, Stavros Petridis, Jie Shen 0008, Maja Pantic. 8472-8476 [doi]

Multistream Neural Architectures for Cued Speech Recognition Using a Pre-Trained Visual Feature Extractor and Constrained CTC DecodingSanjana Sankar, Denis Beautemps, Thomas Hueber. 8477-8481 [doi]

Modeling of Pre-Trained Neural Network Embeddings Learned From Raw Waveform for COVID-19 Infection DetectionZohreh Mostaani, RaviShankar Prasad, Bogdan Vlasenko, Mathew Magimai-Doss. 8482-8486 [doi]

Dual Attention Pooling Network for Recording Device Classification Using Neutral and Whispered SpeechAbinay Reddy Naini, Bhavuk Singhal, Prasanta Kumar Ghosh. 8487-8491 [doi]

Entrainment Analysis for Assessment of Autistic Speech Prosody Using Bottleneck Features of Deep Neural NetworkKeiko Ochi, Nobutaka Ono, Keiho Owada, Miho Kuroda, Shigeki Sagayama, Hidenori Yamasue. 8492-8496 [doi]

Customer Satisfaction Estimation Using Unsupervised Representation Learning with Multi-Format Prediction LossAtsushi Ando, Yumiko Murata, Ryo Masumura, Satoshi Suzuki, Naoki Makishima, Takafumi Moriya, Takanori Ashihara, Hiroshi Sato. 8497-8501 [doi]

Automatic Assessment of the Degree of Clinical Depression from Speech Using X-VectorsJosé Vicente Egas López, Gábor Kiss, Dávid Sztahó, Gábor Gosztolya. 8502-8506 [doi]

Automatic Depression Level Assessment from Speech By Long-Term Global Information EmbeddingYa Li, Mingyue Niu, Ziping Zhao, Jianhua Tao. 8507-8511 [doi]

Knowledge Transfer from Large-Scale Pretrained Language Models to End-To-End Speech RecognizersYotaro Kubo, Shigeki Karita, Michiel Bacchiani. 8512-8516 [doi]

Improving CTC-Based Speech Recognition Via Knowledge Transferring from Pre-Trained Language ModelsKeqi Deng, Songjun Cao, Yike Zhang, Long Ma, Gaofeng Cheng, Ji Xu, Pengyuan Zhang. 8517-8521 [doi]

Improving Non-Autoregressive End-to-End Speech Recognition with Pre-Trained Acoustic and Language ModelsKeqi Deng, Zehui Yang, Shinji Watanabe 0001, Yosuke Higuchi, Gaofeng Cheng, Pengyuan Zhang. 8522-8526 [doi]

Knowledge Distillation for Neural Transducers from Large Self-Supervised Pre-Trained ModelsXiaoyu Yang, Qiujia Li, Philip C. Woodland. 8527-8531 [doi]

Improving End-to-End Contextual Speech Recognition with Fine-Grained Contextual Knowledge SelectionMinglun Han, Linhao Dong, Zhenlin Liang, Meng Cai, Shiyu Zhou, Zejun Ma, Bo Xu 0002. 8532-8536 [doi]

Contextual Adapters for Personalized Speech Recognition in Neural TransducersKanthashree Mysore Sathyendra, Thejaswi Muniyappa, Feng-Ju Chang, Jing Liu, Jinru Su, Grant P. Strimel, Athanasios Mouchtaris, Siegfried Kunzmann. 8537-8541 [doi]

Emotionflow: Capture the Dialogue Level Emotion TransitionsXiaohui Song, Liangjun Zang, Rong Zhang, Songlin Hu, Longtao Huang. 8542-8546 [doi]

Multimodal Sentiment Analysis on Unaligned Sequences Via Holographic EmbeddingYukun Ma, Bin Ma. 8547-8551 [doi]

Distribution Learning for Age Estimation from SpeechAmruta Saraf, Elie Khoury 0001. 8552-8556 [doi]

Dispeech: A Synthetic Toy Dataset for Speech DisentanglingOlivier Zhang, Nicolas Gengembre, Olivier Le Blouch, Damien Lolive. 8557-8561 [doi]

End-to-End ASR-Enhanced Neural Network for Alzheimer's Disease DiagnosisJiancheng Gui, Yikai Li, Kai Chen, Joanna Siebert, Qingcai Chen. 8562-8566 [doi]

A Novel Sequential Monte Carlo Framework for Predicting Ambiguous Emotion StatesJingyao Wu, Ting Dang, Vidhyasaharan Sethu, Eliathamby Ambikairajah. 8567-8571 [doi]

Phone-Informed Refinement of Synthesized Mel Spectrogram for Data Augmentation in Speech RecognitionSei Ueno, Tatsuya Kawahara. 8572-8576 [doi]

LPC Augment: an LPC-based ASR Data Augmentation Algorithm for Low and Zero-Resource Children's DialectsAlexander Johnson, Ruchao Fan, Robin Morris, Abeer Alwan. 8577-8581 [doi]

Towards Better Meta-Initialization with Task Augmentation for Kindergarten-Aged Speech RecognitionYunzheng Zhu, Ruchao Fan, Abeer Alwan. 8582-8586 [doi]

Unsupervised Data Selection for Speech Recognition with Contrastive Loss RatiosChanho Park, Rehan Ahmad, Thomas Hain. 8587-8591 [doi]

Importantaug: A Data Augmentation Agent for SpeechViet Anh Trinh, Hassan Salami Kavaki, Michael I. Mandel. 8592-8596 [doi]

Injecting Text and Cross-Lingual Supervision in Few-Shot Learning from Self-Supervised ModelsMatthew Wiesner, Desh Raj, Sanjeev Khudanpur. 8597-8601 [doi]

When BERT Meets Quantum Temporal Convolution Learning for Text Classification in Heterogeneous ComputingChao-Han Huck Yang, Jun Qi 0002, Samuel Yen-Chi Chen, Yu Tsao 0001, Pin-Yu Chen. 8602-8606 [doi]

Matching Point Sets with Quantum Circuit LearningMohammadreza Noormandipour, Hanchen Wang. 8607-8611 [doi]

The Dawn of Quantum Natural Language ProcessingRiccardo Di Sipio, Jia-Hong Huang, Samuel Yen-Chi Chen, Stefano Mangini, Marcel Worring. 8612-8616 [doi]

Quantum Federated Learning with Quantum DataMahdi Chehimi, Walid Saad. 8617-8621 [doi]

Quantum Long Short-Term MemorySamuel Yen-Chi Chen, Shinjae Yoo, Yao-Lung L. Fang. 8622-8626 [doi]

Classical-To-Quantum Transfer Learning for Spoken Command Recognition Based on Quantum Neural NetworksJun Qi 0002, Javier Tejedor. 8627-8631 [doi]

Waveform Optimization for Wireless Power Transfer with Power Amplifier and Energy Harvester Non-linearitiesYumeng Zhang, Bruno Clerckx. 8632-8636 [doi]

Economics of Semantic Communication System in Wireless Powered Internet of ThingsZi Qin Liew, Yanyu Cheng, Wei Yang Bryan Lim, Dusit Niyato, Chunyan Miao, Sumei Sun. 8637-8641 [doi]

Optimal Resource Allocation and Beamforming for Two-User Miso WPCNS for a Non-Linear Circuit-Based EH Model : (Invited Paper)Nikita Shanin, Moritz Garkisch, Amelie Hagelauer, Robert Schober, Laura Cottatellucci. 8642-8646 [doi]

Performance Optimization for Wireless Semantic Communications over Energy Harvesting NetworksMingzhe Chen, Yining Wang, H. Vincent Poor. 8647-8651 [doi]

Deep Learning Based Passive Beamforming for IRS-Assisted Monostatic Backscatter SystemsSahar Idrees, Xiaolun Jia, Saud Khan, Salman Durrani, Xiangyun Zhou 0001. 8652-8656 [doi]

On Federated Learning with Energy Harvesting ClientsCong Shen, Jing Yang 0002, Jie Xu. 8657-8661 [doi]

Structural Prior Models for 3-D Deep Vessel SegmentationXuelu Li, Raja Bala, Vishal Monga. 8662-8666 [doi]

Expectation Consistent Plug-and-Play for MRISaurav K. Shastri, Rizwan Ahmad, Christopher A. Metzler, Philip Schniter. 8667-8671 [doi]

Inverse Imaging with Generative Priors Via Langevin DynamicsThanh V. Nguyen, Gauri Jagatap, Chinmay Hegde. 8672-8676 [doi]

CNN-Aided Factor Graphs with Estimated Mutual Information Features for Seizure DetectionBahareh Salafian, Eyal Fishel Ben-Knaan, Nir Shlezinger, Sandrine de Ribaupierre, Nariman Farsad. 8677-8681 [doi]

Unfolding Model-Based Beamforming for High Quality Ultrasound ImagingChristopher Khan, Ruud J. G. van Sloun, Brett C. Byram. 8682-8686 [doi]

Optimization Guarantees for ISTA and ADMM Based Unfolded NetworksWei Pu, Yonina C. Eldar, Miguel R. D. Rodrigues. 8687-8691 [doi]

Integration of Anomaly Machine Sound Detection into Active Noise Control to Shape the Residual SoundChuang Shi, Mengjie Huang, Huitian Jiang, Huiyong Li. 8692-8696 [doi]

Dual Active Noise Control with Common SensorsRyosuke Okajima, Yoshinobu Kajikawa, Kohei Oto. 8697-8701 [doi]

A Hybrid Approach to Combine Wireless and Earcup Microphones for ANC Headphones with Error Separation ModuleXiaoyi Shen, Dong-Yuan Shi, Woon-Seng Gan. 8702-8706 [doi]

Spatial Active Noise Control with the Remote Microphone Technique: an Approach with a Moving Higher Order MicrophoneHuiyuan Sun, Jihui Zhang 0006, Thushara D. Abhayapala, Prasanga N. Samarasinghe. 8707-8711 [doi]

Robust Pressure Matching with ATF Perturbation Constraints for Sound Field ControlJunqing Zhang, Liming Shi, Mads Græsbøll Christensen, Wen Zhang, Lijun Zhang, Jingdong Chen. 8712-8716 [doi]

Optimization of a Fixed Virtual Sensing Feedback ANC Controller For In-Ear Headphones with Multiple LoudspeakersPiero Rivera Benois, Reinhild Roden, Matthias Blau, Simon Doclo. 8717-8721 [doi]

On the Potential of Spatially-Spread Orthogonal Time Frequency Space Modulation for ISAC TransmissionsShuangyang Li, Weijie Yuan, Jinhong Yuan, Giuseppe Caire. 8722-8726 [doi]

Sensing-Assisted Beam Tracking in V2I Networks: Extended Target CaseZhen Du, Fan Liu, Zenghui Zhang. 8727-8731 [doi]

Transmit Beamforming with Fixed Covariance for Integrated MIMO Radar and Multiuser CommunicationsXiang Liu, Tianyao Huang, Yimin Liu, Yonina C. Eldar. 8732-8736 [doi]

Safeguarding UAV Networks through Integrated Sensing, Jamming, and CommunicationsZhiqiang Wei 0001, Fan Liu, Derrick Wing Kwan Ng, Robert Schober. 8737-8741 [doi]

Evaluation of Orthogonal Chirp Division Multiplexing for Automotive Integrated Sensing and CommunicationsSangeeta Bhattacharjee, Kumar Vijay Mishra, Ramesh Annavajjala, Chandra R. Murthy. 8742-8746 [doi]

Integrated Sensing and Communications Via 5G NR Waveform: Performance AnalysisYuanhao Cui, Xiaojun Jing, Junsheng Mu. 8747-8751 [doi]

Federated Learning Challenges and Opportunities: An OutlookJie Ding, Eric Tramel, Anit Kumar Sahu, Shuang Wu, Salman Avestimehr, Tao Zhang. 8752-8756 [doi]

Enabling On-Device Training of Speech Recognition Models With Federated DropoutDhruv Guliani, Lillian Zhou, Changwan Ryu, Tien-Ju Yang, Harry Zhang, Yonghui Xiao, Françoise Beaufays, Giovanni Motta. 8757-8761 [doi]

Adaptive Node Participation for Straggler-Resilient Federated LearningAmirhossein Reisizadeh, Isidoros Tziotis, Hamed Hassani, Aryan Mokhtari, Ramtin Pedarsani. 8762-8766 [doi]

Learnings from Federated Learning in The Real WorldChristophe Dupuy, Tanya G. Roosta, Leo Long, Clement Chung, Rahul Gupta, Salman Avestimehr. 8767-8771 [doi]

A Dynamic Reweighting Strategy For Fair Federated LearningZhiyuan Zhao, Gauri Joshi. 8772-8776 [doi]

Over-the-Air Personalized Federated LearningHasin Us Sami, Basak Güler. 8777-8781 [doi]

DNN Based Multiframe Single-Channel Noise Reduction FiltersNingning Pan, Jingdong Chen, Jacob Benesty. 8782-8786 [doi]

Learning-Based Personal Speech Enhancement for Teleconferencing by Exploiting Spatial-Spectral FeaturesYicheng Hsu, Yonghan Lee, Mingsian R. Bai. 8787-8791 [doi]

Manifold Learning-Supported Estimation of Relative Transfer Functions For Spatial FilteringAndreas Brendel, Johannes Zeitler, Walter Kellermann. 8792-8796 [doi]

Audio Signal Processing for Telepresence Based on Wearable Array in Noisy and Dynamic ScenesHanan Beit-On, Moti Lugasi, Lior Madmoni, Anjali Menon, Anurag Kumar 0003, Jacob Donley, Vladimir Tourbabin, Boaz Rafaely. 8797-8801 [doi]

A Multi-Task Learning Method for Weakly Supervised Sound Event DetectionSichen Liu, Feiran Yang, Fang Kang, Jun Yang 0004. 8802-8806 [doi]

Low Resources Online Single-Microphone Speech Enhancement with Harmonic EmphasisNir Raviv, Ofer Schwartz, Sharon Gannot. 8807-8811 [doi]

Deep Learning for Location Based Beamforming with Nlos ChannelsLuc Le Magoarou, Taha Yassine, Stéphane Paquelet, Matthieu Crussière. 8812-8816 [doi]

Predicting Flat-Fading Channels via Meta-Learned Closed-Form Linear Filters and Equilibrium PropagationSangwoo Park, Osvaldo Simeone. 8817-8821 [doi]

Deep-Learning-Assisted Configuration of Reconfigurable Intelligent Surfaces in Dynamic Rich-Scattering EnvironmentsKyriakos Stylianopoulos, Nir Shlezinger, Philipp del Hougne, George C. Alexandropoulos. 8822-8826 [doi]

Supervised Learning Based Sparse Channel Estimation For RIS Aided CommunicationsDilin Dampahalage, K. B. Shashika Manosha, Nandana Rajatheva, Matti Latva-aho. 8827-8831 [doi]

Goal-Oriented Communication for Edge Learning Based On the Information BottleneckFrancesco Pezone, Sergio Barbarossa, Paolo Di Lorenzo. 8832-8836 [doi]

Hypergraphs with Edge-Dependent Vertex Weights: Spectral Clustering Based on the 1-LaplacianYu Zhu, Boning Li, Santiago Segarra. 8837-8841 [doi]

Causal Linear Topological Filters Over A 2-SimplexGeorg Essl. 8842-8846 [doi]

Simplicial Convolutional Neural NetworksMaosheng Yang, Elvin Isufi, Geert Leus. 8847-8851 [doi]

Signal Processing On Cell ComplexesT. Mitchell Roddenberry, Michael T. Schaub, Mustafa Hajij. 8852-8856 [doi]

Robust Signal Processing Over Simplicial ComplexesStefania Sardellitti, Sergio Barbarossa. 8857-8861 [doi]

Conformer-Based Self-Supervised Learning For Non-Speech Audio TasksSangeeta Srivastava, Yun Wang, Andros Tjandra, Anurag Kumar 0003, Chunxi Liu, Kritika Singh, Yatharth Saraf. 8862-8866 [doi]

Unsupervised Audio-Caption Aligning Learns Correspondences Between Individual Sound Events and Textual PhrasesHuang Xie, Okko Räsänen, Konstantinos Drossos, Tuomas Virtanen. 8867-8871 [doi]

Spatial Data Augmentation with Simulated Room Impulse Responses for Sound Event Localization and DetectionYuichiro Koyama, Kazuhide Shigemi, Masafumi Takahashi, Kazuki Shimada, Naoya Takahashi, Emiru Tsunoo, Shusuke Takahashi, Yuki Mitsufuji. 8872-8876 [doi]

Polyphonic Audio Event Detection: Multi-Label or Multi-Class Multi-Task Classification Problem?Huy Phan, Thi Ngoc Tho Nguyen, Philipp Koch, Alfred Mertins. 8877-8881 [doi]

Diverse Audio Captioning Via Adversarial TrainingXinhao Mei, Xubo Liu, Jianyuan Sun, Mark D. Plumbley, Wenwu Wang. 8882-8886 [doi]

Probably Pleasant? A Neural-Probabilistic Approach to Automatic Masker Selection for Urban Soundscape AugmentationKenneth Ooi, Karn N. Watcharasupat, Bhan Lam, Zhen-Ting Ong, Woon-Seng Gan. 8887-8891 [doi]

User Scheduling Using Graph Neural Networks for Reconfigurable Intelligent Surface Assisted Multiuser Downlink CommunicationsZhongze Zhang, Tao Jiang, Wei Yu 0001. 8892-8896 [doi]

Symbol-Level Online Channel Tracking for Deep ReceiversRon Aharon Finish, Yoav Cohen, Tomer Raviv, Nir Shlezinger. 8897-8901 [doi]

Delay-Oriented Distributed Scheduling Using Graph Neural NetworksZhongyuan Zhao, Gunjan Verma, Ananthram Swami, Santiago Segarra. 8902-8906 [doi]

FlowDT: A Flow-Aware Digital Twin for Computer NetworksMiquel Ferriol Galmés, Xiangle Cheng, Xiang Shi, Shihan Xiao, Pere Barlet-Ros, Albert Cabellos-Aparicio. 8907-8911 [doi]

Stable and Transferable Wireless Resource Allocation Policies Via Manifold Neural NetworksZhiyang Wang, Luana Ruiz, Mark Eisen, Alejandro Ribeiro. 8912-8916 [doi]

Motif-Topology and Reward-Learning Improved Spiking Neural Network for Efficient Multi-Sensory IntegrationShuncheng Jia, Ruichen Zuo, Tielin Zhang, Hongxing Liu, Bo Xu 0002. 8917-8921 [doi]

Event-Based Multimodal Spiking Neural Network with Attention MechanismQianhui Liu, Dong Xing, Lang Feng, Huajin Tang, Gang Pan 0001. 8922-8926 [doi]

Gradual Surrogate Gradient Learning in Deep Spiking Neural NetworksYi Chen, Silin Zhang, Shiyu Ren, Hong Qu. 8927-8931 [doi]

Axonal Delay as a Short-Term Memory for Feed Forward Deep Spiking Neural NetworksPengfei Sun, Longwei Zhu, Dick Botteldooren. 8932-8936 [doi]

Low Precision Local Learning for Hardware-Friendly Neuromorphic Visual RecognitionJyotibdha Acharya, Laxmi R. Iyer, Wenyu Jiang. 8937-8941 [doi]

A Hybrid Learning Framework for Deep Spiking Neural Networks with One-Spike Temporal CodingJiadong Wang, Jibin Wu, Malu Zhang, Qi Liu, Haizhou Li 0001. 8942-8946 [doi]

A-PixelHop: A Green, Robust and Explainable Fake-Image DetectorYao Zhu, Xinyu Wang, Hong-Shuo Chen, Ronald Salloum, C. C. Jay Kuo. 8947-8951 [doi]

Explainable Fact-Checking Through Question AnsweringJing Yang, Didier Augusto Vega-Oliveros, Tais Seibt, Anderson Rocha 0001. 8952-8956 [doi]

Deep Video Inpainting Localization Using Spatial and Temporal TracesShujin Wei, Haodong Li, Jiwu Huang. 8957-8961 [doi]

Deepfake Speech Detection Through Emotion Recognition: A Semantic ApproachEmanuele Conti, Davide Salvi, Clara Borrelli, Brian Hosler, Paolo Bestagini, Fabio Antonacci, Augusto Sarti, Matthew C. Stamm, Stefano Tubaro. 8962-8966 [doi]

Text-Image De-Contextualization Detection Using Vision-Language ModelsMingzhen Huang, Shan Jia, Ming-Ching Chang, Siwei Lyu. 8967-8971 [doi]

Custom Attribution Loss for Improving Generalization and Interpretability of Deepfake DetectionPavel Korshunov, Anubhav Jain, Sébastien Marcel. 8972-8976 [doi]

Sparse Multi-Reference Alignment: Sample Complexity and Computational HardnessTamir Bendory, Oscar Michelin, Amit Singer. 8977-8981 [doi]

Grassmannian Dimensionality Reduction Using Triplet Margin Loss for Ume Classification of 3d Point CloudsYuval Haitman, Joseph M. Francos, Louis L. Scharf. 8982-8986 [doi]

A Note on Totally Symmetric Equi-Isoclinic Tight Fusion FramesMatthew Fickus, Joseph W. Iverson, John Jasper, Dustin G. Mixon. 8987-8991 [doi]

A Simple Formula for the Moments of Unitarily Invariant Matrix DistributionsStephen D. Howard, Ali Pezeshki. 8992-8996 [doi]

Fusion of Modulation Spectral and Spectral Features with Symptom Metadata for Improved Speech-Based Covid-19 DetectionYi Zhu, Tiago H. Falk. 8997-9001 [doi]

An Overview of the FIRST ICASSP Special Session on Computer Audition for HealthcareKun Qian 0003, Tanja Schultz, Björn W. Schuller. 9002-9006 [doi]

A Glance-and-Gaze Network for Respiratory Sound ClassificationShuai Yu, Yiwei Ding, Kun Qian 0003, Bin Hu, Wei Li, Björn W. Schuller. 9007-9011 [doi]

Internet Streaming Audio Based Speech Reception Threshold Measurement in Cochlear Implant UsersXi Chen, Yefei Mo, Kang Ouyang, Mingyue Shi, Huali Zhou, Yupeng Shi, Wei Xiao, Shidong Shang, Qinglin Meng, Nengheng Zheng. 9012-9016 [doi]

A Domain Transfer Based Data Augmentation Method for Automated Respiratory ClassificationZijie Wang, Zhao Wang. 9017-9021 [doi]

Physical Layer Anonymous Communications: An Anonymity Entropy Oriented Precoding Design (Invited Paper)Zhongxiang Wei, Christos Masouros, Sumei Sun. 9022-9026 [doi]

Federated Stochastic Gradient Descent Begets Self-Induced MomentumHoward H. Yang, Zuozhu Liu, Yaru Fu, Tony Q. S. Quek, H. Vincent Poor. 9027-9031 [doi]

Adversarial Learning in Transformer Based Neural Network in Radio Signal ClassificationLu Zhang, Sangarapillai Lambotharan, Gan Zheng. 9032-9036 [doi]

Optm3sec: Optimizing Multicast Irs-Aided Multiantenna Dfrc Secrecy Channel With Multiple EavesdroppersKumar Vijay Mishra, Arpan Chattopadhyay, Siddharth Sankar Acharjee, Athina P. Petropulu. 9037-9041 [doi]

Privacy-Enhancing Appliance Filtering For Smart MetersRamana R. Avula, Tobias J. Oechtering. 9042-9046 [doi]

Adversarial Linear Quadratic Regulator under Falsified ActionsChenglong Sun, Zuxing Li, Chao Wang. 9047-9051 [doi]

Communication-Efficient Distributed MAX-VAR Generalized CCA via Error Feedback-Assisted QuantizationSagar Shrestha, Xiao Fu 0001. 9052-9056 [doi]

‖Yuetian Luo, Qin Ma, Chi Zhang, Anru R. Zhang. 9057-9061 [doi]

Bounded Simplex-Structured Matrix FactorizationOlivier Vu-Thanh, Nicolas Gillis, Fabian Lecron. 9062-9066 [doi]

CPD Computation via Recursive Eigenspace DecompositionsEric Evert, Michiel Vandecappelle, Lieven De Lathauwer. 9067-9071 [doi]

Accelerating ILL-Conditioned Robust Low-Rank Tensor RegressionTian Tong, Cong Ma, Yuejie Chi. 9072-9076 [doi]

Ada-JSR: Sample Efficient Adaptive Joint Support Recovery From Extremely Compressed Measurement VectorsSina Shahsavari, Pulak Sarangi, Mehmet Can Hücümenoglu, Piya Pal. 9077-9081 [doi]

End-to-End Network Based on Transformer for Automatic Detection of Covid-19Cong Cai, Bin Liu 0041, Jianhua Tao, Zhengkun Tian, Jiahao Lu, Kexin Wang. 9082-9086 [doi]

Prototype Learning for Interpretable Respiratory Sound AnalysisZhao Ren, Thanh-Tam Nguyen, Wolfgang Nejdl. 9087-9091 [doi]

Convoluational Transformer With Adaptive Position Embedding For Covid-19 Detection From Cough SoundsTianhao Yan, Hao Meng, Shuo Liu, Emilia Parada-Cabaleiro, Zhao Ren, Björn W. Schuller. 9092-9096 [doi]

Detection of COPD Exacerbation from Speech: Comparison of Acoustic Features and Deep Learning Based Speech Breathing ModelsVenkata Srikanth Nallanthighal, Aki Härmä, Helmer Strik. 9097-9101 [doi]

Automatic Respiratory Sound Classification Via Multi-Branch Temporal Convolutional NetworkZiping Zhao 0001, Zhen Gong, Mingyue Niu, JiaLi Ma, Haishuai Wang, Zixing Zhang 0001, Ya Li. 9102-9106 [doi]

ICASSP 2022 Acoustic Echo Cancellation ChallengeRoss Cutler, Ando Saabas, Tanel Pärnamaa, Marju Purin, Hannes Gamper, Sebastian Braun, Karsten Sørensen, Robert Aichner. 9107-9111 [doi]

A Deep Hierarchical Fusion Network for Fullband Acoustic Echo CancellationHaoran Zhao, Nan Li, Runqiang Han, LianWu Chen, Xiguang Zheng, Chen Zhang, Liang Guo, Bing Yu. 9112-9116 [doi]

Explore Relative and Context Information with Transformer for Joint Acoustic Echo Cancellation and Speech EnhancementXingwei Sun, Chenbin Cao, Qinglong Li, Linzhang Wang, Fei Xiang. 9117-9121 [doi]

Multi-Scale Temporal Frequency Convolutional Network With Axial Attention for Speech EnhancementGuochang Zhang, Libiao Yu, Chunliang Wang, Jianqiang Wei. 9122-9126 [doi]

Multi-Task Deep Residual Echo Suppression with Echo-Aware LossShimin Zhang, Ziteng Wang, Jiayao Sun, Yihui Fu, Biao Tian, Qiang Fu, Lei Xie. 9127-9131 [doi]

Multi-Scale Refinement Network Based Acoustic Echo CancellationFan Cui, Liyong Guo, Wenfeng Li, Peng Gao, Yujun Wang. 9132-9136 [doi]

Audio-Visual Object Classification for Human-Robot CollaborationAlessio Xompero, Yik Lung Pang, T. Patten, A. Prabhakar, B. Calli, Andrea Cavallaro. 9137-9141 [doi]

Shared Transformer Encoder with Mask-Based 3d Model Estimation for Container Mass EstimationTomoya Matsubara, Seitaro Otsuki, Yuiga Wada, Haruka Matsuo, Takumi Komatsu, Yui Iioka, Komei Sugiura, Hideo Saito. 9142-9146 [doi]

Improving Generalization of Deep Networks for Estimating Physical Properties of Containers and FillingsHengyi Wang, Chaoran Zhu, Ziyin Ma, Changjae Oh. 9147-9151 [doi]

Container Localisation and Mass Estimation with an RGB-D CameraTommaso Apicella, Giulia Slavic, Edoardo Ragusa, Paolo Gastaldo, Lucio Marcenaro. 9152-9155 [doi]

Summary on the ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand ChallengeFan Yu, Shiliang Zhang, Pengcheng Guo, Yihui Fu, Zhihao Du, Siqi Zheng, Weilong Huang, Lei Xie 0001, Zheng-Hua Tan, DeLiang Wang, Yanmin Qian, Kong-Aik Lee, Zhijie Yan, Bin Ma, Xin Xu, Hui Bu. 9156-9160 [doi]

The CUHK-Tencent Speaker Diarization System for the ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription ChallengeNaijun Zheng, Na Li, Xixin Wu, Lingwei Meng, Jiawen Kang, Haibin Wu, Chao Weng, Dan Su 0002, Helen Meng. 9161-9165 [doi]

The USTC-Ximalaya System for the ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription (M2met) ChallengeMaokui He, Xiang Lv, Weilin Zhou, Jingjing Yin, Xiaoqi Zhang, Yuxuan Wang, Shutong Niu, Yuhang Cao, Heng Lu, Jun Du, Chin-Hui Lee. 9166-9170 [doi]

Cross-Channel Attention-Based Target Speaker Voice Activity Detection: Experimental Results for the M2met ChallengeWeiqing Wang, Xiaoyi Qin, Ming Li. 9171-9175 [doi]

The Volcspeech System for the ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription ChallengeChen Shen, Yi Liu, Wenzhi Fan, Bin Wang, Shixue Wen, Yao Tian, Jun Zhang, Jingsheng Yang, Zejun Ma. 9176-9180 [doi]

The Royalflush System of Speech Recognition for M2met ChallengeShuaishuai Ye, Peiyao Wang, Shunfei Chen, Xinhui Hu, Xinkang Xu. 9181-9185 [doi]

L3DAS22 Challenge: Learning 3D Audio Sources in a Real Office EnvironmentEric Guizzo, Christian Marinoni, Marco Pennese, Xinlei Ren, Xiguang Zheng, Chen Zhang, Bruno Masiero, Aurelio Uncini, Danilo Comminiello. 9186-9190 [doi]

ICASSP 2022 L3DAS22 Challenge: Ensemble of Resnet-Conformers with Ambisonics Data Augmentation for Sound Event Localization and DetectionYongjian Mao, Ying Zeng, Hongqing Liu, Wenbin Zhu, Yi Zhou. 9191-9195 [doi]

A Track-Wise Ensemble Event Independent Network for Polyphonic Sound Event Localization and DetectionJinbo Hu, Yin Cao, Ming Wu, Qiuqiang Kong, Feiran Yang, Mark D. Plumbley, Jun Yang 0004. 9196-9200 [doi]

Towards Low-Distortion Multi-Channel Speech Enhancement: The ESPNET-Se Submission to the L3DAS22 ChallengeYen-Ju Lu, Samuele Cornell, Xuankai Chang, Wangyou Zhang, Chenda Li, Zhaoheng Ni, Zhong-qiu Wang, Shinji Watanabe 0001. 9201-9205 [doi]

Multi-Scale Temporal Frequency Convolutional Network with Axial Attention for Multi-Channel Speech EnhancementGuochang Zhang, Chunliang Wang, Libiao Yu, Jianqiang Wei. 9206-9210 [doi]

The PCG-AIID System for L3DAS22 Challenge: MIMO and MISO Convolutional Recurrent Network for Multi Channel Speech Enhancement and Speech RecognitionJingdong Li, Yuanyuan Zhu, Dawei Luo, Yun Liu, Guohui Cui, Zhaoxia Li. 9211-9215 [doi]

ADD 2022: the first Audio Deep Synthesis Detection ChallengeJiangyan Yi, Ruibo Fu, Jianhua Tao, Shuai Nie, Haoxin Ma, Chenglong Wang, Tao Wang, Zhengkun Tian, Ye Bai, Cunhang Fan, Shan Liang, Shiming Wang, Shuai Zhang 0014, Xinrui Yan, Le Xu, Zhengqi Wen, Haizhou Li 0001. 9216-9220 [doi]

Time Domain Adversarial Voice Conversion for ADD 2022Cheng Wen, Tingwei Guo, Xingjun Tan, Rui Yan, Shuran Zhou, Chuandong Xie, Wei Zou, Xiangang Li. 9221-9225 [doi]

Audio Deepfake Detection System with Neural Stitching for ADD 2022Rui Yan, Cheng Wen, Shuran Zhou, Tingwei Guo, Wei Zou, Xiangang Li. 9226-9230 [doi]

Fake Audio Detection Based On Unsupervised Pretraining ModelsZhiqiang Lv, Shanshan Zhang, Kai Tang, Pengfei Hu. 9231-9235 [doi]

Partially Fake Audio Detection by Self-Attention-Based Fake Span DiscoveryHaibin Wu, Heng-Cheng Kuo, Naijun Zheng, Kuo-Hsuan Hung, Hung-yi Lee, Yu Tsao 0001, Hsin-Min Wang, Helen Meng. 9236-9240 [doi]

The Vicomtech Audio Deepfake Detection System Based on Wav2vec2 for the 2022 ADD ChallengeJuan M. Martín-Doñas, Aitor Álvarez. 9241-9245 [doi]

Audio-Visual Wake Word Spotting System for MISP Challenge 2021Yanguang Xu, Jianwei Sun, Yang Han, Shuaijiang Zhao, Chaoyang Mei, Tingwei Guo, Shuran Zhou, Chuandong Xie, Wei Zou, Xiangang Li. 9246-9250 [doi]

Channel-Wise AV-Fusion Attention for Multi-Channel Audio-Visual Speech RecognitionGaopeng Xu, Song Yang, Wei Li, Song Wang, Guo Wei, Junfeng Yuan, Jie Gao. 9251-9255 [doi]

The DKU Audio-Visual Wake Word Spotting System for the 2021 MISP ChallengeMing Cheng, Haoxu Wang, Yechen Wang, Ming Li. 9256-9260 [doi]

The Sjtu System For Multimodal Information Based Speech Processing Challenge 2021Wei Wang, Xun Gong, Yifei Wu, Zhikai Zhou, Chenda Li, Wangyou Zhang, Bing Han, Yanmin Qian. 9261-9265 [doi]

The First Multimodal Information Based Speech Processing (Misp) Challenge: Data, Tasks, Baselines And ResultsHang Chen, Hengshun Zhou, Jun Du, Chin-Hui Lee, Jingdong Chen, Shinji Watanabe 0001, Sabato Marco Siniscalchi, Odette Scharenborg, Diyuan Liu, Bao-Cai Yin, Jia Pan, Jianqing Gao, Cong Liu 0006. 9266-9270 [doi]

Icassp 2022 Deep Noise Suppression ChallengeHarishchandra Dubey, Vishak Gopal, Ross Cutler, Ashkan Aazami, Sergiy Matusevych, Sebastian Braun, Sefik Emre Eskimez, Manthan Thakker, Takuya Yoshioka, Hannes Gamper, Robert Aichner. 9271-9275 [doi]

FB-MSTCN: A Full-Band Single-Channel Speech Enhancement Method Based on Multi-Scale Temporal Convolutional NetworkZehua Zhang, Lu Zhang, Xuyi Zhuang, Yukun Qian, Heng Li, Mingjiang Wang. 9276-9280 [doi]

FRCRN: Boosting Feature Representation Using Frequency Recurrence for Monaural Speech EnhancementShengkui Zhao, Bin Ma, Karn N. Watcharasupat, Woon-Seng Gan. 9281-9285 [doi]

Harmonic Gated Compensation Network Plus for ICASSP 2022 DNS ChallengeTianrui Wang, Weibin Zhu, Yingying Gao, Yanan Chen, Junlan Feng, Shilei Zhang. 9286-9290 [doi]

TEA-PSE: Tencent-Ethereal-Audio-Lab Personalized Speech Enhancement System for ICASSP 2022 DNS ChallengeYukai Ju, Wei Rao, Xiaopeng Yan, Yihui Fu, Shubo Lv, Luyao Cheng, Yannan Wang, Lei Xie 0001, Shidong Shang. 9291-9295 [doi]

Multi-Stage and Multi-Loss Training for Fullband Non-Personalized and Personalized Speech EnhancementLianWu Chen, Chenglin Xu, Xu Zhang, Xinlei Ren, Xiguang Zheng, Chen Zhang, Liang Guo, Bing Yu. 9296-9300 [doi]

ICASSP-SPGC 2022: Root Cause Analysis for Wireless Network Fault LocalizationTianjian Zhang, Qian Chen, Yi Jiang, Dandan Miao, Feng Yin, Tao Quan, Qingjiang Shi, Zhi-Quan Luo. 9301-9305 [doi]

Accurate Inference of Unseen Combinations of Multiple Rootcauses with Classifier EnsembleXuan Zhang, Longxiang Xiong, Ningyuan Sun, Mingxia Wang, Hao Tang, Yanxing Zhao. 9306-9310 [doi]

Causal Alignment Based Fault Root Causes Localization for Wireless NetworkYuequn Liu, Wenhui Zhu, Jie Qiao, Zhiyi Huang, Yu Xiang, Xuanzhi Chen, Wei Chen, Ruichu Cai. 9311-9315 [doi]

Netrca: An Effective Network Fault Cause Localization AlgorithmChaoli Zhang, Zhiqiang Zhou, Yingying Zhang, Linxiao Yang, Kai He, Qingsong Wen, Liang Sun 0001. 9316-9320 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2022, Virtual and Singapore, 23-27 May 2022

Abstract

Table of Contents