Proceedings of the Thirteenth Language Resources and Evaluation Conference, LREC 2022, Marseille, France, 20-25 June 2022

researchr

You are not signed in
Sign in
Sign up

Nicoletta Calzolari, Frédéric Béchet, Philippe Blache, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Hélène Mazo, Jan Odijk, Stelios Piperidis, editors, Proceedings of the Thirteenth Language Resources and Evaluation Conference, LREC 2022, Marseille, France, 20-25 June 2022. European Language Resources Association, 2022. [doi]

Conference: lrec2022

Abstract is missing.

Domain Adaptation in Neural Machine Translation using a Qualia-Enriched FrameNetAlexandre Diniz da Costa, Mateus Coutinho Marim, Ely Edison Matos, Tiago Timponi Torrent. 1-12 [doi]

HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using Professional Post-Editing Towards More Effective MT EvaluationSerge Gladkoff, Lifeng Han. 13-21 [doi]

Priming Ancient Korean Neural Machine TranslationChanjun Park, Seolhwa Lee, Jaehyung Seo, Hyeonseok Moon, Sugyeong Eo, HeuiSeok Lim. 22-28 [doi]

GECO-MT: The Ghent Eye-tracking Corpus of Machine TranslationToon Colman, Margot Fonteyne, Joke Daems, Nicolas Dirix, Lieve Macken. 29-38 [doi]

Introducing Frege to Fillmore: A FrameNet Dataset that Captures both Sense and ReferenceLevi Remijnse, Piek Vossen, Antske Fokkens, Sam Titarsolej. 39-50 [doi]

Compiling a Suitable Level of Sense Granularity in a Lexicon for AI Purposes: The Open Source COR LexiconBolette S. Pedersen, Nathalie Carmen Hau Sørensen, Sanni Nimb, Ida Flørke, Sussi Olsen, Thomas Troelsgård. 51-60 [doi]

Sense and SentimentFrancis Bond, Merrick Yeu Herng Choo. 61-69 [doi]

Enriching Linguistic Representation in the Cantonese Wordnet and Building the New Cantonese Wordnet CorpusJoanna Ut-Seong Sio, Luís Morgado da Costa. 70-78 [doi]

ZAEBUC: An Annotated Arabic-English Bilingual Writer CorpusNizar Habash, David Palfreyman. 79-88 [doi]

Turkish Universal Conceptual Cognitive AnnotationNecva Bölücü, Burcu Can. 89-99 [doi]

Introducing the CURLICAT Corpora: Seven-language Domain Specific Annotated Corpora from Curated SourcesTamás Váradi, Bence Nyéki, Svetla Koeva, Marko Tadic, Vanja Stefanec, Maciej Ogrodniczuk, Bartlomiej Niton, Piotr Pezik, Verginica Barbu Mititelu, Elena Irimia, Maria Mitrofan, Dan Tufis, Radovan Garabík, Simon Krek, Andraz Repar. 100-108 [doi]

RU-ADEPT: Russian Anonymized Dataset with Eight Personality TraitsC. Anton Rytting, Valerie Novak, James R. Hull, Victor M. Frank, Paul Rodrigues 0001, Jarrett G. W. Lee, Laurel Miller-Sims. 109-118 [doi]

CoQAR: Question Rewriting on CoQAQuentin Brabant, Gwénolé Lecorvé, Lina Maria Rojas-Barahona. 119-126 [doi]

User Interest Modelling in Argumentative Dialogue SystemsAnnalena Aicher, Nadine Gerstenlauer, Wolfgang Minker, Stefan Ultes. 127-136 [doi]

Every time I fire a conversational designer, the performance of the dialogue system goes downGiancarlo A. Xompero, Michele Mastromattei, Samir Salman, Cristina Giannone, Andrea Favalli, Raniero Romagnoli, Fabio Massimo Zanzotto. 137-145 [doi]

An Empirical Study on the Overlapping Problem of Open-Domain Dialogue DatasetsYuqiao Wen, Guoqing Luo, Lili Mou. 146-153 [doi]

Language Technologies for the Creation of Multilingual Terminologies. Lessons Learned from the SSHOC ProjectFederica Gamba, Francesca Frontini, Daan Broeder, Monica Monachini. 154-163 [doi]

How to be FAIR when you CARE: The DGS Corpus as a Case Study of Open Science Resources for Minority LanguagesMarc Schulder, Thomas Hanke 0001. 164-173 [doi]

Italian NLP for Everyone: Resources and Models from EVALITA to the European Language GridValerio Basile, Cristina Bosco, Michael Fell, Viviana Patti, Rossella Varvara. 174-180 [doi]

Cross-Lingual Link Discovery for Under-Resourced LanguagesMichael Rosner, Sina Ahmadi, Elena Simona Apostol, Julia Bosque-Gil, Christian Chiarcos, Milan Dojchinovski, Katerina Gkirtzou, Jorge Gracia, Dagmar Gromann, Chaya Liebeskind, Giedre Valunaite Oleskeviciene, Gilles Sérasset, Ciprian-Octavian Truica. 181-192 [doi]

Angry or Sad ? Emotion Annotation for Extremist Content CharacterisationValentina Dragos, Delphine Battistelli, Aline Étienne, Yolène Constable. 193-201 [doi]

Identification of Multiword Expressions in Tweets for Hate Speech DetectionNicolas Zampieri, Carlos Ramisch, Irina Illina, Dominique Fohr. 202-210 [doi]

Causal Investigation of Public Opinion during the COVID-19 Pandemic via Social Media TextMichael Jantscher, Roman Kern. 211-226 [doi]

Misspelling Semantics in ThaiPakawat Nakwijit, Matthew Purver. 227-236 [doi]

Automatic Detection of Stigmatizing Uses of Psychiatric Terms on TwitterVéronique Moriceau, Farah Benamara, Abdelmoumene Boumadane. 237-243 [doi]

CoVERT: A Corpus of Fact-checked Biomedical COVID-19 TweetsIsabelle Mohr, Amelie Wührl, Roman Klinger. 244-257 [doi]

XLM-T: Multilingual Language Models in Twitter for Sentiment Analysis and BeyondFrancesco Barbieri, Luis Espinosa Anke, José Camacho-Collados. 258-266 [doi]

'Am I the Bad One'? Predicting the Moral Judgement of the Crowd Using Pre-trained Language ModelsAreej Alhassan, Jinkai Zhang, Viktor Schlegel. 267-276 [doi]

Generating Questions from Wikidata TriplesKelvin Han, Thiago Castro Ferreira, Claire Gardent. 277-290 [doi]

Evaluating Transformer Language Models on Arithmetic Operations Using Number DecompositionMatteo Muffo, Aldo Cocco, Enrico Bertino. 291-297 [doi]

Evaluating the Effects of Embedding with Speaker Identity Information in Dialogue SummarizationYuji Naraki, Tetsuya Sakai, Yoshihiko Hayashi. 298-304 [doi]

Perceived Text Quality and Readability in Extractive and Abstractive SummariesJulius Monsen, Evelina Rennes. 305-312 [doi]

Learning to Prioritize: Precision-Driven Sentence Filtering for Long Text SummarizationAlex Mei, Anisha Kabir, Rukmini Bapat, John Judge, Tony Sun, William Yang Wang. 313-318 [doi]

Automating Horizon Scanning in Future StudiesTatsuya Ishigaki, Suzuko Nishino, Sohei Washino, Hiroki Igarashi, Yukari Nagai, Yuichi Washida, Akihiko Murai. 319-327 [doi]

ViHealthBERT: Pre-trained Language Models for Vietnamese in Health Text MiningNguyen Phuc Minh, Tran Hoang Vu, Vu Hoang, Ta Duc Huy, Trung Huu Bui, Steven Quoc Hung Truong. 328-337 [doi]

Privacy-Preserving Graph Convolutional Networks for Text ClassificationTimour Igamberdiev, Ivan Habernal. 338-350 [doi]

ArMATH: a Dataset for Solving Arabic Math Word ProblemsReem Alghamdi, Zhenwen Liang, Xiangliang Zhang 0001. 351-362 [doi]

KIMERA: Injecting Domain Knowledge into Vacant Transformer HeadsBenjamin Winter, Alexei Figueroa Rosero, Alexander Löser, Felix Alexander Gers, Amy Siu. 363-373 [doi]

Distilling the Knowledge of Romanian BERTs Using Multiple TeachersAndrei-Marius Avram, Darius Catrina, Dumitru-Clementin Cercel, Mihai Dascalu, Traian Rebedea, Vasile Florian Pais, Dan Tufis. 374-384 [doi]

Personalized Filled-pause Generation with Group-wise Prediction ModelsYuta Matsunaga, Takaaki Saeki, Shinnosuke Takamichi, Hiroshi Saruwatari. 385-392 [doi]

Transformer versus LSTM Language Models trained on Uncertain ASR Hypotheses in Limited Data ScenariosImran A. Sheikh, Emmanuel Vincent 0001, Irina Illina. 393-399 [doi]

Out of Thin Air: Is Zero-Shot Cross-Lingual Keyword Detection Better Than Unsupervised?Boshko Koloski, Senja Pollak, Blaz Skrlj, Matej Martinc. 400-409 [doi]

Evaluating Pretraining Strategies for Clinical BERT ModelsAnastasios Lamproudis, Aron Henriksson, Hercules Dalianis. 410-416 [doi]

KazNERD: Kazakh Named Entity Recognition DatasetRustem Yeshpanov, Yerbolat Khassanov, Huseyin Atakan Varol. 417-426 [doi]

Mitigating Dataset Artifacts in Natural Language Inference Through Automatic Contextual Data Augmentation and Learning OptimizationMichail Mersinias, Panagiotis Valvis. 427-435 [doi]

Kompetencer: Fine-grained Skill Classification in Danish Job Postings via Distant Supervision and Transfer LearningMike Zhang, Kristian Nørgaard Jensen, Barbara Plank. 436-447 [doi]

Semantic Role Labelling for Dutch Law TextsRoos M. Bakker, Romy A. N. van Drie, Maaike de Boer, Robert van Doesburg, Tom M. van Engers. 448-457 [doi]

English Language Spelling Correction as an Information Retrieval Task Using Wikipedia Search StatisticsKyle Goslin, Markus Hofmann. 458-464 [doi]

CrudeOilNews: An Annotated Crude Oil News Corpus for Event ExtractionMeisin Lee, Lay-Ki Soon, Eu-Gene Siew, Ly Fie Sugianto. 465-479 [doi]

Claim Extraction and Law Matching for COVID-19-related LegislationNiklas Dehio, Malte Ostendorff, Georg Rehm. 480-490 [doi]

Constructing A Dataset of Support and Attack Relations in Legal Arguments in Court Judgements using Linguistic RulesBasit Ali, Sachin Pawar, Girish K. Palshikar, Rituraj Singh. 491-500 [doi]

KIND: an Italian Multi-Domain Dataset for Named Entity RecognitionTeresa Paccosi, Alessio Palmero Aprosio. 501-507 [doi]

Russian Jeopardy! Data Set for Question-Answering SystemsElena Mikhalkova, Alexander A Khlyupin. 508-514 [doi]

Know Better - A Clickbait Resolving ChallengeBenjamin Hättasch, Carsten Binnig. 515-523 [doi]

Valet: Rule-Based Information Extraction for Rapid DeploymentDayne Freitag, John Cadigan, Robert Sasseen, Paul Kalmar. 524-533 [doi]

Negation Detection in Dutch Spoken Human-Computer ConversationsTom Sweers, Iris Hendrickx, Helmer Strik. 534-542 [doi]

Reflections on 30 Years of Language Resource Development and SharingChristopher Cieri, Mark Liberman, Sunghye Cho, Stephanie M. Strassel, James Fiumara, Jonathan Wright. 543-550 [doi]

Language Resources to Support Language Diversity - the ELRA AchievementsValérie Mapelli, Victoria Arranz, Khalid Choukri, Hélène Mazo. 551-558 [doi]

Ethical Issues in Language Resources and Language Technology - Tentative CategorisationPawel Kamocki, Andreas Witt. 559-563 [doi]

Do we Name the Languages we Study? The #BenderRule in LREC and ACL articlesFanny Ducel, Karën Fort, Gaël Lejeune, Yves Lepage. 564-573 [doi]

Aspect-Based Emotion Analysis and Multimodal Coreference: A Case Study of Customer Comments on Adidas Instagram PostsLuna De Bruyne, Akbar Karimi, Orphée De Clercq, Andrea Prati 0001, Véronique Hoste. 574-580 [doi]

Multi-source Multi-domain Sentiment Analysis with BERT-based ModelsGabriel Roccabruna, Steve Azzolin, Giuseppe Riccardi. 581-589 [doi]

NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual Sentiment AnalysisShamsuddeen Hassan Muhammad, David Ifeoluwa Adelani, Aremu Anuoluwapo, Idris Abdulmumin. 590-602 [doi]

A (Psycho-)Linguistically Motivated Scheme for Annotating and Exploring Emotions in a Genre-Diverse CorpusAline Étienne, Delphine Battistelli, Gwénolé Lecorvé. 603-612 [doi]

Integrating a Phrase Structure Corpus Grammar and a Lexical-Semantic Network: the HOLINET Knowledge GraphJean-Philippe Prost. 613-622 [doi]

On the Impact of Temporal Representations on Metaphor DetectionGiorgio Ottolina, Matteo Luigi Palmonari, Manuel Vimercati, Mehwish Alam. 623-632 [doi]

Analysis and Prediction of NLP Models via Task EmbeddingsDamien Sileo, Marie-Francine Moens. 633-647 [doi]

Cross-lingual and Cross-domain Transfer Learning for Automatic Term Extraction from Low Resource DataAmir Hazem, Mérième Bouhandi, Florian Boudin, Béatrice Daille. 648-662 [doi]

Few-Shot Learning for Argument Aspects of the Nuclear Energy DebateLena Jurkschat, Gregor Wiedemann, Maximilian Heinrich, Mattes Ruckdeschel, Sunna Torge. 663-672 [doi]

MuLVE, A Multi-Language Vocabulary Evaluation Data SetAnik Jacobsen, Salar Mohtaj, Sebastian Möller 0001. 673-679 [doi]

PLOD: An Abbreviation Detection Dataset for Scientific DocumentsLeonardo Zilio, Hadeel Saadany, Prashant Sharma, Diptesh Kanojia, Constantin Orasan. 680-688 [doi]

Potential Idiomatic Expression (PIE)-English: Corpus for Classes of IdiomsTosin P. Adewumi, Roshanak Vadoodi, Aparajita Tripathy, Konstantina Nikolaidou, Foteini Liwicki, Marcus Liwicki. 689-696 [doi]

LeSpell - A Multi-Lingual Benchmark Corpus of Spelling Errors to Develop Spellchecking Methods for Learner LanguageMarie Bexte, Ronja Laarmann-Quante, Andrea Horbach, Torsten Zesch. 697-706 [doi]

Subjective Text Complexity Assessment for GermanLaura Seiffe, Fares Kallel, Sebastian Möller 0001, Babak Naderi, Roland Roller. 707-714 [doi]

Querying Interaction Structure: Approaches to Overlap in Spoken Language CorporaElena Frick, Thomas Schmidt 0002, Henrike Helmer. 715-722 [doi]

DiaBiz - an Annotated Corpus of Polish Call Center DialogsPiotr Pezik, Gosia Krawentek, Sylwia Karasinska, Pawel Wilk, Paulina Rybinska, Anna Cichosz, Angelika Peljak-Lapinska, Mikolaj Deckert, Michal Adamczyk. 723-726 [doi]

LaVA - Latvian Language Learner corpusRoberts Dargis, Ilze Auzina, Inga Kaija, Kristine Levane-Petrova, Kristine Pokratniece. 727-731 [doi]

The EuroPat Corpus: A Parallel Corpus of European Patent DataKenneth Heafield, Elaine Farrow, Jelmer van der Linde, Gema Ramírez-Sánchez, Dion Wiggins. 732-740 [doi]

"Beste Grüße, Maria Meyer" - Pseudonymization of Privacy-Sensitive Information in EmailsElisabeth Eder, Michael Wiegand, Ulrike Krieg-Holz, Udo Hahn. 741-752 [doi]

Criteria for the Annotation of Implicit StereotypesWolfgang Schmeisser-Nieto, Montserrat Nofre, Mariona Taulé. 753-762 [doi]

Common Phone: A Multilingual Dataset for Robust Acoustic ModellingPhilipp Klumpp, Tomas Arias-Vergara, Paula Andrea Pérez-Toro, Elmar Nöth, Juan Rafael Orozco-Arroyave. 763-768 [doi]

Curras + Baladi: Towards a Levantine CorpusKarim Al-Haff, Mustafa Jarrar, Tymaa Hammouda, Fadi A. Zaraket. 769-778 [doi]

Annotation Study of Japanese Judgments on Tort for Legal Judgment Prediction with RationalesHiroaki Yamada 0002, Takenobu Tokunaga, Ryutaro Ohara, Keisuke Takeshita, Mihoko Sumida. 779-790 [doi]

Placing M-Phasis on the Plurality of Hate: A Feature-Based Corpus of Hate OnlineDana Ruiter, Liane Reiners, Ashwin Geet D'Sa, Thomas Kleinbauer, Dominique Fohr, Irina Illina, Dietrich Klakow, Christian Schemer, Angeliki Monnier. 791-804 [doi]

ParCorFull2.0: a Parallel Corpus Annotated with Full CoreferenceEkaterina Lapshinova-Koltunski, Pedro Augusto Ferreira, Elina Lartaud, Christian Hardmeier. 805-813 [doi]

A Multi-Party Dialogue Ressource in FrenchMaria Boritchev, Maxime Amblard. 814-823 [doi]

Bicleaner AI: Bicleaner Goes NeuralJaume Zaragoza-Bernabeu, Gema Ramírez-Sánchez, Marta Bañón, Sergio Ortiz-Rojas. 824-831 [doi]

Semi-automatically Annotated Learner Corpus for RussianAnisia Katinskaia, Maria Lebedeva, Jue Hou, Roman Yangarber. 832-839 [doi]

UniMorph 4.0: Universal MorphologyKhuyagbaatar Batsuren, Omer Goldman, Salam Khalifa, Nizar Habash, Witold Kieras, Gábor Bella, Brian Leonard, Garrett Nicolai, Kyle Gorman, Yustinus Ghanggo Ate, Maria Ryskina, Sabrina J. Mielke, Elena Budianskaya, Charbel El-Khaissi, Tiago Pimentel, Michael Gasser, William Abbott Lane, Mohit Raj, Matt Coler, Jaime Rafael Montoya Samame, Delio Siticonatzi Camaiteri, Esaú Zumaeta Rojas, Didier López Francis, Arturo Oncevay, Juan López Bautista, Gema Celeste Silva Villegas, Lucas Torroba Hennigen, Adam Ek, David Guriel, Peter Dirix, Jean-Philippe Bernardy, Andrey Scherbakov, Aziyana Bayyr-ool, Antonios Anastasopoulos, Roberto Zariquiey, Karina Sheifer, Sofya Ganieva, Hilaria Cruz, Ritván Karahóga, Stella Markantonatou, George Pavlidis, Matvey Plugaryov, Elena Klyachko, Ali Salehi, Candy Angulo, Jatayu Baxi, Andrew Krizhanovsky, Natalia Krizhanovskaya, Elizabeth Salesky, Clara Vania, Sardana Ivanova, Jennifer White, Rowan Hall Maudslay, Josef Valvoda, Ran Zmigrod, Paula Czarnowska, Irene Nikkarinen, Aelita Salchak, Brijesh Bhatt, Christopher Straughn, Zoey Liu, Jonathan North Washington, Yuval Pinter, Duygu Ataman, Marcin Wolinski, Totok Suhardijanto, Anna Yablonskaya, Niklas Stoehr, Hossep Dolatian, Zahroh Nuriah, Shyam Ratan, Francis M. Tyers, Edoardo M. Ponti, Grant Aiton, Aryaman Arora, Richard J. Hatcher, Ritesh Kumar, Jeremiah Young, Daria Rodionova, Anastasia Yemelina, Taras Andrushko, Igor Marchenko, Polina Mashkovtseva, Alexandra Serova, Emily Prud'hommeaux, Maria Nepomniashchaya, Fausto Giunchiglia, Eleanor Chodroff, Mans Hulden, Miikka Silfverberg, Arya D. McCarthy, David Yarowsky, Ryan Cotterell, Reut Tsarfaty, Ekaterina Vylomova. 840-855 [doi]

Textinator: an Internationalized Tool for Annotation and Human Evaluation in Natural Language Processing and GenerationDmytro Kalpakchi, Johan Boye. 856-866 [doi]

CyberAgressionAdo-v1: a Dataset of Annotated Online Aggressions in French Collected through a Role-playing GameAnaïs Ollagnier, Elena Cabrio, Serena Villata, Catherine Blaya. 867-875 [doi]

Finnish Hate-Speech Detection on Social Media Using CNN and FinBERTMd Saroar Jahan, Mourad Oussalah 0002, Nabil Arhab. 876-882 [doi]

Empirical Analysis of Noising Scheme based Synthetic Data Generation for Automatic Post-editingHyeonseok Moon, Chanjun Park, Seolhwa Lee, Jaehyung Seo, Jungseob Lee, Sugyeong Eo, HeuiSeok Lim. 883-891 [doi]

Domain Mismatch Doesn't Always Prevent Cross-lingual Transfer LearningDaniel Edmiston, Phillip Keung, Noah A. Smith. 892-899 [doi]

Cross-Lingual Knowledge Transfer for Clinical PhenotypingJens-Michalis Papaioannou, Paul Grundmann, Betty van Aken, Athanasios Samaras, Ilias Kyparissidis, George Giannakoulas, Felix A. Gers, Alexander Löser. 900-909 [doi]

The Multilingual Microblog Translation Corpus: Improving and Evaluating Translation of User-Generated TextPaul McNamee, Kevin Duh. 910-918 [doi]

Multilingual and Multimodal Learning for Brazilian PortugueseJúlia Sato, Helena de Medeiros Caseli, Lucia Specia. 919-927 [doi]

LibriS2S: A German-English Speech-to-Speech Translation CorpusPedro Jeuris, Jan Niehues. 928-935 [doi]

A Linguistically Motivated Test Suite to Semi-Automatically Evaluate German-English Machine Translation OutputVivien Macketanz, Eleftherios Avramidis, Aljoscha Burchardt, He Wang, Renlong Ai, Shushen Manakhimova, Ursula Strohriegel, Sebastian Möller 0001, Hans Uszkoreit. 936-947 [doi]

Cross-lingual Transfer of Monolingual ModelsEvangelia Gogoulou, Ariel Ekgren, Tim Isbister, Magnus Sahlgren. 948-955 [doi]

Dataset of Student Solutions to Algorithm and Data Structure Programming AssignmentsFynn Petersen-Frey, Marcus Soll, Louis Kobras, Melf Johannsen, Peter Kling, Chris Biemann. 956-962 [doi]

Language Patterns and Behaviour of the Peer Supporters in Multilingual Healthcare Conversational ForumsIshani Mondal, Kalika Bali, Mohit Jain, Monojit Choudhury, Jacki O'Neill, Millicent Ochieng, Kagonya Awori, Keshet Ronen. 963-975 [doi]

Frame Shift PredictionZheng Xin Yong, Patrick D. Watson, Tiago Timponi Torrent, Oliver Czulo, Collin F. Baker. 976-986 [doi]

CLeLfPC: a Large Open Multi-Speaker Corpus of French Cued SpeechBrigitte Bigi, Maryvonne Zimmermann, Carine André. 987-994 [doi]

Samrómur Children: An Icelandic Speech CorpusCarlos Daniel Hernandez Mena, David Erik Mollberg, Michal Borský, Jón Guðnason. 995-1002 [doi]

The Norwegian Parliamentary Speech CorpusPer Erik Solberg, Pablo Ortiz. 1003-1008 [doi]

A Speech Recognizer for Frisian/Dutch Council MeetingsMartijn Bentum, Louis ten Bosch, Henk van den Heuvel, Simone Wills, Domenique van der Niet, Jelske Dijkstra, Hans Van de Velde. 1009-1015 [doi]

Elderly Conversational Speech Corpus with Cognitive Impairment Test and Pilot Dementia Detection Experiment Using Acoustic Characteristics of Speech in Japanese DialectsMeiko Fukuda, Ryota Nishimura, Maina Umezawa, Kazumasa Yamamoto, Yurie Iribe, Norihide Kitaoka. 1016-1022 [doi]

A Spoken Drug Prescription Dataset in French for Spoken Language UnderstandingAli Can Kocabiyikoglu, François Portet, Prudence Gibert, Hervé Blanchon, Jean-Marc Babouchkine, Gaëtan Gavazzi. 1023-1031 [doi]

Towards an Open-Source Dutch Speech Recognition System for the Healthcare DomainCristian Tejedor García, Berrie van der Molen, Henk van den Heuvel, Arjan van Hessen, Toine Pieters. 1032-1039 [doi]

A Dataset for Speech Emotion Recognition in Greek Theatrical PlaysMaria Moutti, Sofia Eleftheriou, Panagiotis Koromilas, Theodoros Giannakopoulos. 1040-1046 [doi]

Audiobook Dialogues as Training Data for Conversational Style Synthetic VoicesLiisi Piits, Hille Pajupuu, Heete Sahkai, Rene Altrov, Liis Ermus, Kairi Tamuri, Indrek Hein, Meelis Mihkla, Indrek Kiissel, Egert Männisalu, Kristjan Suluste, Jaan Pajupuu. 1047-1053 [doi]

Using a Knowledge Base to Automatically Annotate Speech Corpora and to Identify Sociolinguistic VariationYaru Wu, Fabian M. Suchanek, Ioana Vasilescu, Lori Lamel, Martine Adda-Decker. 1054-1060 [doi]

Phone Inventories and Recognition for Every LanguageXinjian Li, Florian Metze, David R. Mortensen, Alan W. Black, Shinji Watanabe 0001. 1061-1067 [doi]

Constructing Parallel Corpora from COVID-19 News using MediSys MetadataDimitrios Roussis, Vassilis Papavassiliou, Sokratis Sofianopoulos, Prokopis Prokopidis, Stelios Piperidis. 1068-1072 [doi]

A Distant Supervision Corpus for Extracting Biomedical Relationships Between Chemicals, Diseases and GenesDongxu Zhang, Sunil Mohan, Michaela Torkar, Andrew McCallum. 1073-1082 [doi]

DrugEHRQA: A Question Answering Dataset on Structured and Unstructured Electronic Health Records For Medicine Related QueriesJayetri Bardhan, Anthony Colas, Kirk Roberts, Daisy Zhe Wang. 1083-1097 [doi]

Efficiently and Thoroughly Anonymizing a Transformer Language Model for Dutch Electronic Health Records: a Two-Step MethodStella Verkijk, Piek Vossen. 1098-1103 [doi]

BERTrade: Using Contextual Embeddings to Parse Old FrenchLoïc Grobol, Mathilde Regnault, Pedro Javier Ortiz Suárez, Benoît Sagot, Laurent Romary, Benoît Crabbé. 1104-1113 [doi]

Out-of-Domain Evaluation of Finnish Dependency ParsingJenna Kanerva, Filip Ginter. 1114-1124 [doi]

TArC: Tunisian Arabish Corpus, First complete releaseElisa Gugliotta, Marco Dinarelli. 1125-1136 [doi]

Towards Universal Segmentations: UniSegments 1.0Zdenek Zabokrtský, Niyati Bafna, Jan Bodnár, Lukás Kyjánek, Emil Svoboda, Magda Sevcíková, Jonás Vidra. 1137-1149 [doi]

TeDDi Sample: Text Data Diversity Sample for Language Comparison and Multilingual NLPSteven Moran, Christian Bentz, Ximena Gutierrez-Vasques, Olga Pelloni, Tanja Samardzic. 1150-1158 [doi]

Leveraging a Bilingual Dictionary to Learn Wolastoqey Word RepresentationsDiego Bear, Paul Cook. 1159-1166 [doi]

Unmasking the Myth of Effortless Big Data - Making an Open Source Multi-lingual Infrastructure and Building Language Resources from ScratchLinda Wiechetek, Katri Hiovain-Asikainen, Inga Lill Sigga Mikkelsen, Sjur N. Moshagen, Flammie Pirinen, Trond Trosterud, Børre Gaup. 1167-1177 [doi]

Building and curating conversational corpora for diversity-aware language science and technologyAndreas Liesenfeld, Mark Dingemanse. 1178-1192 [doi]

EPIC UdS - Creation and Applications of a Simultaneous Interpreting CorpusHeike Przybyl, Ekaterina Lapshinova-Koltunski, Katrin Menzel, Stefan Fischer 0008, Elke Teich. 1193-1200 [doi]

Development of a Benchmark Corpus to Support Entity Recognition in Job DescriptionsThomas Green, Diana Maynard, Chenghua Lin. 1201-1208 [doi]

CAMIO: A Corpus for OCR in Multiple LanguagesMichael Arrigo, Stephanie M. Strassel, Nolan King, Thao Tran, Lisa P. Mason. 1209-1216 [doi]

FABRA: French Aggregator-Based Readability Assessment toolkitRodrigo Wilkens, David Alfter, Xiaoou Wang, Alice Pintard, Anaïs Tack, Kevin P. Yancey, Thomas François. 1217-1233 [doi]

Towards Building a Spoken Dialogue System for Argument ExplorationAnnalena Aicher, Nadine Gerstenlauer, Isabel Feustel, Wolfgang Minker, Stefan Ultes. 1234-1241 [doi]

FreeTalky: Don't Be Afraid! Conversations Made Easier by a Humanoid Robot using Persona-based DialogueChanjun Park, Yoonna Jang, Seolhwa Lee, Sungjin Park, HeuiSeok Lim. 1242-1248 [doi]

Self-Contained Utterance Description Corpus for Japanese DialogYuta Hayashibe. 1249-1255 [doi]

DialCrowd 2.0: A Quality-Focused Dialog System Crowdsourcing ToolkitJessica Huynh, Ting-Rui Chiang, Jeffrey Bigham, Maxine Eskénazi. 1256-1263 [doi]

A Brief Survey of Textual Dialogue CorporaHugo Gonçalo Oliveira, Patrícia Ferreira, Daniel Martins, Catarina Silva 0001, Ana Alves 0001. 1264-1274 [doi]

A Unified Approach to Entity-Centric Context Tracking in Social ConversationsUlrich Rückert, Srinivas Sunkara, Abhinav Rastogi, Sushant Prakash, Pranav Khaitan. 1275-1285 [doi]

A Unifying View On Task-oriented Dialogue AnnotationVojtech Hudecek, Léon-Paul Schaub, Daniel Stancl, Patrick Paroubek, Ondrej Dusek. 1286-1296 [doi]

A Multi-source Graph Representation of the Movie Domain for Recommendation Dialogues AnalysisAntonio Origlia, Martina Di Bratto, Maria Di Maro, Sabrina Mennella. 1297-1306 [doi]

SHARE: A Lexicon of Harmful Expressions by Spanish SpeakersFlor Miriam Plaza del Arco, Ana Belén Parras Portillo, Pilar López-Úbeda, Beatriz Botella Gil, María-Teresa Martín Valdivia. 1307-1316 [doi]

Wiktextract: Wiktionary as Machine-Readable Structured DataTatu Ylönen. 1317-1325 [doi]

NyLLex: A Novel Resource of Swedish Words Annotated with Reading Proficiency LevelDaniel Holmer, Evelina Rennes. 1326-1331 [doi]

Making a Semantic Event-type Ontology MultilingualZdenka Uresová, Karolina Zaczynska, Peter Bourgonje, Eva Fucíková, Georg Rehm, Jan Hajic. 1332-1343 [doi]

NomVallex: A Valency Lexicon of Czech Nouns and AdjectivesVeronika Kolárová, Anna Vernerová. 1344-1352 [doi]

TZOS: an Online Terminology Database Aimed at Working on Basque Academic Terminology CollaborativelyIzaskun Aldezabal, Jose Maria Arriola, Arantxa Otegi. 1353-1359 [doi]

Animacy Denoting German Nouns: Annotation and ClassificationManfred Klenner, Anne Göhring. 1360-1364 [doi]

x-enVENT: A Corpus of Event Descriptions with Experiencer-specific Emotion and Appraisal AnnotationsEnrica Troiano, Laura Ana Maria Oberlaender, Maximilian Wegge, Roman Klinger. 1365-1375 [doi]

Polar Quantification of Actor Noun Phrases for GermanAnne Göhring, Manfred Klenner. 1376-1380 [doi]

Czech Dataset for Cross-lingual Subjectivity ClassificationPavel Pribán, Josef Steinberger. 1381-1391 [doi]

RED v2: Enhancing RED Dataset for Multi-Label Emotion DetectionAlexandra Ciobotaru, Mihai Vlad Constantinescu, Liviu P. Dinu, Stefan Dumitrescu. 1392-1399 [doi]

Fine-Grained Error Analysis and Fair Evaluation of Labeled SpansKatrin Ortmann. 1400-1407 [doi]

Probing Pre-trained Auto-regressive Language Models for Named Entity Typing and RecognitionElena V. Epure, Romain Hennequin. 1408-1417 [doi]

Frustratingly Easy Performance Improvements for Low-resource Setups: A Tale on BERT and Segment EmbeddingsRob van der Goot, Max Müller-Eberstein, Barbara Plank. 1418-1427 [doi]

The Subject Annotations of the Danish Parliament Corpus (2009-2017) - Evaluated with Automatic Multi-label ClassificationCostanza Navarretta, Dorte Haltrup Hansen. 1428-1436 [doi]

A Systematic Study Reveals Unexpected Interactions in Pre-Trained Neural Machine TranslationAshleigh Richardson, Janet Wiles. 1437-1443 [doi]

Holistic Evaluation of Automatic TimeML AnnotatorsMustafa Ocal, Adrian Perez, Antonela Radas, Mark A. Finlayson. 1444-1453 [doi]

Measuring Uncertainty in Translation Quality Evaluation (TQE)Serge Gladkoff, Irina Sorokina, Lifeng Han, Alexandra Alekseeva. 1454-1461 [doi]

Challenging the Transformer-based models with a Classical Arabic dataset: Quran and HadithShatha Altammami, Eric Atwell. 1462-1471 [doi]

Question Modifiers in Visual Question AnsweringWilliam Britton, Somdeb Sarkhel, Deepak Venugopal. 1472-1479 [doi]

Multimodal Pipeline for Collection of Misinformation Data from TelegramJose Sosa, Serge Sharoff. 1480-1489 [doi]

Identifying Tension in Holocaust Survivors' Interview: Code-switching/Code-mixing as CuesXinYuan Xia, Lu Xiao, Kun Yang, Yueyue Wang. 1490-1495 [doi]

Fine-tuning vs From Scratch: Do Vision & Language Models Have Similar Capabilities on Out-of-Distribution Visual Question Answering?Kristian Nørgaard Jensen, Barbara Plank. 1496-1508 [doi]

Multilingual Image Corpus - Towards a Multimodal and Multilingual DatasetSvetla Koeva, Ivelina Stoyanova, Jordan Kralev. 1509-1518 [doi]

Sign Language Production With Avatar Layering: A Critical Use Case over Rare WordsJung-Ho Kim 0002, Eui Jun Hwang, Sukmin Cho, Du Hui Lee, Jong C. Park. 1519-1528 [doi]

The VoxWorld Platform for Multimodal Embodied AgentsNikhil Krishnaswamy, William Pickard, Brittany Cates, Nathaniel Blanchard, James Pustejovsky. 1529-1541 [doi]

MemoSen: A Multimodal Dataset for Sentiment Analysis of MemesEftekhar Hossain, Omar Sharif, Mohammed Moshiul Hoque. 1542-1554 [doi]

RUSAVIC Corpus: Russian Audio-Visual Speech in CarsDenis Ivanko, Alexandr Axyonov, Dmitry Ryumin, Alexey M. Kashevnik, Alexey Karpov 0001. 1555-1559 [doi]

A First Corpus of AZee Discourse ExpressionsCamille Challant, Michael Filhol. 1560-1565 [doi]

BERTHA: Video Captioning Evaluation Via Transfer-Learned Human AssessmentLuis Lebron, Yvette Graham, Kevin McGuinness, Konstantinos Kouramas, Noel E. O'Connor. 1566-1575 [doi]

Abstract Meaning Representation for GestureRichard Brutti, Lucia Donatelli, Kenneth Lai, James Pustejovsky. 1576-1583 [doi]

The GINCO Training Dataset for Web Genre Identification of Documents Out in the WildTaja Kuzman, Peter Rupnik, Nikola Ljubesic. 1584-1594 [doi]

The Spoken Language Understanding MEDIA Benchmark Dataset in the Era of Deep Learning: data updates, training and evaluation toolsGaëlle Laperrière, Valentin Pelloin, Antoine Caubrière, Salima Mdhaffar, Nathalie Camelin, Sahar Ghannay, Bassam Jabaian, Yannick Estève. 1595-1602 [doi]

BasqueGLUE: A Natural Language Understanding Benchmark for BasqueGorka Urbizu, Iñaki San Vicente, Xabier Saralegi, Rodrigo Agerri, Aitor Soroa. 1603-1612 [doi]

Resources and Experiments on Sentiment Classification for GeorgianNicolas Stefanovitch, Jakub Piskorski, Sopho Kharazi. 1613-1621 [doi]

CoFiF Plus: A French Financial Narrative Summarisation CorpusNadhem Zmandar, Tobias Daudert, Sina Ahmadi, Mahmoud El-Haj, Paul Rayson. 1622-1639 [doi]

Generating Extended and Multilingual Summaries with Pre-trained TransformersRémi Calizzano, Malte Ostendorff, Qian Ruan, Georg Rehm. 1640-1650 [doi]

MUSS: Multilingual Unsupervised Sentence Simplification by Mining ParaphrasesLouis Martin, Angela Fan, Éric de la Clergerie, Antoine Bordes, Benoît Sagot. 1651-1664 [doi]

Towards Understanding Gender-Seniority Compound Bias in Natural Language GenerationSamhita Honnavalli, Aesha Parekh, Lily Ou, Sophie Groenwold, Sharon Levy, Vicente Ordonez, William Yang Wang. 1665-1670 [doi]

Combining ELECTRA and Adaptive Graph Encoding for Frame IdentificationFabio Tamburini. 1671-1679 [doi]

Polysemy in Spoken Conversations and Written TextsAina Garí Soler, Matthieu Labeau, Chloé Clavel. 1680-1690 [doi]

Cross-Level Semantic Similarity for Serbian Newswire TextsVuk Batanovic, Maja Milicevic Petrovic. 1691-1699 [doi]

Universal Proposition Bank 2.0Ishan Jindal, Alexandre Rademaker, Michal Ulewicz, Ha Linh, Huyen Nguyen, Khoi-Nguyen Tran, Huaiyu Zhu 0001, Yunyao Li 0001. 1700-1711 [doi]

The Copenhagen Corpus of Eye Tracking Recordings from Natural Reading of Danish TextsNora Hollenstein, Maria Barrett, Marina Björnsdóttir. 1712-1720 [doi]

The Brooklyn Multi-Interaction Corpus for Analyzing Variation in Entrainment BehaviorAndreas Weise, Matthew McNeill, Rivka Levitan. 1721-1731 [doi]

Pro-TEXT: an Annotated Corpus of Keystroke LogsAleksandra Miletic, Christophe Benzitoun, Georgeta Cislaru, Santiago Herrera-Yanez. 1732-1739 [doi]

Work Hard, Play Hard: Collecting Acceptability Annotations through a 3D GameFederico Bonetti, Elisa Leonardelli, Daniela Trotta, Raffaele Guarasci, Sara Tonelli. 1740-1750 [doi]

DiHuTra: a Parallel Corpus to Analyse Differences between Human TranslationsEkaterina Lapshinova-Koltunski, Maja Popovic, Maarit Koponen. 1751-1760 [doi]

Data Expansion Using WordNet-based Semantic Expansion and Word Disambiguation for Cyberbullying DetectionMd Saroar Jahan, Djamila Romaissa Beddiar, Mourad Oussalah 0002, Muhidin Mohamed. 1761-1770 [doi]

ALIGNMEET: A Comprehensive Tool for Meeting Annotation, Alignment, and EvaluationPeter Polák, Muskaan Singh, Anna Nedoluzhko, Ondrej Bojar. 1771-1779 [doi]

KSoF: The Kassel State of Fluency Dataset - A Therapy Centered Dataset of StutteringSebastian P. Bayerl, Alexander Wolff von Gudenberg, Florian Hönig, Elmar Nöth, Korbinian Riedhammer. 1780-1787 [doi]

EZCAT: an Easy Conversation Annotation ToolGaël Guibon, Luce Lefeuvre, Matthieu Labeau, Chloé Clavel. 1788-1797 [doi]

Spoken Language Treebanks in Universal Dependencies: an OverviewKaja Dobrovoljc. 1798-1806 [doi]

LeConTra: A Learner Corpus of English-to-Dutch News TranslationBram Vanroy, Lieve Macken. 1807-1816 [doi]

Annotating Attribution in Czech News Server ArticlesBarbora Hladká, Jirí Mírovský, Matyás Kopp, Václav Moravec. 1817-1823 [doi]

Xposition: An Online Multilingual Database of Adpositional SemanticsLuke Gessler, Nathan Schneider 0001, Joseph C. Ledford, Austin Blodgett. 1824-1830 [doi]

A Study in Contradiction: Data and Annotation for AIDA Focusing on Informational Conflict in Russia-Ukraine RelationsJennifer Tracey, Ann Bies, Jeremy Getman, Kira Griffitt, Stephanie M. Strassel. 1831-1838 [doi]

Annotating Verbal Multiword Expressions in Arabic: Assessing the Validity of a Multilingual Annotation ProcedureNajet Hadj Mohamed, Cherifa Ben Khelil, Agata Savary, Iskandar Keskes, Jean-Yves Antoine, Lamia Hadrich Belguith. 1839-1848 [doi]

Annotation of Communicative Functions of Short Feedback Tokens in SwitchboardCarol Figueroa, Adaeze Adigwe, Magalie Ochs, Gabriel Skantze. 1849-1859 [doi]

A Dataset of Offensive Language in Kosovo Social MediaAdem Ajvazi, Christian Hardmeier. 1860-1869 [doi]

The Arabic Parallel Gender Corpus 2.0: Extensions and AnalysesBashar Alhafni, Nizar Habash, Houda Bouamor. 1870-1884 [doi]

The Engage Corpus: A Social Media Dataset for Text-Based Recommender SystemsDaniel Cheng, Kyle Yan, Phillip Keung, Noah A. Smith. 1885-1889 [doi]

Annotating Arguments in a Corpus of Opinion ArticlesGil Rocha, Luís Trigo, Henrique Lopes Cardoso, Rui Sousa-Silva, Paula Carvalho 0001, Bruno Martins 0001, Miguel Won. 1890-1899 [doi]

German Parliamentary Corpus (GerParCor)Giuseppe Abrami, Mevlüt Bagci, Leon Hammerla, Alexander Mehler. 1900-1906 [doi]

NerKor+Cars-OntoNotes++Attila Novák, Borbála Novák. 1907-1916 [doi]

A Comparative Cross Language View On Acted Databases Portraying Basic Emotions Utilising Machine LearningFelix Burkhardt, Anabell Hacker, Uwe Reichel, Hagen Wierstorf, Florian Eyben, Björn W. Schuller. 1917-1924 [doi]

Nkululeko: A Tool For Rapid Speaker Characteristics DetectionFelix Burkhardt, Johannes Wagner 0001, Hagen Wierstorf, Florian Eyben, Björn W. Schuller. 1925-1932 [doi]

Speech Aerodynamics Database, Tools and VisualisationShi Yu, Clara Ponchard, Roland Trouville, Sergio Hassid, Didier Demolin. 1933-1938 [doi]

PATATRA and PATAFreq: two French databases for the documentation of within-speaker variability in speechCécile Fougeron, Nicolas Audibert, Cédric Gendrot, Estelle Chardenon, Louise Wohmann. 1939-1944 [doi]

The Makerere Radio Speech Corpus: A Luganda Radio Corpus for Automatic Speech RecognitionJonathan Mukiibi, Andrew Katumba, Joyce Nakatumba-Nabende, Ali Hussein, Joshua Meyer. 1945-1954 [doi]

Far-Field Speaker Recognition Benchmark Derived From The DiPCo CorpusMickael Rouvier, Mohammad MohammadAmini. 1955-1959 [doi]

Evaluating Sampling-based Filler Insertion with Spontaneous TTSSiyang Wang, Joakim Gustafson, Éva Székely. 1960-1969 [doi]

BEA-Base: A Benchmark for ASR of Spontaneous HungarianPéter Mihajlik, András Balog, Tekla Etelka Gráczi, Anna Kohari, Balázs Tarján, Katalin Mady. 1970-1977 [doi]

SNuC: The Sheffield Numbers Spoken Language CorpusEmma Barker, Jon Barker, Robert J. Gaizauskas, Ning Ma 0002, Monica Lestari Paramita. 1978-1984 [doi]

The ManDi Corpus: A Spoken Corpus of Mandarin Regional DialectsLiang Zhao, Eleanor Chodroff. 1985-1990 [doi]

The Speed-Vel Project: a Corpus of Acoustic and Aerodynamic Data to Measure Droplets Emission During Speech InteractionFrancesca Carbone, Gilles Bouchet, Alain Ghio, Thierry Legou, Carine André, Muriel Lalain, Sabrina Kadri, Caterina Petrone, Federica Procino, Antoine Giovanni. 1991-1999 [doi]

Towards Speech-only Opinion-level Sentiment AnalysisAnnalena Aicher, Alisa Gazizullina, Aleksei Gusev, Yuri Matveev, Wolfgang Minker. 2000-2006 [doi]

At the Intersection of NLP and Sustainable Development: Exploring the Impact of Demographic-Aware Text Representations in Modeling Value on a Corpus of InterviewsGoya van Boven, Stephanie Hirmer, Costanza Conforti. 2007-2021 [doi]

A Study on the Ambiguity in Human Annotation of German Oral History Interviews for Perceived Emotion Recognition and Sentiment AnalysisMichael Gref, Nike Matthiesen, Sreenivasa Hikkal Venugopala, Shalaka Satheesh, Aswinkumar Vijayananth, Duc Bach Ha, Sven Behnke, Joachim Köhler. 2022-2031 [doi]

Detecting Optimism in Tweets using Knowledge Distillation and Linguistic Analysis of OptimismStefan Cobeli, Ioan-Bogdan Iordache, Shweta Yadav, Cornelia Caragea, Liviu P. Dinu, Dragos Iliescu. 2032-2041 [doi]

Dataset and Baseline for Automatic Student Feedback AnalysisMissaka Herath, Kushan Chamindu, Hashan Maduwantha, Surangika Ranathunga. 2042-2049 [doi]

EENLP: Cross-lingual Eastern European NLP IndexAlexey Tikhonov, Alex Malkhasov, Andrey Manoshin, George-Andrei Dima, Réka Cserháti, Md. Sadek Hossain Asif, Matt Sárdi. 2050-2057 [doi]

Slovene SuperGLUE Benchmark: Translation and EvaluationAles Zagar, Marko Robnik-Sikonja. 2058-2065 [doi]

Speech Resources in the Tamasheq LanguageMarcely Zanon Boito, Fethi Bougares, Florentin Barbier, Souhir Gahbiche, Loïc Barrault, Mickael Rouvier, Yannick Estève. 2066-2071 [doi]

Aesop's fable "The North Wind and the Sun" Used as a Rosetta Stone to Extract and Map Spoken Words in Under-resourced LanguagesElena Knyazeva, Philippe Boula de Mareüil, Frédéric Vernier. 2072-2079 [doi]

Multilingual Open Text Release 1: Public Domain News in 44 LanguagesChester Palen-Michel, June Kim, Constantine Lignos. 2080-2089 [doi]

TweetTaglish: A Dataset for Investigating Tagalog-English Code-SwitchingMegan Herrera, Ankit Aich, Natalie Parde. 2090-2097 [doi]

Jojajovai: A Parallel Guarani-Spanish Corpus for MT BenchmarkingLuis Chiruzzo, Santiago Góngora, Aldo Alvarez, Gustavo Giménez Lugo, Marvin M. Agüero-Torales, Yliana Rodríguez. 2098-2107 [doi]

Assessing Multilinguality of Publicly Accessible WebsitesRinalds Viksna, Inguna Skadina, Raivis Skadins, Andrejs Vasiljevs, Roberts Rozis. 2108-2116 [doi]

A Methodology for Building a Diachronic Dataset of Semantic Shifts and its Application to QC-FR-Diac-V1.0, a Free Reference for FrenchDavid Kletz, Philippe Langlais, François Lareau, Patrick Drouin. 2117-2125 [doi]

CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning of Large Language ModelsJörg Frohberg, Frank Binder. 2126-2140 [doi]

Evaluating Gender Bias in Speech TranslationMarta R. Costa-Jussà, Christine Basta, Gerard I. Gállego. 2141-2147 [doi]

Design Choices in Crowdsourcing Discourse Relation Annotations: The Effect of Worker Selection and TrainingMerel C. J. Scholman, Valentina Pyatkin, Frances Yung, Ido Dagan, Reut Tsarfaty, Vera Demberg. 2148-2156 [doi]

TBD3: A Thresholding-Based Dynamic Depression Detection from Social Media for Low-Resource UsersHrishikesh Kulkarni, Sean MacAvaney, Nazli Goharian, Ophir Frieder. 2157-2165 [doi]

SpecNFS: A Challenge Dataset Towards Extracting Formal Models from Natural Language SpecificationsSayontan Ghosh, Amanpreet Singh, Alex Merenstein, Wei Su, Scott A. Smolka, Erez Zadok, Niranjan Balasubramanian. 2166-2176 [doi]

Argument Similarity Assessment in German for Intelligent Tutoring: Crowdsourced Dataset and First ExperimentsXiaoyu Bai, Manfred Stede. 2177-2187 [doi]

Leveraging Pre-trained Language Models for Gender DebiasingNishtha Jain, Declan Groves, Lucia Specia, Maja Popovic. 2188-2195 [doi]

Unsupervised Embeddings with Graph Auto-Encoders for Multi-domain and Multilingual Hate Speech DetectionGretel Liz De la Peña Sarracén, Paolo Rosso. 2196-2204 [doi]

FQuAD2.0: French Question Answering and Learning When You Don't KnowQuentin Heinrich, Gautier Viaud, Wacim Belblidia. 2205-2214 [doi]

Large-Scale Hate Speech Detection with Cross-Domain TransferCagri Toraman, Furkan Sahinuç, Eyup Halit Yilmaz. 2215-2225 [doi]

GLoHBCD: A Naturalistic German Dataset for Language of Health Behaviour Change on Online Support ForumsSelina Meyer, David Elsweiler. 2226-2235 [doi]

Creating a Data Set of Abstractive Summaries of Turn-labeled Spoken Human-Computer ConversationsIris Hendrickx. 2236-2244 [doi]

OpenEL: An Annotated Corpus for Entity Linking and Discourse in Open Domain DialogueWen Cui, Leanne Rolston, Marilyn A. Walker, Beth Ann Hockey. 2245-2256 [doi]

Collecting Visually-Grounded Dialogue with A Game Of SortsBram Willemsen, Dmytro Kalpakchi, Gabriel Skantze. 2257-2268 [doi]

CoRoSeOf - An Annotated Corpus of Romanian Sexist and Offensive TweetsDiana Constantina Hoefels, Çagri Çöltekin, Irina Diana Madroane. 2269-2281 [doi]

ArMIS - The Arabic Misogyny and Sexism Corpus with Annotator Subjective DisagreementsDina Almanea, Massimo Poesio. 2282-2291 [doi]

Annotating Interruption in Dyadic Human InteractionLiu Yang, Catherine Achard, Catherine Pelachaud. 2292-2297 [doi]

The Causal News Corpus: Annotating Causal Relations in Event Sentences from NewsFiona Anting Tan, Ali Hürriyetoglu, Tommaso Caselli, Nelleke Oostdijk, Tadashi Nomoto, Hansi Hettiarachchi, Iqra Ameer, Onur Uca, Farhana Ferdousi Liza, Tiancheng Hu. 2298-2310 [doi]

Samrómur: Crowd-sourcing large amounts of dataStaffan Hedström, David Erik Mollberg, Ragnheiðhur Thórhallsdóttir, Jón Guðhnason. 2311-2316 [doi]

An Annotated Corpus of Textual Explanations for Clinical Decision SupportRoland Roller, Aljoscha Burchardt, Nils Feldhus, Laura Seiffe, Klemens Budde, Simon Ronicke, Bilgin Osmanodja. 2317-2326 [doi]

LARD: Large-scale Artificial Disfluency GenerationTatiana Passali, Thanassis Mavropoulos, Grigorios Tsoumakas, Georgios Meditskos, Stefanos Vrochidis. 2327-2336 [doi]

The CRECIL Corpus: a New Dataset for Extraction of Relations between Characters in Chinese Multi-party DialoguesYuru Jiang, Yang Xu 0002, Yuhang Zhan, Weikai He, Yilin Wang, Zixuan Xi, Meiyun Wang, Xinyu Li, Yu Li, Yanchao Yu. 2337-2344 [doi]

The Bahrain Corpus: A Multi-genre Corpus of Bahraini ArabicDana Abdulrahim, Go Inoue, Latifa Shamsan, Salam Khalifa, Nizar Habash. 2345-2352 [doi]

A Universal Dependencies Treebank of Ancient HebrewDaniel G. Swanson, Francis M. Tyers. 2353-2361 [doi]

Hate Speech Dynamics Against African descent, Roma and LGBTQI Communities in PortugalPaula Carvalho 0001, Bernardo Cunha Matos, Raquel Bento Santos, Fernando Batista, Ricardo Ribeiro 0001. 2362-2370 [doi]

Evolving Large Text Corpora: Four Versions of the Icelandic Gigaword CorpusStarkaður Barkarson, Steinthór Steingrímsson, Hildur Hafsteinsdóttir. 2371-2381 [doi]

A Pragmatics-Centered Evaluation Framework for Natural Language UnderstandingDamien Sileo, Philippe Muller, Tim Van de Cruys, Camille Pradel. 2382-2394 [doi]

Conversational Analysis of Daily Dialog Data using Polite Emotional Dialogue ActsChandrakant Bothe, Stefan Wermter. 2395-2400 [doi]

Inducing Discourse Marker Inventories from Lexical Knowledge GraphsChristian Chiarcos. 2401-2412 [doi]

Story Trees: Representing Documents using Topological PersistencePantea Haghighatkhah, Antske Fokkens, Pia Sommerauer, Bettina Speckmann, Kevin Verbeek. 2413-2429 [doi]

Extracting and Analysing Metaphors in Migration Media Discourse: towards a Metaphor Annotation SchemeAna Zwitter Vitez, Mojca Brglez, Marko Robnik-Sikonja, Tadej Skvorc, Andreja Vezovnik, Senja Pollak. 2430-2439 [doi]

DDisCo: A Discourse Coherence Dataset for DanishLinea Flansmose Mikkelsen, Oliver Kinch, Anders Jess Pedersen, Ophélie Lacroix. 2440-2445 [doi]

LPAttack: A Feasible Annotation Scheme for Capturing Logic Pattern of Attacks in ArgumentsFarjana Sultana Mim, Naoya Inoue, Shoichi Naitoh, Keshav Singh, Kentaro Inui. 2446-2459 [doi]

BeSt: The Belief and Sentiment CorpusJennifer Tracey, Owen Rambow, Claire Cardie, Adam Dalton 0001, Hoa Trang Dang, Mona T. Diab, Bonnie J. Dorr, Louise Guthrie, Magdalena Markowska, Smaranda Muresan, Vinodkumar Prabhakaran, Samira Shaikh, Tomek Strzalkowski. 2460-2467 [doi]

MOTIF: Contextualized Images for Complex Words to Improve Human ReadingXintong Wang, Florian Schneider, Özge Alaçam, Prateek Chaudhury, Chris Biemann. 2468-2477 [doi]

Challenges with Sign Language Datasets for Sign Language Recognition and TranslationMirella De Sisto, Vincent Vandeghinste, Santiago Egea Gómez, Mathieu De Coster, Dimitar Shterionov, Horacio Saggion. 2478-2487 [doi]

A Low-Cost Motion Capture Corpus in French Sign Language for Interpreting Iconicity and Spatial Referencing MechanismsClémence Mertz, Vincent Barreaud, Thibaut Le Naour, Damien Lolive, Sylvie Gibet. 2488-2497 [doi]

The CLAMS Platform at Work: Processing Audiovisual Data from the American Archive of Public BroadcastingMarc Verhagen, Kelley Lynch, Kyeongmin Rim, James Pustejovsky. 2498-2506 [doi]

BU-NEmo: an Affective Dataset of Gun Violence NewsCarley Reardon, Sejin Paik, Ge Gao, Meet Parekh, Yanling Zhao, Lei Guo 0017, Margrit Betke, Derry Tanti Wijaya. 2507-2516 [doi]

RoomReader: A Multimodal Corpus of Online Multiparty Conversational InteractionsJustine Reverdy, Sam O'Connor Russell, Louise Duquenne, Diego Garaialde, Benjamin R. Cowan, Naomi Harte. 2517-2527 [doi]

Quevedo: Annotation and Processing of Graphical LanguagesAntonio F. G. Sevilla, Alberto Díaz Esteban, Jose María Lahoz-Bengoechea. 2528-2535 [doi]

Merkel Podcast Corpus: A Multimodal Dataset Compiled from 16 Years of Angela Merkel's Weekly Video PodcastsDebjoy Saha, Shravan Nayak, Timo Baumann. 2536-2540 [doi]

Crowdsourcing Kazakh-Russian Sign Language: FluentSigners-50Medet Mukushev, Aigerim Kydyrbekova, Alfarabi Imashev, Vadim Kimmelman, Anara Sandygulova. 2541-2547 [doi]

Connecting a French Dictionary from the Beginning of the 20th Century to WikidataPierre Nugues. 2548-2555 [doi]

Metaphor annotation for GermanMarkus Egg, Valia Kordoni. 2556-2562 [doi]

NorDiaChange: Diachronic Semantic Change Dataset for NorwegianAndrey Kutuzov, Samia Touileb, Petter Mæhlum, Tita Ranveig Enstad, Alexandra Wittemann. 2563-2572 [doi]

Exploring Transformers for Ranking Portuguese Semantic RelationsHugo Gonçalo Oliveira. 2573-2582 [doi]

Building Static Embeddings from Contextual Ones: Is It Useful for Building Distributional Thesauri?Olivier Ferret. 2583-2590 [doi]

Sentence Selection Strategies for Distilling Word Embeddings from BERTYixiao Wang, Zied Bouraoui, Luis Espinosa Anke, Steven Schockaert. 2591-2600 [doi]

DiaWUG: A Dataset for Diatopic Lexical Semantic Variation in SpanishGioia Baldissin, Dominik Schlechtweg, Sabine Schulte im Walde. 2601-2609 [doi]

My Case, For an Adposition: Lexical Polysemy of Adpositions and Case Markers in Finnish and LatinDaniel Chen, Mans Hulden. 2610-2616 [doi]

WiC-TSV-de: German Word-in-Context Target-Sense-Verification Dataset and Cross-Lingual Transfer AnalysisAnna Breit, Artem Revenko, Narayani Blaschke. 2617-2625 [doi]

Re-train or Train from Scratch? Comparing Pre-training Strategies of BERT in the Medical DomainHicham El Boukkouri, Olivier Ferret, Thomas Lavergne, Pierre Zweigenbaum. 2626-2633 [doi]

Universal Semantic Annotator: the First Unified API for WSD, SRL and Semantic ParsingRiccardo Orlando, Simone Conia, Stefano Faralli 0001, Roberto Navigli. 2634-2641 [doi]

D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of Computer Science ResearchJan Philip Wahle, Terry Ruas, Saif M. Mohammad, Bela Gipp. 2642-2651 [doi]

SciPar: A Collection of Parallel Corpora from Scientific AbstractsDimitrios Roussis, Vassilis Papavassiliou, Prokopis Prokopidis, Stelios Piperidis, Vassilis Katsouros. 2652-2657 [doi]

CATs are Fuzzy PETs: A Corpus and Analysis of Potentially Euphemistic TermsMartha Gavidia, Patrick Lee, Anna Feldman, Jing Peng 0001. 2658-2671 [doi]

Camel Treebank: An Open Multi-genre Arabic Dependency TreebankNizar Habash, Muhammed AbuOdeh, Dima Taji, Reem Faraj, Jamila El Gizuli, Omar Kallas. 2672-2681 [doi]

MentSum: A Resource for Exploring Summarization of Mental Health Online PostsSajad Sotudeh, Nazli Goharian, Zachary Young. 2682-2692 [doi]

Klexikon: A German Dataset for Joint Summarization and SimplificationDennis Aumiller, Michael Gertz 0001. 2693-2701 [doi]

Applying Automatic Text Summarization for Fake News DetectionPhilipp Hartl, Udo Kruschwitz. 2702-2713 [doi]

Increasing CMDI's Semantic Interoperability with schema.orgNino Meisinger, Thorsten Trippel, Claus Zinn. 2714-2720 [doi]

RefCo and its Checker: Improving Language Documentation Corpora's Reusability Through a Semi-Automatic Review ProcessHerbert Lange, Jocelyn Aznar. 2721-2729 [doi]

Identification and Analysis of Personification in Hungarian: The PerSECorp projectGábor Simon. 2730-2738 [doi]

ISO-based Annotated Multilingual Parallel Corpus for Discourse MarkersPurificação Silvano, Mariana Damova, Giedre Valunaite Oleskeviciene, Chaya Liebeskind, Christian Chiarcos, Dimitar Trajanov, Ciprian-Octavian Truica, Elena Simona Apostol, Anna Baczkowska. 2739-2749 [doi]

LIP-RTVE: An Audiovisual Database for Continuous Spanish in the WildDavid Gimeno-Gómez, Carlos D. Martínez-Hinarejos. 2750-2758 [doi]

Modality Alignment between Deep Representations for Effective Video-and-Language LearningHyeongu Yun, Yongil Kim, Kyomin Jung. 2759-2770 [doi]

Mutual Gaze and Linguistic Repetition in a Multimodal CorpusAnais Murat, Maria Koutsombogera, Carl Vogel. 2771-2780 [doi]

Multidimensional Coding of Multimodal Languaging in Multi-Party SettingsChristophe Parisse, Marion Blondel, Stéphanie Caët, Claire Danet, Coralie Vincent, Aliyah Morgenstern. 2781-2787 [doi]

Constructing a Lexical Resource of Russian Derivational MorphologyLukás Kyjánek, Olga Lyashevskaya, Anna Nedoluzhko, Daniil Vodolazsky, Zdenek Zabokrtský. 2788-2797 [doi]

Using Linguistic Typology to Enrich Multilingual Lexicons: the Case of Lexical Gaps in KinshipTemuulen Khishigsuren, Gábor Bella, Khuyagbaatar Batsuren, Abed Alhakim Freihat, Nandu Chandran Nair, Amarsanaa Ganbold, Hadi Khalilia, Yamini Chandrashekar, Fausto Giunchiglia. 2798-2807 [doi]

Towards Latvian WordNetPeteris Paikens, Mikus Grasmanis, Agute Klints, Ilze Lokmane, Lauma Pretkalnina, Laura Rituma, Madara Stade, Laine Strankale. 2808-2815 [doi]

Building Sentiment Lexicons for Mainland Scandinavian Languages Using Machine Translation and Sentence EmbeddingsPeng Liu 0025, Cristina Marco, Jon Atle Gulla. 2816-2825 [doi]

A Thesaurus-based Sentiment Lexicon for Danish: The Danish Sentiment LexiconSanni Nimb, Sussi Olsen, Bolette S. Pedersen, Thomas Troelsgård. 2826-2832 [doi]

IndoUKC: A Concept-Centered Indian Multilingual Lexical ResourceNandu Chandran Nair, Rajendran Sankara Velayuthan, Yamini Chandrashekar, Gábor Bella, Fausto Giunchiglia. 2833-2840 [doi]

Korean Language Modeling via Syntactic GuideHyeondey Kim, Seonhoon Kim, Inho Kang, Nojun Kwak, Pascale Fung. 2841-2849 [doi]

A Whole-Person Function Dictionary for the Mobility, Self-Care and Domestic Life Domains: a Seedset Expansion ApproachAyah Zirikly, Bart Desmet, Julia Porcino, Jonathan Camacho Maldonado, Pei-Shu Ho, Rafael Jiménez Silva, Maryanne Sacco. 2850-2855 [doi]

Placing multi-modal, and multi-lingual Data in the Humanities Domain on the Map: the Mythotopia Geo-tagged CorpusVoula Giouli, Anna Vacalopoulou, Nikolaos Sidiropoulos, Christina Flouda, Athanasios Doupas, Giorgos Giannopoulos, Nikos Bikakis, Vassilis Kaffes, Gregory Stainhaouer. 2856-2864 [doi]

An Architecture of resolving a multiple link path in a standoff-style data format to enhance the mobility of language resourcesKazushi Ohya. 2865-2873 [doi]

A Corpus of German Citizen Contributions in Mobility Planning: Supporting Evaluation Through Multidimensional ClassificationJulia Romberg, Laura Mark, Tobias Escher. 2874-2883 [doi]

Overlooked Data in Typological Databases: What Grambank Teaches Us About Gaps in GrammarsJakob Lesage, Hannah J. Haynie, Hedvig Skirgård, Tobias Weber, Alena Witzlack-Makarevich. 2884-2890 [doi]

Hong Kong: Longitudinal and Synchronic Characterisations of Protest News between 1998 and 2020Arya D. McCarthy, Giovanna Maria Dora Dore. 2891-2900 [doi]

Nunc profana tractemus. Detecting Code-Switching in a Large Corpus of 16th Century LettersMartin Volk 0001, Lukas Fischer 0003, Patricia Scheurer, Bernard Silvan Schroffenegger, Raphael Schwitter, Phillip Ströbel, Benjamin Suter. 2901-2908 [doi]

Quality and Efficiency of Manual Annotation: Pre-annotation BiasMarie Mikulová, Milan Straka, Jan Stepánek, Barbora Stepánková, Jan Hajic. 2909-2918 [doi]

A Comprehensive Evaluation and Correction of the TimeBank CorpusMustafa Ocal, Antonela Radas, Jared Hummer, Karine Megerdoomian, Mark A. Finlayson. 2919-2927 [doi]

Evaluating Multilingual Sentence Representation Models in a Real Case ScenarioRocco Tripodi, Rexhina Blloshmi, Simon Levis Sullam. 2928-2939 [doi]

Validity, Agreement, Consensuality and Annotated Data QualityAnaëlle Baledent, Yann Mathet, Antoine Widlöcher, Christophe Couronne, Jean-Luc Manguin. 2940-2948 [doi]

Impact Analysis of the Use of Speech and Language Models Pretrained by Self-Supersivion for Spoken Language UnderstandingSalima Mdhaffar, Valentin Pelloin, Antoine Caubrière, Gaëlle Laperrière, Sahar Ghannay, Bassam Jabaian, Nathalie Camelin, Yannick Estève. 2949-2956 [doi]

JGLUE: Japanese General Language Understanding EvaluationKentaro Kurihara, Daisuke Kawahara, Tomohide Shibata. 2957-2966 [doi]

Using the LARA Little Prince to compare human and TTS audio qualityElham Akhlaghi, Ingibjörg Iðha Auðhunardóttir, Anna Baczkowska, Branislav Bédi, Hakeem Beedar, Harald Berthelsen, Cathy Chua, Catia Cucchiarini, Hanieh Habibi, Ivana Horváthová, Junta Ikeda, Christèle Maizonniaux, Neasa Ní Chiaráin, Chadi Raheb, Manny Rayner, John Sloan, Nikos Tsourakis, Chunlin Yao. 2967-2975 [doi]

Cyberbullying Classifiers are Sensitive to Model-Agnostic PerturbationsChris Emmery, Ákos Kádár, Grzegorz Chrupala, Walter Daelemans. 2976-2988 [doi]

Constructing Distributions of Variation in Referring Expression Type from Corpora for Model EvaluationT. Mark Ellison, Fahime Same. 2989-2997 [doi]

Knowledge Graph Question Answering Leaderboard: A Community Resource to Prevent a Replication CrisisAleksandr Perevalov, Xi Yan, Liubov Kovriguina, Longquan Jiang, Andreas Both 0001, Ricardo Usbeck. 2998-3007 [doi]

Multi-Task Learning for Cross-Lingual Abstractive SummarizationSho Takase, Naoaki Okazaki. 3008-3016 [doi]

How Much Context Span is Enough? Examining Context-Related Issues for Document-level MTSheila Castilho. 3017-3025 [doi]

TANDO: A Corpus for Document-level Machine TranslationHarritxu Gete, Thierry Etchegoyhen, David Ponce, Gorka Labaka, Nora Aranberri, Ander Corral, Xabier Saralegi, Igor Ellakuria, Maite Martín. 3026-3037 [doi]

Unsupervised Machine Translation in Real-World ScenariosOna De Gibert Bonet, Iakes Goenaga, Jordi Armengol-Estapé, Olatz Perez-de-Viñaspre, Carla Parra Escartín, Marina Sanchez, Marcis Pinnis, Gorka Labaka, Maite Melero. 3038-3047 [doi]

COVID-19 Mythbusters in World LanguagesMana Ashida, Jin-Dong Kim, Seunghun Lee. 3048-3055 [doi]

On the Multilingual Capabilities of Very Large-Scale English Language ModelsJordi Armengol-Estapé, Ona De Gibert Bonet, Maite Melero. 3056-3068 [doi]

Evaluating Subtitle Segmentation for End-to-end Generation SystemsAlina Karakanta, François Buet, Mauro Cettolo, François Yvon. 3069-3078 [doi]

Using Semantic Role Labeling to Improve Neural Machine TranslationReinhard Rapp. 3079-3083 [doi]

A Deep Transfer Learning Method for Cross-Lingual Natural Language InferenceDibyanayan Bandyopadhyay, Arkadipta De, Baban Gain, Tanik Saikh, Asif Ekbal. 3084-3092 [doi]

Simple TICO-19: A Dataset for Joint Translation and Simplification of COVID-19 TextsMatthew Shardlow, Fernando Alva-Manchego. 3093-3102 [doi]

Building Comparable Corpora for Assessing Multi-Word Term AlignmentOmar Adjali, Emmanuel Morin, Pierre Zweigenbaum. 3103-3112 [doi]

Mean Machine Translations: On Gender Bias in Icelandic Machine TranslationsAgnes Sólmundsdóttir, Dagbjört Guðhmundsdóttir, Lilja Björk Stefánsdóttir, Anton Ingason. 3113-3121 [doi]

An Analysis of Dialogue Act Sequence Similarity Across Multiple DomainsAyesha Enayet, Gita Sukthankar. 3122-3130 [doi]

Constructing a Culinary Interview Dialogue Corpus with Video Conferencing ToolTaro Okahisa, Ribeka Tanaka, Takashi Kodama, Yin Jou Huang, Sadao Kurohashi. 3131-3139 [doi]

UgChDial: A Uyghur Chat-based Dialogue Corpus for Response Space ClassificationZulipiye Yusupujiang, Jonathan Ginzburg. 3140-3149 [doi]

A Speculative and Tentative Common Ground Handling for Efficient Composition of Uncertain DialogueSaki Sudo, Kyoshiro Asano, Koh Mitsuda, Ryuichiro Higashinaka, Yugo Takeuchi. 3150-3157 [doi]

BaSCo: An Annotated Basque-Spanish Code-Switching Corpus for Natural Language UnderstandingMaia Aguirre, Laura García-Sardiña, Manex Serras, Ariane Méndez, Jacobo López. 3158-3163 [doi]

ProDial - An Annotated Proactive Dialogue Act Corpus for Conversational Assistants using CrowdsourcingMatthias Kraus, Nicolas Wagner, Wolfgang Minker. 3164-3173 [doi]

ELITR Minuting Corpus: A Novel Dataset for Automatic Minuting from Multi-Party Meetings in English and CzechAnna Nedoluzhko, Muskaan Singh, Marie Hledíková, Tirthankar Ghosal, Ondrej Bojar. 3174-3182 [doi]

Extracting Age-Related Stereotypes from Social Media TextsKathleen C. Fraser, Svetlana Kiritchenko, Isar Nejadgholi. 3183-3194 [doi]

Borrowing or Codeswitching? Annotating for Finer-Grained Distinctions in Language MixingElena Álvarez Mellado, Constantine Lignos. 3195-3201 [doi]

Multi-Aspect Transfer Learning for Detecting Low Resource Mental Disorders on Social MediaAna Sabina Uban, Berta Chulvi, Paolo Rosso. 3202-3219 [doi]

ArCovidVac: Analyzing Arabic Tweets About COVID-19 VaccinationHamdy Mubarak, Sabit Hassan, Shammur Absar Chowdhury, Firoj Alam. 3220-3230 [doi]

FACTOID: A New Dataset for Identifying Misinformation Spreaders and Political BiasFlora Sakketou, Joan Plepi, Riccardo Cervero, Henri-Jacques Geiss, Paolo Rosso, Lucie Flek. 3231-3241 [doi]

Multitask Learning for Grapheme-to-Phoneme Conversion of Anglicisms in German Speech RecognitionJulia Pritzen, Michael Gref, Dietlind Zühlke, Christoph Andreas Schmidt. 3242-3249 [doi]

SDS-200: A Swiss German Speech to Standard German Text CorpusMichel Plüss, Manuela Hürlimann, Marc Cuny, Alla Stöckli, Nikolaos Kapotis, Julia Hartmann, Malgorzata Anna Ulasik, Christian Scheller, Yanick Schraner, Amit Jain, Jan Deriu, Mark Cieliebak, Manfred Vogel. 3250-3256 [doi]

Extracting Linguistic Knowledge from Speech: A Study of Stop Realization in 5 Romance LanguagesYaru Wu, Mathilde Hutin, Ioana Vasilescu, Lori Lamel, Martine Adda-Decker. 3257-3263 [doi]

Overlaps and Gender Analysis in the Context of Broadcast MediaMartin Lebourdais, Marie Tahon, Antoine Laurent, Sylvain Meignier, Anthony Larcher. 3264-3270 [doi]

A Semi-Automatic Approach to Create Large Gender- and Age-Balanced Speaker Corpora: Usefulness of Speaker Diarization & IdentificationRémi Uro, David Doukhan, Albert Rilliard, Laetitia Larcher, Anissa-Claire Adgharouamane, Marie Tahon, Antoine Laurent. 3271-3280 [doi]

DiscoGeM: A Crowdsourced Corpus of Genre-Mixed Implicit Discourse RelationsMerel C. J. Scholman, Tianai Dong, Frances Yung, Vera Demberg. 3281-3290 [doi]

QT30: A Corpus of Argument and Conflict in Broadcast DebateAnnette Hautli-Janisz, Zlata Kikteva, Wassiliki Siskou, Kamila Gorska, Ray Becker, Chris Reed. 3291-3300 [doi]

Scaling up Discourse Quality Annotation for Political ScienceNeele Falk, Gabriella Lapesa. 3301-3318 [doi]

Clarifying Implicit and Underspecified Phrases in Instructional TextTalita Anthonio, Anna Sauer, Michael Roth 0001. 3319-3330 [doi]

Multilingual Pragmaticon: Database of Discourse FormulaeAnton Buzanov, Polina Bychkova, Arina Molchanova, Anna Postnikova, Daria Ryzhova. 3331-3336 [doi]

Distant Reading in Digital Humanities: Case Study on the Serbian Part of the ELTeC CollectionRanka Stankovic, Cvetana Krstev, Branislava Sandrih Todorovic, Dusko Vitas, Mihailo Skoric, Milica Ikonic Nesic. 3337-3345 [doi]

Exploring Text Recombination for Automatic Narrative Level DetectionNils Reiter, Judith Sieker, Svenja Guhr, Evelyn Gius, Sina Zarrieß. 3346-3353 [doi]

Automatic Normalisation of Early Modern FrenchRachel Bawden, Jonathan Poinhos, Eleni Kogkitsidou, Philippe Gambette, Benoît Sagot, Simon Gabay. 3354-3366 [doi]

From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early Modern FrenchSimon Gabay, Pedro Ortiz Suarez, Alexandre Bartz, Alix Chagué, Rachel Bawden, Philippe Gambette, Benoît Sagot. 3367-3374 [doi]

Detecting Multiple Transitions in Literary TextsNuette Heyns, Menno van Zaanen. 3375-3381 [doi]

BasqueParl: A Bilingual Corpus of Basque Parliamentary TranscriptionsNayla Escribano, Jon Ander González, Julen Orbegozo-Terradillos, Ainara Larrondo-Ureta, Simón Peña-Fernández, Olatz Perez-de-Viñaspre, Rodrigo Agerri. 3382-3390 [doi]

GerEO: A Large-Scale Resource on the Syntactic Distribution of German Experiencer-Object VerbsJohanna Marie Poppek, Simon Masloch, Tibor Kiss. 3391-3397 [doi]

ACT2: A multi-disciplinary semi-structured dataset for importance and purpose classification of citationsSuchetha Nambanoor Kunnath, Valentin Stauber, Ronin Wu, David Pride, Viktor Botev, Petr Knoth. 3398-3406 [doi]

Quantification Annotation in ISO 24617-12, Second DraftHarry Bunt, Maxime Amblard, Johan Bos, Karën Fort, Bruno Guillaume, Philippe de Groote, Chuyuan Li, Pierre Ludmann, Michel Musiol, Siyana Pavlova, Guy Perrier, Sylvain Pogodalla. 3407-3416 [doi]

The LTRC Hindi-Telugu Parallel CorpusVandan Mujadia, Dipti Misra Sharma. 3417-3424 [doi]

MHE: Code-Mixed Corpora for Similar Language IdentificationPriya Rani, John P. McCrae, Theodorus Fransen. 3425-3433 [doi]

Bazinga! A Dataset for Multi-Party Dialogues StructuringPaul Lerner, Juliette Bergoënd, Camille Guinaudeau, Hervé Bredin, Benjamin Maurice, Sharleyne Lefevre, Martin Bouteiller, Aman Berhe, Léo Galmant, Ruiqing Yin, Claude Barras. 3434-3441 [doi]

The Ellogon Web Annotation Tool: Annotating Moral Values and ArgumentsAlexandros Fotios Ntogramatzis, Anna Gradou, Georgios Petasis, Marko Kokol. 3442-3450 [doi]

WeCanTalk: A New Multi-language, Multi-modal Resource for Speaker RecognitionKaren Jones, Kevin Walker, Christopher Caruso, Jonathan Wright, Stephanie M. Strassel. 3451-3456 [doi]

Using Wiktionary to Create Specialized Lexical Resources and DatasetsLenka Bajcetic, Thierry Declerck. 3457-3460 [doi]

STAPI: An Automatic Scraper for Extracting Iterative Title-Text Structure from Web DocumentsNan Zhang, Shomir Wilson, Prasenjit Mitra. 3461-3470 [doi]

ELTE Poetry Corpus: A Machine Annotated Database of Canonical Hungarian PoetryPéter Horváth, Péter Kundráth, Balázs Indig, Zsófia Fellegi, Eszter Szlávich, Tímea Borbála Bajzát, Zsófia Sárközi-Lindner, Bence Vida, Aslihan Karabulut, Mária Timári, Gábor Palkó. 3471-3478 [doi]

HAWP: a Dataset for Hindi Arithmetic Word Problem SolvingHarshita Sharma, Pruthwik Mishra, Dipti Misra Sharma. 3479-3490 [doi]

The Bulgarian Event Corpus: Overview and Initial NER ExperimentsPetya Osenova, Kiril Simov, Iva Marinova, Melania Berbatova. 3491-3499 [doi]

A Corpus for Commonsense Inference in Story Cloze TestBingsheng Yao, Ethan Joseph, Julian Lioanag, Mei Si. 3500-3508 [doi]

Lessons Learned from GPT-SW3: Building the First Large-Scale Generative Language Model for SwedishAriel Ekgren, Amaru Cuba Gyllensten, Evangelia Gogoulou, Alice Heiman, Severine Verlinden, Joey Öhman, Fredrik Carlsson, Magnus Sahlgren. 3509-3518 [doi]

Constrained Language Models for Interactive Poem GenerationAndrei Popescu-Belis, Àlex R. Atrio, Valentin Minder, Aris Xanthos, Gabriel Luthier, Simon Mattei, Antonio Rodriguez. 3519-3529 [doi]

ELF22: A Context-based Counter Trolling Dataset to Combat Internet TrollsHuije Lee, Young Ju Na, Hoyun Song, Jisu Shin, Jong Park. 3530-3541 [doi]

Generating Textual Explanations for Machine Learning Models Performance: A Table-to-Text TaskIsaac Ampomah, James Burton 0002, Amir Enshaei, Noura Al Moubayed. 3542-3551 [doi]

Barch: an English Dataset of Bar Chart SummariesIza Skrjanec, Muhammad Salman Edhi, Vera Demberg. 3552-3560 [doi]

Effectiveness of Data Augmentation and Pretraining for Improving Neural Headline Generation in Low-Resource SettingsMatej Martinc, Syrielle Montariol, Lidia Pivovarova, Elaine Zosa. 3561-3570 [doi]

Effectiveness of French Language Models on Abstractive Dialogue Summarization TaskYongxin Zhou 0004, François Portet, Fabien Ringeval. 3571-3581 [doi]

ALEXSIS: A Dataset for Lexical Simplification in SpanishDaniel Ferrés, Horacio Saggion. 3582-3594 [doi]

The IARPA BETTER Program Abstract Task Four New Semantically Annotated Corpora from IARPA's BETTER ProgramTimothy Mckinnon, Carl Rubino. 3595-3600 [doi]

A Named Entity Recognition Corpus for Vietnamese Biomedical Texts to Support Tuberculosis TreatmentUyen Phan, Phuong N. V. Nguyen, Nhung Nguyen. 3601-3609 [doi]

RaFoLa: A Rationale-Annotated Corpus for Detecting Indicators of Forced LabourErick Mendez Guzman, Viktor Schlegel, Riza Batista-Navarro. 3610-3625 [doi]

Wojood: Nested Arabic Named Entity Corpus and Recognition using BERTMustafa Jarrar, Mohammed Khalilia, Sana Ghanem. 3626-3636 [doi]

Cross-lingual Approaches for the Detection of Adverse Drug Reactions in German from a Patient's PerspectiveLisa Raithel, Philippe Thomas 0002, Roland Roller, Oliver Sapina, Sebastian Möller 0001, Pierre Zweigenbaum. 3637-3649 [doi]

GGPONC 2.0 - The German Clinical Guideline Corpus for Oncology: Curation Workflow, Annotation Policy, Baseline NER TaggersFlorian Borchert, Christina Lohr, Luise Modersohn, Jonas Witt, Thomas Langer, Markus Follmann, Matthias Gietzelt, Bert Arnrich, Udo Hahn, Matthieu-P. Schapranow. 3650-3660 [doi]

ClinIDMap: Towards a Clinical IDs Mapping for Data InteroperabilityElena Zotova, Montse Cuadros, German Rigau. 3661-3669 [doi]

Identifying Draft Bills Impacting Existing Legislation: a Case Study on RomanianCorina Ceausu, Sergiu Nisioi. 3670-3674 [doi]

MuLD: The Multitask Long Document BenchmarkGeorge Thomas Hudson, Noura Al Moubayed. 3675-3685 [doi]

A Cross-document Coreference Dataset for Longitudinal Tracking across Radiology ReportsSurabhi Datta, Hio Cheng Lam, Atieh Pajouhi, Sunitha Mogalla, Kirk Roberts. 3686-3695 [doi]

How's Business Going Worldwide ? A Multilingual Annotated Corpus for Business Relation ExtractionHadjer Khaldi, Farah Benamara, Camille Pradel, Grégoire Sigel, Nathalie Aussenac-Gilles. 3696-3705 [doi]

Do Transformer Networks Improve the Discovery of Rules from Text?Mahdi Rahimi, Mihai Surdeanu. 3706-3714 [doi]

Offensive language detection in Hebrew: can other languages help?Marina Litvak, Natalia Vanetik, Chaya Liebeskind, Omar Hmdia, Rizek Abu Madeghem. 3715-3723 [doi]

JaMIE: A Pipeline Japanese Medical Information Extraction System with Novel Relation AnnotationFei Cheng, Shuntaro Yada, Ribeka Tanaka, Eiji Aramaki, Sadao Kurohashi. 3724-3731 [doi]

Enhanced Entity Annotations for Multilingual CorporaMichael Strobl, Amine Trabelsi, Osmar Zaïane. 3732-3740 [doi]

Enriching Epidemiological Thematic Features For Disease Surveillance Corpora ClassificationEdmond Odhiambo Menya, Mathieu Roche, Roberto Interdonato, Dickson Owuor. 3741-3750 [doi]

Spanish Datasets for Sensitive Entity Detection in the Legal DomainOna De Gibert Bonet, Aitor García Pablos, Montse Cuadros, Maite Melero. 3751-3760 [doi]

ConvTextTM: An Explainable Convolutional Tsetlin Machine Framework for Text ClassificationBimal Bhattarai, Ole-Christoffer Granmo, Lei Jiao 0002. 3761-3770 [doi]

Elvis vs. M. Jackson: Who has More Albums? Classification and Identification of Elements in Comparative QuestionsMeriem Beloucif, Seid Muhie Yimam, Steffen Stahlhacke, Chris Biemann. 3771-3779 [doi]

Decorate the Examples: A Simple Method of Prompt Design for Biomedical Relation ExtractionHui-Syuan Yeh, Thomas Lavergne, Pierre Zweigenbaum. 3780-3787 [doi]

Comparing Annotated Datasets for Named Entity Recognition in English LiteratureRositsa Ivanova, Marieke van Erp, Sabrina Kirrane. 3788-3797 [doi]

Investigating User Radicalization: A Novel Dataset for Identifying Fine-Grained Temporal Shifts in OpinionFlora Sakketou, Allison Lahnala, Liane Vogel, Lucie Flek. 3798-3808 [doi]

APPReddit: a Corpus of Reddit Posts Annotated for AppraisalMarco Antonio Stranisci, Simona Frenda, Eleonora Ceccaldi, Valerio Basile, Rossana Damiano, Viviana Patti. 3809-3818 [doi]

Evaluating Methods for Extraction of Aspect Terms in Opinion Texts in Portuguese - the Challenges of Implicit AspectsMateus Tarcinalli Machado, Thiago Alexandre Salgueiro Pardo. 3819-3828 [doi]

SenticNet 7: A Commonsense-based Neurosymbolic AI Framework for Explainable Sentiment AnalysisErik Cambria, Qian Liu, Sergio Decherchi, Frank Xing, Kenneth Kwok. 3829-3839 [doi]

Building an Endangered Language Resource in the Classroom: Universal Dependencies for KakataiboRoberto Zariquiey, Claudia Alvarado, Ximena Echevarría, Luisa Gomez, Rosa Gonzales, Mariana Illescas, Sabina Oporto, Frederic Blum, Arturo Oncevay, Javier Vera. 3840-3851 [doi]

The Norwegian Colossal Corpus: A Text Corpus for Training Large Norwegian Language ModelsPer Egil Kummervold, Freddy Wetjen, Javier de la Rosa. 3852-3860 [doi]

Embeddings models for Buddhist SanskritLigeia Lugli, Matej Martinc, Andraz Pelicon, Senja Pollak. 3861-3871 [doi]

Development of Automatic Speech Recognition for the Documentation of Cook Islands MāoriRolando Coto-Solano, Sally Akevai Nicholas, Samiha Datta, Victoria Quint, Piripi Wills, Emma Ngakuravaru Powell, Liam Koka'ua, Syed Tanveer, Isaac Feldman. 3872-3882 [doi]

A Generalized Approach to Protest Event Detection in German Local NewsGregor Wiedemann, Jan Matti Dollbaum, Sebastian Haunss, Priska Daphi, Larissa Daria Meier. 3883-3891 [doi]

Evaluation of Transfer Learning and Domain Adaptation for Analyzing German-Speaking Job AdvertisementsAnn-Sophie Gnehm, Eva Bühlmann, Simon Clematide. 3892-3901 [doi]

Pre-Training Language Models for Identifying Patronizing and Condescending Language: An AnalysisCarla Pérez-Almendros, Luis Espinosa Anke, Steven Schockaert. 3902-3911 [doi]

HeLI-OTS, Off-the-shelf Language Identifier for TextTommi Jauhiainen, Heidi Jauhiainen, Krister Lindén. 3912-3922 [doi]

Towards a Broad Coverage Named Entity Resource: A Data-Efficient Approach for Many Diverse LanguagesSilvia Severini, Ayyoob ImaniGooghari, Philipp Dufter, Hinrich Schütze. 3923-3933 [doi]

Towards the Construction of a WordNet for Old EnglishAnas Fahad Khan, Francisco J. Minaya Gómez, Rafael Cruz González, Harry Diakoff, Javier E. Diaz Vera, John P. McCrae, Ciara O'Loughlin, William Michael Short, Sander Stolk. 3934-3941 [doi]

A Framenet and Frame Annotator for German Social MediaEckhard Bick. 3942-3949 [doi]

The Robotic Surgery Procedural FramebankMarco Bombieri, Marco Rospocher, Simone Paolo Ponzetto, Paolo Fiorini. 3950-3959 [doi]

Representing the Toddler Lexicon: Do the Corpus and Semantics Matter?Jennifer Weber, Eliana Colunga. 3960-3968 [doi]

Organizing and Improving a Database of French Word Formation Using Formal Concept AnalysisNyoman Juniarta, Olivier Bonami, Nabil Hathout, Fiammetta Namer, Yannick Toussaint. 3969-3976 [doi]

Towards a new Ontology for Sign LanguagesThierry Declerck. 3977-3983 [doi]

Towards the Detection of a Semantic Gap in the Chain of Commonsense Knowledge TriplesYoshihiko Hayashi. 3984-3993 [doi]

COPA-SSE: Semi-structured Explanations for Commonsense ReasoningAna Brassard, Benjamin Heinzerling, Pride Kavumba, Kentaro Inui. 3994-4000 [doi]

GRhOOT: Ontology of Rhetorical Figures in GermanRamona Kühn, Jelena Mitrovic, Michael Granitzer. 4001-4010 [doi]

Querying a Dozen Corpora and a Thousand Years with FintanChristian Chiarcos, Christian Fäth, Maxim Ionov. 4011-4021 [doi]

The Index Thomisticus Treebank as Linked Data in the LiLa Knowledge BaseFrancesco Mambrini, Marco Passarotti, Giovanni Moretti, Matteo Pellegrini. 4022-4029 [doi]

Building a Multilingual Taxonomy of Olfactory Terms with TimestampsStefano Menini, Teresa Paccosi, Serra Sinem Tekiroglu, Sara Tonelli. 4030-4039 [doi]

Attention Understands Semantic RelationsAnastasia Chizhikova, Sanzhar Murzakhmetov, Oleg Serikov, Tatiana Shavrina, Mikhail Burtsev. 4040-4050 [doi]

Analysis of Dialogue in Human-Human Collaboration in MinecraftTakuma Ichikawa, Ryuichiro Higashinaka. 4051-4059 [doi]

Data Collection for Empirically Determining the Necessary Information for Smooth Handover in DialogueSanae Yamashita, Ryuichiro Higashinaka. 4060-4068 [doi]

The slurk Interaction Server Framework: Better Data for Better Dialog ModelsJana Götze, Maike Paetzel-Prüsmann, Wencke Liermann, Tim Diekmann, David Schlangen. 4069-4078 [doi]

Corpus Design for Studying Linguistic Nudges in Human-Computer Spoken InteractionsNatalia Kalashnikova, Serge Pajak, Fabrice Le Guel, Ioana Vasilescu, Gemma Serrano, Laurence Devillers. 4079-4087 [doi]

Dialogue Corpus Construction Considering Modality and Social Relationships in Building Common GroundYuki Furuya, Koki Saito, Kosuke Ogura, Koh Mitsuda, Ryuichiro Higashinaka, Kazunori Takashio. 4088-4095 [doi]

EmoWOZ: A Large-Scale Corpus and Labelling Scheme for Emotion Recognition in Task-Oriented Dialogue SystemsShutong Feng, Nurul Lubis, Christian Geishauser, Hsien-Chin Lin, Michael Heck, Carel van Niekerk, Milica Gasic. 4096-4113 [doi]

Data Augmentation with Paraphrase Generation and Entity Extraction for Multimodal Dialogue SystemEda Okur, Saurav Sahay, Lama Nachman. 4114-4125 [doi]

Towards Modelling Self-imposed Filter Bubbles in Argumentative Dialogue SystemsAnnalena Aicher, Wolfgang Minker, Stefan Ultes. 4126-4134 [doi]

Telling a Lie: Analyzing the Language of Information and Misinformation during Global Health EventsAnkit Aich, Natalie Parde. 4135-4141 [doi]

Misogyny and Aggressiveness Tend to Come Together and Together We Address ThemArianna Muti, Francesco Fernicola, Alberto Barrón-Cedeño. 4142-4148 [doi]

The ComMA Dataset V0.2: Annotating Aggression and Bias in Multilingual Social Media DiscourseRitesh Kumar, Shyam Ratan, Siddharth Singh, Enakshi Nandi, Laishram Niranjana Devi, Akash Bhagat, Yogesh Dawer, Bornini Lahiri, Akanksha Bansal, Atul kr. Ojha. 4149-4161 [doi]

TUSC: Emotion Word Usage in Tweets from US and CanadaKrishnapriya Vishnubhotla, Saif M. Mohammad. 4162-4176 [doi]

A Turkish Hate Speech Dataset and Detection SystemFatih Beyhan, Buse Çarik, Inanç Arin, Aysecan Terzioglu, Berrin Yanikoglu, Reyyan Yeniterzi. 4177-4185 [doi]

Life is not Always Depressing: Exploring the Happy Moments of People Diagnosed with DepressionAna-Maria Bucur, Adrian Cosma, Liviu P. Dinu. 4186-4192 [doi]

Evaluating Tokenizers Impact on OOVs Representation with Transformers ModelsAlexandra Benamar, Cyril Grouin, Meryl Bothua, Anne Vilnat. 4193-4204 [doi]

Assessing the Quality of an Italian Crowdsourced Idiom Corpus: the Dodiom ExperimentGiuseppina Morza, Raffaele Manna, Johanna Monti. 4205-4211 [doi]

Medical Crossing: a Cross-lingual Evaluation of Clinical Entity LinkingAnton Alekseev 0001, Zulfat Miftahutdinov, Elena Tutubalina, Artem Shelmanov, Vladimir Ivanov 0001, Vladimir Kokh, Alexandr Nesterov, Manvel Avetisian, Andrey Chertok, Sergey I. Nikolenko. 4212-4220 [doi]

MTLens: Machine Translation Output DebuggingShreyas Sharma, Kareem Darwish, Lucas Pavanelli, Thiago Castro Ferreira, Mohamed Al-Badrashiny, Kamer Ali Yuksel, Hassan Sawaf. 4221-4226 [doi]

IceBATS: An Icelandic Adaptation of the Bigger Analogy Test SetSteinunn Rut Friðriksdóttir, Hjalti Daníelsson, Steinðór Steingrímsson, Einar Freyr Sigurðsson. 4227-4234 [doi]

Transfer Learning Methods for Domain Adaptation in Technical Logbook DatasetsFarhad Akhbardeh, Marcos Zampieri, Cecilia Ovesdotter Alm, Travis Desell. 4235-4244 [doi]

Downstream Task Performance of BERT Models Pre-Trained Using Automatically De-Identified Clinical DataThomas Vakili, Anastasios Lamproudis, Aron Henriksson, Hercules Dalianis. 4245-4252 [doi]

Dilated Convolutional Neural Networks for Lightweight Diacritics RestorationBálint Csanády, András Lukács. 4253-4259 [doi]

Generating Artificial Texts as Substitution or Complement of Training DataVincent Claveau, Antoine Chaffin, Ewa Kijak. 4260-4269 [doi]

From Pattern to Interpretation. Using Colibri Core to Detect Translation Patterns in the PeshittaMathias Coeckelbergs. 4270-4274 [doi]

PAGnol: An Extra-Large French Generative ModelJulien Launay, E. L. Tommasone, Baptiste Pannier, François Boniface, Amélie Chatelain, Alessandro Cappelli, Iacopo Poli, Djamé Seddah. 4275-4284 [doi]

CEPOC: The Cambridge Exams Publishing Open Cloze datasetMariano Felice, Shiva Taslimipoor, Øistein E. Andersen, Paula Buttery. 4285-4290 [doi]

ALBETO and DistilBETO: Lightweight Spanish Language ModelsJosé Cañete, Sebastian Donoso, Felipe Bravo-Marquez, Andrés Carvallo, Vladimir Araujo. 4291-4298 [doi]

On the Robustness of Cognate Generation ModelsWinston Wu, David Yarowsky. 4299-4305 [doi]

CLISTER : A Corpus for Semantic Textual Similarity in French Clinical NarrativesNicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol. 4306-4315 [doi]

The Chinese Causative-Passive Homonymy Disambiguation: an adversarial Dataset for NLI and a Probing TaskShanshan Xu, Katja Markert. 4316-4323 [doi]

Modeling Noise in Paraphrase DetectionTeemu Vahtola, Eetu Sjöblom, Jörg Tiedemann, Mathias Creutz. 4324-4332 [doi]

Give me your Intentions, I'll Predict our Actions: A Two-level Classification of Speech Acts for Crisis Management in Social MediaEnzo Laurenti, Nils Bourgon, Farah Benamara, Alda Mari, Véronique Moriceau, Camille Courgeon. 4333-4343 [doi]

Towards a Cleaner Document-Oriented Multilingual Crawled CorpusJulien Abadji, Pedro Javier Ortiz Suárez, Laurent Romary, Benoît Sagot. 4344-4355 [doi]

A Warm Start and a Clean Crawled Corpus - A Recipe for Good Language ModelsVésteinn Snæbjarnarson, Haukur Barri Símonarson, Pétur Orri Ragnarsson, Svanhvít Lilja Ingólfsdóttir, Haukur Jónsson, Vilhjalmur Thorsteinsson, Hafsteinn Einarsson. 4356-4366 [doi]

Adapting Language Models When Training on Privacy-Transformed DataM. A. Tugtekin Turan, Dietrich Klakow, Emmanuel Vincent 0001, Denis Jouvet. 4367-4373 [doi]

Evaluation of Transfer Learning for Polish with a Text-to-Text ModelAleksandra Chrabrowa, Lukasz Dragan, Karol Grzegorczyk, Dariusz Kajtoch, Mikolaj Koszowski, Robert Mroczkowski, Piotr Rybak. 4374-4394 [doi]

Evaluation of HTR models without Ground Truth MaterialPhillip Benjamin Ströbel, Martin Volk 0001, Simon Clematide, Raphael Schwitter, Tobias Hodel, David Schoch. 4395-4404 [doi]

A Semi-Automated Live Interlingual Communication Workflow Featuring Intralingual Respeaking: Evaluation and BenchmarkingTomasz Korybski, Elena Davitti, Constantin Orasan, Sabine Braun. 4405-4413 [doi]

Are Embedding Spaces Interpretable? Results of an Intrusion Detection Evaluation on a Large French CorpusThibault Prouteau, Nicolas Dugué, Nathalie Camelin, Sylvain Meignier. 4414-4419 [doi]

Corpus for Automatic Structuring of Legal DocumentsPrathamesh Kalamkar, Aman Tiwari, Astha Agarwal, Saurabh Karn, Smita Gupta, Vivek Raghavan, Ashutosh Modi. 4420-4429 [doi]

The Search for Agreement on Logical Fallacy Annotation of an InfodemicClaire Bonial, Austin Blodgett, Taylor Hudson, Stephanie M. Lukin, Jeffrey Micher, Douglas Summers-Stay, Peter Sutor Jr., Clare R. Voss. 4430-4438 [doi]

Recovering Patient Journeys: A Corpus of Biomedical Entities and Relations on Twitter (BEAR)Amelie Wührl, Roman Klinger. 4439-4450 [doi]

Improving Event Duration Question Answering by Leveraging Existing Temporal Information Extraction DataFelix Virgo, Fei Cheng, Sadao Kurohashi. 4451-4457 [doi]

Entity Linking over Nested Named Entities for RussianNatalia V. Loukachevitch, Pavel Braslavski, Vladimir Ivanov 0001, Tatiana Batura, Suresh Manandhar, Artem Shelmanov, Elena Tutubalina. 4458-4466 [doi]

HiNER: A large Hindi Named Entity Recognition DatasetV. Rudra Murthy, Pallab Bhattacharjee, Rahul Sharnagat, Jyotsana Khatri, Diptesh Kanojia, Pushpak Bhattacharyya. 4467-4476 [doi]

Bootstrapping Text Anonymization Models with Distant SupervisionAnthi Papadopoulou, Pierre Lison, Lilja Øvrelid, Ildikó Pilán. 4477-4487 [doi]

Natural Questions in IcelandicVésteinn Snæbjarnarson, Hafsteinn Einarsson. 4488-4496 [doi]

QA4IE: A Quality Assurance Tool for Information ExtractionRafael Jiménez Silva, Kaushik Gedela, Alex Marr, Bart Desmet, Carolyn P. Rosé, Chunxiao Zhou. 4497-4503 [doi]

A New Dataset for Topic-Based Paragraph Classification in Genocide-Related Court TranscriptsMiriam Schirmer, Udo Kruschwitz, Gregor Donabauer. 4504-4512 [doi]

DeepREF: A Framework for Optimized Deep Learning-based Relation ClassificationIgor Nascimento, Rinaldo Lima, Adrian-Gabriel Chifu, Bernard Espinasse, Sébastien Fournier. 4513-4522 [doi]

Exploring Data Augmentation Strategies for Hate Speech Detection in Roman UrduUbaid Azam, Hammad Rizwan, Asim Karim. 4523-4531 [doi]

Incorporating LIWC in Neural Networks to Improve Human Trait and Behavior Analysis in Low Resource ScenariosIsil Yakut Kilic, Shimei Pan. 4532-4539 [doi]

Using Sentence-level Classification Helps Entity Extraction from Material Science LiteratureAnkan Mullick, Shubhraneel Pal, Tapas Nayak, Seung-Cheol Lee, Satadeep Bhattacharjee, Pawan Goyal 0002. 4540-4545 [doi]

A Twitter Corpus for Named Entity Recognition in TurkishBuse Çarik, Reyyan Yeniterzi. 4546-4551 [doi]

A STEP towards Interpretable Multi-Hop Reasoning: Bridge Phrase Identification and Query ExpansionFan Luo, Mihai Surdeanu. 4552-4560 [doi]

Question Generation and Answering for exploring Digital Humanities collectionsFrédéric Béchet, Elie Antoine, Jérémy Auguste, Géraldine Damnati. 4561-4568 [doi]

Evaluating Retrieval for Multi-domain Scientific PublicationsNancy Ide, Keith Suderman, Jingxuan Tu, Marc Verhagen, Shanan Peters, Ian Ross, John Lawson, Andrew Borg, James Pustejovsky. 4569-4576 [doi]

Modeling Dutch Medical Texts for Detecting Functional Categories and Levels of COVID-19 PatientsJenia Kim, Stella Verkijk, Edwin Geleijn, Marieke van der Leeden, Carel Meskers, Caroline Meskers, Sabina van der Veen, Piek Vossen, Guy Widdershoven. 4577-4585 [doi]

Hierarchical Aggregation of Dialectal Data for Arabic Dialect IdentificationNurpeiis Baimukan, Houda Bouamor, Nizar Habash. 4586-4596 [doi]

Investigating Active Learning Sampling Strategies for Extreme Multi Label Text ClassificationLukas Wertz, Katsiaryna Mirylenka, Jonas Kuhn, Jasmina Bogojeska. 4597-4605 [doi]

German Light Verb Constructions in Business Process ModelsKristin Kutzner, Ralf Laue 0001. 4606-4610 [doi]

PhysNLU: A Language Resource for Evaluating Natural Language Understanding and Explanation Coherence in PhysicsJordan Meadows, Zili Zhou, André Freitas. 4611-4619 [doi]

HECTOR: A Hybrid TExt SimplifiCation TOol for Raw Texts in FrenchAmalia Todirascu, Rodrigo Wilkens, Eva Rolin, Thomas François, Delphine Bernhard, Núria Gala. 4620-4630 [doi]

AiRO - an Interactive Learning Tool for Children at Risk of DyslexiaPeter Juel Henrichsen, Stine Fuglsang Engmose. 4631-4636 [doi]

Creating a Basic Language Resource Kit for FaroeseAnnika Simonsen, Sandra Saxov Lamhauge, Iben Nyholm Debess, Peter Juel Henrichsen. 4637-4643 [doi]

Developing a Spell and Grammar Checker for Icelandic using an Error CorpusHulda Óladóttir, Thórunn Arnardóttir, Anton Karl Ingason, Vilhjalmur Thorsteinsson. 4644-4653 [doi]

The TalkMoves Dataset: K-12 Mathematics Lesson Transcripts Annotated for Teacher and Student Discursive MovesAbhijit Suresh, Jennifer Jacobs, Charis Harty, Margaret Perkoff, James H. Martin, Tamara Sumner. 4654-4662 [doi]

Automating Idea Unit Segmentation and Alignment for Assessing Reading Comprehension via Summary Protocol AnalysisMarcello Gecchele, Hiroaki Yamada 0002, Takenobu Tokunaga, Yasuyo Sawaki, Mika Ishizuka. 4663-4673 [doi]

IRAC: A Domain-Specific Annotated Corpus of Implicit Reasoning in ArgumentsKeshav Singh, Naoya Inoue, Farjana Sultana Mim, Shoichi Naitoh, Kentaro Inui. 4674-4683 [doi]

Conversational Speech Recognition Needs Data? Experiments with Austrian GermanJulian Linke, Philip N. Garner, Gernot Kubin, Barbara Schuppler. 4684-4691 [doi]

A Benchmark Corpus for the Detection of Automatically Generated Text in Academic PublicationsVijini Liyanage, Davide Buscaldi, Adeline Nazarenko. 4692-4700 [doi]

Building a Dataset for Automatically Learning to Detect Questions Requiring ClarificationIvano Lauriola, Kevin Small, Alessandro Moschitti. 4701-4707 [doi]

The ALPIN Sentiment Dictionary: Austrian Language Polarity in NewspapersThomas E. Kolb, Sekanina Katharina, Bettina Manuela Johanna Kern, Julia Neidhardt, Tanja Wissik, Andreas Baumann. 4708-4716 [doi]

Text Classification and Prediction in the Legal DomainMinh-Quoc Nghiem, Paul Baylis, André Freitas, Sophia Ananiadou. 4717-4722 [doi]

I still have Time(s): Extending HeidelTime for German TextsAndy Lücking, Manuel Stoeckel, Giuseppe Abrami, Alexander Mehler. 4723-4728 [doi]

Morphological Complexity of Children Narratives in Eight LanguagesGordana Hrzica, Chaya Liebeskind, Kristina S. Despot, Olga Dontcheva-Navratilova, Laura Kamandulyte-Merfeldiene, Sara Kosutar, Matea Kramaric, Giedre Valunaite Oleskeviciene. 4729-4738 [doi]

EXPRES Corpus for A Field-specific Automated Exploratory Study of L2 English Expert Scientific WritingAna-Maria Bucur, Madalina Chitez, Valentina Muresan, Andreea Dinca, Roxana Rogobete. 4739-4746 [doi]

An Evaluation Framework for Legal Document SummarizationAnkan Mullick, Abhilash Nandy, Manav Nitin Kapadnis, Sohan Patnaik, R. Raghav, Roshni Kar. 4747-4753 [doi]

Complex Labelling and Similarity Prediction in Legal Texts: Automatic Analysis of France's Court of Cassation RulingsThibault Charmet, Inès Cherichi, Matthieu Allain, Urszula Czerwinska, Amaury Fouret, Benoît Sagot, Rachel Bawden. 4754-4766 [doi]

Cyrillic-MNIST: a Cyrillic Version of the MNIST DatasetBolat Tleubayev, Zhanel Zhexenova, Kenessary Koishybay, Anara Sandygulova. 4767-4773 [doi]

gaBERT - an Irish Language ModelJames Barry, Joachim Wagner 0001, Lauren Cassidy, Alan Cowap, Teresa Lynn, Abigail Walsh, Mícheál J. Ó Meachair, Jennifer Foster. 4774-4788 [doi]

PoS Tagging, Lemmatization and Dependency Parsing of West FrisianWilbert Heeringa, Gosse Bouma, Martha Hofman, Jelle Brouwer, Eduard Drenth, Jan Wijffels, Hans Van de Velde. 4789-4798 [doi]

A Dataset of Offensive German Language Tweets Annotated for Speech ActsMelina Plakidis, Georg Rehm. 4799-4807 [doi]

Tracing Syntactic Change in the Scientific Genre: Two Universal Dependency-parsed Diachronic Corpora of Scientific English and GermanMarie-Pauline Krielke, Luigi Talamo, Mahmoud Fawzi, Jörg Knappen. 4808-4816 [doi]

The Tembusu Treebank: An English Learner TreebankLuís Morgado da Costa, Francis Bond, Roger Vivek Placidus Winder. 4817-4826 [doi]

The Norwegian Dialect Corpus TreebankAndre Kåsen, Kristin Hagen, Anders Nøklestad, Joel Priestley, Per Erik Solberg, Dag Trygve Truslew Haug. 4827-4832 [doi]

RRGparbank: A Parallel Role and Reference Grammar TreebankTatiana Bladier, Kilian Evang, Valeria Generalova, Zahra Ghane, Laura Kallmeyer, Robin Möllemann, Natalia Moors, Rainer Osswald, Simon Petitjean. 4833-4841 [doi]

Unifying Morphology Resources with OntoLex-Morph. A Case Study in GermanChristian Chiarcos, Christian Fäth, Maxim Ionov. 4842-4850 [doi]

Building Dataset for Grounding of Formulae - Annotating Coreference Relations Among Math IdentifiersTakuto Asakura, Yusuke Miyao, Akiko Aizawa. 4851-4858 [doi]

CorefUD 1.0: Coreference Meets Universal DependenciesAnna Nedoluzhko, Michal Novák, Martin Popel, Zdenek Zabokrtský, Amir Zeldes, Daniel Zeman. 4859-4872 [doi]

The Universal Anaphora ScorerJuntao Yu, Sopan Khosla, Nafise Sadat Moosavi, Silviu Paun, Sameer Pradhan, Massimo Poesio. 4873-4883 [doi]

Towards Evaluation of Cross-document Coreference Resolution Models Using Datasets with Diverse Annotation SchemesAnastasia Zhukova, Felix Hamborg, Bela Gipp. 4884-4893 [doi]

Explainable Tsetlin Machine Framework for Fake News Detection with Credibility Score AssessmentBimal Bhattarai, Ole-Christoffer Granmo, Lei Jiao 0001. 4894-4903 [doi]

Enhancing Deep Learning with Embedded Features for Arabic Named Entity RecognitionAli L. Hatab, Caroline Sabty, Slim Abdennadher. 4904-4912 [doi]

SCAI-QReCC Shared Task on Conversational Question AnsweringSvitlana Vakulenko, Johannes Kiesel, Maik Fröbe. 4913-4922 [doi]

Semantic Relations between Text Segments for Semantic Storytelling: Annotation Tool - Dataset - EvaluationMichael Raring, Malte Ostendorff, Georg Rehm. 4923-4932 [doi]

Evaluating Pre-training Objectives for Low-Resource Translation into Morphologically Rich LanguagesPrajit Dhar, Arianna Bisazza, Gertjan van Noord. 4933-4943 [doi]

Aligning Images and Text with Semantic Role Labels for Fine-Grained Cross-Modal UnderstandingAbhidip Bhattacharyya, Cecilia Mauceri, Martha Palmer, Christoffer Heckman. 4944-4954 [doi]

Rosetta-LSF: an Aligned Corpus of French Sign Language and French for Text-to-Sign TranslationÉlise Bertin-Lemée, Annelies Braffort, Camille Challant, Claire Danet, Boris Dauriac, Michael Filhol, Emmanuella Martinod, Jérémie Segouat. 4955-4962 [doi]

MLQE-PE: A Multilingual Quality Estimation and Post-Editing DatasetMarina Fomicheva, Shuo Sun, Erick R. Fonseca, Chrysoula Zerva, Frédéric Blain, Vishrav Chaudhary, Francisco Guzmán, Nina Lopatina, Lucia Specia, André F. T. Martins. 4963-4974 [doi]

OpenKorPOS: Democratizing Korean Tokenization with Voting-Based Open Corpus AnnotationSangwhan Moon, Won-Ik Cho, Hye Joo Han, Naoaki Okazaki, Nam Soo Kim. 4975-4983 [doi]

Enriching Grammatical Error Correction Resources for Modern GreekKaterina Korre, John Pavlopoulos. 4984-4991 [doi]

A Hmong Corpus with Elaborate Expression AnnotationsDavid R. Mortensen, Xinyu Zhang, Chenxuan Cui, Katherine J. Zhang. 4992-5000 [doi]

ELAL: An Emotion Lexicon for the Analysis of Alsatian Theatre PlaysDelphine Bernhard, Pablo Ruiz Fabo. 5001-5010 [doi]

Universal Dependencies for Western Sierra Puebla NahuatlRobert Pugh, Marivel Huerta Mendez, Mitsuya Sasaki, Francis Tyers. 5011-5020 [doi]

The Construction and Evaluation of the LEAFTOP Dataset of Automatically Extracted Nouns in 1480 LanguagesGregory Baker, Diego Mollá. 5021-5028 [doi]

Huqariq: A Multilingual Speech Corpus of Native Languages of Peru forSpeech RecognitionRodolfo Zevallos, Luis Camacho, Nelsi Melgarejo. 5029-5034 [doi]

Writing System and Speaker Metadata for 2, 800+ Language VarietiesDaan van Esch, Tamar Lucassen, Sebastian Ruder, Isaac Caswell, Clara Rivera. 5035-5046 [doi]

The PALMA Corpora of African Varieties of PortugueseTjerk Hagemeijer, Amália Mendes, Rita Gonçalves, Catarina Cornejo, Raquel Madureira, Michel Généreux. 5047-5053 [doi]

A Learning-Based Dependency to Constituency Conversion Algorithm for the Turkish LanguageBüsra Marsan, Oguz Kerem Yildiz, Asli Kuzgun, Neslihan Cesur, Arife Betül Yenice, Ezgi Saniyar, Oguzhan Kuyrukçu, Bilge Nas Arican, Olcay Taner Yildiz. 5054-5062 [doi]

Standard German Subtitling of Swiss German TV content: the PASSAGE ProjectJonathan David Mutal, Pierrette Bouillon, Johanna Gerlach, Veronika Haberkorn. 5063-5070 [doi]

A Survey of Multilingual Models for Automatic Speech RecognitionHemant Yadav, Sunayana Sitaram. 5071-5079 [doi]

LuxemBERT: Simple and Practical Data Augmentation in Language Model Pre-Training for LuxembourgishCedric Lothritz, Bertrand Lebichot, Kevin Allix, Lisa Veiber, Tegawendé F. Bissyande, Jacques Klein, Andrey Boytsov, Clément Lefebvre, Anne Goujon. 5080-5089 [doi]

PerPaDa: A Persian Paraphrase Dataset based on Implicit Crowdsourcing Data CollectionSalar Mohtaj, Fatemeh Tavakkoli, Habibollah Asghari. 5090-5096 [doi]

Introducing the Welsh Text Summarisation Dataset and Baseline SystemsIgnatius Ezeani, Mahmoud El-Haj, Jonathan Morris, Dawn Knight. 5097-5106 [doi]

A Systematic Approach to Derive a Refined Speech Corpus for SinhalaDisura Warusawithana, Nilmani Kulaweera, Lakshan Weerasinghe, Buddhika Karunarathne. 5107-5113 [doi]

IgboBERT Models: Building and Training Transformer Models for the Igbo LanguageChiamaka Chukwuneke, Ignatius Ezeani, Paul Rayson, Mahmoud El-Haj. 5114-5122 [doi]

Latvian National Corpora Collection - Korpuss.lvBaiba Saulite, Roberts Dargis, Normunds Gruzitis, Ilze Auzina, Kristine Levane-Petrova, Lauma Pretkalnina, Laura Rituma, Peteris Paikens, Arturs Znotins, Laine Strankale, Kristine Pokratniece, Ilmars Poikans, Guntis Barzdins, Inguna Skadina, Anda Baklane, Valdis Saulespurens, Janis Ziedins. 5123-5129 [doi]

Investigating the Relationship Between Romanian Financial News and Closing Prices from the Bucharest Stock ExchangeIoan-Bogdan Iordache, Ana Sabina Uban, Catalin Stoean, Liviu P. Dinu. 5130-5136 [doi]

A Free/Open-Source Morphological Analyser and Generator for SakhaSardana Ivanova, Jonathan Washington, Francis Tyers. 5137-5142 [doi]

An Expanded Finite-State Transducer for Tsuut'ina VerbsJoshua Holden, Christopher Cox, Antti Arppe. 5143-5152 [doi]

BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate Speech in Different Social ContextsNauros Romim, Mosahed Ahmed, Md Saiful Islam, Arnab Sen Sharma, Hriteshwar Talukder, Mohammad Ruhul Amin. 5153-5162 [doi]

Introducing RezoJDM16k: a French KnowledgeGraph DataSet for Link PredictionMehdi Mirzapour, Waleed Ragheb, Mohammad Javad Saeedizade, Kévin Cousot, Hélène Jacquenet, Lawrence Carbon, Mathieu Lafourcade. 5163-5169 [doi]

The Badalona Corpus - An Audio, Video and Neuro-Physiological Conversational DatasetPhilippe Blache, Salomé Antoine, Dorina De Jong, Lena-Marie Huttner, Emilia Kerr, Thierry Legou, Eliot Maës, Clément François. 5170-5177 [doi]

Reading Time and Vocabulary Rating in the Japanese Language: Large-Scale Japanese Reading Time Data Collection Using CrowdsourcingMasayuki Asahara. 5178-5187 [doi]

Thematic Fit Bits: Annotation Quality and Quantity Interplay for Event Participant RepresentationYuval Marton, Asad Sayeed. 5188-5197 [doi]

ChiSense-12: An English Sense-Annotated Child-Directed Speech CorpusFrancesco Cabiddu, Lewis Bott, Gary Jones, Chiara Gambi. 5198-5205 [doi]

Making People Laugh like a Pro: Analysing Humor Through Stand-Up ComedyBeatrice Turano, Carlo Strapparava. 5206-5211 [doi]

Testing Focus and Non-at-issue Frameworks with a Question-under-Discussion-Annotated CorpusChristoph Hesse, Maurice Langner, Ralf Klabunde, Anton Benz. 5212-5219 [doi]

Development of a Multilingual CCG Treebank via Universal Dependencies ConversionTu-Anh Tran, Yusuke Miyao. 5220-5233 [doi]

The Automatic Extraction of Linguistic Biomarkers as a Viable Solution for the Early Diagnosis of Mental DisordersGloria Gagliardi, Fabio Tamburini. 5234-5242 [doi]

Singlish Where Got Rules One? Constructing a Computational Grammar for SinglishSiew Yeng Chow, Francis Bond. 5243-5250 [doi]

COSMOS: Experimental and Comparative Studies of Concept Representations in SchoolchildrenJeanne Villaneau, Farida Saïd. 5251-5260 [doi]

Features of Perceived Metaphoricity on the Discourse Level: Abstractness and EmotionalityPrisca Piccirilli, Sabine Schulte im Walde. 5261-5273 [doi]

Hollywood Identity Bias Dataset: A Context Oriented Bias Analysis of Movie DialoguesSandhya Singh, Prapti Roy, Nihar Sahoo, Niteesh Mallela, Himanshu Gupta, Pushpak Bhattacharyya, Milind Savagaonkar, Nidhi Sultan, Roshni R. Ramnani, Anutosh Maitra, Shubhashis Sengupta. 5274-5285 [doi]

VoxCommunis: A Corpus for Cross-linguistic Phonetic AnalysisEmily Ahn, Eleanor Chodroff. 5286-5294 [doi]

Tracking Textual Similarities in Neo-Latin Drama NetworksAndrea Peverelli, Marieke van Erp, Jan Bloemendal. 5295-5303 [doi]

Named Entity Recognition in Estonian 19th Century Parish Court RecordsSiim Orasmaa, Kadri Muischnek, Kristjan Poska, Anna Edela. 5304-5313 [doi]

Investigating Independence vs. Control: Agenda-Setting in Russian News Coverage on Social MediaAnnerose Eichel, Gabriella Lapesa, Sabine Schulte im Walde. 5314-5323 [doi]

SLäNDa version 2.0: Improved and Extended Annotation of Narrative and Dialogue in Swedish LiteratureSara Stymne, Carin Östman. 5324-5333 [doi]

AGILe: The First Lemmatizer for Ancient Greek InscriptionsEvelien de Graaf, Silvia Stopponi, Jasper K. Bos, Saskia Peels-Matthey, Malvina Nissim. 5334-5344 [doi]

»textklang« - Towards a Multi-Modal Exploration Platform for German PoetryNadja Schauffler, Toni Bernhart, André Blessing, Gunilla Eschenbach, Markus Gärtner, Kerstin Jung, Anna Kinder, Julia Koch, Sandra Richter, Gabriel Viehhauser, Ngoc Thang Vu, Lorenz Wesemann, Jonas Kuhn. 5345-5355 [doi]

Predicting the Proficiency Level of Nonnative Hebrew AuthorsIsabelle Nguyen, Shuly Wintner. 5356-5365 [doi]

Trends, Limitations and Open Challenges in Automatic Readability Assessment ResearchSowmya Vajjala. 5366-5377 [doi]

HateCheckHIn: Evaluating Hindi Hate Speech Detection ModelsMithun Das, Punyajoy Saha, Binny Mathew, Animesh Mukherjee 0001. 5378-5387 [doi]

Surfer100: Generating Surveys From Web Resources, Wikipedia-styleIrene Li, Alexander R. Fabbri, Rina Kawamura, Yixin Liu, Xiangru Tang, Jaesung Tae, Chang Shen, Sally Ma, Tomoe Mizutani, Dragomir Radev. 5388-5392 [doi]

MS-LaTTE: A Dataset of Where and When To-do Tasks are CompletedSujay Kumar Jauhar, Nirupama Chandrasekaran, Michael Gamon, Ryen White. 5393-5403 [doi]

KazakhTTS2: Extending the Open-Source Kazakh TTS Corpus With More Data, Speakers, and TopicsSaida Mussakhojayeva, Yerbolat Khassanov, Huseyin Atakan Varol. 5404-5411 [doi]

A Graph-Based Method for Unsupervised Knowledge Discovery from Financial TextsJoel Oksanen, Abhilash Majumder, Kumar Saunack, Francesca Toni, Arun Dhondiyal. 5412-5417 [doi]

Leveraging Mental Health Forums for User-level Depression Detection on Social MediaSravani Boinepelli, Tathagata Raha, Harika Abburi, Pulkit Parikh, Niyati Chhaya, Vasudeva Varma. 5418-5427 [doi]

Classifying Implant-Bearing Patients via their Medical Histories: a Pre-Study on Swedish EMRs with Semi-Supervised GanBERTBenjamin Danielsson, Marina Santini, Peter Lundberg, Yosef Al-Abasse, Arne Jönsson, Emma Eneling, Magnus Stridsman. 5428-5435 [doi]

Standardisation of Dialect Comments in Social Networks in View of Sentiment Analysis : Case of Tunisian DialectSaméh Kchaou, Rahma Boujelbane, Emna Fsih, Lamia Hadrich Belguith. 5436-5443 [doi]

EnsyNet: A Dataset for Encouragement and Sympathy DetectionTiberiu Sosea, Cornelia Caragea. 5444-5449 [doi]

Preliminary Results on the Evaluation of Computational Tools for the Analysis of Quechua and AymaraMarcelo Yuji Himoro, Antonio Pareja-Lora. 5450-5459 [doi]

A Tale of Two Regulatory Regimes: Creation and Analysis of a Bilingual Privacy Policy CorpusSiddhant Arora, Henry Hosseini, Christine Utz, Vinayshekhar Bannihatti Kumar, Tristan Dhellemmes, Abhilasha Ravichander, Peter Story, Jasmine Mangat, Rex Chen, Martin Degeling, Thomas B. Norton, Thomas Hupperich, Shomir Wilson, Norman M. Sadeh. 5460-5472 [doi]

MeSHup: Corpus for Full Text Biomedical Document IndexingXindi Wang, Robert E. Mercer, Frank Rudzicz. 5473-5483 [doi]

Hierarchical Annotation for Building A Suite of Clinical Natural Language Processing Tasks: Progress Note UnderstandingYanjun Gao, Dmitriy Dligach, Timothy Miller, Samuel Tesch, Ryan Laffin, Matthew M. Churpek, Majid Afshar. 5484-5493 [doi]

KC4MT: A High-Quality Corpus for Multilingual Machine TranslationVinh van Nguyen, Ha Nguyen, Huong Thanh Le, Thai Phuong Nguyen, Tan Van Bui, Luan-Nghia Pham, Anh-Tuan Phan, Cong Hoang-Minh Nguyen, Viet-Hong Tran, Anh Huu Tran. 5494-5502 [doi]

Developing A Multilabel Corpus for the Quality Assessment of Online Political TalkKokil Jaidka. 5503-5510 [doi]

BILinMID: A Spanish-English Corpus of the US MidwestIrati Hurtado. 5511-5516 [doi]

One Document, Many Revisions: A Dataset for Classification and Description of Edit IntentsDheeraj Rajagopal, Xuchao Zhang, Michael Gamon, Sujay Kumar Jauhar, Diyi Yang, Eduard H. Hovy. 5517-5524 [doi]

CTAP for Chinese: A Linguistic Complexity Feature Automatic Calculation PlatformYue Cui, Junhui Zhu, Liner Yang, Xuezhi Fang, Xiaobin Chen, Yujie Wang, Erhong Yang. 5525-5538 [doi]

A Corpus for Suggestion Mining of German Peer FeedbackDominik Pfütze, Eva Ritz, Julius Janda, Roman Rietsche. 5539-5547 [doi]

CLGC: A Corpus for Chinese Literary Grace EvaluationYi Li, Dong Yu, Pengyuan Liu. 5548-5556 [doi]

Anonymising the SAGT Speech Corpus and TreebankÖzlem Çetinoglu, Antje Schweitzer. 5557-5564 [doi]

Construction of a Quality Estimation Dataset for Automatic Evaluation of Japanese Grammatical Error CorrectionDaisuke Suzuki, Yujin Takahashi, Ikumi Yamashita, Taichi Aida, Tosho Hirasawa, Michitaka Nakatsuji, Masato Mita, Mamoru Komachi. 5565-5572 [doi]

Enhanced Distant Supervision with State-Change Information for Relation ExtractionJui Shah, Dongxu Zhang, Sam Brody, Andrew McCallum. 5573-5579 [doi]

The Hebrew Essay CorpusChen Gafni, Anat Prior, Shuly Wintner. 5580-5586 [doi]

Design and Evaluation of the Corpus of Everyday Japanese ConversationHanae Koiso, Haruka Amatani, Yasuharu Den, Yuriko Iseki, Yuichi Ishimoto, Wakako Kashino, Yoshiko Kawabata, Ken'ya Nishikawa, Yayoi Tanaka, Yasuyuki Usuda, Yuka Watanabe. 5587-5594 [doi]

Developing Language Resources and NLP Tools for the North Korean LanguageArda Akdemir, Yeojoo Jeon, Tetsuo Shibuya. 5595-5600 [doi]

Developing a Dataset of Overridden Information in WikipediaMasatoshi Tsuchiya, Yasutaka Yokoi. 5601-5608 [doi]

BRATECA (Brazilian Tertiary Care Dataset): a Clinical Information Dataset for the Portuguese LanguageBernardo Scapini Consoli, Henrique D. P. dos Santos, Ana Helena D. P. S. Ulbrich, Renata Vieira, Rafael H. Bordini. 5609-5616 [doi]

Universal Grammatical Dependencies for Portuguese with CINTIL Data, LX Processing and CLARIN supportAntónio Branco, João Ricardo Silva, Luís Gomes 0002, João António Rodrigues. 5617-5626 [doi]

CWID-hi: A Dataset for Complex Word Identification in Hindi TextGayatri Venugopal, Dhanya Pramod, Ravi Shekhar. 5627-5636 [doi]

Automatic Classification of Russian Learner ErrorsAlla Rozovskaya. 5637-5647 [doi]

Annotation of metaphorical expressions in the Basic Corpus of Polish MetaphorsElzbieta Hajnicz. 5648-5653 [doi]

ChiMST: A Chinese Medical Corpus for Word Segmentation and Medical Term RecognitionYuanhe Tian, Han Qin, Fei Xia, Yan Song 0003. 5654-5664 [doi]

Building a Synthetic Biomedical Research Article Citation Linkage CorpusSudipta Singha Roy, Robert E. Mercer. 5665-5672 [doi]

Dataset Construction for Scientific-Document Writing Support by Extracting Related Work Section and Citations from PDF PapersKeita Kobayashi, Kohei Koyama, Hiromi Narimatsu, Yasuhiro Minami. 5673-5682 [doi]

RuPAWS: A Russian Adversarial Dataset for Paraphrase IdentificationNikita Martynov, Irina Krotova, Varvara Logacheva, Alexander Panchenko, Olga Kozlova, Nikita Semenov. 5683-5691 [doi]

Atril: an XML Visualization System for Corpus TextsAndressa Rodrigues Gomide, Conceição Carapinha, Cornelia Plag. 5692-5695 [doi]

MASALA: Modelling and Analysing the Semantics of Adpositions in Linguistic Annotation of HindiAryaman Arora, Nitin Venkateswaran, Nathan Schneider 0001. 5696-5704 [doi]

Universal Dependencies for PunjabiAryaman Arora. 5705-5711 [doi]

TeSum: Human-Generated Abstractive Summarization Corpus for TeluguUrlana Ashok, Nirmal Surange, Pawan Baswani, Priyanka Ravva, Manish Shrivastava 0001. 5712-5722 [doi]

A Corpus of Simulated Counselling Sessions with Dialog Act AnnotationJohn Lee, Haley Fong, Lai Shuen Judy Wong, Chun Chung Mak, Chi Hin Yip, Ching Wah Larry Ng. 5723-5730 [doi]

Interactive Evaluation of Dialog Track at DSTC9Shikib Mehri, Yulan Feng, Carla Gordon, Seyed Hossein Alavi, David R. Traum, Maxine Eskénazi. 5731-5738 [doi]

HADREB: Human Appraisals and (English) Descriptions of Robot Emotional BehaviorsJosue Torres-Fonsesca, Casey Kennington. 5739-5748 [doi]

Dialogue Collection for Recording the Process of Building Common Ground in a Collaborative TaskKoh Mitsuda, Ryuichiro Higashinaka, Yuhei Oga, Sen Yoshida. 5749-5758 [doi]

Collection and Analysis of Travel Agency Task Dialogues with Age-Diverse SpeakersMichimasa Inaba, Yuya Chiba, Ryuichiro Higashinaka, Kazunori Komatani, Yusuke Miyao, Takayuki Nagai. 5759-5767 [doi]

Strategy-level Entrainment of Dialogue System Users in a Creative Visual Reference Resolution TaskDeepthi Karkada, Ramesh R. Manuvinakurike, Maike Paetzel-Prüsmann, Kallirroi Georgila. 5768-5777 [doi]

MMChat: Multi-Modal Chat Dataset on Social MediaYinhe Zheng, Guanyi Chen, Xin Liu, Jian Sun. 5778-5786 [doi]

E-ConvRec: A Large-Scale Conversational Recommendation Dataset for E-Commerce Customer ServiceMeihuizi Jia, Ruixue Liu, PeiYing Wang, Yang Song 0008, Zexi Xi, Haobin Li, Xin Shen, Meng Chen, Jinhui Pang, Xiaodong He 0002. 5787-5796 [doi]

SHONGLAP: A Large Bengali Open-Domain Dialogue CorpusSyed Mostofa Monsur, Sakib Chowdhury, Md Shahrar Fatemi, Shafayat Ahmed. 5797-5804 [doi]

A Comparison of Praising Skills in Face-to-Face and Remote DialoguesToshiki Onishi, Asahi Ogushi, Yohei Tahara, Ryo Ishii, Atsushi Fukayama, Takao Nakamura, Akihiro Miyata. 5805-5812 [doi]

Comparing Approaches to Language Understanding for Human-Robot Dialogue: An Error Taxonomy and AnalysisAda Tur, David R. Traum. 5813-5820 [doi]

SPORTSINTERVIEW: A Large-Scale Sports Interview Benchmark for Entity-centric DialoguesHanfei Sun, Ziyuan Cao, Diyi Yang. 5821-5828 [doi]

EmoInHindi: A Multi-label Emotion and Intensity Annotated Dataset in Hindi for Emotion Recognition in DialoguesGopendra Vikram Singh, Priyanshu Priya, Mauajama Firdaus, Asif Ekbal, Pushpak Bhattacharyya. 5829-5837 [doi]

The Project Dialogism Novel Corpus: A Dataset for Quotation Attribution in Literary TextsKrishnapriya Vishnubhotla, Adam Hammond, Graeme Hirst. 5838-5848 [doi]

Who's in, who's out? Predicting the Inclusiveness or Exclusiveness of Personal Pronouns in Parliamentary DebatesInes Rehbein, Josef Ruppenhofer. 5849-5858 [doi]

A Language Modelling Approach to Quality Assessment of OCR'ed Historical TextCallum Booth, Robert Shoemaker, Robert J. Gaizauskas. 5859-5864 [doi]

Identifying Copied Fragments in a 18th Century Dutch ChronicleRoser Morante, Eleanor L. T. Smith, Lianne Wilhelmus, Alie Lassche, Erika Kuijpers. 5865-5878 [doi]

A Study of Distant Viewing of ukiyo-e printsKonstantina Liagkou, John Pavlopoulos, Ewa Machotka. 5879-5888 [doi]

CCTAA: A Reproducible Corpus for Chinese Authorship Attribution ResearchHaining Wang, Allen Riddell. 5889-5893 [doi]

An automatic model and Gold Standard for translation alignment of Ancient GreekTariq Yousef, Chiara Palladino, Farnoosh Shamsian, Anise d'Orange Ferreira, Michel Ferreira dos Reis. 5894-5905 [doi]

Rhetorical Structure Approach for Online Deception Detection: A SurveyFrancielle Alves Vargas, Jonas D'Alessandro, Zohar Rabinovich, Fabrício Benevenuto, Thiago A. S. Pardo. 5906-5915 [doi]

TYPIC: A Corpus of Template-Based Diagnostic Comments on ArgumentationShoichi Naitoh, Shintaro Sawada, Chihiro Nakagawa, Naoya Inoue, Kenshi Yamaguchi, Iori Shimizu, Farjana Sultana Mim, Keshav Singh, Kentaro Inui. 5916-5928 [doi]

Towards Speaker Verification for Crowdsourced Speech CollectionsJohn Mendonça, Rui Correia, Mariana Lourenço, João Freitas, Isabel Trancoso. 5929-5937 [doi]

Align-smatch: A Novel Evaluation Method for Chinese Abstract Meaning Representation Parsing based on Alignment of Concept and RelationLiming Xiao, Bin Li, Zhixing Xu, Kairui Huo, Minxuan Feng, Junsheng Zhou, Weiguang Qu. 5938-5945 [doi]

Dynamic Human Evaluation for Relative Model ComparisonsThórhildur Thorleiksdóttir, Cédric Renggli, Nora Hollenstein, Ce Zhang 0001. 5946-5955 [doi]

Please, Don't Forget the Difference and the Confidence Interval when Seeking for the State-of-the-Art StatusYves Bestgen. 5956-5962 [doi]

PCR4ALL: A Comprehensive Evaluation Benchmark for Pronoun Coreference Resolution in EnglishXinran Zhao, Hongming Zhang, Yangqiu Song. 5963-5973 [doi]

Estimating Confidence of Predictions of Individual Classifiers and TheirEnsembles for the Genre Classification TaskMikhail Lepekhin, Serge Sharoff. 5974-5982 [doi]

What do we really know about State of the Art NER?Sowmya Vajjala, Ramya Balasubramaniam. 5983-5993 [doi]

ProQE: Proficiency-wise Quality Estimation dataset for Grammatical Error CorrectionYujin Takahashi, Masahiro Kaneko, Masato Mita, Mamoru Komachi. 5994-6000 [doi]

Evaluation of Off-the-shelf Speech Recognizers on Different Accents in a Dialogue DomainDivya Tadimeti, Kallirroi Georgila, David R. Traum. 6001-6008 [doi]

Sentence Pair Embeddings Based Evaluation Metric for Abstractive and Extractive SummarizationRamya Akula, Ivan Garibay. 6009-6017 [doi]

On "Human Parity" and "Super Human Performance" in Machine Translation EvaluationThierry Poibeau. 6018-6023 [doi]

Evaluation Benchmarks for Spanish Sentence RepresentationsVladimir Araujo, Andrés Carvallo, Souvik Kundu 0008, José Cañete, Marcelo Mendoza, Robert E. Mercer, Felipe Bravo-Marquez, Marie-Francine Moens, Alvaro Soto. 6024-6034 [doi]

UMUTextStats: A linguistic feature extraction tool for SpanishJosé Antonio García-Díaz, Pedro José Vivancos Vicente, Ángela Almela, Rafael Valencia-García. 6035-6044 [doi]

Problem-solving Recognition in Scientific TextKevin Heffernan, Simone Teufel. 6045-6058 [doi]

HRCA+: Advanced Multiple-choice Machine Reading Comprehension MethodYuxiang Zhang, Hayato Yamana. 6059-6068 [doi]

HyperBox: A Supervised Approach for Hypernym Discovery using Box EmbeddingsMaulik Parmar, Apurva Narayan. 6069-6076 [doi]

Extracting Space Situational Awareness Events from News TextZhengnan Xie, Alice Saebom Kwak, Enfa George, Laura W. Dozal, Hoang-Van, Moriba Jah, Roberto Furfaro, Peter A. Jansen. 6077-6082 [doi]

PerCQA: Persian Community Question Answering DatasetNaghme Jamali, Yadollah Yaghoobzadeh, Heshaam Faili. 6083-6092 [doi]

GrASP: A Library for Extracting and Exploring Human-Interpretable Textual PatternsPiyawat Lertvittayakumjorn, Leshem Choshen, Eyal Shnarch, Francesca Toni. 6093-6103 [doi]

Recurrent Neural Networks with Mixed Hierarchical Structures and EM Algorithm for Natural Language ProcessingZhaoxin Luo, Michael Zhu. 6104-6113 [doi]

Korean-Specific Dataset for Table Question AnsweringChangwook Jun, Jooyoung Choi, Myoseop Sim, Hyun Kim, Hansol Jang, Kyungkoo Min. 6114-6120 [doi]

GerCCT: An Annotated Corpus for Mining Arguments in German Tweets on Climate ChangeRobin Schaefer, Manfred Stede. 6121-6130 [doi]

Budget Argument Mining Dataset Using Japanese Minutes from the National Diet and Local AssembliesYasutomo Kimura, Hokuto Ototake, Minoru Sasaki. 6131-6138 [doi]

Context-based Virtual Adversarial Training for Text Classification with Noisy LabelsDo-Myoung Lee, Yeachan Kim, Chang-gyun Seo. 6139-6146 [doi]

FinMath: Injecting a Tree-structured Solver for Question Answering over Financial ReportsChenying Li, Wenbo Ye, Yilun Zhao. 6147-6152 [doi]

HeadlineCause: A Dataset of News Headlines for Detecting CausalitiesIlya Gusev, Alexey Tikhonov. 6153-6161 [doi]

Incorporating Zoning Information into Argument Mining from Biomedical LiteratureBoyang Liu, Viktor Schlegel, Riza Batista-Navarro, Sophia Ananiadou. 6162-6169 [doi]

MAKED: Multi-lingual Automatic Keyword Extraction DatasetYash Verma, Anubhav Jangra, Sriparna Saha 0001, Adam Jatowt, Dwaipayan Roy. 6170-6179 [doi]

From Examples to Rules: Neural Guided Rule Synthesis for Information ExtractionRobert Vacareanu, Marco Antonio Valenzuela-Escárcega, George Caique Gouveia Barbosa, Rebecca Sharp, Gustave Hahn-Powell, Mihai Surdeanu. 6180-6189 [doi]

Enhancing Relation Extraction via Adversarial Multi-task LearningHan Qin, Yuanhe Tian, Yan Song 0003. 6190-6199 [doi]

Query Obfuscation by Semantic DecompositionDanushka Bollegala, Tomoya Machide, Ken-ichi Kawarabayashi. 6200-6211 [doi]

TWEET-FID: An Annotated Dataset for Multiple Foodborne Illness Detection TasksRuofan Hu, Dongyu Zhang, Dandan Tao, Thomas Hartvigsen, Hao Feng, Elke A. Rundensteiner. 6212-6222 [doi]

Named Entity Recognition to Detect Criminal Texts on the WebPawel Skórzewski, Mikolaj Pieniowski, Grazyna Demenko. 6223-6231 [doi]

Task-Driven and Experience-Based Question Answering Corpus for In-Home Robot Application in the House3D Virtual EnvironmentZhuoqun Xu, Liubo Ouyang, Yang Liu. 6232-6239 [doi]

ELRC Action: Covering Confidentiality, Correctness and Cross-lingualityTom Vanallemeersch, Arne Defauw, Sara Szoc, Alina Kramchaninova, Joachim Van den Bogaert, Andrea Lösch. 6240-6249 [doi]

RadQA: A Question Answering Dataset to Improve Comprehension of Radiology ReportsSarvesh Soni, Meghana Gudala, Atieh Pajouhi, Kirk Roberts. 6250-6259 [doi]

Knowledge Graph - Deep Learning: A Case Study in Question Answering in Aviation Safety DomainAnkush Agarwal, Raj Gite, Shreya Laddha, Pushpak Bhattacharyya, Satyanarayan Kar, Asif Ekbal, Prabhjit Thind, Rajesh Zele, Ravi Shankar. 6260-6270 [doi]

A Bayesian Topic Model for Human-Evaluated InterpretabilityJustin Wood, Corey W. Arnold, Wei Wang 0010. 6271-6279 [doi]

A Large Interlinked Knowledge Graph of the Italian Cultural HeritageStefano Faralli 0001, Andrea Lenzi, Paola Velardi. 6280-6289 [doi]

Training on Lexical ResourcesKenneth Church 0001, Xingyu Cai, Yuchen Bian. 6290-6299 [doi]

Challenging the Assumption of Structure-based embeddings in Few- and Zero-shot Knowledge Graph CompletionFilip Cornell, Chenda Zhang, Jussi Karlgren, Sarunas Girdzijauskas. 6300-6309 [doi]

Open Terminology Management and Sharing Toolkit for Federation of Terminology DatabasesAndis Lagzdins, Uldis Silins, Toms Bergmanis, Marcis Pinnis, Arturs Vasilevskis, Andrejs Vasiljevs. 6310-6316 [doi]

RELATE: Generating a linguistically inspired Knowledge Graph for fine-grained emotion classificationAnnika Marie Schoene, Nina Dethlefs, Sophia Ananiadou. 6317-6327 [doi]

Language technology practitioners as language managers: arbitrating data bias and predictive bias in ASRNina Markl, Stephen Joseph McNulty. 6328-6339 [doi]

Masader: Metadata Sourcing for Arabic Text and Speech Data ResourcesZaid Alyafeai, Maraim Masoud, Mustafa Ghaleb, Maged Saeed AlShaibani. 6340-6351 [doi]

Linghub2: Language Resource Discovery Tool for Language TechnologiesCécile Robin, Gautham Vadakkekara Suresh, Víctor Rodríguez-Doncel, John P. McCrae, Paul Buitelaar. 6352-6360 [doi]

CxLM: A Construction and Context-aware Language ModelYu-Hsiang Tseng, Cing-Fang Shih, Pin-Er Chen, Hsin-Yu Chou, Mao-Chang Ku, Shu-Kai Hsieh. 6361-6369 [doi]

The Lexometer: A Shiny Application for Exploratory Analysis and Visualization of Corpus DataOufan Hai, Matthew Sundberg, Katherine Trice, Rebecca Friedman, Scott Grimm. 6370-6376 [doi]

TallVocabL2Fi: A Tall Dataset of 15 Finnish L2 Learners' VocabularyFrankie Robertson, Li-hsin Chang, Sini Söyrinki. 6377-6386 [doi]

CAMS: An Annotated Corpus for Causal Analysis of Mental Health Issues in Social Media PostsMuskan Garg, Chandni Saxena, Sriparna Saha, Veena Krishnan, Ruchi Joshi, Vijay Mago. 6387-6396 [doi]

How Does the Experimental Setting Affect the Conclusions of Neural Encoding Models?Xiaohan Zhang, Shaonan Wang, Chengqing Zong. 6397-6404 [doi]

SPADE: A Big Five-Mturk Dataset of Argumentative Speech Enriched with Socio-Demographics for Personality DetectionElma Kerz, Yu Qiao, Sourabh Zanwar, Daniel Wiechmann. 6405-6419 [doi]

Progress in Multilingual Speech Recognition for Low Resource Languages Kurmanji Kurdish, Cree and InuktutVishwa Gupta, Gilles Boulianne. 6420-6428 [doi]

Efficient Entity Candidate Generation for Low-Resource LanguagesAlberto García-Durán, Akhil Arora 0001, Robert West 0001. 6429-6438 [doi]

What a Creole Wants, What a Creole NeedsHeather C. Lent, Kelechi Ogueji, Miryam de Lhoneux, Orevaoghene Ahia, Anders Søgaard. 6439-6449 [doi]

Extensions to Brahmic script processing within the Nisaba library: new scripts, languages and utilitiesAlexander Gutkin, Cibu Johny, Raiomond Doctor, Lawrence Wolf-Sonkin, Brian Roark. 6450-6460 [doi]

Predicting Embedding Reliability in Low-Resource Settings Using Corpus Similarity MeasuresJonathan Dunn, HaiPeng Li, Damian Sastre. 6461-6470 [doi]

Hausa Visual Genome: A Dataset for Multi-Modal English to Hausa Machine TranslationIdris Abdulmumin, Satya Ranjan Dash, Musa Abdullahi Dawud, Shantipriya Parida, Shamsuddeen Hassan Muhammad, Ibrahim Said Ahmad, Subhadarshi Panda, Ondrej Bojar, Bashir Shehu Galadanci, Bello Shehu Bello. 6471-6479 [doi]

A Survey of Machine Translation Tasks on Nigerian LanguagesEbelechukwu Nwafor, Anietie Andy. 6480-6486 [doi]

Automatic Speech Recognition Datasets in Cantonese: A Survey and New DatasetTiezheng Yu, Rita Frieske, Peng Xu 0008, Samuel Cahyawijaya, Cheuk Tung Shadow Yiu, Holy Lovenia, Wenliang Dai, Elham J. Barezi, Qifeng Chen, Xiaojuan Ma, Bertram E. Shi, Pascale Fung. 6487-6494 [doi]

Survey on Thai NLP Language Resources and ToolsRatchakrit Arreerard, Stephen Mander, Scott Piao. 6495-6505 [doi]

LaoPLM: Pre-trained Language Models for LaoNankai Lin, Yingwen Fu, Chuwei Chen, Ziyu Yang, Shengyi Jiang. 6506-6512 [doi]

The Maaloula Aramaic Speech Corpus (MASC): From Printed Material to a Lemmatized and Time-Aligned CorpusGhattas Eid, Esther Seyffarth, Ingo Plag. 6513-6520 [doi]

VIMQA: A Vietnamese Dataset for Advanced Reasoning and Explainable Multi-hop Question AnsweringKhang Le, Hien Nguyen, Tung Le Thanh, Minh Nguyen. 6521-6529 [doi]

Language Identification for Austronesian LanguagesJonathan Dunn, Wikke Nijhof. 6530-6539 [doi]

A Mapudüngun FST Morphological Analyser and its Web InterfaceAndrés Chandía. 6540-6547 [doi]

Improving Large-scale Language Models and Resources for FilipinoJan Christian Blaise Cruz, Charibeth Cheng. 6548-6555 [doi]

Thirumurai: A Large Dataset of Tamil Shaivite Poems and Classification of Tamil PannShankar Mahadevan, Rahul Ponnusamy, Prasanna Kumar Kumaresan, Prabakaran Chandran, Ruba Priyadharshini, Sangeetha Sivanesan, Bharathi Raja Chakravarthi. 6556-6562 [doi]

Generating Monolingual Dataset for Low Resource Language Bodo from old books using Google KeepSanjib Narzary, Maharaj Brahma, Mwnthai Narzary, Gwmsrang Muchahary, Pranav Kumar Singh, Apurbalal Senapati, Sukumar Nandi, Bidisha Som. 6563-6570 [doi]

AsNER - Annotated Dataset and Baseline for Assamese Named Entity recognitionDhrubajyoti Pathak, Sukumar Nandi, Priyankoo Sarmah. 6571-6577 [doi]

GeezSwitch: Language Identification in Typologically Related Low-resourced East African LanguagesFitsum Gaim, Wonsuk Yang, Jong C. Park. 6578-6584 [doi]

Handwritten Paleographic Greek Text Recognition: A Century-Based ApproachParaskevi Platanou, John Pavlopoulos, Georgios Papaioannou. 6585-6589 [doi]

Quality Control for Crowdsourced Bilingual Dictionary in Low-Resource LanguagesHiroki Chida, Yohei Murakami, Mondheera Pituxcoosuvarn. 6590-6596 [doi]

An Inflectional Database for GitksanBruce Harold Oliver, Clarissa Forbes, Changbing Yang, Farhan Samir, Edith Coates, Garrett Nicolai, Miikka Silfverberg. 6597-6606 [doi]

PyCantonese: Cantonese Linguistics and NLP in PythonJackson Lee, Litong Chen, Charles Lam, Chaak Ming Lau, Tsz-Him Tsui. 6607-6611 [doi]

Afaan Oromo Hate Speech Detection and Classification on Social MediaTeshome Mulugeta Ababu, Michael Melese Woldeyohannis. 6612-6619 [doi]

Cross-lingual Linking of Automatically Constructed Frames and FrameNetRyohei Sasano. 6620-6625 [doi]

Aligning the Romanian Reference Treebank and the Valence Lexicon of Romanian VerbsAna-Maria Barbu, Verginica Barbu Mititelu, Catalin Mititelu. 6626-6634 [doi]

PortiLexicon-UD: a Portuguese Lexical Resource according to Universal Dependencies ModelLucelene Lopes, Magali Sanches Duran, Paulo Fernandes 0001, Thiago A. S. Pardo. 6635-6643 [doi]

Extended Parallel Corpus for Amharic-English Machine TranslationAndargachew Mekonnen Gezmu, Andreas Nürnberger, Tesfaye Bayu Bati. 6644-6653 [doi]

Low-resource Neural Machine Translation: Benchmarking State-of-the-art Transformer for Wolof ↔ FrenchCheikh M. Bamba Dione, Alla Lo, Elhadji Mamadou Nguer, Sileye O. Ba. 6654-6661 [doi]

Criteria for Useful Automatic Romanization in South Asian LanguagesIsin Demirsahin, Cibu Johny, Alexander Gutkin, Brian Roark. 6662-6673 [doi]

BERTology for Machine Translation: What BERT Knows about Linguistic Difficulties for TranslationYuqian Dai, Marc de Kamps, Serge Sharoff. 6674-6690 [doi]

CVSS Corpus and Massively Multilingual Speech-to-Speech TranslationYe Jia, Michelle Tadmor Ramanovich, Quan Wang, Heiga Zen. 6691-6703 [doi]

JParaCrawl v3.0: A Large-scale English-Japanese Parallel CorpusMakoto Morishita, Katsuki Chousa, Jun Suzuki, Masaaki Nagata. 6704-6710 [doi]

Learning How to Translate North Korean through South KoreanHwichan Kim, Sangwhan Moon, Naoaki Okazaki, Mamoru Komachi. 6711-6718 [doi]

FGraDA: A Dataset and Benchmark for Fine-Grained Domain Adaptation in Machine TranslationWenhao Zhu, Shujian Huang, Tong Pu, Pingxuan Huang, Xu Zhang, Jian Yu, Wei Chen 0071, Yanfeng Wang, Jiajun Chen. 6719-6727 [doi]

SansTib, a Sanskrit - Tibetan Parallel Corpus and Bilingual Sentence Embedding ModelSebastian Nehrdich. 6728-6734 [doi]

VISA: An Ambiguous Subtitles Dataset for Visual Scene-aware Machine TranslationYihang Li, Shuichiro Shimizu, Weiqi Gu, Chenhui Chu, Sadao Kurohashi. 6735-6743 [doi]

A Benchmark Dataset for Multi-Level Complexity-Controllable Machine TranslationKazuki Tani, Ryoya Yuasa, Kazuki Takikawa, Akihiro Tamura, Tomoyuki Kajiwara, Takashi Ninomiya, Tsuneo Kato. 6744-6752 [doi]

gaHealth: An English-Irish Bilingual Corpus of Health DataSéamus Lankford, Haithem Afli, Orla Ni Loinsigh, Andy Way. 6753-6758 [doi]

Translation Memories as Baselines for Low-Resource Machine TranslationRebecca Knowles, Patrick Littell. 6759-6767 [doi]

N24News: A New Dataset for Multimodal News ClassificationZhen Wang, Xu Shan, Xiangxie Zhang, Jie Yang. 6768-6775 [doi]

MultiSubs: A Large-scale Multimodal and Multilingual DatasetJosiah Wang, Josiel Figueiredo, Lucia Specia. 6776-6785 [doi]

CI-AVSR: A Cantonese Audio-Visual Speech Datasetfor In-car Command RecognitionWenliang Dai, Samuel Cahyawijaya, Tiezheng Yu, Elham J. Barezi, Peng Xu 0008, Cheuk Tung Yiu, Rita Frieske, Holy Lovenia, Genta Indra Winata, Qifeng Chen, Xiaojuan Ma, Bertram E. Shi, Pascale Fung. 6786-6793 [doi]

Multimodal Negotiation Corpus with Various Subjective Assessments for Social-Psychological Outcome Prediction from Non-Verbal CuesNobukatsu Hojo, Satoshi Kobashikawa, Saki Mizuno, Ryo Masumura. 6794-6801 [doi]

MMDAG: Multimodal Directed Acyclic Graph Network for Emotion Recognition in ConversationShuo Xu, Yuxiang Jia, Changyong Niu, Hongying Zan. 6802-6807 [doi]

Automatic Gloss-level Data Augmentation for Sign Language TranslationJin Yea Jang, Han-Mu Park, Saim Shin, Suna Shin, Byungcheon Yoon, Gahgene Gweon. 6808-6813 [doi]

Image Description Dataset for Language LearnersKento Tanaka, Taichi Nishimura, Hiroaki Nanjo, Keisuke Shirai, Hirotaka Kameko, Masatake Dantsuji. 6814-6821 [doi]

The Multimodal Annotation Software Tool (MAST)Bruno Cardoso, Neil Cohn. 6822-6828 [doi]

A Multimodal German Dataset for Automatic Lip Reading Systems and Transfer LearningGerald Schwiebert, Cornelius Weber, Leyuan Qu, Henrique Siqueira, Stefan Wermter. 6829-6836 [doi]

Multimodality for NLP-Centered Applications: Resources, Advances and FrontiersMuskan Garg, Seema Wazarkar, Muskaan Singh, Ondrej Bojar. 6837-6847 [doi]

Cross-lingual and Multilingual CLIPFredrik Carlsson, Philipp Eisen, Faton Rekathati, Magnus Sahlgren. 6848-6854 [doi]

BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions DatasetMohammad Faiyaz Khan, S. M. Sadiq-Ur-Rahman Shifath, Md Saiful Islam. 6855-6865 [doi]

SSR7000: A Synchronized Corpus of Ultrasound Tongue Imaging for End-to-End Silent Speech RecognitionNaoki Kimura, Zixiong Su, Takaaki Saeki, Jun Rekimoto. 6866-6873 [doi]

A Simple Yet Effective Corpus Construction Method for Chinese Sentence CompressionYang Zhao, Hiroshi Kanayama, Issei Yoshida, Masayasu Muraoka, Akiko Aizawa. 6874-6883 [doi]

JADE: Corpus for Japanese Definition ModellingHan Huang, Tomoyuki Kajiwara, Yuki Arase. 6884-6888 [doi]

Unraveling the Mystery of Artifacts in Machine Generated TextJiashu Pu, Ziyi Huang, Yadong Xi, Guandan Chen, Weijie Chen, Rongsheng Zhang. 6889-6898 [doi]

Logic-Guided Message Generation from Raw Real-Time Sensor DataErnie Chang, Alisa Kovtunova, Stefan Borgwardt, Vera Demberg, Kathryn Chapman, Hui-Syuan Yeh. 6899-6908 [doi]

The Bull and the Bear: Summarizing Stock Market DiscussionsAyush Kumar, Dhyey Jani, Jay Shah, Devanshu Thakar, Varun Jain, Mayank Singh 0001. 6909-6913 [doi]

Combination of Contextualized and Non-Contextualized Layers for Lexical Substitution in FrenchKévin Espasa, Emmanuel Morin, Olivier Hamon. 6914-6921 [doi]

SuMe: A Dataset Towards Summarizing Biomedical MechanismsMohaddeseh Bastan, Nishant Shankar, Mihai Surdeanu, Niranjan Balasubramanian. 6922-6931 [doi]

CATAMARAN: A Cross-lingual Long Text Abstractive Summarization DatasetZheng Chen, Hongyu Lin. 6932-6937 [doi]

Emotion analysis and detection during COVID-19Tiberiu Sosea, Chau Pham, Alexander Tekle, Cornelia Caragea, Junyi Jessy Li. 6938-6947 [doi]

Cross-lingual Emotion DetectionSabit Hassan, Shaden Shaar, Kareem Darwish. 6948-6958 [doi]

DirectQuote: A Dataset for Direct Quotation Extraction and Attribution in News ArticlesYuanchi Zhang, Yang Liu. 6959-6966 [doi]

VaccineLies: A Natural Language Resource for Learning to Recognize Misinformation about the COVID-19 and HPV VaccinesMaxwell A. Weinzierl, Sanda M. Harabagiu. 6967-6975 [doi]

Tackling Irony Detection using Ensemble ClassifiersChristoph Turban, Udo Kruschwitz. 6976-6984 [doi]

Automatic Construction of an Annotated Corpus with Implicit AspectsAye Aye Mar, Kiyoaki Shirai. 6985-6991 [doi]

A Multimodal Corpus for Emotion Recognition in SarcasmAnupama Ray, Shubham Mishra, Apoorva Nunna, Pushpak Bhattacharyya. 6992-7003 [doi]

Annotation of Valence Unfolding in Spoken Personal NarrativesAniruddha Tammewar, Franziska Braun, Gabriel Roccabruna, Sebastian P. Bayerl, Korbinian Riedhammer, Giuseppe Riccardi. 7004-7013 [doi]

A Large-Scale Japanese Dataset for Aspect-based Sentiment AnalysisYuki Nakayama, Koji Murakami, Gautam Kumar, Sudha Bhingardive, Ikuko Hardaway. 7014-7021 [doi]

A Japanese Dataset for Subjective and Objective Sentiment Polarity Classification in Micro Blog DomainHaruya Suzuki, Yuto Miyauchi, Kazuki Akiyama, Tomoyuki Kajiwara, Takashi Ninomiya, Noriko Takemura, Yuta Nakashima, Hajime Nagahara. 7022-7028 [doi]

Complementary Learning of Aspect Terms for Aspect-based Sentiment AnalysisHan Qin, Yuanhe Tian, Fei Xia, Yan Song 0003. 7029-7039 [doi]

Deep One-Class Hate Speech Detection ModelSaugata Bose, Guoxin Su. 7040-7048 [doi]

Opinions in Interactions : New Annotations of the SEMAINE DatabaseValentin Barrière, Slim Essid, Chloé Clavel. 7049-7055 [doi]

Pars-ABSA: a Manually Annotated Aspect-based Sentiment Analysis Benchmark on Farsi Product ReviewsTaha Shangipour Ataei, Kamyar Darvishi, Soroush Javdan, Behrouz Minaei-Bidgoli, Sauleh Eetemadi. 7056-7060 [doi]

HindiMD: A Multi-domain Corpora for Low-resource Sentiment AnalysisMamta, Asif Ekbal, Pushpak Bhattacharyya, Tista Saha, Alka Kumar, Shikha Srivastava. 7061-7070 [doi]

Sentiment Analysis of Homeric Text: The 1st Book of IliadJohn Pavlopoulos, Alexandros Xenos, Davide Picca. 7071-7077 [doi]

The Persian Dependency Treebank Made UniversalPegah Safari, Mohammad Sadegh Rasooli, Amirsaeid Moloodi, Alireza Nourian. 7078-7087 [doi]

GujMORPH - A Dataset for Creating Gujarati Morphological AnalyzerJatayu Baxi, Brijesh Bhatt. 7088-7095 [doi]

Informal Persian Universal Dependency TreebankRoya Kabiri, Simin Karimi, Mihai Surdeanu. 7096-7105 [doi]

Automatic Correction of Syntactic Dependency Annotation DifferencesAndrew Zupon, Andrew Carnie, Michael Hammond, Mihai Surdeanu. 7106-7112 [doi]

Building Large-Scale Japanese Pronunciation-Annotated Corpora for Reading Heteronymous LogogramsFumikazu Sato, Naoki Yoshinaga 0001, Masaru Kitsuregawa. 7113-7121 [doi]

StyleKQC: A Style-Variant Paraphrase Corpus for Korean Questions and CommandsWon-Ik Cho, Sangwhan Moon, Jong-In Kim, Seok Min Kim, Nam Soo Kim. 7122-7128 [doi]

Syntax-driven Approach for Semantic Role LabelingYuanhe Tian, Han Qin, Fei Xia, Yan Song 0003. 7129-7139 [doi]

HerBERT Based Language Model Detects Quantifiers and Their Semantic Properties in PolishMarcin Wolinski, Bartlomiej Niton, Witold Kieras, Jakub Szymanik. 7140-7146 [doi]

Lexical Resource Mapping via TranslationsHongchang Bao, Bradley Hauer, Grzegorz Kondrak. 7147-7154 [doi]

Unsupervised Attention-based Sentence-Level Meta-Embeddings from Contextualised Language ModelsKeigo Takahashi, Danushka Bollegala. 7155-7163 [doi]

Identification of Fine-Grained Location Mentions in Crisis TweetsSarthak Khanal, Maria Traskowsky, Doina Caragea. 7164-7173 [doi]

HateBR: A Large Expert Annotated Corpus of Brazilian Instagram Comments for Offensive Language and Hate Speech DetectionFrancielle Alves Vargas, Isabelle Carvalho, Fabiana Rodrigues de Góes, Thiago A. S. Pardo, Fabrício Benevenuto. 7174-7183 [doi]

MentalBERT: Publicly Available Pretrained Language Models for Mental HealthcareShaoxiong Ji, Tianlin Zhang, Luna Ansari, Jie Fu, Prayag Tiwari, Erik Cambria. 7184-7190 [doi]

Leveraging Hashtag Networks for Multimodal Popularity Prediction of Instagram PostsYu Yun Liao. 7191-7198 [doi]

Annotating the Tweebank Corpus on Named Entity Recognition and Building NLP Models for Social Media AnalysisHang Jiang, Yining Hua, Doug Beeferman, Deb Roy. 7199-7208 [doi]

Did that happen? Predicting Social Media Posts that are Indicative of what happened in a scene: A case study of a TV showAnietie Andy, Reno Kriz, Sharath Chandra Guntuku, Derry Tanti Wijaya, Chris Callison-Burch. 7209-7214 [doi]

HashSet - A Dataset For Hashtag SegmentationPrashant Kodali, Akshala Bhatnagar, Naman Ahuja, Manish Shrivastava 0001, Ponnurangam Kumaraguru. 7215-7219 [doi]

Using Convolution Neural Network with BERT for Stance Detection in VietnameseOanh Thi Tran, Anh Cong Phung, Ngo Xuan Bach. 7220-7225 [doi]

Annotation-Scheme Reconstruction for "Fake News" and Japanese Fake News DatasetTaichi Murayama, Shohei Hisada, Makoto Uehara, Shoko Wakamiya, Eiji Aramaki. 7226-7234 [doi]

RoBERTuito: a pre-trained language model for social media text in SpanishJuan Manuel Pérez, Damián Ariel Furman, Laura Alonso Alemany, Franco M. Luque. 7235-7243 [doi]

Construction of Responsive Utterance Corpus for Attentive Listening Response ProductionKoichiro Ito, Masaki Murata, Tomohiro Ohno, Shigeki Matsubara. 7244-7252 [doi]

Speak: A Toolkit Using Amazon Mechanical Turk to Collect and Validate Speech Audio RecordingsChristopher Song, David Harwath, Tuka Alhanai, James R. Glass. 7253-7258 [doi]

ASCEND: A Spontaneous Chinese-English Dataset for Code-switching in Multi-turn ConversationHoly Lovenia, Samuel Cahyawijaya, Genta Indra Winata, Peng Xu 0008, Yan Xu 0012, Zihan Liu, Rita Frieske, Tiezheng Yu, Wenliang Dai, Elham J. Barezi, Qifeng Chen, Xiaojuan Ma, Bertram E. Shi, Pascale Fung. 7259-7268 [doi]

A Romanization System and WebMAUS Aligner for Arabic VarietiesJalal Al-Tamimi, Florian Schiel, Ghada Khattab, Navdeep Sokhey, Djegdjiga Amazouz, Abdulrahman Dallak, Hajar Moussa. 7269-7276 [doi]

BembaSpeech: A Speech Recognition Corpus for the Bemba LanguageClaytone Sikasote, Antonios Anastasopoulos. 7277-7283 [doi]

BehanceCC: A ChitChat Detection Dataset For Livestreaming Video TranscriptsViet Dac Lai, Amir Pouran Ben Veyseh, Franck Dernoncourt, Thien Huu Nguyen. 7284-7290 [doi]

Adversarial Speech Generation and Natural Speech Recovery for Speech Content ProtectionSheng Li 0010, Jiyi Li, Qianying Liu, Zhuo Gong. 7291-7297 [doi]

A new European Portuguese corpus for the study of Psychosis through speech analysisMaria Forjó, Daniel Neto, Alberto Abad, HSofia Pinto, Joaquim Gago. 7298-7304 [doi]

Investigating Inter- and Intra-speaker Voice Conversion using AudiobooksAghilas Sini, Damien Lolive, Nelly Barbot, Pierre Alain. 7305-7313 [doi]

Multilingual Transfer Learning for Children Automatic Speech RecognitionThomas Rolland, Alberto Abad, Catia Cucchiarini, Helmer Strik. 7314-7320 [doi]

BehanceQA: A New Dataset for Identifying Question-Answer Pairs in Video TranscriptsAmir Pouran Ben Veyseh, Viet Dac Lai, Franck Dernoncourt, Thien Huu Nguyen. 7321-7327 [doi]

Bidirectional Skeleton-Based Isolated Sign Recognition using Graph Convolutional NetworksKonstantinos M. Dafnis, Evgenia Chroni, Carol Neidle, Dimitri N. Metaxas. 7328-7338 [doi]

Deep learning-based end-to-end spoken language identification system for domain-mismatched scenarioWoo Hyun Kang, Md. Jahangir Alam, Abderrahim Fathan. 7339-7343 [doi]

Handwritten Character Generation using Y-Autoencoder for Character Recognition Model TrainingTomoki Kitagawa, Chee Siang Leow, Hiromitsu Nishizaki. 7344-7351 [doi]

Attention-Focused Adversarial Training for Robust Temporal ReasoningLis Kanashiro Pereira. 7352-7359 [doi]

PoliBERTweet: A Pre-trained Language Model for Analyzing Political Content on TwitterKornraphop Kawintiranon, Lisa Singh. 7360-7367 [doi]

Modeling the Impact of Syntactic Distance and Surprisal on Cross-Slavic Text ComprehensionIrina Stenger, Philip Georgis, Tania Avgustinova, Bernd Möbius, Dietrich Klakow. 7368-7376 [doi]

BERTifying Sinhala - A Comprehensive Analysis of Pre-trained Language Models for Sinhala Text ClassificationVinura Dhananjaya, Piyumal Demotte, Surangika Ranathunga, Sanath Jayasena. 7377-7385 [doi]

Pre-training and Evaluating Transformer-based Language Models for IcelandicJón Guðhnason, Hrafn Loftsson. 7386-7391 [doi]

External Links

Cite Key

Statistics

PDF

Researchr

Proceedings of the Thirteenth Language Resources and Evaluation Conference, LREC 2022, Marseille, France, 20-25 June 2022

Abstract

Table of Contents