Proceedings of the Eleventh International Conference on Language Resources and Evaluation, LREC 2018, Miyazaki, Japan, May 7-12, 2018

researchr

You are not signed in
Sign in
Sign up

Nicoletta Calzolari, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Kôiti Hasida, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Hélène Mazo, Asunción Moreno, Jan Odijk, Stelios Piperidis, Takenobu Tokunaga, editors, Proceedings of the Eleventh International Conference on Language Resources and Evaluation, LREC 2018, Miyazaki, Japan, May 7-12, 2018. European Language Resources Association (ELRA), 2018. [doi]

Conference: lrec2018

Abstract is missing.

ESCAPE: a Large-scale Synthetic Corpus for Automatic Post-EditingMatteo Negri, Marco Turchi, Rajen Chatterjee, Nicola Bertoldi.

MADARi: A Web Interface for Joint Arabic Morphological Annotation and Spelling CorrectionOssama Obeid, Salam Khalifa, Nizar Habash, Houda Bouamor, Wajdi Zaghouani, Kemal Oflazer.

A Very Low Resource Language Speech Corpus for Computational Language Documentation ExperimentsPierre Godard, Gilles Adda, Martine Adda-Decker, Juan Benjumea, Laurent Besacier, Jamison Cooper-Leavitt, Guy-Noël Kouarata, Lori Lamel, Hélène Maynard, Markus Müller 0001, Annie Rialland, Sebastian Stüker, François Yvon, Marcely Zanon Boito.

A Japanese Corpus for Analyzing Customer Loyalty InformationYiou Wang, Takuji Tahara.

Sentence Level Temporality Detection using an Implicit Time-sensed ResourceSabyasachi Kamila, Asif Ekbal, Pushpak Bhattacharyya.

An Attribution Relations Corpus for Political NewsEdward Newell, Drew Margolin, Derek Ruths.

ZAP: An Open-Source Multilingual Annotation Projection FrameworkAlan Akbik, Roland Vollgraf.

The LREC Workshops MapRoberto Bartolini, Sara Goggi, Monica Monachini, Gabriella Pardelli.

TriMED: A Multilingual Terminological DatabaseFederica Vezzani, Giorgio Maria Di Nunzio, Geneviève Henrot.

Collecting Code-Switched Data from Social MediaGideon Mendels, Victor Soto, Aaron Jaech, Julia Hirschberg.

Extended HowNet 2.0 - An Entity-Relation Common-Sense Representation ModelWei-Yun Ma, Yueh-Yin Shih.

Improving homograph disambiguation with supervised machine learningKyle Gorman, Gleb Mazovetskiy, Vitaly Nikolaev.

SLIDE - a Sentiment Lexicon of Common IdiomsCharles Jochim, Francesca Bonin, Roy Bar-Haim, Noam Slonim.

Towards an ISO Standard for the Annotation of QuantificationHarry Bunt, James Pustejovsky, Kiyong Lee.

Machine Translation of Low-Resource Spoken Dialects: Strategies for Normalizing Swiss GermanPierre-Edouard Honnet, Andrei Popescu-Belis, Claudiu Musat, Michael Baeriswyl.

A Repository of Corpora for SummarizationFranck Dernoncourt, Mohammad Ghassemi, Walter Chang.

Up-cycling Data for Natural Language GenerationAmy Isard, Jon Oberlander, Claire Grover.

Multimodal Lexical TranslationChiraag Lala, Lucia Specia.

From analysis to modeling of engagement as sequences of multimodal behaviorsSoumia Dermouche, Catherine Pelachaud.

Exploring Conversational Language Generation for Rich Content about HotelsMarilyn A. Walker, Albry Smither, Shereen Oraby, Vrindavan Harrison, Hadar Shemtov.

Complex and Precise Movie and Book Annotations in French Language for Aspect Based Sentiment AnalysisStefania Pecore, Jeanne Villaneau.

GeCoTagger: Annotation of German Verb Complements with Conditional Random FieldsRoman Schneider, Monica Fürbacher.

Annotating Chinese Light Verb Constructions according to PARSEME guidelinesMenghan Jiang, Natalia Klyueva, Hongzhi Xu, Chu-Ren Huang.

Building an Ellipsis-aware Chinese Dependency Treebank for Web TextXuancheng Ren, Xu Sun, Ji Wen, Bingzhen Wei, Weidong Zhan, Zhiyuan Zhang.

JAIST Annotated Corpus of Free ConversationKiyoaki Shirai, Tomotaka Fukuoka.

Japanese Dialogue Corpus of Information Navigation and Attentive Listening Annotated with Extended ISO-24617-2 Dialogue Act TagsKoichiro Yoshino, Hiroki Tanaka, Kyoshiro Sugiyama, Makoto Kondo, Satoshi Nakamura 0001.

Web-based Annotation Tool for Inflectional Language ResourcesAbdulrahman Alosaimy, Eric Atwell.

Application and Analysis of a Multi-layered Scheme for Irony on the Italian Twitter Corpus TWITTIRÒAlessandra Teresa Cignarella, Cristina Bosco, Viviana Patti, Mirko Lai.

Corpora of Typical SentencesLydia Müller, Uwe Quasthoff, Maciej Sumalvico.

Multi-layer Annotation of the RigvedaOliver Hellwig, Heinrich Hettrich, Ashutosh Modi, Manfred Pinkal.

Building a Web-Scale Dependency-Parsed Corpus from CommonCrawlAlexander Panchenko, Eugen Ruppert, Stefano Faralli, Simone Paolo Ponzetto, Chris Biemann.

AET: Web-based Adjective Exploration Tool for GermanTatiana Bladier, Esther Seyffarth, Oliver Hellwig, Wiebke Petersen.

Retrofitting Word Representations for Unsupervised Sense Aware Word SimilaritiesSteffen Remus, Chris Biemann.

On the Vector Representation of Utterances in Dialogue ContextLouisa Pragst, Niklas Rach, Wolfgang Minker, Stefan Ultes.

Compilation of Corpora for the Study of the Information Structure-Prosody InterfaceAlicia Burga, Mónica Domínguez, Mireia Farrús, Leo Wanner.

The Linguistic Category Model in Polish (LCM-PL)Aleksander Wawer, Justyna Sarzynska.

Indian Language Wordnets and their Linkages with Princeton WordNetDiptesh Kanojia, Kevin Patel, Pushpak Bhattacharyya.

A Taxonomy for In-depth Evaluation of Normalization for User Generated ContentRob van der Goot, Rik van Noord, Gertjan van Noord.

A First South African Corpus of Multilingual Code-switched Soap Opera SpeechEwald van der Westhuizen, Thomas Niesler.

Multilingual Dependency Parsing for Low-Resource Languages: Case Studies on North Saami and Komi-ZyrianKyungtae Lim, Niko Partanen, Thierry Poibeau.

Fine-grained Semantic Textual Similarity for SerbianVuk Batanovic, Milos Cvetanovic, Bosko Nikolic.

Modeling Northern Haida Verb MorphologyJordan Lachler, Lene Antonsen, Trond Trosterud, Sjur N. Moshagen, Antti Arppe.

Literality and cognitive effort: Japanese and SpanishIsabel Lacruz, Michael Carl, Masaru Yamada.

Text Mining for History: first steps on building a large datasetSuemi Higuchi, Cláudia Freitas, Bruno Cuconato, Alexandre Rademaker.

Multi-lingual Argumentative Corpora in English, Turkish, Greek, Albanian, Croatian, Serbian, Macedonian, Bulgarian, Romanian and ArabicAlfred Sliwa, Yuan Man, Ruishen Liu, Niravkumar Borad, Seyedeh Ziyaei, Mina Ghobadi, Firas Sabbah, Ahmet Aker.

A Computational Architecture for the Morphology of Upper TananaOlga Lovick, Christopher Cox, Miikka Silfverberg, Antti Arppe, Mans Hulden.

Contextualized Usage-Based Material SelectionDirk De Hertog, Piet Desmet.

Translating Web Search Queries into Natural Language QuestionsAdarsh Kumar, Sandipan Dandapat, Sushil Chordia.

VAST: A Corpus of Video Annotation for Speech TechnologiesJennifer Tracey, Stephanie M. Strassel.

Resource Interoperability for Sustainable Benchmarking: The Case of EventsChantal van Son, Oana Inel, Roser Morante, Lora Aroyo, Piek Vossen.

Annotating Opinions and Opinion Targets in Student Course FeedbackJanaka Chathuranga, Shanika Ediriweera, Ravindu Hasantha, Pranidhith Munasinghe, Surangika Ranathunga.

Introducing a Lexicon of Verbal Polarity Shifters for EnglishMarc Schulder, Michael Wiegand, Josef Ruppenhofer, Stephanie Köser.

Disambiguation of Verbal ShiftersMichael Wiegand, Sylvette Loda, Josef Ruppenhofer.

A Parser for LTAG and Frame SemanticsDavid Arps, Simon Petitjean.

Building a TOCFL Learner Corpus for Chinese Grammatical Error DiagnosisLung-Hao Lee, Yuen-Hsien Tseng, Li-Ping Chang.

Classifying Sluice Occurrences in DialogueAustin Baird, Anissa Hamza, Daniel Hardt.

Building Literary Corpora for Computational Literary Analysis - A Prototype to Bridge the Gap between CL and DHAndrew Frank, Christine Ivanovic.

Examining the Tip of the Iceberg: A Data Set for Idiom TranslationMarzieh Fadaee, Arianna Bisazza, Christof Monz.

NL2Bash: A Corpus and Semantic Parser for Natural Language Interface to the Linux Operating SystemXi Victoria Lin, Chenglong Wang, Luke Zettlemoyer, Michael D. Ernst.

Face2Text: Collecting an Annotated Image Description Corpus for the Generation of Rich Face DescriptionsAlbert Gatt, Marc Tanti, Adrian Muscat, Patrizia Paggio, Reuben A. Farrugia, Claudia Borg, Kenneth P. Camilleri, Mike Rosner, Lonneke van der Plas.

Classifier-based Polarity Propagation in a WordNetJan Kocon, Arkadiusz Janz, Maciej Piasecki.

MirasText: An Automatically Generated Text Corpus for PersianBehnam Sabeti, Hossein Abedi Firouzjaee, Ali Janalizadeh Choobbasti, S. H. E. Mortazavi Najafabadi, Amir Vaheb.

Building a Word Segmenter for Sanskrit OvernightVikas Reddy, Amrith Krishna, Vishnu Dutt Sharma, Prateek Gupta, Vineeth M. R, Pawan Goyal.

Medical Sentiment Analysis using Social Media: Towards building a Patient Assisted SystemShweta Yadav, Asif Ekbal, Sriparna Saha 0001, Pushpak Bhattacharyya.

Infant Word Comprehension-to-Production Index Applied to Investigation of Noun Learning Predominance Using Cross-lingual CDI databaseYasuhiro Minami, Tessei Kobayashi, Yuko Okumura.

The SSIX Corpora: Three Gold Standard Corpora for Sentiment Analysis in English, Spanish and German Financial MicroblogsThomas Gaillat, Manel Zarrouk, André Freitas, Brian Davis.

Automated Evaluation of Out-of-Context ErrorsPatrick Huber, Jan Niehues, Alex Waibel.

Is it worth it? Budget-related evaluation metrics for model selectionFilip Klubicka, Giancarlo Salton, John D. Kelleher.

Using English Baits to Catch Serbian Multi-Word TerminologyCvetana Krstev, Branislava Sandrih, Ranka Stankovic, Miljana Mladenovic.

ParCorFull: a Parallel Corpus Annotated with Full CoreferenceEkaterina Lapshinova-Koltunski, Christian Hardmeier, Pauline Krielke.

Evaluating Domain Adaptation for Machine Translation Across ScenariosThierry Etchegoyhen, Anna Fernández Torné, Andoni Azpeitia, Eva Martínez Garcia, Anna Matamala.

A Lexical Tool for Academic Writing in Spanish based on Expert and Novice CorporaMarcos García-Salido, Marcos Garcia, Milka Villayandre-Llamazares, Margarita Alonso Ramos.

Transfer of Frames from English FrameNet to Construct Chinese FrameNet: A Bilingual Corpus-Based ApproachTsung-Han Yang, Hen-Hsen Huang, An-Zi Yen, Hsin-Hsi Chen.

A Large Automatically-Acquired All-Words List of Multiword Expressions Scored for CompositionalityWill Roberts, Markus Egg.

Annotating If the Authors of a Tweet are Located at the Locations They Tweet AboutVivek Reddy Doudagiri, Alakananda Vempala, Eduardo Blanco 0002.

An Automatic Learning of an Algerian Dialect Lexicon by using Multilingual Word EmbeddingsKarima Abidi, Kamel Smaïli.

The Morpho-syntactic Annotation of Animacy for a Dependency ParserMohammed Attia, Vitaly Nikolaev, Ali El-Kahky.

Visualizing the "Dictionary of Regionalisms of France" (DRF)Ada Wan.

Bringing Order to Chaos: A Non-Sequential Approach for Browsing Large Sets of Found Audio DataPer Fallgren, Zofia Malisz, Jens Edlund.

The ACoLi CoNLL Libraries: Beyond Tab-Separated ValuesChristian Chiarcos, Niko Schenk.

Sentence and Clause Level Emotion Annotation, Detection, and Classification in a Multi-Genre CorpusShabnam Tafreshi, Mona Diab.

Unified Guidelines and Resources for Arabic Dialect OrthographyNizar Habash, Fadhl Eryani, Salam Khalifa, Owen Rambow, Dana Abdulrahim, Alexander Erdmann, Reem Faraj, Wajdi Zaghouani, Houda Bouamor, Nasser Zalmout, Sara Hassan, Faisal Al-Shargi, Sakhar B. Alkhereyfy, Basma Abdulkareem, Ramy Eskander, Mohammad Salameh, Hind Saddiki.

A New Corpus to Support Text Mining for the Curation of Metabolites in the ChEBI DatabaseMatthew Shardlow, Nhung T. H. Nguyen, Gareth Owen, Claire O'Donovan, Andrew Leach, John McNaught, Steve Turner, Sophia Ananiadou.

A UIMA Database Interface for Managing NLP-related Text AnnotationsGiuseppe Abrami, Alexander Mehler.

ESCRITO - An NLP-Enhanced Educational Scoring ToolkitTorsten Zesch, Andrea Horbach.

CoLoSS: Cognitive Load Corpus with Speech and Performance Data from a Symbol-Digit Dual-TaskRobert Herms, Maria Wirzberger, Maximilian Eibl, Günter Daniel Rey.

PhotoshopQuiA: A Corpus of Non-Factoid Questions and Answers for Why-Question AnsweringAndrei Dulceanu, Thang Le Dinh, Walter Chang, Trung Bui, Doo Soon Kim, Manh Chien Vu, Seokhwan Kim.

GenDR: A Generic Deep Realizer with Complex LexicalizationFrançois Lareau, Florie Lambrey, Ieva Dubinskaite, Daniel Galarreta-Piquette, Maryam Nejat.

RDF2PT: Generating Brazilian Portuguese Texts from RDF DataDiego Moussallem, Thiago Castro Ferreira, Marcos Zampieri, Maria Cláudia Cavalcanti, Geraldo Xexéo, Mariana L. Neves, Axel-Cyrille Ngonga Ngomo.

A Diachronic Corpus for Literary Style AnalysisCarmen Klaussner, Carl Vogel.

A Fast and Accurate Vietnamese Word SegmenterDat Quoc Nguyen, Dai Quoc Nguyen, Thanh Vu, Mark Dras, Mark Johnson.

Development of a Mobile Observation Support System for Students: FishWatchr MiniMasaya Yamaguchi, Masanori Kitamura, Naomi Yanagida.

Modeling French Sign Language: a proposal for a semantically compositional systemMohamed N. Hadjadj, Michael Filhol, Annelies Braffort.

Grapheme-level Awareness in Word Embeddings for Morphologically Rich LanguagesSuzi Park, Hyopil Shin.

Measuring Innovation in Speech and Language Processing PublicationsJoseph Mariani, Gil Francopoulo, Patrick Paroubek.

A Real-life, French-accented Corpus of Air Traffic Control CommunicationsEstelle Delpech, Marion Laignelet, Christophe Pimm, Céline Raynal, Michal Trzos, Alexandre Arnold, Dominique Pronto.

Speech Rate Calculations with Short Utterances: A Study from a Speech-to-Speech, Machine Translation Mediated Map TaskHayakawa Akira, Carl Vogel, Saturnino Luz, Nick Campbell 0001.

Statistical Analysis of Missing Translation in Simultaneous Interpretation Using A Large-scale Bilingual Speech CorpusZhongxi Cai, Koichiro Ryu, Shigeki Matsubara.

Building Open Javanese and Sundanese Corpora for Multilingual Text-to-SpeechJaka Aris Eko Wibawa, Supheakmungkol Sarin, Chenfang Li, Knot Pipatsrisawat, Keshan Sodimana, Oddur Kjartansson, Alexander Gutkin, Martin Jansche, Linne Ha.

Two Multilingual Corpora Extracted from the Tenders Electronic Daily for Machine Learning and Machine Translation ApplicationsOussama Ahmia, Nicolas Béchet, Pierre-François Marteau.

Shami: A Corpus of Levantine Arabic DialectsChatrine Qwaider, Motaz Saad, Stergios Chatzikyriakidis, Simon Dobnik.

Semantic Equivalence Detection: Are Interrogatives Harder than Declaratives?João Rodrigues 0001, Chakaveh Saedi, António Branco, João Silva 0004.

MultiBooked: A Corpus of Basque and Catalan Hotel Reviews Annotated for Aspect-level Sentiment ClassificationJeremy Barnes, Toni Badia, Patrik Lambert.

A Bird's-eye View of Language Processing Projects at the Romanian AcademyDan Tufis, Dan Cristea.

Semi-Supervised Clustering for Short Answer ScoringAndrea Horbach, Manfred Pinkal.

The Effects of Unimodal Representation Choices on Multimodal LearningFernando T. Ito, Helena de Medeiros Caseli, Jander Moreira.

UniMorph 2.0: Universal MorphologyChristo Kirov, Ryan Cotterell, John Sylak-Glassman, Géraldine Walther, Ekaterina Vylomova, Patrick Xia, Manaal Faruqui, Sebastian J. Mielke, Arya McCarthy, Sandra Kübler, David Yarowsky, Jason Eisner, Mans Hulden.

Deep Neural Networks for Coreference Resolution for PolishBartlomiej Niton, Pawel Morawiecki, Maciej Ogrodniczuk.

A Multi- versus a Single-classifier Approach for the Identification of Modality in the Portuguese LanguageJoão Sequeira, Teresa Gonçalves, Paulo Quaresma, Amália Mendes, Iris Hendrickx.

Biomedical term normalization of EHRs with UMLSNaiara Perez, Montse Cuadros, German Rigau.

Data Management Plan (DMP) for Language Data under the New General Da-ta Protection Regulation (GDPR)Pawel Kamocki, Valérie Mapelli, Khalid Choukri.

MYCanCor: A Video Corpus of spoken Malaysian CantoneseAndreas Liesenfeld.

Parsivar: A Language Processing Toolkit for PersianSalar Mohtaj, Behnam Roshanfekr, Atefeh Zafarian, Habibollah Asghari.

The LODeXporter: Flexible Generation of Linked Open Data Triples from NLP Frameworks for Automatic Knowledge Base ConstructionRené Witte, Bahar Sateli.

Can Domain Adaptation be Handled as Analogies?Núria Bel, Joel Pocostales.

Browsing the Terminological Structure of a Specialized Domain: A Method Based on Lexical Functions and their ClassificationMarie-Claude L'Homme, Benoît Robichaud, Nathalie Prévil.

A Corpus of eRulemaking User Comments for Measuring Evaluability of ArgumentsJoonsuk Park, Claire Cardie.

SlugNERDS: A Named Entity Recognition Tool for Open Domain Dialogue SystemsKevin Bowden, JiaQi Wu, Shereen Oraby, Amita Misra, Marilyn A. Walker.

'Aye' or 'No'? Speech-level Sentiment Analysis of Hansard UK Parliamentary Debate TranscriptsGavin Abercrombie, Riza Batista-Navarro.

Linguistically-driven Framework for Computationally Efficient and Scalable Sign RecognitionDimitris N. Metaxas, Mark Dilsizian, Carol Neidle.

What's Wrong, Python? - A Visual Differ and Graph Library for NLP in PythonBalázs Indig, András Simonyi, Noémi Ligeti-Nagy.

An Initial Test Collection for Ranked Retrieval of SMS ConversationsRashmi Sankepally, Douglas W. Oard.

Creating New Language and Voice Components for the Updated MaryTTS Text-to-Speech Synthesis PlatformIngmar Steiner, Sébastien Le Maguer.

Incorporating Contextual Information for Language-Independent, Dynamic Disambiguation TasksTobias Staron, Özge Alaçam, Wolfgang Menzel.

A database of German definitory contexts from selected web sourcesAdrien Barbaresi, Lothar Lemnitzer, Alexander Geyken.

CLARIN: Towards FAIR and Responsible Data Science Using Language ResourcesFranciska de Jong, Bente Maegaard, Koenraad De Smedt, Darja Fiser, Dieter Van Uytvanck.

DART: A Large Dataset of Dialectal Arabic TweetsIsraa Alsarsour, Esraa Mohamed, Reem Suwaileh, Tamer Elsayed.

PDFAnno: a Web-based Linguistic Annotation Tool for PDF DocumentsHiroyuki Shindo, Yohei Munesada, Yuji Matsumoto 0001.

Academic-Industrial Perspective on the Development and Deployment of a Moderation System for a Newspaper WebsiteDietmar Schabus, Marcin Skowron.

Medical Entity Corpus with PICO elements and Sentiment AnalysisMarkus Zlabinger, Linda Andersson, Allan Hanbury, Michael Andersson, Vanessa Quasnik, Jon Brassey.

A Comparison Of Emotion Annotation Schemes And A New Annotated Data SetIan Wood, John Philip McCrae, Vladimir Andryushechkin, Paul Buitelaar.

Parse Me if You Can: Artificial Treebanks for Parsing Experiments on Elliptical ConstructionsKira Droganova, Daniel Zeman, Jenna Kanerva, Filip Ginter.

Automatic Identification of Maghreb Dialects Using a Dictionary-Based ApproachHouda Saadane, Hosni Seffih, Christian Fluhr, Khalid Choukri, Nasredine Semmar.

L1-L2 Parallel Treebank of Learner Chinese: Overused and Underused Syntactic StructuresKeying Li, John Lee.

German Radio Interviews: The GRAIN Release of the SFB732 Silver Standard CollectionKatrin Schweitzer, Kerstin Eckart, Markus Gärtner, Agnieszka Falenska, Arndt Riester, Ina Rösiger, Antje Schweitzer, Sabrina Stehwien, Jonas Kuhn.

Evaluation of Feature-Space Speaker Adaptation for End-to-End Acoustic ModelsNatalia A. Tomashenko, Yannick Estève.

A Morphologically Annotated Corpus of Emirati ArabicSalam Khalifa, Nizar Habash, Fadhl Eryani, Ossama Obeid, Dana Abdulrahim, Meera Al Kaabi.

Universal Dependencies for AmharicBinyam Ephrem Seyoum, Yusuke Miyao, Baye Yimam Mekonnen.

Risamálheild: A Very Large Icelandic Text CorpusSteinþór Steingrímsson, Sigrún Helgadóttir, Eiríkur Rögnvaldsson, Starkaður Barkarson, Jón Guðnason.

Automatic Enrichment of Terminological Resources: the IATE RDF ExampleMihael Arcan, Elena Montiel-Ponsoda, John Philip McCrae, Paul Buitelaar.

FEIDEGGER: A Multi-modal Corpus of Fashion Images and Descriptions in GermanLeonidas Lefakis, Alan Akbik, Roland Vollgraf.

Augmenting Librispeech with French Translations: A Multimodal Corpus for Direct Speech Translation EvaluationAli Can Kocabiyikoglu, Laurent Besacier, Olivier Kraif.

Overcoming the Long Tail Problem: A Case Study on CO2-Footprint Estimation of Recipes using Information RetrievalMelanie Geiger, Martin Braschler.

Spanish HPSG Treebank based on the AnCora CorpusLuis Chiruzzo, Dina Wonsever.

Evaluation of Domain-specific Word Embeddings using Knowledge ResourcesFarhad Nooralahzadeh, Lilja Øvrelid, Jan Tore Lønning.

Design and Development of Speech Corpora for Air Traffic Control TrainingLubos Smídl, Jan Svec, Daniel Tihelka, Jindrich Matousek, Jan Romportl, Pavel Ircing.

Chats and Chunks: Annotation and Analysis of Multiparty Long Casual ConversationsEmer Gilmartin, Carl Vogel, Nick Campbell 0001.

Studying Muslim Stereotyping through Microportrait ExtractionAntske Fokkens, Nel Ruigrok, Camiel J. Beukeboom, Gagestein Sarah, Wouter Van Attveldt.

Revisiting Distant Supervision for Relation ExtractionTingsong Jiang, Jing Liu, Chin-Yew Lin, Zhifang Sui.

Text Simplification from Professionally Produced CorporaCarolina Scarton, Gustavo Paetzold, Lucia Specia.

Huge Automatically Extracted Training-Sets for Multilingual Word SenseDisambiguationTommaso Pasini, Francesco Elia, Roberto Navigli.

A multilingual collection of CoNLL-U-compatible morphological lexiconsBenoît Sagot.

Framing Named Entity Linking Error TypesAdrian Brasoveanu 0002, Giuseppe Rizzo 0002, Philipp Kuntschick, Albert Weichselbraun, Lyndon J. B. Nixon.

The New Propbank: Aligning Propbank with AMR through POS UnificationTim O'Gorman, Sameer Pradhan, Martha Palmer, Julia Bonn, Kathryn Conger, James Gung.

Modeling Collaborative Multimodal Behavior in Group Dialogues: The MULTISIMO CorpusMaria Koutsombogera, Carl Vogel.

Automatic Identification of Research Fields in Scientific PapersEric Kergosien, Amin Farvardin, Maguelonne Teisseire, Marie-Noëlle Bessagnet, Joachim Schöpfel, Stéphane Chaudiron, Bernard Jacquemin, Annig Lacayrelle, Mathieu Roche, Christian Sallaberry, Jean-Philippe Tonneau.

PoSTWITA-UD: an Italian Twitter Treebank in Universal DependenciesManuela Sanguinetti, Cristina Bosco, Alberto Lavelli, Alessandro Mazzei, Oronzo Antonelli, Fabio Tamburini.

Morphology Injection for English-Malayalam Statistical Machine TranslationSreelekha S, Pushpak Bhattacharyya.

Predicting Nods by using Dialogue Acts in DialogueRyo Ishii, Ryuichiro Higashinaka, Junji Tomita.

HappyDB: A Corpus of 100, 000 Crowdsourced Happy MomentsAkari Asai, Sara Evensen, Behzad Golshan, Alon Y. Halevy, Vivian Li, Andrei Lopatenko, Daniela Stepanov, Yoshihiko Suhara, Wang Chiew Tan, Yinzhan Xu.

A Large Parallel Corpus of Full-Text Scientific ArticlesFelipe Soares, Viviane Pereira Moreira, Karin Becker.

Konbitzul: an MWE-specific database for Spanish-BasqueUxoa Iñurrieta Urmeneta, Itziar Aduriz, Arantza Díaz de Ilarraza, Gorka Labaka, Kepa Sarasola.

Albanian Part-of-Speech Tagging: Gold Standard and EvaluationBesim Kabashi, Thomas Proisl.

ASAP++: Enriching the ASAP Automated Essay Grading Dataset with Essay Attribute ScoresSandeep Mathias, Pushpak Bhattacharyya.

Evaluating EcoLexiCAT: a Terminology-Enhanced CAT ToolPilar León Araúz, Arianne Reimerink.

Analyzing Citation-Distance Networks for Evaluating Publication ImpactDrahomira Herrmannova, Petr Knoth, Robert M. Patton.

SimLex-999 for PolishAgnieszka Mykowiecka, Malgorzata Marciniak, Piotr Rychlik.

MGAD: Multilingual Generation of Analogy DatasetsMostafa Abdou, Artur Kulmizev, Vinit Ravishankar.

Three Dimensions of Reproducibility in Natural Language ProcessingK. Bretonnel Cohen, Jingbo Xia, Pierre Zweigenbaum, Tiffany Callahan, Orin Hargraves, Foster R. Goss, Nancy Ide, Aurélie Névéol, Cyril Grouin, Lawrence E. Hunter.

The Spot the Difference corpus: a multi-modal corpus of spontaneous task oriented spoken interactionsJosé Lopes, Nils Hemmingsson, Oliver Åstrand.

A supervised approach to taxonomy extraction using word embeddingsRajdeep Sarkar, John Philip McCrae, Paul Buitelaar.

Comparison of Pun Detection Methods Using Japanese Pun CorpusMotoki Yatsu, Kenji Araki.

Semantic Frame Parsing for Information Extraction : the CALOR corpusGabriel Marzinotto, Jérémy Auguste, Frédéric Béchet, Géraldine Damnati, Alexis Nasr.

Signbank: Software to Support Web Based Dictionaries of Sign LanguageSteve Cassidy, Onno Crasborn, Henri Nieminen, Wessel Stoop, Micha Hulsbosch, Susan Even, Erwin Komen, Trevor Johnson.

A Corpus Study and Annotation Schema for Named Entity Recognition and Relation Extraction of Business ProductsSaskia Schön, Veselina Mironova, Aleksandra Gabryszak, Leonhard Hennig.

Extending Search System based on Interactive Visualization for Speech CorporaTomoko Ohsuga, Yuichi Ishimoto, Tomoko Kajiyama, Shunsuke Kozawa, Kiyotaka Uchimoto, Shuichi Itahashi.

Building Evaluation Datasets for Cultural Microblog RetrievalLorraine Goeuriot, Josiane Mothe, Philippe Mulhem, Eric SanJuan.

Social Image Tags as a Source of Word Embeddings: A Task-oriented EvaluationMika Hasegawa, Tetsunori Kobayashi, Yoshihiko Hayashi.

Semantic Supersenses for English PossessivesAustin Blodgett, Nathan Schneider.

Crowdsourcing Regional Variation Data and Automatic Geolocalisation of Speakers of European FrenchJean Philippe Goldman, Yves Scherrer, Julie Glikman, Mathieu Avanzi, Christophe Benzitoun, Philippe Boula de Mareüil.

The Abkhaz National CorpusPaul Meurer.

Discourse Coherence Through the Lens of an Annotated Text Corpus: A Case StudyEva Hajicová, Jirí Mírovský.

Increasing Argument Annotation Reproducibility by Using Inter-annotator Agreement to Improve GuidelinesMilagro Teruel, Cristian Cardellino, Fernando Cardellino, Laura Alonso Alemany, Serena Villata.

SACR: A Drag-and-Drop Based Tool for Coreference AnnotationBruno Oberle.

Enriching Frame Representations with Distributionally Induced SensesStefano Faralli, Alexander Panchenko, Chris Biemann, Simone Paolo Ponzetto.

A Corpus of Drug Usage Guidelines Annotated with Type of AdviceSarah Masud Preum, Md. Rizwan Parvez, Kai-Wei Chang, John A. Stankovic.

Annotating Modality Expressions and Event Factuality for a Japanese Chess Commentary CorpusSuguru Matsuyoshi, Hirotaka Kameko, Yugo Murawaki, Shinsuke Mori.

Beyond Generic Summarization: A Multi-faceted Hierarchical Summarization Corpus of Large Heterogeneous DataChristopher Tauchmann, Thomas Arnold, Andreas Hanselowski, Christian M. Meyer, Margot Mieskes.

Word Embedding Evaluation Datasets and Wikipedia Title Embedding for ChineseChi-Yen Chen, Wei-Yun Ma.

Toward An Epic Epigraph GraphFrancis Bond, Graham Matthews.

Arabic Data Science Toolkit: An API for Arabic Language Feature ExtractionPaul Rodrigues, Valerie Novak, C. Anton Rytting, Julie Yelle, Jennifer Boutz.

Pronunciation Dictionaries for the Alsatian Dialects to Analyze Spelling and Phonetic VariationLucie Steiblé, Delphine Bernhard.

Joint Learning of Sense and Word EmbeddingsMohammed Alsuhaibani, Danushka Bollegala.

HiNTS: A Tagset for Middle Low GermanFabian Barteld, Sarah Ihden, Katharina Dreessen, Ingrid Schröder.

Learning to Map Natural Language Statements into Knowledge Base Representations for Knowledge Base ConstructionChinho Lin, Hen-Hsen Huang, Hsin-Hsi Chen.

Urdu Word EmbeddingsSamar Haider.

Building a Corpus for Personality-dependent Natural Language Understanding and GenerationRicelli Ramos, Georges Neto, Barbara Barbosa Claudino Silva, Danielle Sampaio Monteiro, Ivandré Paraboni, Rafael Dias.

Lightweight Grammatical Annotation in the TEI: New PerspectivesPiotr Banski, Susanne Haaf, Martin Mueller.

M-CNER: A Corpus for Chinese Named Entity Recognition in Multi-DomainsQi Lu, YaoSheng Yang, Zhenghua Li, Wenliang Chen, Min Zhang.

Building a Macro Chinese Discourse TreebankXiaomin Chu, Feng Jiang, Sheng Xu, Qiaoming Zhu.

JFCKB: Japanese Feature Change Knowledge BaseTetsuaki Nakamura, Daisuke Kawahara.

Analyzing the Quality of Counseling Conversations: the Tell-Tale Signs of High-quality CounselingVerónica Pérez-Rosas, Xuetong Sun, Christy Li, Yuchen Wang, Kenneth Resnicow, Rada Mihalcea.

QUD-Based Annotation of Discourse Structure and Information Structure: Tool and EvaluationKordula De Kuthy, Nils Reiter, Arndt Riester.

FrNewsLink : a corpus linking TV Broadcast News Segments and Press ArticlesNathalie Camelin, Géraldine Damnati, Abdessalam Bouchekif, Anaïs Landeau, Delphine Charlet, Yannick Estève.

Creating Large-Scale Multilingual Cognate TablesWinston Wu, David Yarowsky.

Crowdsourced Multimodal Corpora Collection ToolPatrik Jonell, Catharine Oertel, Dimosthenis Kontogiorgos, Jonas Beskow, Joakim Gustafson.

What Causes the Differences in Communication Styles? A Multicultural Study on Directness and ElaboratenessJuliana Miehle, Wolfgang Minker, Stefan Ultes.

Scalable Visualisation of Sentiment and StanceJon Chamberlain, Udo Kruschwitz, Orland Hoeber.

The Nautilus Speaker Characterization Corpus: Speech Recordings and Labels of Speaker Characteristics and Voice DescriptionsLaura Fernández Gallardo, Benjamin Weiss 0001.

Reusable workflows for gender predictionMatej Martinc, Senja Pollak.

Quantifying Qualitative Data for Understanding Controversial IssuesMichael Wojatzki, Saif Mohammad, Torsten Zesch, Svetlana Kiritchenko.

Chahta Anumpa: A multimodal corpus of the Choctaw LanguageJacqueline Brixey, Eli Pincus, Ron Artstein.

One Sentence One Model for Neural Machine TranslationXiaoqing Li, Jiajun Zhang, Chengqing Zong.

MIsA: Multilingual "IsA" Extraction from CorporaStefano Faralli, Els Lefever, Simone Paolo Ponzetto.

PDFdigest: an Adaptable Layout-Aware PDF-to-XML Textual Content Extractor for Scientific ArticlesDaniel Ferrés, Horacio Saggion, Francesco Ronzano, Àlex Bravo.

KRAUTS: A German Temporally Annotated News CorpusJannik Strötgen, Anne-Lyse Minard, Lukas Lange, Manuela Speranza, Bernardo Magnini.

Voice Builder: A Tool for Building Text-To-Speech VoicesPasindu De Silva, Theeraphol Wattanavekin, Tang Hao, Knot Pipatsrisawat.

Evaluating the WordsEye Text-to-Scene System: Imaginative and Realistic SentencesMorgan Ulinski, Bob Coyne, Julia Hirschberg.

PronouncUR: An Urdu Pronunciation Lexicon GeneratorHaris Bin Zia, Agha Ali Raza, Awais Athar.

Analyzing Middle High German Syntax with RDF and SPARQLChristian Chiarcos, Benjamin Kosmehl, Christian Fäth, Maria Sukhareva.

Diacritics Restoration Using Neural NetworksJakub Náplava, Milan Straka, Pavel Stranák, Jan Hajic.

Part-of-Speech Tagging for Arabic Gulf Dialect Using Bi-LSTMRandah Alharbi, Walid Magdy, Kareem Darwish, Ahmed Abdelali, Hamdy Mubarak.

WordNet-Shp: Towards the Building of a Lexical Database for a Peruvian Minority LanguageDiego Maguiño Valencia, Arturo Oncevay-Marcos, Marco Antonio Sobrevilla Cabezudo.

Understanding Emotions: A Dataset of Tweets to Study Interactions between Affect CategoriesSaif Mohammad, Svetlana Kiritchenko.

Content-Based Conflict of Interest Detection on WikipediaOrizu Udochukwu, Yulan He.

A Corpus of Natural Multimodal Spatial Scene DescriptionsTing Han, David Schlangen.

WikiArt Emotions: An Annotated Dataset of Emotions Evoked by ArtSaif Mohammad, Svetlana Kiritchenko.

SenSALDO: Creating a Sentiment Lexicon for SwedishJacobo Rouces, Nina Tahmasebi, Lars Borin, Stian Rødven Eide.

Towards Continuous Dialogue Corpus Creation: writing to corpus and generating from itAndrei Malchanau, Volha Petukhova, Harry Bunt.

FARMI: A FrAmework for Recording Multi-Modal InteractionsPatrik Jonell, Mattias Bystedt, Per Fallgren, Dimosthenis Kontogiorgos, José Lopes, Zofia Malisz, Samuel Mascarenhas, Catharine Oertel, Eran Raveh, Todd Shore.

Dialogue Scenario Collection of Persuasive Dialogue with Emotional Expressions via CrowdsourcingKoichiro Yoshino, Yoko Ishikawa, Masahiro Mizukami, Yu Suzuki, Sakriani Sakti, Satoshi Nakamura 0001.

Tools for Building an Interlinked Synonym Lexicon NetworkZdenka Uresová, Eva Fucíková, Eva Hajicová, Jan Hajic.

Automatic Labeling of Problem-Solving Dialogues for Computational Microgenetic Learning AnalyticsYuanliang Meng, Anna Rumshisky, Florence Sullivan.

Universal Dependencies Version 2 for JapaneseMasayuki Asahara, Hiroshi Kanayama, Takaaki Tanaka, Yusuke Miyao, Sumire Uematsu, Shinsuke Mori, Yuji Matsumoto 0001, Mai Omura, Yugo Murawaki.

Translation Crowdsourcing: Creating a Multilingual Corpus of Online Educational ContentVilelmini Sosoni, Katia Lida Kermanidis, Maria Stasimioti, Thanasis Naskos, Eirini Takoulidou, Menno van Zaanen, Sheila Castilho, Panayota Georgakopoulou, Valia Kordoni, Markus Egg.

Improving a Multi-Source Neural Machine Translation Model with Corpus Extension for Low-Resource LanguagesGyu-Hyeon Choi, Jong-Hun Shin, Young Kil Kim.

TSix: A Human-involved-creation Dataset for Tweet SummarizationMinh-Tien Nguyen, Lai Dac Viet, Huy-Tien Nguyen, Minh Le Nguyen.

Action Verb CorpusStephanie Gross, Matthias Hirschmanner, Brigitte Krenn, Friedrich Neubarth, Michael Zillich.

CATS: A Tool for Customized Alignment of Text Simplification CorporaSanja Stajner, Marc Franco-Salvador, Paolo Rosso, Simone Paolo Ponzetto.

Indra: A Word Embedding and Semantic Relatedness ServerJuliano Efson Sales, Leonardo Souza, Siamak Barzegar, Brian Davis, André Freitas, Siegfried Handschuh.

Sign Languages and the Online World Online Dictionaries & LexicostatisticsShi Yu, Carlo Geraci, Natasha Abner.

A Morphological Analyzer for St. Lawrence Island / Central Siberian YupikEmily Chen, Lane Schwartz.

Mapping Texts to Scripts: An Entailment StudySimon Ostermann 0002, Hannah Seitz, Stefan Thater, Manfred Pinkal.

The Reference Corpus of the Contemporary Romanian Language (CoRoLa)Verginica Barbu Mititelu, Dan Tufis, Elena Irimia.

SB-CH: A Swiss German Corpus with Sentiment AnnotationsRalf Grubenmann, Don Tuggener, Pius von Däniken, Jan Deriu, Mark Cieliebak.

TreeAnnotator: Versatile Visual Annotation of Hierarchical Text RelationsPhilipp Helfrich, Elias Rieb, Giuseppe Abrami, Andy Lücking, Alexander Mehler.

SzegedKoref: A Hungarian Coreference CorpusVeronika Vincze, Klára Hegedüs, Alex Sliz-Nagy, Richárd Farkas.

Collecting Language Resources from Public Administrations in the Nordic and Baltic CountriesAndrejs Vasiljevs, Rihards Kalnins, Roberts Rozis, Aivars Berzins.

The WAW Corpus: The First Corpus of Interpreted Speeches and their Translations for English and ArabicAhmed Abdelali, Irina P. Temnikova, Samy Hedaya, Stephan Vogel.

EMTC: Multilabel Corpus in Movie Domain for Emotion Analysis in Conversational TextDuc Anh Phan, Yuji Matsumoto 0001.

A German Corpus for Fine-Grained Named Entity Recognition and Relation Extraction of Traffic and Industry EventsMartin Schiersch, Veselina Mironova, Maximilian Schmitt, Philippe Thomas, Aleksandra Gabryszak, Leonhard Hennig.

Build Fast and Accurate Lemmatization for ArabicHamdy Mubarak.

BioRo: The Biomedical Corpus for the Romanian LanguageMaria Mitrofan, Dan Tufis.

Cross-checking WordNet and SUMO Using MeronymyJavier Álvez, Itziar Gonzalez-Dios, German Rigau.

Humor Detection in English-Hindi Code-Mixed Social Media Content : Corpus and Baseline SystemAnkush Khandelwal, Sahil Swami, Syed Sarfaraz Akhtar, Manish Shrivastava.

Dynamic Oracle for Neural Machine Translation in Decoding PhaseZi-Yi Dou, Hao Zhou, Shujian Huang, Xin-Yu Dai, Jiajun Chen.

The Distribution and Prosodic Realization of Verb Forms in German Infant-Directed SpeechBettina Braun, Katharina Zahner.

Simple Large-scale Relation Extraction from Unstructured TextChristos Christodoulopoulos, Arpit Mittal.

The Natural Stories CorpusRichard Futrell, Edward Gibson, Harry Tily, Idan Blank, Anastasia Vishnevetsky, Steven T. Piantadosi, Evelina Fedorenko.

A Web Service for Pre-segmenting Very Long Transcribed Speech RecordingsNina Pörner, Florian Schiel.

Intertextual Correspondence for Integrating CorporaJacky Visser, Rory Duthie, John Lawrence, Chris Reed.

Portable Spelling Corrector for a Less-Resourced Language: AmharicAndargachew Mekonnen Gezmu, Andreas Nürnberger, Binyam Ephrem Seyoum.

ForFun 1.0: Prague Database of Forms and Functions - An Invaluable Resource for Linguistic ResearchMarie Mikulová, Eduard Bejcek.

QUEST: A Natural Language Interface to Relational DatabasesVadim Sheinin, Elahe Khorasani, Hangu Yeo, Kun Xu, Ngoc Phuoc An Vo, Octavian Popescu.

UFSAC: Unification of Sense Annotated Corpora and ToolsLoïc Vial, Benjamin Lecouteux, Didier Schwab.

Ensemble Romanian Dependency Parsing with Neural NetworksRadu Ion, Elena Irimia, Verginica Barbu Mititelu.

MOCCA: Measure of Confidence for Corpus Analysis - Automatic Reliability Check of Transcript and Automatic SegmentationThomas Kisler, Florian Schiel.

Building a Sentiment Corpus of Tweets in Brazilian PortugueseHenrico Bertini Brum, Maria das Graças Volpe Nunes.

Error annotation in a Learner Corpus of PortugueseIria del Río Gayo, Amália Mendes.

Korean TimeBank Including Relative Temporal InformationChae-Gyun Lim, Young-Seob Jeong, Ho-Jin Choi.

LiDo RDF: From a Relational Database to a Linked Data Graph of Linguistic Terms and Bibliographic DataBettina Klimek, Robert Schädlich, Dustin Kröger, Edwin Knese, Benedikt Elßmann.

Towards an Automatic Assessment of Crowdsourced Data for NLUPatricia Braunger, Wolfgang Maier, Jan Wessling, Maria Schmidt.

Enhancing the AI2 Diagrams Dataset Using Rhetorical Structure TheoryTuomo Hiippala, Serafina Orekhova.

One Language to rule them all: modelling Morphological Patterns in a Large Scale Italian Lexicon with SWRLFahad Khan, Andrea Bellandi, Francesca Frontini, Monica Monachini.

Discovering Parallel Language Resources for Training MT EnginesVassilis Papavassiliou, Prokopis Prokopidis, Stelios Piperidis.

Correction of OCR Word Segmentation Errors in Articles from the ACL Collection through Neural Machine Translation MethodsVivi Nastase, Julian Hitschler.

Enriching a Lexicon of Discourse Connectives with Corpus-based DataAnna Feltracco, Elisabetta Jezek, Bernardo Magnini.

A Large Resource of Patterns for Verbal ParaphrasesOctavian Popescu, Ngoc Phuoc An Vo, Vadim Sheinin.

Handling Normalization Issues for Part-of-Speech Tagging of Online Conversational TextGéraldine Damnati, Jérémy Auguste, Alexis Nasr, Delphine Charlet, Johannes Heinecke, Frédéric Béchet.

Data Anonymization for Requirements Quality Analysis: a Reproducible Automatic Error Detection TaskJuyeon Kang, Jungyeul Park.

A Multimodal Corpus of Expert Gaze and Behavior during Phonetic Segmentation TasksArif Khan, Ingmar Steiner, Yusuke Sugano, Andreas Bulling, Ross-MacDonald.

Evaluation of Machine Translation Performance Across Multiple Genres and LanguagesMarlies van der Wees, Arianna Bisazza, Christof Monz.

A Vietnamese Dialog Act Corpus Based on ISO 24617-2 standardThi-Lan Ngo, Khac Linh Pham, Hideaki Takeda 0001.

Moving TIGER beyond Sentence-LevelAgnieszka Falenska, Kerstin Eckart, Jonas Kuhn.

A Corpus to Learn Refer-to-as Relations for NominalsWasi Uddin Ahmad, Kai-Wei Chang.

WorldTree: A Corpus of Explanation Graphs for Elementary Science Questions supporting Multi-hop InferencePeter A. Jansen, Elizabeth Wainwright, Steven Marmorstein, Clayton T. Morrison.

Sentiment-Stance-Specificity (SSS) Dataset: Identifying Support-based Entailment among OpinionsPavithra Rajendran, Danushka Bollegala, Simon Parsons.

From 'Solved Problems' to New Challenges: A Report on LDC ActivitiesChristopher Cieri, Mark Liberman, Stephanie M. Strassel, Denise DiPersio, Jonathan Wright, Andrea Mazzucchi.

Manually Annotated Corpus of Polish Texts Published between 1830 and 1918Witold Kieras, Marcin Wolinski.

OpenSubtitles2018: Statistical Rescoring of Sentence Alignments in Large, Noisy Parallel CorporaPierre Lison, Jörg Tiedemann, Milen Kouylekov.

Annotating Spin in Biomedical Scientific Publications : the case of Random Controlled Trials (RCTs)Anna Koroleva, Patrick Paroubek.

Collection and Analysis of Code-switch Egyptian Arabic-English Speech CorpusInjy Hamed, Mohamed Elmahdy 0001, Slim Abdennadher.

SynPaFlex-Corpus: An Expressive French Audiobooks Corpus dedicated to expressive speech synthesisAghilas Sini, Damien Lolive, Gaëlle Vidal, Marie Tahon, Elisabeth Delais-Roussarie.

Building a Morphological Treebank for German from a Linguistic DatabasePetra Steiner, Josef Ruppenhofer.

ScholarGraph: a Chinese Knowledge Graph of Chinese ScholarsShuo Wang, Zehui Hao, Xiaofeng Meng, Qiuyue Wang.

Automatic Wordnet Mapping: from CoreNet to Princeton WordNetJiseong Kim, YoungGyun Hahm, Sunggoo Kwon, Key-Sun Choi.

Discriminating between Similar Languages on Imbalanced Conversational TextsJunqing He, Xian Huang, Xuemin Zhao, Yan Zhang, Yonghong Yan 0002.

Acquiring Verb Classes Through Bottom-Up Semantic Verb ClusteringOlga Majewska, Diana McCarthy, Ivan Vulic, Anna Korhonen.

Semantic Relatedness of Wikipedia Concepts - Benchmark Data and a Working SolutionLiat Ein-Dor, Alon Halfon, Yoav Kantor, Ran Levy, Yosi Mass, Ruty Rinott, Eyal Shnarch, Noam Slonim.

C-HTS: A Concept-based Hierarchical Text Segmentation approachMostafa Bayomi, Séamus Lawless.

Finite-state morphological analysis for GagauzFrancis M. Tyers, Sevilay Bayatli, Güllü Karanfil, Memduh Gokirmak.

Aggression-annotated Corpus of Hindi-English Code-mixed DataRitesh Kumar, Aishwarya N. Reganti, Akshit Bhatia, Tushar Maheshwari.

Improving domain-specific SMT for low-resourced languages using data from different domainsFathima Farhath, Pranavan Theivendiram, Surangika Ranathunga, Sanath Jayasena, Gihan Dias.

Incorporating Semantic Attention in Video Description GenerationNatsuda Laokulrat, Naoaki Okazaki, Hideki Nakayama.

Polish Corpus of Annotated Descriptions of ImagesAlina Wróblewska.

SentEval: An Evaluation Toolkit for Universal Sentence RepresentationsAlexis Conneau, Douwe Kiela.

TAP-DLND 1.0 : A Corpus for Document Level Novelty DetectionTirthankar Ghosal, Amitra Salam, Swati Tiwary, Asif Ekbal, Pushpak Bhattacharyya.

The Niki and Julie Corpus: Collaborative Multimodal Dialogues between Humans, Robots, and Virtual AgentsRon Artstein, Jill Boberg, Alesia Gainer, Jonathan Gratch, Emmanuel Johnson, Anton Leuski, Gale M. Lucas, David R. Traum.

Text Annotation Graphs: Annotating Complex Natural Language PhenomenaAngus Forbes, Kristine Lee, Gus Hahn-Powell, Marco Antonio Valenzuela-Escárcega, Mihai Surdeanu.

Cross-lingual Terminology Extraction for Translation Quality EstimationYu Yuan, Yuze Gao, Yue Zhang, Serge Sharoff.

Building Universal Dependency Treebanks in KoreanJayeol Chun, Na-Rae Han, Jena D. Hwang, Jinho D. Choi.

Using a Corpus of English and Chinese Political Speeches for Metaphor AnalysisKathleen Ahrens, Huiheng Zeng, Shun Han Rebekah Wong.

A Legal Perspective on Training Models for Natural Language ProcessingRichard Eckart de Castilho, Giulia Dore, Thomas Margoni, Penny Labropoulou, Iryna Gurevych.

When ACE met KBP: End-to-End Evaluation of Knowledge Base Population with Component-level AnnotationBonan Min, Marjorie Freedman, Roger Bock, Ralph M. Weischedel.

CLARIN's Key Resource FamiliesDarja Fiser, Jakob Lenardic, Tomaz Erjavec.

Evaluating Inflectional Complexity Crosslinguistically: a Processing PerspectiveClaudia Marzi, Marcello Ferro, Ouafae Nahli, Patrizia Belik, Stavros Bompolas, Vito Pirrelli.

Cheating a Parser to Death: Data-driven Cross-Treebank Annotation TransferDjamé Seddah, Éric Villemonte de la Clergerie, Benoît Sagot, Héctor Martínez Alonso, Marie Candito.

The Use of Text Alignment in Semi-Automatic Error Analysis: Use Case in the Development of the Corpus of the Latvian Language LearnersRoberts Dargis, Ilze Auzina, Kristine Levane-Petrova.

Construction of the Corpus of Everyday Japanese Conversation: An Interim ReportHanae Koiso, Yasuharu Den, Yuriko Iseki, Wakako Kashino, Yoshiko Kawabata, Ken'ya Nishikawa, Yayoi Tanaka, Yasuyuki Usuda.

Transfer Learning for Named-Entity Recognition with Neural NetworksJi Young Lee, Franck Dernoncourt, Peter Szolovits.

Building Named Entity Recognition Taggers via Parallel CorporaRodrigo Agerri, Yiling Chung, Itziar Aldabe, Nora Aranberri, Gorka Labaka, German Rigau.

Portuguese Named Entity Recognition using Conditional Random Fields and Local GrammarsJuliana P. C. Pirovani, Elias de Oliveira.

Cross-linguistically Small World Networks are Ubiquitous in Child-directed SpeechSteven Moran, Danica Pajovic, Sabine Stoll.

Creation of a Balanced State-of-the-Art Multilayer Corpus for NLUNormunds Gruzitis, Lauma Pretkalnina, Baiba Saulite, Laura Rituma, Gunta Nespore-Berzkalne, Arturs Znotins, Peteris Paikens.

Extracting an English-Persian Parallel Corpus from Comparable CorporaAkbar Karimi, Ebrahim Ansari, Bahram Sadeghi Bigham.

Developing New Linguistic Resources and Tools for the Galician LanguageRodrigo Agerri, Xavier Gómez Guinovart, German Rigau, Miguel Anxo Solla Portela.

Structured Interpretation of Temporal RelationsYuchen Zhang, Nianwen Xue.

Annotation and Analysis of Extractive Summaries for the Kyutech CorpusTakashi Yamamura, Kazutaka Shimada.

A Pragmatic Approach for Classical Chinese Word SegmentationShilei Huang, Jiangqin Wu.

Deep JSLC: A Multimodal Corpus Collection for Data-driven Generation of Japanese Sign Language ExpressionsHeike Brock, Kazuhiro Nakadai.

Incorporating Global Contexts into Sentence Embedding for Relational Extraction at the Paragraph Level with Distant SupervisionEun-kyung Kim, Key-Sun Choi.

CPJD Corpus: Crowdsourced Parallel Speech Corpus of Japanese DialectsShinnosuke Takamichi, Hiroshi Saruwatari.

Delta vs. N-Gram Tracing: Evaluating the Robustness of Authorship Attribution MethodsThomas Proisl, Stefan Evert, Fotis Jannidis, Christof Schöch, Leonard Konle, Steffen Pielström.

Browsing and Supporting Pluricentric Global Wordnet, or just your Wordnet of InterestAntónio Branco, Ruben Branco, Chakaveh Saedi, João Silva 0004.

T-REx: A Large Scale Alignment of Natural Language with Knowledge Base TriplesHady ElSahar, Pavlos Vougiouklis, Arslen Remaci, Christophe Gravier, Jonathon S. Hare, Frédérique Laforest, Elena Simperl.

Simulating ASR errors for training SLU systemsEdwin Simonnet, Sahar Ghannay, Nathalie Camelin, Yannick Estève.

Coreference Resolution in FreeLing 4.0Montserrat Marimon, Lluís Padró, Jordi Turmo.

Simplified Corpus with Core VocabularyTakumi Maruyama, Kazuhide Yamamoto.

Adding Syntactic Annotations to Flickr30k Entities Corpus for Multimodal Ambiguous Prepositional-Phrase Attachment ResolutionSebastien Delecraz, Alexis Nasr, Frédéric Béchet, Benoît Favre.

EventWiki: A Knowledge Base of Major EventsTao Ge, Lei Cui, Baobao Chang, Zhifang Sui, Furu Wei, Ming Zhou 0001.

A Web-based System for Crowd-in-the-Loop Dependency TreebankingStephen Tratz, Nhien Phan.

Using Adversarial Examples in Natural Language ProcessingPetr Belohlávek, Ondrej Plátek, Zdenek Zabokrtský, Milan Straka.

All-words Word Sense Disambiguation Using Concept EmbeddingsRui Suzuki, Kanako Komiya, Masayuki Asahara, Minoru Sasaki, Hiroyuki Shinnou.

Improved Transcription and Indexing of Oral History Interviews for Digital Humanities ResearchMichael Gref, Joachim Köhler, Almut Leh.

Evaluation Phonemic Transcription of Low-Resource Tonal Languages for Language DocumentationOliver Adams, Trevor Cohn, Graham Neubig, Hilaria Cruz, Steven Bird, Alexis Michaud.

SPADE: Evaluation Dataset for Monolingual Phrase AlignmentYuki Arase, Jun'ichi Tsujii.

A Multilingual Test Collection for the Semantic Search of Entity CategoriesJuliano Efson Sales, Siamak Barzegar, Wellington Franco, Bernhard Bermeitinger, Tiago Cunha, Brian Davis, André Freitas, Siegfried Handschuh.

Crowdsourcing-based Annotation of the Accounting Registers of the Italian ComedyAdeline Granet, Benjamin Hervy, Geoffrey Roman-Jimenez, Marouane Hachicha, Emmanuel Morin, Harold Mouchère, Solen Quiniou, Guillaume Raschia, Françoise Rubellin, Christian Viard-Gaudin.

Parallel Corpora for the Biomedical DomainAurélie Névéol, Antonio Jimeno-Yepes, Mariana L. Neves, Karin Verspoor.

Persian Discourse Treebank and coreference corpusAzadeh Mirzaei, Pegah Safari.

Resource Creation Towards Automated Sentiment Analysis in Telugu (a low resource language) and Integrating Multiple Domain Sources to Enhance Sentiment PredictionRama Rohit Reddy Gangula, Radhika Mamidi.

An Annotation Language for Semantic Search of Legal SourcesAdeline Nazarenko, François Lévy, Adam Z. Wyner.

Leveraging Lexical Resources and Constraint Grammar for Rule-Based Part-of-Speech Tagging in WelshSteven Neale, Kevin Donnelly, Gareth Watkins, Dawn Knight.

Phonetically Balanced Code-Mixed Speech Corpus for Hindi-English Automatic Speech RecognitionAyushi Pandey, Brij Mohan Lal Srivastava, Rohit Kumar, Bhanu Teja Nellore, Kasi Sai Teja, Suryakanth V. Gangashetty.

Handling Big Data and Sensitive Data Using EUDAT's Generic Execution Framework and the WebLicht Workflow EngineClaus Zinn, Wei Qui, Marie Hinrichs, Emanuel Dima, Alexandr Chernov.

Multi Modal Distance - An Approach to Stemma Generation With WeightingArmin Hoenen.

Revisiting the Task of Scoring Open IE RelationsWilliam Léchelle, Phillippe Langlais.

CEFR-based Lexical Simplification DatasetSatoru Uchida, Shohei Takada, Yuki Arase.

Bridging the LAPPS Grid and CLARINErhard W. Hinrichs, Nancy Ide, James Pustejovsky, Jan Hajic, Marie Hinrichs, Mohammad Fazleh Elahi, Keith Suderman, Marc Verhagen, Kyeongmin Rim, Pavel Stranák, Jozef Misutka.

Automatic Thesaurus Construction for Modern HebrewChaya Liebeskind, Ido Dagan, Jonathan Schler.

MCScript: A Novel Dataset for Assessing Machine Comprehension Using Script KnowledgeSimon Ostermann 0002, Ashutosh Modi, Michael Roth, Stefan Thater, Manfred Pinkal.

RtGender: A Corpus for Studying Differential Responses to GenderRob Voigt, David Jurgens, Vinodkumar Prabhakaran, Dan Jurafsky, Yulia Tsvetkov.

Annotating Zero Anaphora for Question AnsweringYoshihiko Asao, Ryu Iida, Kentaro Torisawa.

Semi-supervised Training Data Generation for Multilingual Question AnsweringKyungjae Lee, Kyoungho Yoon, Sunghyun Park, Seung-won Hwang.

Sharing Copies of Synthetic Clinical Corpora without Physical Distribution - A Case Study to Get Around IPRs and Privacy Constraints Featuring the German JSYNCC CorpusChristina Lohr, Sven Buechel, Udo Hahn.

Preliminary Analysis of Embodied Interactions between Science Communicators and Visitors Based on a Multimodal Corpus of Japanese Conversations in a Science MuseumRui Sakaida, Ryosaku Makino, Mayumi Bono.

Enhancing Modern Supervised Word Sense Disambiguation Models by Semantic Lexical ResourcesStefano Melacci, Achille Globo, Leonardo Rigutini.

Towards a Gold Standard Corpus for Variable Detection and Linking in Social Science PublicationsAndrea Zielinski, Peter Mutschke.

Neural Caption Generation for News ImagesVishwash Batra, Yulan He, George Vogiatzis.

JDCFC: A Japanese Dialogue Corpus with Feature ChangesTetsuaki Nakamura, Daisuke Kawahara.

Improving Machine Translation of Educational Content via CrowdsourcingMaximiliana Behnke, Antonio Valerio Miceli Barone, Rico Sennrich, Vilelmini Sosoni, Thanasis Naskos, Eirini Takoulidou, Maria Stasimioti, Menno van Zaanen, Sheila Castilho, Federico Gaspari, Panayota Georgakopoulou, Valia Kordoni, Markus Egg, Katia Lida Kermanidis.

Improving Dialogue Act Classification for Spontaneous Arabic Speech and Instant Messages at Utterance LevelAbdelRahim A. Elmadany, Sherif M. Abdou, Mervat Gheith.

Contextual Dependencies in Time-Continuous Multidimensional Affect RecognitionDmitrii Fedotov, Denis Ivanko, Maxim Sidorov, Wolfgang Minker.

An Assessment of Explicit Inter- and Intra-sentential Discourse Connectives in Turkish Discourse BankDeniz Zeyrek, Murathan Kurfali.

Annotating Temporally-Anchored Spatial Knowledge by Leveraging Syntactic DependenciesAlakananda Vempala, Eduardo Blanco 0002.

Building a List of Synonymous Words and Phrases of Japanese Compound VerbsKyoko Kanzaki, Hitoshi Isahara.

Tools for The Production of Analogical Grids and a Resource of N-gram Analogical Grids in 11 LanguagesRashel Fam, Yves Lepage.

A Speaking Atlas of the Regional Languages of FrancePhilippe Boula de Mareüil, Albert Rilliard, Frédéric Vernier.

Towards a Diagnosis of Textual Difficulties for Children with DyslexiaSolen Quiniou, Béatrice Daille.

Towards a Standardized Dataset for Noun Compound InterpretationGirishkumar Ponkiya, Kevin Patel, Pushpak Bhattacharyya, Girish K. Palshikar.

Developing the Bangla RST Discourse TreebankDebopam Das, Manfred Stede.

Cross-Lingual Generation and Evaluation of a Wide-Coverage Lexical Semantic ResourceAttila Novák, Borbála Novák.

Open Subtitles Paraphrase Corpus for Six LanguagesMathias Creutz.

Increasing the Accessibility of Time-Aligned Speech Corpora with Spokes MixPiotr Pezik.

Transc&Anno: A Graphical Tool for the Transcription and On-the-Fly Annotation of Handwritten DocumentsNadezda Okinina, Lionel Nicolas, Verena Lyding.

Arabic Dialect Identification in the Context of Bivalency and Code-SwitchingMahmoud El-Haj, Paul Rayson, Mariam Aboelezz.

A Neural Network Model for Part-Of-Speech Tagging of Social Media TextsSara Meftah, Nasredine Semmar.

Tilde MT Platform for Developing Client Specific MT SolutionsMarcis Pinnis, Andrejs Vasiljevs, Rihards Kalnins, Roberts Rozis, Raivis Skadins, Valters Sics.

Learning Word Vectors for 157 LanguagesEdouard Grave, Piotr Bojanowski, Prakhar Gupta, Armand Joulin, Tomas Mikolov.

Performance Impact Caused by Hidden Bias of Training Data for Recognizing Textual EntailmentMasatoshi Tsuchiya.

Modeling Trolling in Social Media ConversationsLuis Gerardo Mojica de la Vega, Vincent Ng.

Expanding Abbreviations in a Strongly Inflected Language: Are Morphosyntactic Tags Sufficient?Piotr Zelasko.

Constructing a Lexicon of Relational NounsEdward Newell, Jackie Chi Kit Cheung.

EmotionLines: An Emotion Corpus of Multi-Party ConversationsChao-Chun Hsu, Sheng-Yeh Chen, Chuan-Chun Kuo, Ting-Hao Huang, Lun-Wei Ku.

CogCompNLP: Your Swiss Army Knife for NLPDaniel Khashabi, Mark Sammons, Ben Zhou, Tom Redman, Christos Christodoulopoulos, Vivek Srikumar, Nicholas Rizzolo, Lev-Arie Ratinov, Guanheng Luo, Quang Do, Chen-Tse Tsai, Subhro Roy, Stephen D. Mayhew, Zhili Feng, John Wieting, Xiaodong Yu, Yangqiu Song, Shashank Gupta, Shyam Upadhyay, Naveen Arivazhagan, Qiang Ning, Shaoshi Ling, Dan Roth.

Creating Large-Scale Argumentation Structures for Dialogue SystemsKazuki Sakai, Akari Inago, Ryuichiro Higashinaka, Yuichiro Yoshikawa, Hiroshi Ishiguro, Junji Tomita.

Creating a Translation Matrix of the Bible's Names Across 591 LanguagesWinston Wu, Nidhi Vyas, David Yarowsky.

Low Resource Methods for Medieval Document Sections AnalysisPetra Galuscáková, Lucie Neuzilova.

Building a Knowledge Graph from Natural Language Definitions for Interpretable Text Entailment RecognitionVivian Dos Santos Silva, André Freitas, Siegfried Handschuh.

Annotated Corpus of Scientific Conference's Homepages for Information ExtractionPiotr Andruszkiewicz, Rafal Hazan.

NoReC: The Norwegian Review CorpusErik Velldal, Lilja Øvrelid, Eivind Alexander Bergem, Cathrine Stadsnes, Samia Touileb, Fredrik Jørgensen.

Referring Expression Generation in time-constrained communicationAndré Mariotti, Ivandré Paraboni.

Towards faithfully visualizing global linguistic diversityGarland McNew, Curdin Derungs, Steven Moran.

A «Portrait» Approach to Multichannel DiscourseAndrej Kibrik, Olga Fedorova.

Using Discourse Information for Education with a Spanish-Chinese Parallel CorpusShuyuan Cao, Harritxu Gete.

Automatic and Manual Web Annotations in an Infrastructure to handle Fake News and other Online Media PhenomenaGeorg Rehm, Julián Moreno Schneider, Peter Bourgonje.

Construction of Large-scale English Verbal Multiword Expression Annotated CorpusAkihiko Kato, Hiroyuki Shindo, Yuji Matsumoto 0001.

Evaluation of Croatian Word EmbeddingsLukás Svoboda, Slobodan Beliga.

A Semi-autonomous System for Creating a Human-Machine Interaction Corpus in Virtual Reality: Application to the ACORFORMed System for Training Doctors to Break Bad NewsMagalie Ochs, Philippe Blache, Grégoire de Montcheuil, Jean-Marie Pergandi, Jorane Saubesty, Daniel Francon, Daniel Mestre.

PyRATA, Python Rule-based feAture sTructure AnalysisNicolas Hernandez, Amir Hazem.

Massively Translingual Compound Analysis and Translation DiscoveryWinston Wu, David Yarowsky.

Dataset for the First Evaluation on Chinese Machine Reading ComprehensionYiming Cui, Ting Liu, Zhipeng Chen, Wentao Ma, Shijin Wang, Guoping Hu.

Fluid Annotation: A Granularity-aware Annotation Tool for Chinese Word FluidityShu-Kai Hsieh, Yu-Hsiang Tseng, Chih-Yao Lee, Chiung-Yu Chiang.

Experiments with Convolutional Neural Networks for Multi-Label Authorship AttributionDainis Boumber, Yifan Zhang, Arjun Mukherjee.

A Corpus for Modeling Word Importance in Spoken Dialogue TranscriptsSushant Kafle, Matt Huenerfauth.

Profiling Medical Journal Articles Using a Gene Ontology Semantic TaggerMahmoud El-Haj, Paul Rayson, Scott Piao, Jo Knight.

The First 100 Days: A Corpus Of Political Agendas on TwitterNathan Green, Septina Dian Larasati.

Tel(s)-Telle(s)-Signs: Highly Accurate Automatic Crosslingual Hypernym DiscoveryAda Wan.

Expert Evaluation of a Spoken Dialogue System in a Clinical Operating RoomJuliana Miehle, Nadine Gerstenlauer, Daniel Ostler, Hubertus Feußner, Wolfgang Minker, Stefan Ultes.

BiLSTM-CRF for Persian Named-Entity Recognition ArmanPersoNERCorpus: the First Entity-Annotated Persian DatasetHanieh Poostchi, Ehsan Zare Borzeshi, Massimo Piccardi.

Interpersonal Relationship Labels for the CALLHOME CorpusDenys Katerenchuk, David-Guy Brizan, Andrew Rosenberg.

Palmyra: A Platform Independent Dependency Annotation Tool for Morphologically Rich LanguagesTalha Javed, Nizar Habash, Dima Taji.

World Knowledge for Abstract Meaning Representation ParsingCharles Welch, Jonathan K. Kummerfeld, Song Feng, Rada Mihalcea.

Analysis of Implicit Conditions in Database Search DialoguesShun-ya Fukunaga, Hitoshi Nishikawa, Takenobu Tokunaga, Hikaru Yokono, Tetsuro Takahashi.

ES-Port: a Spontaneous Spoken Human-Human Technical Support Corpus for Dialogue Research in SpanishLaura García-Sardiña, Manex Serras, Arantza del Pozo.

FooTweets: A Bilingual Parallel Corpus of World Cup TweetsHenny Sluyter-Gäthje, Pintu Lohar, Haithem Afli, Andy Way.

A Swedish Cookie-Theft CorpusDimitrios Kokkinakis, Kristina Lundholm Fors, Kathleen C. Fraser, Arto Nordlund.

NegPar: A parallel corpus annotated for negationQianchu Liu, Federico Fancellu, Bonnie L. Webber.

Corpus Building and Evaluation of Aspect-based Opinion Summaries from Tweets in SpanishDaniel Peñaloza, Juanjosé Tenorio Peña, Rodrigo López, Héctor Gómez, Arturo Oncevay-Marcos, Marco Antonio Sobrevilla Cabezudo.

Lexical and Semantic Features for Cross-lingual Text Reuse Classification: an Experiment in English and Latin ParaphrasesMaria Moritz, David Steding.

Metaphor Suggestions based on a Semantic Metaphor RepositoryGerard de Melo.

Manual vs Automatic Bitext ExtractionAibek Makazhanov, Bagdat Myrzakhmetov, Zhenisbek Assylbekov.

Construction of English-French Multimodal Affective Conversational Corpus from TV DramasSashi Novitasari, Quoc Truong Do, Sakriani Sakti, Dessi Puji Lestari, Satoshi Nakamura 0001.

MirasVoice: A bilingual (English-Persian) speech corpusAmir Vaheb, Ali Janalizadeh Choobbasti, Mahdi Mortazavi, Saeid Safavi, Behnam Sabeti.

A Comparative Study of Extremely Low-Resource Transliteration of the World's LanguagesWinston Wu, David Yarowsky.

TQ-AutoTest - An Automated Test Suite for (Machine) Translation QualityVivien Macketanz, Renlong Ai, Aljoscha Burchardt, Hans Uszkoreit.

Annotating Educational Questions for Student Response AnalysisAndreea Godea, Rodney Nielsen.

One event, many representations. Mapping action concepts through visual featuresAlessandro Panunzi, Lorenzo Gregori, Andrea Amelio Ravelli.

Exploiting Pre-Ordering for Neural Machine TranslationYang Zhao, Jiajun Zhang, Chengqing Zong.

Preserving Workflow Reproducibility: The RePlay-DH Client as a Tool for Process DocumentationMarkus Gärtner, Uli Hahn, Sibylle Hermann.

Preparing Data from Psychotherapy for Natural Language ProcessingMargot Mieskes, Andreas Stiegelmayr.

Carcinologic Speech Severity Index Project: A Database of Speech Disorder Productions to Assess Quality of Life Related to Speech After CancerCorine Astésano, Mathieu Balaguer, Jérôme Farinas, Corinne Fredouille, Pascal Gaillard, Alain Ghio, Imed Laaridh, Muriel Lalain, Benoît Lepage, Julie Mauclair, Olivier Nocaudie, Julien Pinquier, Oriol Pont, Gilles Pouchoulin, Michèle Puech, Danièle Robert, Etienne Sicard, Virginie Woisard.

An Integrated Representation of Linguistic and Social Functions of Code-SwitchingSilvana Hartmann, Monojit Choudhury, Kalika Bali.

Sudachi: a Japanese Tokenizer for BusinessKazuma Takaoka, Sorami Hisamoto, Noriko Kawahara, Miho Sakamoto, Yoshitaka Uchida, Yuji Matsumoto 0001.

Korean L2 Vocabulary Prediction: Can a Large Annotated Corpus be Used to Train Better Models for Predicting Unknown Words?Kevin Yancey, Yves Lepage.

Annotating Reflections for Health Behavior Change TherapyNishitha Guntakandla, Rodney Nielsen.

Word Affect IntensitiesSaif Mohammad.

Dialog Intent Structure: A Hierarchical Schema of Linked Dialog ActsSilvia Pareti, Tatiana Lando.

BASHI: A Corpus of Wall Street Journal Articles Annotated with Bridging LinksIna Rösiger.

Adapting Serious Game for Fallacious Argumentation to German: Pitfalls, Insights, and Best PracticesIvan Habernal, Patrick Pauli, Iryna Gurevych.

Language adaptation experiments via cross-lingual embeddings for related languagesSerge Sharoff.

Investigating the Influence of Bilingual MWU on Trainee Translation QualityYu Yuan, Serge Sharoff.

Combining Concepts and Their Translations from Structured Dictionaries of Uralic Minority LanguagesMika Hämäläinen, Liisa Lotta Tarvainen, Jack Rueter.

JESC: Japanese-English Subtitle CorpusReid Pryzant, Youngjoo Chung, Dan Jurafsky, Denny Britz.

Neural Models of Selectional Preferences for Implicit Semantic Role LabelingMinh Le, Antske Fokkens.

Text Normalization Infrastructure that Scales to Hundreds of Language VarietiesMason Chua, Daan van Esch, Noah Coccaro, Eunjoon Cho, Sujeet Bhandari, Libin Jia.

BDPROTO: A Database of Phonological Inventories from Ancient and Reconstructed LanguagesEgidio Marsico, Sébastien Flavier, Annemarie Verkerk, Steven Moran.

SMILE Swiss German Sign Language DatasetSarah Ebling, Necati Cihan Camgöz, Penny Boyes Braem, Katja Tissi, Sandra Sidler-Miserez, Stephanie Stoll, Simon Hadfield, Tobias Haug, Richard Bowden, Sandrine Tornay, Marzieh Razavi, Mathew Magimai-Doss.

A Lightweight Modeling Middleware for Corpus ProcessingMarkus Gärtner, Jonas Kuhn.

E-magyar - A Digital Language Processing SystemTamás Váradi, Eszter Simon, Bálint Sass, Iván Mittelholcz, Attila Novák, Balázs Indig, Richárd Farkas, Veronika Vincze.

A Fast and Flexible Webinterface for Dialect Research in the Low CountriesRoeland Van Hout, Nicoline van der Sijs, Erwin Komen, Henk van den Heuvel.

Towards Processing of the Oral History Interviews and Related Printed DocumentsZbynek Zajíc, Lucie Skorkovská, Petr Neduchal, Pavel Ircing, Josef V. Psutka, Marek Hrúz, Ales Prazák, Daniel Soutner, Jan Svec, Lukás Bures, Ludek Müller.

Multilingual Extension of PDTB-Style Annotation: The Case of TED Multilingual Discourse BankDeniz Zeyrek, Amália Mendes, Murathan Kurfali.

Construction of a Japanese Word Similarity DatasetYuya Sakaizawa, Mamoru Komachi.

Auto-hMDS: Automatic Construction of a Large Heterogeneous Multilingual Multi-Document Summarization CorpusMarkus Zopf.

Low-resource Post Processing of Noisy OCR Output for Historical Corpus DigitisationCaitlin Richter, Matthew Wickes, Deniz Beser, Mitchell Marcus.

Cross-Document, Cross-Language Event Coreference Annotation Using Event HoppersZhiyi Song, Ann Bies, Justin Mott, Xuansong Li, Stephanie M. Strassel, Christopher Caruso.

An Unsupervised Word Sense Disambiguation System for Under-Resourced LanguagesDmitry Ustalov, Denis Teslenko, Alexander Panchenko, Mikhail Chernoskutov, Chris Biemann, Simone Paolo Ponzetto.

Constructing a Chinese Medical Conversation Corpus Annotated with Conversational Structures and ActionsNan Wang, Yan Song, Fei Xia.

WASA: A Web Application for Sequence AnnotationFahad AlGhamdi, Mona Diab.

Arap-Tweet: A Large Multi-Dialect Twitter Corpus for Gender, Age and Language Variety IdentificationWajdi Zaghouani, Anis Charfi.

The IIT Bombay English-Hindi Parallel CorpusAnoop Kunchukuttan, Pratik Mehta, Pushpak Bhattacharyya.

A Multilingual Dataset for Evaluating Parallel Sentence Extraction from Comparable CorporaPierre Zweigenbaum, Serge Sharoff, Reinhard Rapp.

BULBasaa: A Bilingual Basaa-French Speech Corpus for the Evaluation of Language Documentation ToolsFatima Hamlaoui, Emmanuel-Moselly Makasso, Markus Müller 0001, Jonas Engelmann, Gilles Adda, Alex Waibel, Sebastian Stüker.

CoNLL-UL: Universal Morphological Lattices for Universal Dependency ParsingAmir More, Özlem Çetinoglu, Çagri Çöltekin, Nizar Habash, Benoît Sagot, Djamé Seddah, Dima Taji, Reut Tsarfaty.

Chinese-Portuguese Machine Translation: A Study on Building Parallel Corpora from Comparable TextsSiyou Liu, Longyue Wang, Chao-Hong Liu.

No more beating about the bush : A Step towards Idiom Handling for Indian Language NLPRuchit Agrawal, Vighnesh Chenthil Kumar, Vigneshwaran Muralidaran, Dipti Misra Sharma.

Integrating Generative Lexicon Event Structures into VerbNetSusan Windisch Brown, James Pustejovsky, Annie Zaenen, Martha Palmer.

Rollenwechsel-English: a large-scale semantic role corpusAsad B. Sayeed, Pavel Shkadzko, Vera Demberg.

Attention for Implicit Discourse Relation RecognitionAndre Cianflone, Leila Kosseim.

Linguistic and Sociolinguistic Annotation of 17th Century Dutch LettersMarijn Schraagen, Feike Dietz, Marjo van Koppen.

Mining Biomedical Publications With The LAPPS GridNancy Ide, Keith Suderman, Jin-Dong Kim.

Matics Software Suite: New Tools for Evaluation and Data ExplorationOlivier Galibert, Guillaume Bernard, Agnès Delaborde, Sabrina Lecadre, Juliette Kahn.

ChAnot: An Intelligent Annotation Tool for Indigenous and Highly Agglutinative Languages in PeruRodolfo Mercado-Gonzales, José Pereira-Noriega, Marco Antonio Sobrevilla Cabezudo, Arturo Oncevay-Marcos.

A Lexicon of Discourse Markers for Portuguese - LDM-PTAmália Mendes, Iria del Río Gayo, Manfred Stede, Felix Dombek.

ETPC - A Paraphrase Identification Corpus Annotated with Extended Paraphrase Typology and NegationVenelin Kovatchev, Toni Martí, Maria Salamó.

Systems' Agreements and Disagreements in Temporal Processing: An Extensive Error Analysis of the TempEval-3 TaskTommaso Caselli, Roser Morante.

Toward a Lightweight Solution for Less-resourced Languages: Creating a POS Tagger for Alsatian Using Voluntary CrowdsourcingAlice Millour, Karën Fort.

Improving Unsupervised Keyphrase Extraction using Background KnowledgeYang Yu, Vincent Ng.

Czech Text Document Corpus v 2.0Pavel Král, Ladislav Lenc.

Definite Description Lexical Choice: taking Speaker's Personality into accountAlex Lan, Ivandré Paraboni.

Lingmotif-lex: a Wide-coverage, State-of-the-art Lexicon for Sentiment AnalysisAntonio Moreno Ortiz, Chantal Pérez Hernández.

Annotating High-Level Structures of Short Stories and Personal AnecdotesBoyang Li, Beth Cardier, Tong Wang, Florian Metze.

A High-Quality Gold Standard for Citation-based TasksMichael Färber 0001, Alexander Thiemann, Adam Jatowt.

Sarcasm Target Identification: Dataset and An Introductory ApproachAditya Joshi, Pranav Goel, Pushpak Bhattacharyya, Mark J. Carman.

Towards a Linked Open Data Edition of Sumerian CorporaChristian Chiarcos, Émilie Pagé-Perron, Ilya Khait, Niko Schenk, Lucas Reckling.

Creating dialect sub-corpora by clustering: a case in Japanese for an adaptive methodYo Sato, Kevin Heffernan.

Using Crowd Agreement for Wordnet LocalizationAmarsanaa Ganbold, Altangerel Chagnaa, Gábor Bella.

Multilingual Parallel Corpus for Global Communication PlanKenji Imamura, Eiichiro Sumita.

BioRead: A New Dataset for Biomedical Reading ComprehensionDimitris Pappas, Ion Androutsopoulos, Haris Papageorgiou.

The ICoN Corpus of Academic Written Italian (L1 and L2)Mirko Tavosanis, Federica Cominetti.

DeepTC - An Extension of DKPro Text Classification for Fostering Reproducibility of Deep Learning ExperimentsTobias Horsmann, Torsten Zesch.

Corpora with Part-of-Speech Annotations for Three Regional Languages of France: Alsatian, Occitan and PicardDelphine Bernhard, Anne-Laure Ligozat, Fanny Martin, Myriam Bras, Pierre Magistry, Marianne Vergez-Couret, Lucie Steiblé, Pascale Erhart, Nabil Hathout, Dominique Huck, Christophe Rey, Philippe Reynes, Sophie Rosset, Jean Sibille, Thomas Lavergne.

A Gold Anaphora Annotation Layer on an Eye Movement CorpusOlga Seminck, Pascal Amsili.

A Hybrid Approach for Automatic Extraction of Bilingual Multiword Expressions from Parallel CorporaNasredine Semmar.

A corpus of German political speeches from the 21st centuryAdrien Barbaresi.

A Parallel Corpus of Arabic-Japanese News ArticlesGo Inoue, Nizar Habash, Yuji Matsumoto 0001, Hiroyuki Aoyama.

Community-Driven Crowdsourcing: Data Collection with Local DevelopersChristina Funk, Michael Tseng, Ravindran Rajakumar, Linne Ha.

The AnnCor CHILDES TreebankJan Odijk, Alexis Dimitriadis, Martijn van der Klis, Marjo van Koppen, Meie Otten, Remco van der Veen.

Graph Based Semi-Supervised Learning Approach for Tamil POS taggingMokanarangan Thayaparan, Surangika Ranathunga, Uthayasanker Thayasivam.

Researching Less-Resourced Languages - the DigiSami CorpusKristiina Jokinen.

A Multilingual Approach to Question ClassificationAikaterini-Lida Kalouli, Katharina Kaiser, Annette Hautli-Janisz, Georg A. Kaiser, Miriam Butt.

A Gold Standard for Multilingual Automatic Term Extraction from Comparable Corpora: Term Structure and Translation EquivalentsAyla Rigouts Terryn, Véronique Hoste, Els Lefever.

Designing a Russian Idiom-Annotated CorpusKatsiaryna Aharodnik, Anna Feldman, Jing Peng.

SW4ALL: a CEFR Classified and Aligned Corpus for Language LearningRodrigo Wilkens, Leonardo Zilio, Cédrick Fairon.

EMO&LY (EMOtion and AnomaLY) : A new corpus for anomaly detection in an audiovisual stream with emotional contextCédric Fayet, Arnaud Delhay, Damien Lolive, Pierre-François Marteau.

Unsupervised Korean Word Sense Disambiguation using CoreNetKijong Han, Sangha Nam, Jiseong Kim, YoungGyun Hahm, Key-Sun Choi.

Improving Hate Speech Detection with Deep Learning EnsemblesSteven Zimmerman, Udo Kruschwitz, Chris Fox.

Preparation and Usage of Xhosa Lexicographical Data for a Multilingual, Federated EnvironmentSonja E. Bosch, Thomas Eckart, Bettina Klimek, Dirk Goldhahn, Uwe Quasthoff.

A 2nd Longitudinal Corpus for Children's Writing with Enhanced Output for Specific Spelling PatternsKay Berkling.

Data-Driven Pronunciation Modeling of Swiss German Dialectal Speech for Automatic Speech RecognitionMichael Stadtschnitzer, Christoph Schmidt.

Language Technology for Multilingual Europe: An Analysis of a Large-Scale Survey regarding Challenges, Demands, Gaps and NeedsGeorg Rehm, Stefanie Hegele.

Handling Rare Word Problem using Synthetic Training Data for Sinhala and Tamil Neural Machine TranslationPasindu Tennage, Prabath Sandaruwan, Malith Thilakarathne, Achini Herath, Surangika Ranathunga.

A Framework for Multi-Language Service Design with the Language GridDonghui Lin, Yohei Murakami, Toru Ishida.

Towards the Inference of Semantic Relations in Complex Nominals: a Pilot StudyMelania Cabezas-García, Pilar León Araúz.

LIdioms: A Multilingual Linked Idioms Data SetDiego Moussallem, Mohamed Ahmed Sherif, Diego Esteves, Marcos Zampieri, Axel-Cyrille Ngonga Ngomo.

Building Parallel Monolingual Gan Chinese Dialects CorpusFan Xu, Mingwen Wang, Maoxi Li.

The UIR Uncertainty Corpus for Chinese: Annotating Chinese Microblog Corpus for Uncertainty Identification from Social MediaBinyang Li, Jun Xiang, Le Chen, Xu Han, Xiaoyan Yu, Ruifeng Xu, Tengjiao Wang, Kam-Fai Wong.

IPSL: A Database of Iconicity Patterns in Sign Languages. Creation and UseVadim Kimmelman, Anna Klezovich, George Moroz.

Evaluating Machine Translation Performance on Chinese Idioms with a Blacklist MethodYutong Shao, Rico Sennrich, Bonnie L. Webber, Federico Fancellu.

Transforming Wikipedia into a Large-Scale Fine-Grained Entity Type CorpusAbbas Ghaddar, Phillippe Langlais.

Multilingual Word Segmentation: Training Many Language-Specific Tokenizers Smoothly Thanks to the Universal Dependencies CorpusErwan Moreau, Carl Vogel.

English-Basque Statistical and Neural Machine TranslationInigo Jauregi Unanue, Lierni Garmendia Arratibel, Ehsan Zare Borzeshi, Massimo Piccardi.

Building A Handwritten Cuneiform Character ImagesetKenji Yamauchi, Hajime Yamamoto, Wakaha Mori.

Revita: a Language-learning Platform at the Intersection of ITS and CALLAnisia Katinskaia, Javad Nouri, Roman Yangarber.

A Recorded Debating DatasetShachar Mirkin, Michal Jacovi, Tamar Lavee, Hong-Kwang Kuo, Samuel Thomas, Leslie Sager, Lili Kotlerman, Elad Venezian, Noam Slonim.

Augmenting Image Question Answering Dataset by Exploiting Image CaptionsMasashi Yokota, Hideki Nakayama.

Czech Legal Text Treebank 2.0Vincent Kríz, Barbora Hladká.

ILCM - A Virtual Research Infrastructure for Large-Scale Qualitative DataAndreas Niekler, Arnim Bleier, Christian Kahmann, Lisa Posch, Gregor Wiedemann, Kenan Erdogan, Gerhard Heyer, Markus Strohmaier.

Live Blog Corpus for SummarizationAvinesh P. V. S., Maxime Peyrard, Christian M. Meyer.

An Italian Twitter Corpus of Hate Speech against ImmigrantsManuela Sanguinetti, Fabio Poletto, Cristina Bosco, Viviana Patti, Marco Stranisci.

Improving Hypernymy Extraction with Distributional Semantic ClassesAlexander Panchenko, Dmitry Ustalov, Stefano Faralli, Simone Paolo Ponzetto, Chris Biemann.

Development of an Annotated Multimodal Dataset for the Investigation of Classification and Summarisation of Presentations using High-Level Paralinguistic FeaturesKeith Curtis, Nick Campbell 0001, Gareth J. F. Jones.

Finely Tuned, 2 Billion Token Based Word Embeddings for PortugueseJoão Rodrigues 0001, António Branco.

A Multilingual Wikified Data Set of Educational MaterialIris Hendrickx, Eirini Takoulidou, Thanasis Naskos, Katia Lida Kermanidis, Vilelmini Sosoni, Hugo De Vos, Maria Stasimioti, Menno van Zaanen, Panayota Georgakopoulou, Valia Kordoni, Maja Popovic, Markus Egg, Antal van den Bosch.

Gaining and Losing Influence in Online ConversationArun Sharma, Tomek Strzalkowski.

The brWaC Corpus: A New Open Resource for Brazilian PortugueseJorge A. Wagner Filho, Rodrigo Wilkens, Marco Idiart, Aline Villavicencio.

A Large Multilingual and Multi-domain Dataset for Recommender SystemsGiorgia Di Tommaso, Stefano Faralli, Paola Velardi.

The French-Algerian Code-Switching Triggered audio corpus (FACST)Djegdjiga Amazouz, Martine Adda-Decker, Lori Lamel.

Teanga: A Linked Data based platform for Natural Language ProcessingHousam Ziad, John Philip McCrae, Paul Buitelaar.

A Survey on Automatically-Constructed WordNets and their Evaluation: Lexical and Word Embedding-based ApproachesSteven Neale.

Automatic Annotation of Semantic Term Types in the Complete ACL Anthology Reference CorpusAnne-Kathrin Schumann, Héctor Martínez Alonso.

Identification of Personal Information Shared in Chat-Oriented DialogueSarah Fillwock, David R. Traum.

Building a Corpus from Handwritten Picture Postcards: Transcription, Annotation and Part-of-Speech TaggingKyoko Sugisaki, Nicolas Wiedmer, Heiko Hausendorf.

Reference production in human-computer interaction: Issues for Corpus-based Referring Expression GenerationDanillo da Silva Rocha, Ivandré Paraboni.

WordKit: a Python Package for Orthographic and Phonological FeaturizationStéphan Tulkens, Dominiek Sandra, Walter Daelemans.

Sanaphor++: Combining Deep Neural Networks with Semantics for Coreference ResolutionJulien Plu, Roman Prokofyev, Alberto Tonon, Philippe Cudré-Mauroux, Djellel Eddine Difallah, Raphaël Troncy, Giuseppe Rizzo 0002.

Interoperability of Language-related Information: Mapping the BLL Thesaurus to Lexvo and GlottologVanya Dimitrova, Christian Fäth, Christian Chiarcos, Heike Renner-Westermann, Frank Abromeit.

The MADAR Arabic Dialect Corpus and LexiconHouda Bouamor, Nizar Habash, Mohammad Salameh, Wajdi Zaghouani, Owen Rambow, Dana Abdulrahim, Ossama Obeid, Salam Khalifa, Fadhl Eryani, Alexander Erdmann, Kemal Oflazer.

SoMeWeTa: A Part-of-Speech Tagger for German Social Media and Web TextsThomas Proisl.

You Tweet What You Speak: A City-Level Dataset of Arabic DialectsMuhammad Abdul-Mageed, Hassan Alhuzali, Mohamed Elaraby.

Comprehensive Annotation of Various Types of Temporal Information on the Time AxisTomohiro Sakaguchi, Daisuke Kawahara, Sadao Kurohashi.

Annotating Attribution Relations in ArabicAmal Al-Saif, Tasniem Alyahya, Madawi Alotaibi, Huda Almuzaini, Abeer Algahtani.

Pronunciation Variants and ASR of Colloquial Speech: A Case Study on CzechDavid Lukes, Marie Koprivová, Zuzana Komrsková, Petra Klimesová.

CBFC: a parallel L2 speech corpus for Korean and French learnersHiyon Yoo, Inyoung Kim.

Identifying Speakers and Addressees in Dialogues Extracted from Literary FictionAdam Ek, Mats Wirén, Robert Östling, Kristina Nilsson Björkenstam, Gintare Grigonyte, Sofia Gustafson-Capková.

Representation Mapping: A Novel Approach to Generate High-Quality Multi-Lingual Emotion LexiconsSven Buechel, Udo Hahn.

The Circumstantial Event Ontology (CEO) and ECB+/CEO: an Ontology and Corpus for Implicit Causal Relations between EventsRoxane Segers, Tommaso Caselli, Piek Vossen.

Errator: a Tool to Help Detect Annotation Errors in the Universal Dependencies ProjectGuillaume Wisniewski.

Strategies and Challenges for Crowdsourcing Regional Dialect Perception Data for Swiss German and Swiss FrenchJean Philippe Goldman, Simon Clematide, Mathieu Avanzi, Raphaël Tandler.

LREMap, a Song of Resources and EvaluationRiccardo Del Gratta, Sara Goggi, Gabriella Pardelli, Nicoletta Calzolari.

The GermaParl Corpus of Parliamentary ProtocolsAndreas Blätte, André Blessing.

A Corpus for Multilingual Document Classification in Eight LanguagesHolger Schwenk, Xian Li.

Computer-assisted Speaker Diarization: How to Evaluate Human CorrectionsPierre-Alexandre Broux, David Doukhan, Simon Petitrenaud, Sylvain Meignier, Jean Carrive.

Semi-Automatic Construction of Word-Formation Networks (for Polish and Spanish)Mateusz Lango, Magda Sevcíková, Zdenek Zabokrtský.

FontLex: A Typographical Lexicon based on Affective AssociationsTugba Kulahcioglu, Gerard de Melo.

Laying the Groundwork for Knowledge Base Population: Nine Years of Linguistic Resources for TAC KBPJeremy Getman, Joe Ellis, Stephanie M. Strassel, Zhiyi Song, Jennifer Tracey.

Discovering the Language of Wine Reviews: A Text Mining AccountEls Lefever, Iris Hendrickx, Ilja Croijmans, Antal van den Bosch, Asifa Majid.

Candidate Ranking for Maintenance of an Online DictionaryClaire Broad, Helen Langone, David-Guy Brizan.

KIT-Multi: A Translation-Oriented Multilingual Embedding CorpusThanh-Le Ha, Jan Niehues, Matthias Sperber, Ngoc-Quan Pham, Alexander H. Waibel.

Towards a music-language mappingMichele Berlingerio, Francesca Bonin.

FastSense: An Efficient Word Sense Disambiguation ClassifierTolga Uslu, Alexander Mehler, Daniel Baumartz, Alexander Henlein, Wahed Hemati.

An Integrated Formal Representation for Terminological and Lexical Data included in Classification SchemesThierry Declerck, Kseniya Egorova, Eileen Schnur.

Undersampling Improves Hypernymy Prototypicality LearningKoki Washio, Tsuneaki Kato.

Abstract Meaning Representation of Constructions: The More We Include, the Better the RepresentationClaire Bonial, Bianca Badarau, Kira Griffitt, Ulf Hermjakob, Kevin Knight, Tim O'Gorman, Martha Palmer, Nathan Schneider.

Advances in Pre-Training Distributed Word RepresentationsTomas Mikolov, Edouard Grave, Piotr Bojanowski, Christian Puhrsch, Armand Joulin.

From Manuscripts to Archetypes through Iterative ClusteringArmin Hoenen.

BKTreebank: Building a Vietnamese Dependency TreebankKiem-Hieu Nguyen.

Training and Adapting Multilingual NMT for Less-resourced and Morphologically Rich LanguagesMatiss Rikters, Marcis Pinnis, Rihards Krislauks.

Collection of Multimodal Dialog Data and Analysis of the Result of Annotation of Users' Interest LevelMasahiro Araki, Sayaka Tomimasu, Mikio Nakano, Kazunori Komatani, Shogo Okada, Shinya Fujie, Hiroaki Sugiyama.

Towards Language Technology for Mi'kmaqAnant Maheshwari, Leo Bouscarrat, Paul Cook.

A FrameNet for Cancer Information in Clinical Narratives: Schema and AnnotationKirk Roberts, Yuqi Si, Anshul Gandhi, Elmer V. Bernstam.

FonBund: A Library for Combining Cross-lingual Phonological Segment DataAlexander Gutkin, Martin Jansche, Tatiana Merkulova.

EFLLex: A Graded Lexical Resource for Learners of English as a Foreign LanguageLuise Dürlich, Thomas François.

Word Embedding Approach for Synonym Extraction of Multi-Word TermsAmir Hazem, Béatrice Daille.

Multilingual Multi-class Sentiment Classification Using Convolutional Neural NetworksMohammed Attia, Younes Samih, Ali El-Kahky, Laura Kallmeyer.

DeModify: A Dataset for Analyzing Contextual Constraints on Modifier DeletionVivi Nastase, Devon Fritz, Anette Frank.

TF-LM: TensorFlow-based Language Modeling ToolkitLyan Verwimp, Hugo Van Hamme, Patrick Wambacq.

Classifying the Informative Behaviour of Emoji in MicroblogsGiulia Donato, Patrizia Paggio.

Linking, Searching, and Visualizing Entities in WikipediaMarcus Klang, Pierre Nugues.

Unfolding the External Behavior and Inner Affective State of Teammates through Ensemble Learning: Experimental Evidence from a Dyadic Team CorpusAggeliki Vlachostergiou, Mark Dennison, Catherine Neubauer, Stefan Scherer, Peter Khooshabeh, Andre Harrison.

Towards a Conversation-Analytic Taxonomy of Speech OverlapFelix Gervits, Matthias Scheutz.

Retrieving Information from the French Lexical Network in RDF/OWL FormatAlexsandro Fonseca, Fatiha Sadat, François Lareau.

Grounding Gradable Adjectives through CrowdsourcingRebecca Sharp, Mithun Paul, Ajay Nagesh, Dane Bell, Mihai Surdeanu.

SandhiKosh: A Benchmark Corpus for Evaluating Sanskrit Sandhi ToolsShubham Bhardwaj, Neelamadhav Gantayat, Nikhil Chaturvedi, Rahul Garg, Sumeet Agarwal.

Parallel Corpora in Mboshi (Bantu C25, Congo-Brazzaville)Annie Rialland, Martine Adda-Decker, Guy-Noël Kouarata, Gilles Adda, Laurent Besacier, Lori Lamel, Elodie Gauthier, Pierre Godard, Jamison Cooper-Leavitt.

A Framework for the Needs of Different Types of Users in Multilingual Semantic EnrichmentJan Nehring, Felix Sasaki.

Automating Document Discovery in the Systematic Review Process: How to Use Chaff to Extract WheatChristopher Norman, Mariska Leeflang, Pierre Zweigenbaum, Aurélie Névéol.

EuroGames16: Evaluating Change Detection in Online ConversationCyril Goutte, Yunli Wang, FangMing Liao, Zachary Zanussi, Samuel Larkin, Yuri Grinberg.

Generating a Gold Standard for a Swedish Sentiment LexiconJacobo Rouces, Nina Tahmasebi, Lars Borin, Stian Rødven Eide.

Effects of Gender Stereotypes on Trust and Likability in Spoken Human-Robot InteractionMatthias Kraus, Johannes Kraus 0002, Martin Baumann 0001, Wolfgang Minker.

Distributional Term Set ExpansionAmaru Cuba Gyllensten, Magnus Sahlgren.

Manzanilla: An Image Annotation Tool for TKB BuildingArianne Reimerink, Pilar León Araúz.

BabyCloud, a Technological Platform for Parents and ResearchersXuan-Nga Cao, Cyrille Dakhlia, Patricia Del Carmen, Mohamed-Amine Jaouani, Malik Ould-Arbi, Emmanuel Dupoux.

A Multi-layer Annotated Corpus of Argumentative Text: From Argument Schemes to Discourse RelationsElena Musi, Manfred Stede, Leonard Kriese, Smaranda Muresan, Andrea Rocci.

Recognizing Behavioral Factors while Driving: A Real-World Multimodal Corpus to Monitor the Driver's Affective StateAlicia Flores Lotz, Klas Ihme, Audrey Charnoz, Pantelis Maroudis, Ivan Dmitriev, Andreas Wendemuth.

A Leveled Reading Corpus of Modern Standard ArabicMuhamed al Khalil, Hind Saddiki, Nizar Habash, Latifa Al-Sulaiti.

BPEmb: Tokenization-free Pre-trained Subword Embeddings in 275 LanguagesBenjamin Heinzerling, Michael Strube 0001.

Annotation and Quantitative Analysis of Speaker Information in Novel Conversation Sentences in JapaneseMakoto Yamazaki, Yumi Miyazaki, Wakako Kashino.

European Language Resource Coordination: Collecting Language Resources for Public Sector Multilingual Information ManagementAndrea Lösch, Valérie Mapelli, Stelios Piperidis, Andrejs Vasiljevs, Lilli Smal, Thierry Declerck, Eileen Schnur, Khalid Choukri, Josef van Genabith.

A Corpus of Metaphor Novelty Scores for Syntactically-Related Word PairsNatalie Parde, Rodney D. Nielsen.

Don't Annotate, but Validate: a Data-to-Text Method for Capturing Event DataPiek Vossen, Filip Ilievski, Marten Postma, Roxane Segers.

An Evaluation Framework for Multimodal InteractionNikhil Krishnaswamy, James Pustejovsky.

A Danish FrameNet Lexicon and an Annotated Corpus Used for Training and Evaluating a Semantic Frame ClassifierBolette S. Pedersen, Sanni Nimb, Anders Søgaard, Mareike Hartmann, Sussi Olsen.

Constructing High Quality Sense-specific Corpus and Word Embedding via Unsupervised Elimination of Pseudo Multi-senseHaoyue Shi, Xihao Wang, Yuqi Sun, Junfeng Hu.

The Boarnsterhim Corpus: A Bilingual Frisian-Dutch Panel and Trend StudyMarjoleine Sloos, Eduard Drenth, Wilbert Heeringa.

ANCOR-AS: Enriching the ANCOR Corpus with Syntactic AnnotationsLoïc Grobol, Isabelle Tellier, Éric Villemonte de la Clergerie, Marco Dinarelli, Frédéric Landragin.

Creating Lithuanian and Latvian Speech Corpora from Inaccurately Annotated Web DataAskars Salimbajevs.

Evaluating Scoped Meaning RepresentationsRik van Noord, Lasha Abzianidze, Hessel Haagsma, Johan Bos.

A Multi-Domain Framework for Textual Similarity. A Case Study on Question-to-Question and Question-Answering Similarity TasksAmir Hazem, Basma El Amel Boussaha, Nicolas Hernandez.

Lexical Profiling of Environmental CorporaPatrick Drouin, Marie-Claude L'Homme, Benoît Robichaud.

Semi-automatic Korean FrameNet Annotation over KAIST TreebankYoungGyun Hahm, Jiseong Kim, Sunggoo Kwon, Key-Sun Choi.

Epitran: Precision G2P for Many LanguagesDavid R. Mortensen, Siddharth Dalmia, Patrick Littell.

The LIA Treebank of Spoken Norwegian DialectsLilja Øvrelid, Andre Kåsen, Kristin Hagen, Anders Nøklestad, Per Erik Solberg, Janne Bondi Johannessen.

Simple Semantic Annotation and Situation Frames: Two Approaches to Basic Text Understanding in LORELEIKira Griffitt, Jennifer Tracey, Ann Bies, Stephanie M. Strassel.

Visual Choice of Plausible Alternatives: An Evaluation of Image-based Commonsense Causal ReasoningJinyoung Yeo, Gyeongbok Lee, Gengyu Wang, Seungtaek Choi, Hyunsouk Cho, Reinald Kim Amplayo, Seung-won Hwang.

The DLDP Survey on Digital Use and Usability of EU Regional and Minority LanguagesClaudia Soria, Valeria Quochi, Irene Russo.

We Are Depleting Our Research Subject as We Are Investigating It: In Language Technology, more Replication and Diversity Are NeededAntónio Branco.

A Detailed Evaluation of Neural Sequence-to-Sequence Models for In-domain and Cross-domain Text SimplificationSanja Stajner, Sergiu Nisioi.

Analyzing Vocabulary Commonality Index Using Large-scaled Database of Child Language DevelopmentYan Cao, Yasuhiro Minami, Yuko Okumura, Tessei Kobayashi.

A vision-grounded dataset for predicting typical locations for verbsNelson Mukuze, Anna Rohrbach, Vera Demberg, Bernt Schiele.

PyrEval: An Automated Method for Summary Content AnalysisYanjun Gao, Andrew Warner, Rebecca J. Passonneau.

MIAPARLE: Online training for the discrimination of stress contrastsJean Philippe Goldman, Sandra Schwab.

MPST: A Corpus of Movie Plot Synopses with TagsSudipta Kar, Suraj Maharjan, Adrián Pastor López-Monroy, Thamar Solorio.

A New Annotated Portuguese/Spanish Corpus for the Multi-Sentence Compression TaskElvys Linhares Pontes, Juan Manuel Torres Moreno, Stéphane Huet, Andréa Carneiro Linhares.

A Dataset for Inter-Sentence Relation Extraction using Distant SupervisionAngrosh Mandya, Danushka Bollegala, Frans Coenen, Katie Atkinson.

Automatic Prediction of Discourse ConnectivesEric Malmi, Daniele Pighin, Sebastian Krause, Mikhail Kozhevnikov.

New directions in ELRA activitiesValérie Mapelli, Victoria Arranz, Hélène Mazo, Pawel Kamocki, Vladimir Popescu.

The Automatic Annotation of the Semiotic Type of Hand Gestures in Obama' s Humorous SpeechesCostanza Navarretta.

KTH Tangrams: A Dataset for Research on Alignment and Conceptual Pacts in Task-Oriented DialogueTodd Shore, Theofronia Androulakaki, Gabriel Skantze.

Crowdsourced Corpus of Sentence Simplification with Core VocabularyAkihiro Katsuta, Kazuhide Yamamoto.

A Workbench for Rapid Generation of Cross-Lingual SummariesNisarg Jhaveri, Manish Gupta 0001, Vasudeva Varma.

Very Large-Scale Lexical Resources to Enhance Chinese and Japanese Machine TranslationJack Halpern.

Multi-Dialect Arabic POS Tagging: A CRF ApproachKareem Darwish, Hamdy Mubarak, Ahmed Abdelali, Mohamed Eldesouki, Younes Samih, Randah Alharbi, Mohammed Attia, Walid Magdy, Laura Kallmeyer.

Metadata Collection Records for Language ResourcesHenk van den Heuvel, Erwin Komen, Nelleke Oostdijk.

A Context-based Approach for Dialogue Act Recognition using Simple Recurrent Neural NetworksChandrakant Bothe, Cornelius Weber, Sven Magg, Stefan Wermter.

Towards a Welsh Semantic Annotation SystemScott Piao, Paul Rayson, Dawn Knight, Gareth Watkins.

Building a Constraint Grammar Parser for Plains Cree Verbs and ArgumentsKatherine Schmirler, Antti Arppe, Trond Trosterud, Lene Antonsen.

Annotating Abstract Meaning Representations for SpanishNoelia Migueles-Abraira, Rodrigo Agerri, Arantza Díaz de Ilarraza.

Building an English Vocabulary Knowledge Dataset of Japanese English-as-a-Second-Language Learners Using CrowdsourcingYo Ehara.

Test Sets for Chinese Nonlocal Dependency ParsingManjuan Duan, William Schuler.

MMQA: A Multi-domain Multi-lingual Question-Answering Framework for English and HindiDeepak Gupta, Surabhi Kumari, Asif Ekbal, Pushpak Bhattacharyya.

Bootstrapping Polar-Opposite Emotion Dimensions from Online ReviewsLuwen Huangfu, Mihai Surdeanu.

Lessons Learned: On the Challenges of Migrating a Research Data Repository from a Research Institution to a University LibraryThorsten Trippel, Claus Zinn.

Edit me: A Corpus and a Framework for Understanding Natural Language Image EditingRamesh R. Manuvinakurike, Jacqueline Brixey, Trung Bui, Walter Chang, Doo Soon Kim, Ron Artstein, Kallirroi Georgila.

Discovering Canonical Indian English Accents: A Crowdsourcing-based ApproachSunayana Sitaram, Varun Manjunath, Varun Bharadwaj, Monojit Choudhury, Kalika Bali, Michael Tjalve.

An SLA Corpus Annotated with Pedagogically Relevant Grammatical StructuresLeonardo Zilio, Rodrigo Wilkens, Cédrick Fairon.

Evaluation of Automatic Formant TrackersFlorian Schiel, Thomas Zitzelsberger.

Creating a Verb Synonym Lexicon Based on a Parallel CorpusZdenka Uresová, Eva Fucíková, Eva Hajicová, Jan Hajic.

Elicitation protocol and material for a corpus of long prepared monologues in Sign LanguageMichael Filhol, Mohamed N. Hadjadj.

A Large Self-Annotated Corpus for SarcasmMikhail Khodak, Nikunj Saunshi, Kiran Vodrahalli.

Introducing the CLARIN Knowledge Centre for Linguistic Diversity and Language DocumentationHanna Hedeland, Timm Lehmberg, Felix Rau, Sophie Salffner, Mandana Seyfeddinipur, Andreas Witt.

Introducing NIEUW: Novel Incentives and Workflows for Eliciting Linguistic DataChristopher Cieri, James Fiumara, Mark Liberman, Chris Callison-Burch, Jonathan Wright.

A Chinese Dataset with Negative Full Forms for General Abbreviation PredictionYi Zhang, Sun Xu.

A New Version of the Składnica Treebank of Polish Harmonised with the Walenty Valency DictionaryMarcin Wolinski, Elzbieta Hajnicz, Tomasz Bartosiak.

Dialogue Structure Annotation for Multi-Floor InteractionDavid R. Traum, Cassidy Henry, Stephanie M. Lukin, Ron Artstein, Felix Gervits, Kimberly A. Pollard, Claire Bonial, Su Lei, Clare R. Voss, Matthew Marge, Cory J. Hayes, Susan G. Hill.

Open ASR for Icelandic: Resources and a Baseline SystemAnna Björk Nikulásdóttir, Inga Rún Helgadóttir, Matthías Pétursson, Jón Guðnason.

Classification of Closely Related Sub-dialects of Arabic Using Support-Vector MachinesSamantha Wray.

Page Stream Segmentation with Convolutional Neural Nets Combining Textual and Visual FeaturesGregor Wiedemann, Gerhard Heyer.

Universal Morphologies for the Caucasus regionChristian Chiarcos, Kathrin Donandt, Maxim Ionov, Monika Rind-Pawlowski, Hasmik Sargsian, Jesse Wichers Schreur, Frank Abromeit, Christian Fäth.

Sound Signal Processing with Seq2Tree NetworkWeicheng Ma, Kai Cao 0005, Zhaoheng Ni, Peter Chin, Xiang Li.

WikiDragon: A Java Framework For Diachronic Content And Network Analysis Of MediaWikisRüdiger Gleim, Alexander Mehler, Sung Y. Song.

Visualization of the occurrence trend of infectious diseases using TwitterRyusei Matsumoto, Minoru Yoshida, Kazuyuki Matsumoto, Hironobu Matsuda, Kenji Kita.

Knowing the Author by the Company His Words KeepArmin Hoenen, Niko Schenk.

Parser combinators for Tigrinya and Oromo morphologyPatrick Littell, Tom McCoy, Na-Rae Han, Shruti Rijhwani, Zaid Sheikh, David R. Mortensen, Teruko Mitamura, Lori S. Levin.

The German Reference Corpus DeReKo: New Developments - New OpportunitiesMarc Kupietz, Harald Lüngen, Pawel Kamocki, Andreas Witt.

An Information-Providing Closed-Domain Human-Agent Interaction CorpusJelte van Waterschoot, Guillaume Dubuisson Duplessis, Lorenzo Gatti, Merijn Bruijnes, Dirk Heylen.

Extending the gold standard for a lexical substitution task: is it worth it?Ludovic Tanguy, Cécile Fabre, Laura Rivière.

Utilizing Large Twitter Corpora to Create Sentiment LexicaValerij Fredriksen, Brage Ekroll Jahren, Björn Gambäck.

Managing Public Sector Data for Multilingual Applications DevelopmentStelios Piperidis, Penny Labropoulou, Miltos Deligiannis, Maria Giagkou.

Combining rule-based and embedding-based approaches to normalize textual entities with an ontologyArnaud Ferré, Louise Deléger, Pierre Zweigenbaum, Claire Nédellec.

Author Profiling from Facebook CorporaFernando Hsieh, Rafael Dias, Ivandré Paraboni.

The MonPaGe_HA Database for the Documentation of Spoken French Throughout AdulthoodCécile Fougeron, Véronique Delvaux, Lucie Ménard, Marina Laganaro.

A Deep Neural Network based Approach for Entity Extraction in Code-Mixed Indian Social Media TextDeepak Gupta, Asif Ekbal, Pushpak Bhattacharyya.

Baselines and Test Data for Cross-Lingual InferenceZeljko Agic, Natalie Schluter.

BlogSet-BR: A Brazilian Portuguese Blog CorpusHenrique D. P. dos Santos, Vinicius Woloszyn, Renata Vieira.

SemR-11: A Multi-Lingual Gold-Standard for Semantic Similarity and Relatedness for Eleven LanguagesSiamak Barzegar, Brian Davis, Manel Zarrouk, Siegfried Handschuh, André Freitas.

Designing a Collaborative Process to Create Bilingual Dictionaries of Indonesian Ethnic LanguagesArbi Haza Nasution, Yohei Murakami, Toru Ishida.

J-MeDic: A Japanese Disease Name Dictionary based on Real Clinical UsageKaoru Ito, Hiroyuki Nagai, Taro Okahisa, Shoko Wakamiya, Tomohide Iwao, Eiji Aramaki.

Upping the Ante: Towards a Better Benchmark for Chinese-to-English Machine TranslationChristian Hadiwinoto, Hwee Tou Ng.

CONDUCT: An Expressive Conducting Gesture Dataset for Sound ControlLei Chen, Sylvie Gibet, Camille Marteau.

An Application for Building a Polish Telephone Speech CorpusBartosz Ziólko, Piotr Zelasko, Ireneusz Gawlik, Tomasz Pedzimaz, Tomasz Jadczyk.

Distribution of Emotional Reactions to News Articles in TwitterOmar Juárez Gambino, Hiram Calvo, Consuelo Varinia García Mendoza.

Dysarthric speech evaluation: automatic and perceptual approachesImed Laaridh, Christine Meunier, Corinne Fredouille.

Error Analysis of Uyghur Name Tagging: Language-specific Techniques and Remaining ChallengesHalidanmu Abudukelimu, Abudoukelimu Abulizi, Boliang Zhang, Xiaoman Pan, Di Lu, Heng Ji, Yang Liu.

SimPA: A Sentence-Level Simplification Corpus for the Public Administration DomainCarolina Scarton, Gustavo Paetzold, Lucia Specia.

PMKI: an European Commission action for the interoperability, maintainability and sustainability of Language ResourcesPeter Schmitz 0002, Enrico Francesconi, Najeh Hajlaoui, Brahim Batouche.

Towards AMR-BR: A SemBank for Brazilian Portuguese LanguageRafael T. Anchiêta, Thiago A. S. Pardo.

Chemical Compounds Knowledge Visualization with Natural Language Processing and Linked DataKazunari Tanaka, Tomoya Iwakura, Yusuke Koyanagi, Noriko Ikeda, Hiroyuki Shindo, Yuji Matsumoto 0001.

Comparing Pretrained Multilingual Word Embeddings on an Ontology Alignment TaskDagmar Gromann, Thierry Declerck.

Universal Dependencies and Quantitative Typological Trends. A Case Study on Word OrderChiara Alzetta, Felice dell'Orletta, Simonetta Montemagni, Giulia Venturi.

Generation of a Spanish Artificial Collocation Error CorpusSara Rodríguez-Fernández, Roberto Carlini, Leo Wanner.

A Multimodal Corpus for Mutual Gaze and Joint Attention in Multiparty Situated InteractionDimosthenis Kontogiorgos, Vanya Avramova, Simon Alexandersson, Patrik Jonell, Catharine Oertel, Jonas Beskow, Gabriel Skantze, Joakim Gustafson.

SentiArabic: A Sentiment Analyzer for Standard ArabicRamy Eskander.

Towards Neural Speaker Modeling in Multi-Party Conversation: The Task, Dataset, and ModelsZhao Meng, Lili Mou, Zhi Jin.

PDF-to-Text Reanalysis for Linguistic Data MiningMichael Wayne Goodman, Ryan Georgi, Fei Xia.

Improving a Neural-based Tagger for Multiword Expressions IdentificationDusan Varis, Natalia Klyueva.

Improving Crowdsourcing-Based Annotation of Japanese Discourse RelationsYudai Kishimoto, Shinnosuke Sawada, Yugo Murawaki, Daisuke Kawahara, Sadao Kurohashi.

The Metalogue Debate Trainee Corpus: Data Collection and AnnotationsVolha Petukhova, Andrei Malchanau, Youssef Oualil, Dietrich Klakow, Saturnino Luz, Fasih Haider, Nick Campbell 0003, Dimitris Koryzis, Dimitris Spiliotopoulos, Pierre Albert, Nicklas Linz, Jan Alexandersson.

The ADELE Corpus of Dyadic Social Text Conversations: Dialog Act Annotation with ISO 24617-2Emer Gilmartin, Christian Saam, Brendan Spillane, Maria O'Reilly, Ketong Su, Arturo Calvo, Loredana Cerrato, Killian Levacher, Nick Campbell 0001, Vincent Wade.

SumeCzech: Large Czech News-Based Summarization DatasetMilan Straka, Nikita Mediankin, Tom Kocmi, Zdenek Zabokrtský, Vojtech Hudecek, Jan Hajic.

Universal Dependencies for AinuHajime Senuma, Akiko Aizawa.

Evaluation of Dictionary Creating Methods for Finno-Ugric Minority LanguagesZsanett Ferenczi, Iván Mittelholcz, Eszter Simon, Tamás Váradi.

Chinese Relation Classification using Long Short Term Memory NetworksLinrui Zhang, Dan Moldovan.

Network Features Based Co-hyponymy DetectionAbhik Jana, Pawan Goyal.

A fine-grained error analysis of NMT, SMT and RBMT output for English-to-DutchLaura Van Brussel, Arda Tezcan, Lieve Macken.

ASR for Documenting Acutely Under-Resourced Indigenous LanguagesRobert Jimerson, Emily Prud'hommeaux.

A Neural Network Based Model for Loanword Identification in UyghurChenggang Mi, Yating Yang, Lei Wang 0065, Xi Zhou, Tonghai Jiang.

External Links

Cite Key

Statistics

PDF

Researchr

Proceedings of the Eleventh International Conference on Language Resources and Evaluation, LREC 2018, Miyazaki, Japan, May 7-12, 2018

Abstract

Table of Contents