Learning a Contextualized Multimodal Embedding for Zero-shot Cooking Video Caption Generation

researchr

You are not signed in
Sign in
Sign up

Lin Wang, Hongyi Zhang, Xingfu Wang, Yan Xiong. Learning a Contextualized Multimodal Embedding for Zero-shot Cooking Video Caption Generation. In Wen-Huang Cheng, Wei-Ta Chu, Min-Chun Hu 0001, Jiaying Liu 0001, Munchurl Kim, Wei Zhang 0031, editors, ACM Multimedia Asia 2023, MMAsia 2023, Tainan, Taiwan, December 6-8, 2023. ACM, 2023. [doi]

@inproceedings{WangZWX23,
  title = {Learning a Contextualized Multimodal Embedding for Zero-shot Cooking Video Caption Generation},
  author = {Lin Wang and Hongyi Zhang and Xingfu Wang and Yan Xiong},
  year = {2023},
  doi = {10.1145/3595916.3626413},
  url = {https://doi.org/10.1145/3595916.3626413},
  researchr = {https://researchr.org/publication/WangZWX23},
  cites = {0},
  citedby = {0},
  booktitle = {ACM Multimedia Asia 2023, MMAsia 2023, Tainan, Taiwan, December 6-8, 2023},
  editor = {Wen-Huang Cheng and Wei-Ta Chu and Min-Chun Hu 0001 and Jiaying Liu 0001 and Munchurl Kim and Wei Zhang 0031},
  publisher = {ACM},
}

External Links

Cite Key

Statistics

PDF

Researchr

Learning a Contextualized Multimodal Embedding for Zero-shot Cooking Video Caption Generation