STVGBert: A Visual-linguistic Transformer based Framework for Spatio-temporal Video Grounding - researchr publication

researchr

You are not signed in
Sign in
Sign up

Rui Su, Qian Yu, Dong Xu 0001. STVGBert: A Visual-linguistic Transformer based Framework for Spatio-temporal Video Grounding. In 2021 IEEE/CVF International Conference on Computer Vision, ICCV 2021, Montreal, QC, Canada, October 10-17, 2021. pages 1513-1522, IEEE, 2021. [doi]

Abstract is missing.

runs on WebDSL