Visionary: vision-aware enhancement with reminding scenes generated by captions via multimodal transformer for embodied referring expression - researchr publication

researchr

You are not signed in
Sign in
Sign up

Zhengwu Yuan, Peixian Tang, Xinguang Sang, Fan Zhang, Zheqi Zhang. Visionary: vision-aware enhancement with reminding scenes generated by captions via multimodal transformer for embodied referring expression. The Visual Computer, 41(3):1673-1688, February 2025. [doi]

Abstract is missing.

runs on WebDSL