Efficient Video Transformers via Spatial-temporal Token Merging for Action Recognition - researchr publication

researchr

You are not signed in
Sign in
Sign up

Zhanzhou Feng, Jiaming Xu, Lei Ma 0008, Shiliang Zhang. Efficient Video Transformers via Spatial-temporal Token Merging for Action Recognition. TOMCCAP, 20(4), April 2024. [doi]

Abstract is missing.

runs on WebDSL