V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding - researchr publication references

researchr

You are not signed in
Sign in
Sign up

Junqi Ge, Ziyi Chen, Jintao Lin, Jinguo Zhu, Xihui Liu, Jifeng Dai, Xizhou Zhu. V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding. In IEEE/CVF International Conference on Computer Vision, ICCV 2025, Honolulu, HI, USA, October 19-25, 2025. pages 21070-21084, IEEE, 2025. [doi]

No references recorded for this publication.

No citations of this publication recorded.

runs on WebDSL