VLM - a Dremin Collection

Dremin 's Collections

VLM

VLM

updated Sep 9

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

Paper • 2406.04325 • Published Jun 6 • 72
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Paper • 2401.15947 • Published Jan 29 • 49
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Paper • 2311.10122 • Published Nov 16, 2023 • 26
Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating Video-based Large Language Models

Paper • 2311.16103 • Published Nov 27, 2023 • 1
LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

Paper • 2310.01852 • Published Oct 3, 2023 • 2