THUDM
/

cogvlm2-video-llama3-base

Text Generation

Model card Files Files and versions Community

zR commited on Jul 9

Commit

90e901a

•

1 Parent(s): 98be0af

update

Files changed (1) hide show

modeling_cogvlm.py +5 -4

modeling_cogvlm.py CHANGED Viewed

@@ -837,7 +837,7 @@ class CogVLMVideoForCausalLM(CogVLMPreTrainedModel):
         text = _history_to_prompt(template_version, history, query)
         input_ids = [tokenizer.bos_token_id]
         token_type_ids = [LANGUAGE_TOKEN_TYPE]
-        add_time_indices = False
         if images is not None and len(images) == 1:
             # vision
             transform = transforms.Compose(
@@ -853,15 +853,16 @@ class CogVLMVideoForCausalLM(CogVLMPreTrainedModel):
             images = [transform(images[0]).transpose(0, 1)] # (T, C, H, W)
             num_eois = len(images[0])
             tokenizer.pad_token_id = 128002
-            vision_token_num = (64 + 2) * num_eois
             if not add_time_indices:
                 input_ids += [tokenizer.pad_token_id] * vision_token_num # add spetial token
                 token_type_ids += [VISION_TOKEN_TYPE] * vision_token_num
             else:
                 video_ids, video_type_ids = [], []
                 for _time_idx in range(num_eois):
-                    video_ids += [tokenizer.pad_token_id] * vision_token_num
-                    video_type_ids += [VISION_TOKEN_TYPE] * vision_token_num
                     # add time indices
                     time_indices = tokenizer.encode(str(_time_idx), add_special_tokens=False)
                     video_ids += time_indices

         text = _history_to_prompt(template_version, history, query)
         input_ids = [tokenizer.bos_token_id]
         token_type_ids = [LANGUAGE_TOKEN_TYPE]
+        add_time_indices = True if template_version == 'chat' else False
         if images is not None and len(images) == 1:
             # vision
             transform = transforms.Compose(
             images = [transform(images[0]).transpose(0, 1)] # (T, C, H, W)
             num_eois = len(images[0])
             tokenizer.pad_token_id = 128002
             if not add_time_indices:
+                vision_token_num = (64 + 2) * num_eois
                 input_ids += [tokenizer.pad_token_id] * vision_token_num # add spetial token
                 token_type_ids += [VISION_TOKEN_TYPE] * vision_token_num
             else:
                 video_ids, video_type_ids = [], []
+                sing_vision_token_num = (64 + 2)
                 for _time_idx in range(num_eois):
+                    video_ids += [tokenizer.pad_token_id] * sing_vision_token_num
+                    video_type_ids += [VISION_TOKEN_TYPE] * sing_vision_token_num
                     # add time indices
                     time_indices = tokenizer.encode(str(_time_idx), add_special_tokens=False)
                     video_ids += time_indices