smellslikeml/video_llama_eval.yaml

## video_llama_eval.yaml
model:
  arch: video_llama
  model_type: pretrain_vicuna
  freeze_vit: True
  freeze_qformer: True
  max_txt_len: 160
  end_sym: "###"
  low_resource: True

  frozen_llama_proj: False

  llama_model: "/content/vicuna-13b/"

  llama_proj_model: '/content/pretrained_minigpt4.pth'

  fusion_head_layers: 2
  max_frame_pos: 32
  fusion_header_type: "seqTransf"

  ckpt: '/content/pretrain-vicuna13b.pth'


datasets:
  webvid:
    vis_processor:
      train:
        name: "alpro_video_eval"
        n_frms: 8
        image_size: 224
    text_processor:
      train:
        name: "blip_caption"

run:
  task: video_text_pretrain
	model:
	arch: video_llama
	model_type: pretrain_vicuna
	freeze_vit: True
	freeze_qformer: True
	max_txt_len: 160
	end_sym: "###"
	low_resource: True

	frozen_llama_proj: False

	llama_model: "/content/vicuna-13b/"

	llama_proj_model: '/content/pretrained_minigpt4.pth'

	fusion_head_layers: 2
	max_frame_pos: 32
	fusion_header_type: "seqTransf"

	ckpt: '/content/pretrain-vicuna13b.pth'


	datasets:
	webvid:
	vis_processor:
	train:
	name: "alpro_video_eval"
	n_frms: 8
	image_size: 224
	text_processor:
	train:
	name: "blip_caption"

	run:
	task: video_text_pretrain