Endüstriyel zaman ve hareket etüdü problemine bilgisayarlı görüyle değil; Multimodal LLM'lerin anlamsal çıkarım (Semantic Reasoning) yeteneği ve katı JSON bölütlemesi ile yaklaşarak, "zaman damgası kalitesinin prompt engineering ile geleneksel ActionFormer/TriDet seviyelerine yaklaşıp yaklaşamayacağını" ölçen Software 2.0 laboratuvarı.
Geleneksel "Temporal Action Segmentation" literatürü bugüne kadar ActivityNet, Breakfast Actions veya 50Salads gibi standart veri setleri üzerinden nesneleri tanıyıp (YOLO/I3D) bunları ActionFormer veya TriDet gibi ağır bilgisayarlı görü (CV) modellerine vererek saniyelik bölütleme (segmentation) yapmaya çalışmıştır.
Bu projenin tezi şudur: **"Multimodal LLM'ler (Gemini, GPT-4V, Qwen-VL), sahip oldukları çok yönlü anlamsal çıkarım güçleri ve devasa video bağlam pencereleri (long-context window) sayesinde; klasik bir CV modelinin aylar süren eğitim (training) süreçlerine ihtiyaç duymadan, yalnızca doğru Prompt Engineering (Format G