Skip to content

Instantly share code, notes, and snippets.

Endüstriyel zaman ve hareket etüdü problemine bilgisayarlı görüyle değil; Multimodal LLM'lerin anlamsal çıkarım (Semantic Reasoning) yeteneği ve katı JSON bölütlemesi ile yaklaşarak, "zaman damgası kalitesinin prompt engineering ile geleneksel ActionFormer/TriDet seviyelerine yaklaşıp yaklaşamayacağını" ölçen Software 2.0 laboratuvarı.


1. Tez (Thesis)

Geleneksel "Temporal Action Segmentation" literatürü bugüne kadar ActivityNet, Breakfast Actions veya 50Salads gibi standart veri setleri üzerinden nesneleri tanıyıp (YOLO/I3D) bunları ActionFormer veya TriDet gibi ağır bilgisayarlı görü (CV) modellerine vererek saniyelik bölütleme (segmentation) yapmaya çalışmıştır.

Bu projenin tezi şudur: **"Multimodal LLM'ler (Gemini, GPT-4V, Qwen-VL), sahip oldukları çok yönlü anlamsal çıkarım güçleri ve devasa video bağlam pencereleri (long-context window) sayesinde; klasik bir CV modelinin aylar süren eğitim (training) süreçlerine ihtiyaç duymadan, yalnızca doğru Prompt Engineering (Format G