edanur Edanurkoroglu

## idea.md

      
        
          
            
              
              1 file
            
          
          
            
              
              0 forks
            
          
            
              
                
                0 comments
              
            
          
            
              
              0 stars
            
          
        
        
          
              
          
          
            
                Edanurkoroglu
                / idea.md
            
            
              Last active
              April 21, 2026 17:14
            
          
        
      
        

      
      
    Endüstriyel zaman ve hareket etüdü problemine bilgisayarlı görüyle değil; Multimodal LLM'lerin anlamsal çıkarım (Semantic Reasoning) yeteneği ve katı JSON bölütlemesi ile yaklaşarak, "zaman damgası kalitesinin prompt engineering ile geleneksel ActionFormer/TriDet seviyelerine yaklaşıp yaklaşamayacağını" ölçen Software 2.0 laboratuvarı.

1. Tez (Thesis)

Geleneksel "Temporal Action Segmentation" literatürü bugüne kadar ActivityNet, Breakfast Actions veya 50Salads gibi standart veri setleri üzerinden nesneleri tanıyıp (YOLO/I3D) bunları ActionFormer veya TriDet gibi ağır bilgisayarlı görü (CV) modellerine vererek saniyelik bölütleme (segmentation) yapmaya çalışmıştır.
Bu projenin tezi şudur: **"Multimodal LLM'ler (Gemini, GPT-4V, Qwen-VL), sahip oldukları çok yönlü anlamsal çıkarım güçleri ve devasa video bağlam pencereleri (long-context window) sayesinde; klasik bir CV modelinin aylar süren eğitim (training) süreçlerine ihtiyaç duymadan, yalnızca doğru Prompt Engineering (Format G