Adnan Akhundov aakhundov

## flex_attention_fwd.py
# AOT ID: ['1_inference']
import triton
import triton.language as tl

import torch
from torch._C import _cuda_getCurrentRawStream as get_raw_stream
from torch._inductor.runtime.benchmarking import benchmarker


aten = torch.ops.aten

## TTGIR
module attributes {"triton_gpu.num-ctas" = 1 : i32, "triton_gpu.num-warps" = 2 : i32, triton_gpu.target = "cuda:90", "triton_gpu.threads-per-warp" = 32 : i32} {
  tt.func public @_ragged_hstu_attn_fwd(%arg0: !tt.ptr<bf16> {tt.divisibility = 16 : i32}, %arg1: !tt.ptr<bf16> {tt.divisibility = 16 : i32}, %arg2: !tt.ptr<bf16> {tt.divisibility = 16 : i32}, %arg3: !tt.ptr<i64> {tt.divisibility = 16 : i32}, %arg4: !tt.ptr<i64> {tt.divisibility = 16 : i32}, %arg5: !tt.ptr<bf16> {tt.divisibility = 16 : i32}, %arg6: !tt.ptr<bf16> {tt.divisibility = 16 : i32}, %arg7: i32 {tt.divisibility = 16 : i32}, %arg8: i32 {tt.divisibility = 16 : i32}, %arg9: i32 {tt.divisibility = 16 : i32}, %arg10: i32 {tt.divisibility = 16 : i32}, %arg11: i32 {tt.divisibility = 16 : i32}, %arg12: i32 {tt.divisibility = 16 : i32}, %arg13: i32 {tt.divisibility = 16 : i32}, %arg14: i32 {tt.divisibility = 16 : i32}, %arg15: i32 {tt.divisibility = 16 : i32}, %arg16: f32, %arg17: i32, %arg18: i32 {tt.divisibility = 16 : i32}, %arg19: i32 {tt.divisibil

## triton_none_arg.py
import triton
import triton.language as tl

@triton.autotune( # E: Untyped decorator makes function "sin_kernel" untyped  [misc]
    configs=[
        triton.Config({'BLOCK_SIZE': 32}, num_stages=5, num_warps=2),
        triton.Config({'BLOCK_SIZE': 64}, num_stages=4, num_warps=4),
    ],
    key=['n_elements']
)

## llama_v2_7b_16h_26740f8.py

from ctypes import c_void_p, c_long
import torch
import math
import random
import os
import tempfile
from math import inf, nan
from torch._inductor.hooks import run_intermediate_hooks
from torch._inductor.utils import maybe_profile

## llama_v2_7b_16h_3d089de.py

from ctypes import c_void_p, c_long
import torch
import math
import random
import os
import tempfile
from math import inf, nan
from torch._inductor.hooks import run_intermediate_hooks
from torch._inductor.utils import maybe_profile

## llama_v2_7b_16h.py

from ctypes import c_void_p, c_long
import torch
import math
import random
import os
import tempfile
from math import inf, nan
from torch._inductor.hooks import run_intermediate_hooks
from torch._inductor.utils import maybe_profile

## gist:21acf5eccf03cc427af4268e7b92b978

from ctypes import c_void_p, c_long
import torch
import math
import random
import os
import tempfile
from math import inf, nan
from torch._inductor.hooks import run_intermediate_hooks
from torch._inductor.utils import maybe_profile

## test_cond_nested_abi_compatible_cuda.cpp
#include <torch/csrc/inductor/aoti_runtime/arrayref_tensor.h>
#include <torch/csrc/inductor/aoti_runtime/interface.h>
#include <torch/csrc/inductor/aoti_runtime/model_container.h>
#include <torch/csrc/inductor/aoti_runtime/scalar_to_tensor.h>
#include <torch/csrc/inductor/aoti_runtime/thread_local.h>

#include <iostream>
#include <sstream>
#include <stdexcept>
#include <vector>

## test_cond_with_multiple_outputs_abi_compatible_cuda.cpp
#include <torch/csrc/inductor/aoti_runtime/arrayref_tensor.h>
#include <torch/csrc/inductor/aoti_runtime/interface.h>
#include <torch/csrc/inductor/aoti_runtime/model_container.h>
#include <torch/csrc/inductor/aoti_runtime/scalar_to_tensor.h>
#include <torch/csrc/inductor/aoti_runtime/thread_local.h>

#include <iostream>
#include <sstream>
#include <stdexcept>
#include <vector>

## test_cond_with_parameters_abi_compatible_cuda.cpp
#include <torch/csrc/inductor/aoti_runtime/arrayref_tensor.h>
#include <torch/csrc/inductor/aoti_runtime/interface.h>
#include <torch/csrc/inductor/aoti_runtime/model_container.h>
#include <torch/csrc/inductor/aoti_runtime/scalar_to_tensor.h>
#include <torch/csrc/inductor/aoti_runtime/thread_local.h>

#include <iostream>
#include <sstream>
#include <stdexcept>
#include <vector>
	# AOT ID: ['1_inference']
	import triton
	import triton.language as tl

	import torch
	from torch._C import _cuda_getCurrentRawStream as get_raw_stream
	from torch._inductor.runtime.benchmarking import benchmarker


	aten = torch.ops.aten
	import triton
	import triton.language as tl

	@triton.autotune( # E: Untyped decorator makes function "sin_kernel" untyped [misc]
	configs=[
	triton.Config({'BLOCK_SIZE': 32}, num_stages=5, num_warps=2),
	triton.Config({'BLOCK_SIZE': 64}, num_stages=4, num_warps=4),
	],
	key=['n_elements']
	)

	from ctypes import c_void_p, c_long
	import torch
	import math
	import random
	import os
	import tempfile
	from math import inf, nan
	from torch._inductor.hooks import run_intermediate_hooks
	from torch._inductor.utils import maybe_profile
	#include <torch/csrc/inductor/aoti_runtime/arrayref_tensor.h>
	#include <torch/csrc/inductor/aoti_runtime/interface.h>
	#include <torch/csrc/inductor/aoti_runtime/model_container.h>
	#include <torch/csrc/inductor/aoti_runtime/scalar_to_tensor.h>
	#include <torch/csrc/inductor/aoti_runtime/thread_local.h>

	#include <iostream>
	#include <sstream>
	#include <stdexcept>
	#include <vector>