csullivan/sharded_decode.py

## sharded_decode.py
# Ignore `tvm.save_and_copy_tensor` packed functions inserted for debugging
    @R.function
    def decode(input_ids1: R.Tensor((1, 1), dtype="int32"), all_seq_len: R.Shape(["n"]), kv_cache: R.Tuple(R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object), params: R.Tuple(R.Tensor((32000, 8192), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((8192,), dtype="float16"), R.Tensor((2048, 128), dtype="float16"), R.Tensor((2048, 128), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((8192, 5120), dtype="float16"), R.Tensor((4096, 8192), dtype="float16"), R.Tensor((8192, 28672), dtype="float16"), R.Tensor((4096, 28672), dtype="float16"), R.Tensor((16000, 8192), dtype="float16"))) -> R.Tuple(R.Tensor((1, 1, 32000), dtype="float32"), R.Tuple(R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object)):
        n = T.int64()
        R.func_attr({"tir_var_upper_bound": {"m": 2048, "n": 2048}})
        cls = Module
        with R.dataflow():
            lv_relax_reshape482 = R.call_tir(cls.reshape9, (input_ids1,), out_sinfo=R.Tensor((1,), dtype="int32"))
            lv_tuple_item01: R.Tensor((32000, 8192), dtype="float16") = params[0]
            lv_relax_take1 = R.call_tir(cls.take1, (lv_tuple_item01, lv_relax_reshape482), out_sinfo=R.Tensor((1, 8192), dtype="float16"))
            lv_relax_reshape483 = R.call_tir(cls.reshape10, (lv_relax_take1,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_full = R.call_tir(cls.full, R.tuple(), out_sinfo=R.Tensor((1, 1, 1, n), dtype="float16"))
            lv_tuple_item1100: R.Tensor((8192,), dtype="float16") = params[1]
            lv_fused_rms_norm161 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_reshape483, lv_tuple_item1100), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed642 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm161,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1641: R.Tensor((8192, 5120), dtype="float16") = params[164]
            lv_fused_relax_matmul2_cublas = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed642, lv_tuple_item1641), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed643 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul210 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed643,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split = R.call_tir(cls.split2, (lv_fused_relax_matmul210,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item0: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split[0]
            lv_fused_reshape11 = R.call_tir(cls.fused_reshape11, (lv_tuple_item0,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item1: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split[1]
            lv_fused_reshape12 = R.call_tir(cls.fused_reshape12, (lv_tuple_item1,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item2: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split[2]
            lv_fused_reshape12_squeeze1 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item2,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162160: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163160: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir325 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape11, lv_tuple_item162160, lv_tuple_item163160), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162161: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163161: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir326 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape12, lv_tuple_item162161, lv_tuple_item163161), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze160 = R.call_tir(cls.squeeze1, (lv_relax_call_tir326,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item01_1: R.Object = kv_cache[0]
            lv320: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item01_1, lv_relax_squeeze160, sinfo_args=(R.Object,))
            lv_tuple_item160: R.Object = kv_cache[1]
            lv321: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item160, lv_fused_reshape12_squeeze1, sinfo_args=(R.Object,))
            lv322: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv320, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv323: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv321, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape487 = R.call_tir(cls.reshape5, (lv322,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape488 = R.call_tir(cls.reshape5, (lv323,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3160 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape487,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3161 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape488,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims964 = R.call_tir(cls.transpose8, (lv_relax_call_tir325,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3160, lv_relax_permute_dims964), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast3 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast4 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast3,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul725 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast4, lv_fused_repeat_transpose3161), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape13 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul725,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1651: R.Tensor((4096, 8192), dtype="float16") = params[165]
            lv_relax_call_dps_packed644 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape13,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item1651, lv_relax_call_dps_packed644), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed645 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed645,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add160 = R.call_tir(cls.add1, (lv_relax_reshape483, lv_fused_relax_permute_dims_relax_matmul1), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2100: R.Tensor((8192,), dtype="float16") = params[2]
            lv_fused_rms_norm162 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add160, lv_tuple_item2100), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed646 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm162,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1661: R.Tensor((8192, 28672), dtype="float16") = params[166]
            lv_fused_relax_matmul3_cublas = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed646, lv_tuple_item1661), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed647 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul310 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed647,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply1 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul310,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item1671: R.Tensor((4096, 28672), dtype="float16") = params[167]
            lv_relax_call_dps_packed648 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply1,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item1671, lv_relax_call_dps_packed648), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed649 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed649,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add161 = R.call_tir(cls.add1, (lv_relax_add160, lv_fused_relax_permute_dims_relax_matmul2), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3100: R.Tensor((8192,), dtype="float16") = params[3]
            lv_fused_rms_norm163 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add161, lv_tuple_item3100), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed650 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm163,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1681: R.Tensor((8192, 5120), dtype="float16") = params[168]
            lv_fused_relax_matmul2_cublas1 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed650, lv_tuple_item1681), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed651 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas1,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul211 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed651,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split1 = R.call_tir(cls.split2, (lv_fused_relax_matmul211,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item01_2: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split1[0]
            lv_fused_reshape111 = R.call_tir(cls.fused_reshape11, (lv_tuple_item01_2,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item11: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split1[1]
            lv_fused_reshape121 = R.call_tir(cls.fused_reshape12, (lv_tuple_item11,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item21: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split1[2]
            lv_fused_reshape12_squeeze11 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item21,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162162: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163162: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir329 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape111, lv_tuple_item162162, lv_tuple_item163162), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162163: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163163: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir330 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape121, lv_tuple_item162163, lv_tuple_item163163), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze162 = R.call_tir(cls.squeeze1, (lv_relax_call_tir330,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item210: R.Object = kv_cache[2]
            lv324: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item210, lv_relax_squeeze162, sinfo_args=(R.Object,))
            lv_tuple_item310: R.Object = kv_cache[3]
            lv325: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item310, lv_fused_reshape12_squeeze11, sinfo_args=(R.Object,))
            lv326: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv324, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv327: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv325, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape493 = R.call_tir(cls.reshape5, (lv326,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape494 = R.call_tir(cls.reshape5, (lv327,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3162 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape493,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3163 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape494,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims976 = R.call_tir(cls.transpose8, (lv_relax_call_tir329,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul3 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3162, lv_relax_permute_dims976), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast31 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul3, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast41 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast31,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul734 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast41, lv_fused_repeat_transpose3163), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape131 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul734,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1691: R.Tensor((4096, 8192), dtype="float16") = params[169]
            lv_relax_call_dps_packed652 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape131,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas1 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item1691, lv_relax_call_dps_packed652), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed653 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas1,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul11 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed653,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add162 = R.call_tir(cls.add1, (lv_relax_add161, lv_fused_relax_permute_dims_relax_matmul11), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item485: R.Tensor((8192,), dtype="float16") = params[4]
            lv_fused_rms_norm164 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add162, lv_tuple_item485), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed654 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm164,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1701: R.Tensor((8192, 28672), dtype="float16") = params[170]
            lv_fused_relax_matmul3_cublas1 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed654, lv_tuple_item1701), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed655 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas1,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul311 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed655,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply11 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul311,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item1711: R.Tensor((4096, 28672), dtype="float16") = params[171]
            lv_relax_call_dps_packed656 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply11,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas1 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item1711, lv_relax_call_dps_packed656), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed657 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas1,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul21 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed657,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add163 = R.call_tir(cls.add1, (lv_relax_add162, lv_fused_relax_permute_dims_relax_matmul21), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item510: R.Tensor((8192,), dtype="float16") = params[5]
            lv_fused_rms_norm165 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add163, lv_tuple_item510), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed658 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm165,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1721: R.Tensor((8192, 5120), dtype="float16") = params[172]
            lv_fused_relax_matmul2_cublas2 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed658, lv_tuple_item1721), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed659 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas2,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul212 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed659,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split2 = R.call_tir(cls.split2, (lv_fused_relax_matmul212,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item02: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split2[0]
            lv_fused_reshape112 = R.call_tir(cls.fused_reshape11, (lv_tuple_item02,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item12: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split2[1]
            lv_fused_reshape122 = R.call_tir(cls.fused_reshape12, (lv_tuple_item12,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item22: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split2[2]
            lv_fused_reshape12_squeeze12 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item22,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162164: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163164: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir333 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape112, lv_tuple_item162164, lv_tuple_item163164), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162165: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163165: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir334 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape122, lv_tuple_item162165, lv_tuple_item163165), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze164 = R.call_tir(cls.squeeze1, (lv_relax_call_tir334,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item410: R.Object = kv_cache[4]
            lv328: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item410, lv_relax_squeeze164, sinfo_args=(R.Object,))
            lv_tuple_item510_1: R.Object = kv_cache[5]
            lv329: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item510_1, lv_fused_reshape12_squeeze12, sinfo_args=(R.Object,))
            lv330: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv328, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv331: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv329, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape499 = R.call_tir(cls.reshape5, (lv330,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape500 = R.call_tir(cls.reshape5, (lv331,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3164 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape499,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3165 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape500,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims988 = R.call_tir(cls.transpose8, (lv_relax_call_tir333,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul4 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3164, lv_relax_permute_dims988), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast32 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul4, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast42 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast32,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul743 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast42, lv_fused_repeat_transpose3165), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape132 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul743,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1731: R.Tensor((4096, 8192), dtype="float16") = params[173]
            lv_relax_call_dps_packed660 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape132,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas2 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item1731, lv_relax_call_dps_packed660), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed661 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas2,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul12 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed661,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add164 = R.call_tir(cls.add1, (lv_relax_add163, lv_fused_relax_permute_dims_relax_matmul12), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item610: R.Tensor((8192,), dtype="float16") = params[6]
            lv_fused_rms_norm166 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add164, lv_tuple_item610), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed662 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm166,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1741: R.Tensor((8192, 28672), dtype="float16") = params[174]
            lv_fused_relax_matmul3_cublas2 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed662, lv_tuple_item1741), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed663 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas2,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul312 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed663,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply12 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul312,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item1751: R.Tensor((4096, 28672), dtype="float16") = params[175]
            lv_relax_call_dps_packed664 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply12,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas2 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item1751, lv_relax_call_dps_packed664), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed665 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas2,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul22 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed665,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add165 = R.call_tir(cls.add1, (lv_relax_add164, lv_fused_relax_permute_dims_relax_matmul22), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item710: R.Tensor((8192,), dtype="float16") = params[7]
            lv_fused_rms_norm167 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add165, lv_tuple_item710), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed666 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm167,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1761: R.Tensor((8192, 5120), dtype="float16") = params[176]
            lv_fused_relax_matmul2_cublas3 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed666, lv_tuple_item1761), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed667 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas3,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul213 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed667,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split3 = R.call_tir(cls.split2, (lv_fused_relax_matmul213,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item03: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split3[0]
            lv_fused_reshape113 = R.call_tir(cls.fused_reshape11, (lv_tuple_item03,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item13: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split3[1]
            lv_fused_reshape123 = R.call_tir(cls.fused_reshape12, (lv_tuple_item13,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item23: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split3[2]
            lv_fused_reshape12_squeeze13 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item23,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162166: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163166: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir337 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape113, lv_tuple_item162166, lv_tuple_item163166), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162167: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163167: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir338 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape123, lv_tuple_item162167, lv_tuple_item163167), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze166 = R.call_tir(cls.squeeze1, (lv_relax_call_tir338,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item610_1: R.Object = kv_cache[6]
            lv332: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item610_1, lv_relax_squeeze166, sinfo_args=(R.Object,))
            lv_tuple_item710_1: R.Object = kv_cache[7]
            lv333: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item710_1, lv_fused_reshape12_squeeze13, sinfo_args=(R.Object,))
            lv334: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv332, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv335: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv333, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape505 = R.call_tir(cls.reshape5, (lv334,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape506 = R.call_tir(cls.reshape5, (lv335,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3166 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape505,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3167 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape506,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1000 = R.call_tir(cls.transpose8, (lv_relax_call_tir337,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul5 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3166, lv_relax_permute_dims1000), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast33 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul5, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast43 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast33,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul752 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast43, lv_fused_repeat_transpose3167), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape133 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul752,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1771: R.Tensor((4096, 8192), dtype="float16") = params[177]
            lv_relax_call_dps_packed668 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape133,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas3 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item1771, lv_relax_call_dps_packed668), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed669 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas3,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul13 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed669,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add166 = R.call_tir(cls.add1, (lv_relax_add165, lv_fused_relax_permute_dims_relax_matmul13), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item810: R.Tensor((8192,), dtype="float16") = params[8]
            lv_fused_rms_norm168 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add166, lv_tuple_item810), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed670 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm168,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1781: R.Tensor((8192, 28672), dtype="float16") = params[178]
            lv_fused_relax_matmul3_cublas3 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed670, lv_tuple_item1781), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed671 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas3,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul313 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed671,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply13 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul313,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item1791: R.Tensor((4096, 28672), dtype="float16") = params[179]
            lv_relax_call_dps_packed672 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply13,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas3 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item1791, lv_relax_call_dps_packed672), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed673 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas3,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul23 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed673,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add167 = R.call_tir(cls.add1, (lv_relax_add166, lv_fused_relax_permute_dims_relax_matmul23), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item910: R.Tensor((8192,), dtype="float16") = params[9]
            lv_fused_rms_norm169 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add167, lv_tuple_item910), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed674 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm169,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1801: R.Tensor((8192, 5120), dtype="float16") = params[180]
            lv_fused_relax_matmul2_cublas4 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed674, lv_tuple_item1801), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed675 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas4,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul214 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed675,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split4 = R.call_tir(cls.split2, (lv_fused_relax_matmul214,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item04: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split4[0]
            lv_fused_reshape114 = R.call_tir(cls.fused_reshape11, (lv_tuple_item04,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item14: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split4[1]
            lv_fused_reshape124 = R.call_tir(cls.fused_reshape12, (lv_tuple_item14,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item24: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split4[2]
            lv_fused_reshape12_squeeze14 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item24,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162168: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163168: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir341 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape114, lv_tuple_item162168, lv_tuple_item163168), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162169: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163169: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir342 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape124, lv_tuple_item162169, lv_tuple_item163169), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze168 = R.call_tir(cls.squeeze1, (lv_relax_call_tir342,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item810_1: R.Object = kv_cache[8]
            lv336: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item810_1, lv_relax_squeeze168, sinfo_args=(R.Object,))
            lv_tuple_item910_1: R.Object = kv_cache[9]
            lv337: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item910_1, lv_fused_reshape12_squeeze14, sinfo_args=(R.Object,))
            lv338: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv336, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv339: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv337, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape511 = R.call_tir(cls.reshape5, (lv338,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape512 = R.call_tir(cls.reshape5, (lv339,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3168 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape511,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3169 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape512,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1012 = R.call_tir(cls.transpose8, (lv_relax_call_tir341,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul6 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3168, lv_relax_permute_dims1012), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast34 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul6, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast44 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast34,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul761 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast44, lv_fused_repeat_transpose3169), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape134 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul761,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1811: R.Tensor((4096, 8192), dtype="float16") = params[181]
            lv_relax_call_dps_packed676 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape134,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas4 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item1811, lv_relax_call_dps_packed676), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed677 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas4,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul14 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed677,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add168 = R.call_tir(cls.add1, (lv_relax_add167, lv_fused_relax_permute_dims_relax_matmul14), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1010: R.Tensor((8192,), dtype="float16") = params[10]
            lv_fused_rms_norm170 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add168, lv_tuple_item1010), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed678 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm170,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1821: R.Tensor((8192, 28672), dtype="float16") = params[182]
            lv_fused_relax_matmul3_cublas4 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed678, lv_tuple_item1821), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed679 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas4,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul314 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed679,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply14 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul314,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item1831: R.Tensor((4096, 28672), dtype="float16") = params[183]
            lv_relax_call_dps_packed680 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply14,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas4 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item1831, lv_relax_call_dps_packed680), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed681 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas4,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul24 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed681,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add169 = R.call_tir(cls.add1, (lv_relax_add168, lv_fused_relax_permute_dims_relax_matmul24), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1110: R.Tensor((8192,), dtype="float16") = params[11]
            lv_fused_rms_norm171 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add169, lv_tuple_item1110), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed682 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm171,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1841: R.Tensor((8192, 5120), dtype="float16") = params[184]
            lv_fused_relax_matmul2_cublas5 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed682, lv_tuple_item1841), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed683 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas5,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul215 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed683,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split5 = R.call_tir(cls.split2, (lv_fused_relax_matmul215,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item05: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split5[0]
            lv_fused_reshape115 = R.call_tir(cls.fused_reshape11, (lv_tuple_item05,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item15: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split5[1]
            lv_fused_reshape125 = R.call_tir(cls.fused_reshape12, (lv_tuple_item15,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item25: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split5[2]
            lv_fused_reshape12_squeeze15 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item25,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162170: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163170: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir345 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape115, lv_tuple_item162170, lv_tuple_item163170), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162171: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163171: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir346 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape125, lv_tuple_item162171, lv_tuple_item163171), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze170 = R.call_tir(cls.squeeze1, (lv_relax_call_tir346,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1010_1: R.Object = kv_cache[10]
            lv340: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1010_1, lv_relax_squeeze170, sinfo_args=(R.Object,))
            lv_tuple_item1110_1: R.Object = kv_cache[11]
            lv341: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1110_1, lv_fused_reshape12_squeeze15, sinfo_args=(R.Object,))
            lv342: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv340, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv343: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv341, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape517 = R.call_tir(cls.reshape5, (lv342,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape518 = R.call_tir(cls.reshape5, (lv343,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3170 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape517,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3171 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape518,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1024 = R.call_tir(cls.transpose8, (lv_relax_call_tir345,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul7 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3170, lv_relax_permute_dims1024), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast35 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul7, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast45 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast35,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul770 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast45, lv_fused_repeat_transpose3171), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape135 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul770,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1851: R.Tensor((4096, 8192), dtype="float16") = params[185]
            lv_relax_call_dps_packed684 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape135,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas5 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item1851, lv_relax_call_dps_packed684), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed685 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas5,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul15 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed685,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add170 = R.call_tir(cls.add1, (lv_relax_add169, lv_fused_relax_permute_dims_relax_matmul15), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1210: R.Tensor((8192,), dtype="float16") = params[12]
            lv_fused_rms_norm172 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add170, lv_tuple_item1210), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed686 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm172,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1861: R.Tensor((8192, 28672), dtype="float16") = params[186]
            lv_fused_relax_matmul3_cublas5 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed686, lv_tuple_item1861), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed687 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas5,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul315 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed687,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply15 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul315,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item1871: R.Tensor((4096, 28672), dtype="float16") = params[187]
            lv_relax_call_dps_packed688 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply15,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas5 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item1871, lv_relax_call_dps_packed688), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed689 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas5,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul25 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed689,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add171 = R.call_tir(cls.add1, (lv_relax_add170, lv_fused_relax_permute_dims_relax_matmul25), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1310: R.Tensor((8192,), dtype="float16") = params[13]
            lv_fused_rms_norm173 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add171, lv_tuple_item1310), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed690 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm173,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1881: R.Tensor((8192, 5120), dtype="float16") = params[188]
            lv_fused_relax_matmul2_cublas6 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed690, lv_tuple_item1881), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed691 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas6,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul216 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed691,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split6 = R.call_tir(cls.split2, (lv_fused_relax_matmul216,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item06: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split6[0]
            lv_fused_reshape116 = R.call_tir(cls.fused_reshape11, (lv_tuple_item06,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item16: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split6[1]
            lv_fused_reshape126 = R.call_tir(cls.fused_reshape12, (lv_tuple_item16,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item26: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split6[2]
            lv_fused_reshape12_squeeze16 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item26,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162172: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163172: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir349 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape116, lv_tuple_item162172, lv_tuple_item163172), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162173: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163173: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir350 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape126, lv_tuple_item162173, lv_tuple_item163173), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze172 = R.call_tir(cls.squeeze1, (lv_relax_call_tir350,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1210_1: R.Object = kv_cache[12]
            lv344: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1210_1, lv_relax_squeeze172, sinfo_args=(R.Object,))
            lv_tuple_item1310_1: R.Object = kv_cache[13]
            lv345: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1310_1, lv_fused_reshape12_squeeze16, sinfo_args=(R.Object,))
            lv346: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv344, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv347: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv345, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape523 = R.call_tir(cls.reshape5, (lv346,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape524 = R.call_tir(cls.reshape5, (lv347,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3172 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape523,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3173 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape524,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1036 = R.call_tir(cls.transpose8, (lv_relax_call_tir349,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul8 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3172, lv_relax_permute_dims1036), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast36 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul8, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast46 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast36,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul779 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast46, lv_fused_repeat_transpose3173), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape136 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul779,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1891: R.Tensor((4096, 8192), dtype="float16") = params[189]
            lv_relax_call_dps_packed692 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape136,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas6 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item1891, lv_relax_call_dps_packed692), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed693 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas6,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul16 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed693,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add172 = R.call_tir(cls.add1, (lv_relax_add171, lv_fused_relax_permute_dims_relax_matmul16), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1410: R.Tensor((8192,), dtype="float16") = params[14]
            lv_fused_rms_norm174 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add172, lv_tuple_item1410), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed694 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm174,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1901: R.Tensor((8192, 28672), dtype="float16") = params[190]
            lv_fused_relax_matmul3_cublas6 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed694, lv_tuple_item1901), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed695 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas6,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul316 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed695,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply16 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul316,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item1911: R.Tensor((4096, 28672), dtype="float16") = params[191]
            lv_relax_call_dps_packed696 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply16,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas6 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item1911, lv_relax_call_dps_packed696), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed697 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas6,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul26 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed697,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add173 = R.call_tir(cls.add1, (lv_relax_add172, lv_fused_relax_permute_dims_relax_matmul26), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1510: R.Tensor((8192,), dtype="float16") = params[15]
            lv_fused_rms_norm175 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add173, lv_tuple_item1510), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed698 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm175,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1921: R.Tensor((8192, 5120), dtype="float16") = params[192]
            lv_fused_relax_matmul2_cublas7 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed698, lv_tuple_item1921), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed699 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas7,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul217 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed699,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split7 = R.call_tir(cls.split2, (lv_fused_relax_matmul217,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item07: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split7[0]
            lv_fused_reshape117 = R.call_tir(cls.fused_reshape11, (lv_tuple_item07,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item17: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split7[1]
            lv_fused_reshape127 = R.call_tir(cls.fused_reshape12, (lv_tuple_item17,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item27: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split7[2]
            lv_fused_reshape12_squeeze17 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item27,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162174: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163174: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir353 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape117, lv_tuple_item162174, lv_tuple_item163174), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162175: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163175: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir354 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape127, lv_tuple_item162175, lv_tuple_item163175), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze174 = R.call_tir(cls.squeeze1, (lv_relax_call_tir354,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1410_1: R.Object = kv_cache[14]
            lv348: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1410_1, lv_relax_squeeze174, sinfo_args=(R.Object,))
            lv_tuple_item1510_1: R.Object = kv_cache[15]
            lv349: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1510_1, lv_fused_reshape12_squeeze17, sinfo_args=(R.Object,))
            lv350: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv348, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv351: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv349, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape529 = R.call_tir(cls.reshape5, (lv350,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape530 = R.call_tir(cls.reshape5, (lv351,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3174 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape529,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3175 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape530,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1048 = R.call_tir(cls.transpose8, (lv_relax_call_tir353,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul9 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3174, lv_relax_permute_dims1048), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast37 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul9, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast47 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast37,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul788 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast47, lv_fused_repeat_transpose3175), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape137 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul788,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1931: R.Tensor((4096, 8192), dtype="float16") = params[193]
            lv_relax_call_dps_packed700 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape137,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas7 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item1931, lv_relax_call_dps_packed700), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed701 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas7,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul17 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed701,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add174 = R.call_tir(cls.add1, (lv_relax_add173, lv_fused_relax_permute_dims_relax_matmul17), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1610: R.Tensor((8192,), dtype="float16") = params[16]
            lv_fused_rms_norm176 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add174, lv_tuple_item1610), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed702 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm176,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1941: R.Tensor((8192, 28672), dtype="float16") = params[194]
            lv_fused_relax_matmul3_cublas7 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed702, lv_tuple_item1941), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed703 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas7,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul317 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed703,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply17 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul317,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item1951: R.Tensor((4096, 28672), dtype="float16") = params[195]
            lv_relax_call_dps_packed704 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply17,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas7 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item1951, lv_relax_call_dps_packed704), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed705 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas7,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul27 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed705,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add175 = R.call_tir(cls.add1, (lv_relax_add174, lv_fused_relax_permute_dims_relax_matmul27), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1710: R.Tensor((8192,), dtype="float16") = params[17]
            lv_fused_rms_norm177 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add175, lv_tuple_item1710), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed706 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm177,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1961: R.Tensor((8192, 5120), dtype="float16") = params[196]
            lv_fused_relax_matmul2_cublas8 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed706, lv_tuple_item1961), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed707 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas8,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul218 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed707,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split8 = R.call_tir(cls.split2, (lv_fused_relax_matmul218,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item08: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split8[0]
            lv_fused_reshape118 = R.call_tir(cls.fused_reshape11, (lv_tuple_item08,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item18: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split8[1]
            lv_fused_reshape128 = R.call_tir(cls.fused_reshape12, (lv_tuple_item18,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item28: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split8[2]
            lv_fused_reshape12_squeeze18 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item28,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162176: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163176: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir357 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape118, lv_tuple_item162176, lv_tuple_item163176), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162177: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163177: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir358 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape128, lv_tuple_item162177, lv_tuple_item163177), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze176 = R.call_tir(cls.squeeze1, (lv_relax_call_tir358,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item161: R.Object = kv_cache[16]
            lv352: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item161, lv_relax_squeeze176, sinfo_args=(R.Object,))
            lv_tuple_item171: R.Object = kv_cache[17]
            lv353: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item171, lv_fused_reshape12_squeeze18, sinfo_args=(R.Object,))
            lv354: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv352, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv355: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv353, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape535 = R.call_tir(cls.reshape5, (lv354,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape536 = R.call_tir(cls.reshape5, (lv355,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3176 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape535,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3177 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape536,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1060 = R.call_tir(cls.transpose8, (lv_relax_call_tir357,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul10 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3176, lv_relax_permute_dims1060), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast38 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul10, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast48 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast38,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul797 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast48, lv_fused_repeat_transpose3177), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape138 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul797,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1971: R.Tensor((4096, 8192), dtype="float16") = params[197]
            lv_relax_call_dps_packed708 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape138,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas8 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item1971, lv_relax_call_dps_packed708), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed709 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas8,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul18 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed709,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add176 = R.call_tir(cls.add1, (lv_relax_add175, lv_fused_relax_permute_dims_relax_matmul18), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1810: R.Tensor((8192,), dtype="float16") = params[18]
            lv_fused_rms_norm178 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add176, lv_tuple_item1810), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed710 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm178,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1981: R.Tensor((8192, 28672), dtype="float16") = params[198]
            lv_fused_relax_matmul3_cublas8 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed710, lv_tuple_item1981), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed711 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas8,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul318 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed711,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply18 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul318,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item1991: R.Tensor((4096, 28672), dtype="float16") = params[199]
            lv_relax_call_dps_packed712 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply18,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas8 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item1991, lv_relax_call_dps_packed712), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed713 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas8,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul28 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed713,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add177 = R.call_tir(cls.add1, (lv_relax_add176, lv_fused_relax_permute_dims_relax_matmul28), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1910: R.Tensor((8192,), dtype="float16") = params[19]
            lv_fused_rms_norm179 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add177, lv_tuple_item1910), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed714 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm179,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2001: R.Tensor((8192, 5120), dtype="float16") = params[200]
            lv_fused_relax_matmul2_cublas9 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed714, lv_tuple_item2001), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed715 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas9,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul219 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed715,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split9 = R.call_tir(cls.split2, (lv_fused_relax_matmul219,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item09: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split9[0]
            lv_fused_reshape119 = R.call_tir(cls.fused_reshape11, (lv_tuple_item09,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item19: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split9[1]
            lv_fused_reshape129 = R.call_tir(cls.fused_reshape12, (lv_tuple_item19,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item29: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split9[2]
            lv_fused_reshape12_squeeze19 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item29,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162178: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163178: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir361 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape119, lv_tuple_item162178, lv_tuple_item163178), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162179: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163179: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir362 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape129, lv_tuple_item162179, lv_tuple_item163179), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze178 = R.call_tir(cls.squeeze1, (lv_relax_call_tir362,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item181: R.Object = kv_cache[18]
            lv356: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item181, lv_relax_squeeze178, sinfo_args=(R.Object,))
            lv_tuple_item191: R.Object = kv_cache[19]
            lv357: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item191, lv_fused_reshape12_squeeze19, sinfo_args=(R.Object,))
            lv358: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv356, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv359: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv357, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape541 = R.call_tir(cls.reshape5, (lv358,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape542 = R.call_tir(cls.reshape5, (lv359,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3178 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape541,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3179 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape542,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1072 = R.call_tir(cls.transpose8, (lv_relax_call_tir361,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul19 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3178, lv_relax_permute_dims1072), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast39 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul19, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast49 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast39,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul806 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast49, lv_fused_repeat_transpose3179), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape139 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul806,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2011: R.Tensor((4096, 8192), dtype="float16") = params[201]
            lv_relax_call_dps_packed716 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape139,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas9 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2011, lv_relax_call_dps_packed716), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed717 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas9,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul110 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed717,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add178 = R.call_tir(cls.add1, (lv_relax_add177, lv_fused_relax_permute_dims_relax_matmul110), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2010: R.Tensor((8192,), dtype="float16") = params[20]
            lv_fused_rms_norm180 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add178, lv_tuple_item2010), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed718 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm180,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2021: R.Tensor((8192, 28672), dtype="float16") = params[202]
            lv_fused_relax_matmul3_cublas9 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed718, lv_tuple_item2021), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed719 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas9,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul319 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed719,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply19 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul319,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2031: R.Tensor((4096, 28672), dtype="float16") = params[203]
            lv_relax_call_dps_packed720 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply19,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas9 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2031, lv_relax_call_dps_packed720), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed721 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas9,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul29 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed721,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add179 = R.call_tir(cls.add1, (lv_relax_add178, lv_fused_relax_permute_dims_relax_matmul29), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2110: R.Tensor((8192,), dtype="float16") = params[21]
            lv_fused_rms_norm181 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add179, lv_tuple_item2110), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed722 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm181,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2041: R.Tensor((8192, 5120), dtype="float16") = params[204]
            lv_fused_relax_matmul2_cublas10 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed722, lv_tuple_item2041), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed723 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas10,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul220 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed723,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split10 = R.call_tir(cls.split2, (lv_fused_relax_matmul220,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item010: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split10[0]
            lv_fused_reshape1110 = R.call_tir(cls.fused_reshape11, (lv_tuple_item010,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item110: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split10[1]
            lv_fused_reshape1210 = R.call_tir(cls.fused_reshape12, (lv_tuple_item110,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item210_1: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split10[2]
            lv_fused_reshape12_squeeze110 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item210_1,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162180: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163180: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir365 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1110, lv_tuple_item162180, lv_tuple_item163180), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162181: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163181: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir366 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1210, lv_tuple_item162181, lv_tuple_item163181), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze180 = R.call_tir(cls.squeeze1, (lv_relax_call_tir366,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item201: R.Object = kv_cache[20]
            lv360: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item201, lv_relax_squeeze180, sinfo_args=(R.Object,))
            lv_tuple_item211: R.Object = kv_cache[21]
            lv361: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item211, lv_fused_reshape12_squeeze110, sinfo_args=(R.Object,))
            lv362: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv360, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv363: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv361, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape547 = R.call_tir(cls.reshape5, (lv362,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape548 = R.call_tir(cls.reshape5, (lv363,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3180 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape547,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3181 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape548,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1084 = R.call_tir(cls.transpose8, (lv_relax_call_tir365,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul20 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3180, lv_relax_permute_dims1084), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast310 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul20, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast410 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast310,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul815 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast410, lv_fused_repeat_transpose3181), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1310 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul815,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2051: R.Tensor((4096, 8192), dtype="float16") = params[205]
            lv_relax_call_dps_packed724 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1310,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas10 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2051, lv_relax_call_dps_packed724), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed725 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas10,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul111 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed725,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add180 = R.call_tir(cls.add1, (lv_relax_add179, lv_fused_relax_permute_dims_relax_matmul111), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2210: R.Tensor((8192,), dtype="float16") = params[22]
            lv_fused_rms_norm182 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add180, lv_tuple_item2210), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed726 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm182,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2061: R.Tensor((8192, 28672), dtype="float16") = params[206]
            lv_fused_relax_matmul3_cublas10 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed726, lv_tuple_item2061), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed727 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas10,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul320 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed727,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply110 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul320,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2071: R.Tensor((4096, 28672), dtype="float16") = params[207]
            lv_relax_call_dps_packed728 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply110,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas10 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2071, lv_relax_call_dps_packed728), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed729 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas10,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul210 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed729,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add181 = R.call_tir(cls.add1, (lv_relax_add180, lv_fused_relax_permute_dims_relax_matmul210), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2310: R.Tensor((8192,), dtype="float16") = params[23]
            lv_fused_rms_norm183 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add181, lv_tuple_item2310), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed730 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm183,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2081: R.Tensor((8192, 5120), dtype="float16") = params[208]
            lv_fused_relax_matmul2_cublas11 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed730, lv_tuple_item2081), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed731 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas11,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul221 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed731,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split11 = R.call_tir(cls.split2, (lv_fused_relax_matmul221,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item011: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split11[0]
            lv_fused_reshape1111 = R.call_tir(cls.fused_reshape11, (lv_tuple_item011,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item111: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split11[1]
            lv_fused_reshape1211 = R.call_tir(cls.fused_reshape12, (lv_tuple_item111,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item211_1: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split11[2]
            lv_fused_reshape12_squeeze111 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item211_1,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162182: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163182: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir369 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1111, lv_tuple_item162182, lv_tuple_item163182), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162183: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163183: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir370 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1211, lv_tuple_item162183, lv_tuple_item163183), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze182 = R.call_tir(cls.squeeze1, (lv_relax_call_tir370,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item221: R.Object = kv_cache[22]
            lv364: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item221, lv_relax_squeeze182, sinfo_args=(R.Object,))
            lv_tuple_item231: R.Object = kv_cache[23]
            lv365: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item231, lv_fused_reshape12_squeeze111, sinfo_args=(R.Object,))
            lv366: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv364, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv367: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv365, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape553 = R.call_tir(cls.reshape5, (lv366,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape554 = R.call_tir(cls.reshape5, (lv367,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3182 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape553,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3183 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape554,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1096 = R.call_tir(cls.transpose8, (lv_relax_call_tir369,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul30 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3182, lv_relax_permute_dims1096), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast311 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul30, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast411 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast311,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul824 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast411, lv_fused_repeat_transpose3183), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1311 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul824,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2091: R.Tensor((4096, 8192), dtype="float16") = params[209]
            lv_relax_call_dps_packed732 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1311,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas11 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2091, lv_relax_call_dps_packed732), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed733 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas11,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul112 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed733,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add182 = R.call_tir(cls.add1, (lv_relax_add181, lv_fused_relax_permute_dims_relax_matmul112), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2410: R.Tensor((8192,), dtype="float16") = params[24]
            lv_fused_rms_norm184 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add182, lv_tuple_item2410), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed734 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm184,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2101: R.Tensor((8192, 28672), dtype="float16") = params[210]
            lv_fused_relax_matmul3_cublas11 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed734, lv_tuple_item2101), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed735 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas11,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul321 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed735,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply111 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul321,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2111: R.Tensor((4096, 28672), dtype="float16") = params[211]
            lv_relax_call_dps_packed736 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply111,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas11 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2111, lv_relax_call_dps_packed736), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed737 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas11,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul211 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed737,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add183 = R.call_tir(cls.add1, (lv_relax_add182, lv_fused_relax_permute_dims_relax_matmul211), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2510: R.Tensor((8192,), dtype="float16") = params[25]
            lv_fused_rms_norm185 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add183, lv_tuple_item2510), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed738 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm185,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2121: R.Tensor((8192, 5120), dtype="float16") = params[212]
            lv_fused_relax_matmul2_cublas12 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed738, lv_tuple_item2121), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed739 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas12,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul222 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed739,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split12 = R.call_tir(cls.split2, (lv_fused_relax_matmul222,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item012: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split12[0]
            lv_fused_reshape1112 = R.call_tir(cls.fused_reshape11, (lv_tuple_item012,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item112: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split12[1]
            lv_fused_reshape1212 = R.call_tir(cls.fused_reshape12, (lv_tuple_item112,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item212: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split12[2]
            lv_fused_reshape12_squeeze112 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item212,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162184: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163184: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir373 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1112, lv_tuple_item162184, lv_tuple_item163184), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162185: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163185: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir374 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1212, lv_tuple_item162185, lv_tuple_item163185), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze184 = R.call_tir(cls.squeeze1, (lv_relax_call_tir374,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item241: R.Object = kv_cache[24]
            lv368: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item241, lv_relax_squeeze184, sinfo_args=(R.Object,))
            lv_tuple_item251: R.Object = kv_cache[25]
            lv369: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item251, lv_fused_reshape12_squeeze112, sinfo_args=(R.Object,))
            lv370: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv368, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv371: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv369, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape559 = R.call_tir(cls.reshape5, (lv370,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape560 = R.call_tir(cls.reshape5, (lv371,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3184 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape559,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3185 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape560,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1108 = R.call_tir(cls.transpose8, (lv_relax_call_tir373,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul31 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3184, lv_relax_permute_dims1108), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast312 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul31, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast412 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast312,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul833 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast412, lv_fused_repeat_transpose3185), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1312 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul833,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2131: R.Tensor((4096, 8192), dtype="float16") = params[213]
            lv_relax_call_dps_packed740 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1312,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas12 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2131, lv_relax_call_dps_packed740), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed741 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas12,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul113 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed741,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add184 = R.call_tir(cls.add1, (lv_relax_add183, lv_fused_relax_permute_dims_relax_matmul113), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2610: R.Tensor((8192,), dtype="float16") = params[26]
            lv_fused_rms_norm186 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add184, lv_tuple_item2610), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed742 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm186,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2141: R.Tensor((8192, 28672), dtype="float16") = params[214]
            lv_fused_relax_matmul3_cublas12 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed742, lv_tuple_item2141), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed743 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas12,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul322 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed743,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply112 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul322,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2151: R.Tensor((4096, 28672), dtype="float16") = params[215]
            lv_relax_call_dps_packed744 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply112,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas12 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2151, lv_relax_call_dps_packed744), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed745 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas12,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul212 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed745,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add185 = R.call_tir(cls.add1, (lv_relax_add184, lv_fused_relax_permute_dims_relax_matmul212), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2710: R.Tensor((8192,), dtype="float16") = params[27]
            lv_fused_rms_norm187 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add185, lv_tuple_item2710), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed746 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm187,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2161: R.Tensor((8192, 5120), dtype="float16") = params[216]
            lv_fused_relax_matmul2_cublas13 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed746, lv_tuple_item2161), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed747 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas13,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul223 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed747,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split13 = R.call_tir(cls.split2, (lv_fused_relax_matmul223,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item013: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split13[0]
            lv_fused_reshape1113 = R.call_tir(cls.fused_reshape11, (lv_tuple_item013,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item113: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split13[1]
            lv_fused_reshape1213 = R.call_tir(cls.fused_reshape12, (lv_tuple_item113,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item213: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split13[2]
            lv_fused_reshape12_squeeze113 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item213,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162186: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163186: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir377 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1113, lv_tuple_item162186, lv_tuple_item163186), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162187: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163187: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir378 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1213, lv_tuple_item162187, lv_tuple_item163187), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze186 = R.call_tir(cls.squeeze1, (lv_relax_call_tir378,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item261: R.Object = kv_cache[26]
            lv372: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item261, lv_relax_squeeze186, sinfo_args=(R.Object,))
            lv_tuple_item271: R.Object = kv_cache[27]
            lv373: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item271, lv_fused_reshape12_squeeze113, sinfo_args=(R.Object,))
            lv374: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv372, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv375: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv373, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape565 = R.call_tir(cls.reshape5, (lv374,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape566 = R.call_tir(cls.reshape5, (lv375,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3186 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape565,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3187 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape566,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1120 = R.call_tir(cls.transpose8, (lv_relax_call_tir377,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul32 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3186, lv_relax_permute_dims1120), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast313 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul32, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast413 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast313,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul842 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast413, lv_fused_repeat_transpose3187), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1313 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul842,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2171: R.Tensor((4096, 8192), dtype="float16") = params[217]
            lv_relax_call_dps_packed748 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1313,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas13 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2171, lv_relax_call_dps_packed748), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed749 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas13,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul114 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed749,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add186 = R.call_tir(cls.add1, (lv_relax_add185, lv_fused_relax_permute_dims_relax_matmul114), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2810: R.Tensor((8192,), dtype="float16") = params[28]
            lv_fused_rms_norm188 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add186, lv_tuple_item2810), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed750 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm188,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2181: R.Tensor((8192, 28672), dtype="float16") = params[218]
            lv_fused_relax_matmul3_cublas13 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed750, lv_tuple_item2181), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed751 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas13,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul323 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed751,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply113 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul323,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2191: R.Tensor((4096, 28672), dtype="float16") = params[219]
            lv_relax_call_dps_packed752 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply113,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas13 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2191, lv_relax_call_dps_packed752), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed753 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas13,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul213 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed753,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add187 = R.call_tir(cls.add1, (lv_relax_add186, lv_fused_relax_permute_dims_relax_matmul213), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2910: R.Tensor((8192,), dtype="float16") = params[29]
            lv_fused_rms_norm189 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add187, lv_tuple_item2910), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed754 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm189,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2201: R.Tensor((8192, 5120), dtype="float16") = params[220]
            lv_fused_relax_matmul2_cublas14 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed754, lv_tuple_item2201), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed755 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas14,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul224 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed755,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split14 = R.call_tir(cls.split2, (lv_fused_relax_matmul224,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item014: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split14[0]
            lv_fused_reshape1114 = R.call_tir(cls.fused_reshape11, (lv_tuple_item014,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item114: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split14[1]
            lv_fused_reshape1214 = R.call_tir(cls.fused_reshape12, (lv_tuple_item114,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item214: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split14[2]
            lv_fused_reshape12_squeeze114 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item214,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162188: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163188: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir381 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1114, lv_tuple_item162188, lv_tuple_item163188), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162189: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163189: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir382 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1214, lv_tuple_item162189, lv_tuple_item163189), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze188 = R.call_tir(cls.squeeze1, (lv_relax_call_tir382,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item281: R.Object = kv_cache[28]
            lv376: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item281, lv_relax_squeeze188, sinfo_args=(R.Object,))
            lv_tuple_item291: R.Object = kv_cache[29]
            lv377: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item291, lv_fused_reshape12_squeeze114, sinfo_args=(R.Object,))
            lv378: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv376, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv379: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv377, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape571 = R.call_tir(cls.reshape5, (lv378,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape572 = R.call_tir(cls.reshape5, (lv379,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3188 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape571,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3189 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape572,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1132 = R.call_tir(cls.transpose8, (lv_relax_call_tir381,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul33 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3188, lv_relax_permute_dims1132), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast314 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul33, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast414 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast314,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul851 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast414, lv_fused_repeat_transpose3189), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1314 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul851,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2211: R.Tensor((4096, 8192), dtype="float16") = params[221]
            lv_relax_call_dps_packed756 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1314,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas14 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2211, lv_relax_call_dps_packed756), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed757 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas14,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul115 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed757,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add188 = R.call_tir(cls.add1, (lv_relax_add187, lv_fused_relax_permute_dims_relax_matmul115), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3010: R.Tensor((8192,), dtype="float16") = params[30]
            lv_fused_rms_norm190 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add188, lv_tuple_item3010), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed758 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm190,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2221: R.Tensor((8192, 28672), dtype="float16") = params[222]
            lv_fused_relax_matmul3_cublas14 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed758, lv_tuple_item2221), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed759 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas14,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul324 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed759,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply114 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul324,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2231: R.Tensor((4096, 28672), dtype="float16") = params[223]
            lv_relax_call_dps_packed760 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply114,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas14 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2231, lv_relax_call_dps_packed760), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed761 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas14,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul214 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed761,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add189 = R.call_tir(cls.add1, (lv_relax_add188, lv_fused_relax_permute_dims_relax_matmul214), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3110: R.Tensor((8192,), dtype="float16") = params[31]
            lv_fused_rms_norm191 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add189, lv_tuple_item3110), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed762 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm191,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2241: R.Tensor((8192, 5120), dtype="float16") = params[224]
            lv_fused_relax_matmul2_cublas15 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed762, lv_tuple_item2241), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed763 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas15,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul225 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed763,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split15 = R.call_tir(cls.split2, (lv_fused_relax_matmul225,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item015: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split15[0]
            lv_fused_reshape1115 = R.call_tir(cls.fused_reshape11, (lv_tuple_item015,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item115: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split15[1]
            lv_fused_reshape1215 = R.call_tir(cls.fused_reshape12, (lv_tuple_item115,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item215: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split15[2]
            lv_fused_reshape12_squeeze115 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item215,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162190: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163190: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir385 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1115, lv_tuple_item162190, lv_tuple_item163190), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162191: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163191: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir386 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1215, lv_tuple_item162191, lv_tuple_item163191), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze190 = R.call_tir(cls.squeeze1, (lv_relax_call_tir386,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item301: R.Object = kv_cache[30]
            lv380: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item301, lv_relax_squeeze190, sinfo_args=(R.Object,))
            lv_tuple_item311: R.Object = kv_cache[31]
            lv381: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item311, lv_fused_reshape12_squeeze115, sinfo_args=(R.Object,))
            lv382: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv380, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv383: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv381, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape577 = R.call_tir(cls.reshape5, (lv382,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape578 = R.call_tir(cls.reshape5, (lv383,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3190 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape577,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3191 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape578,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1144 = R.call_tir(cls.transpose8, (lv_relax_call_tir385,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul34 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3190, lv_relax_permute_dims1144), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast315 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul34, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast415 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast315,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul860 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast415, lv_fused_repeat_transpose3191), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1315 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul860,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2251: R.Tensor((4096, 8192), dtype="float16") = params[225]
            lv_relax_call_dps_packed764 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1315,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas15 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2251, lv_relax_call_dps_packed764), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed765 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas15,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul116 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed765,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add190 = R.call_tir(cls.add1, (lv_relax_add189, lv_fused_relax_permute_dims_relax_matmul116), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3210: R.Tensor((8192,), dtype="float16") = params[32]
            lv_fused_rms_norm192 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add190, lv_tuple_item3210), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed766 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm192,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2261: R.Tensor((8192, 28672), dtype="float16") = params[226]
            lv_fused_relax_matmul3_cublas15 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed766, lv_tuple_item2261), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed767 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas15,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul325 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed767,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply115 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul325,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2271: R.Tensor((4096, 28672), dtype="float16") = params[227]
            lv_relax_call_dps_packed768 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply115,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas15 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2271, lv_relax_call_dps_packed768), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed769 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas15,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul215 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed769,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add191 = R.call_tir(cls.add1, (lv_relax_add190, lv_fused_relax_permute_dims_relax_matmul215), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3310: R.Tensor((8192,), dtype="float16") = params[33]
            lv_fused_rms_norm193 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add191, lv_tuple_item3310), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed770 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm193,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2281: R.Tensor((8192, 5120), dtype="float16") = params[228]
            lv_fused_relax_matmul2_cublas16 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed770, lv_tuple_item2281), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed771 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas16,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul226 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed771,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split16 = R.call_tir(cls.split2, (lv_fused_relax_matmul226,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item016: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split16[0]
            lv_fused_reshape1116 = R.call_tir(cls.fused_reshape11, (lv_tuple_item016,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item116: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split16[1]
            lv_fused_reshape1216 = R.call_tir(cls.fused_reshape12, (lv_tuple_item116,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item216: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split16[2]
            lv_fused_reshape12_squeeze116 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item216,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162192: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163192: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir389 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1116, lv_tuple_item162192, lv_tuple_item163192), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162193: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163193: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir390 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1216, lv_tuple_item162193, lv_tuple_item163193), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze192 = R.call_tir(cls.squeeze1, (lv_relax_call_tir390,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item321: R.Object = kv_cache[32]
            lv384: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item321, lv_relax_squeeze192, sinfo_args=(R.Object,))
            lv_tuple_item331: R.Object = kv_cache[33]
            lv385: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item331, lv_fused_reshape12_squeeze116, sinfo_args=(R.Object,))
            lv386: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv384, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv387: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv385, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape583 = R.call_tir(cls.reshape5, (lv386,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape584 = R.call_tir(cls.reshape5, (lv387,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3192 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape583,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3193 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape584,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1156 = R.call_tir(cls.transpose8, (lv_relax_call_tir389,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul35 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3192, lv_relax_permute_dims1156), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast316 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul35, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast416 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast316,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul869 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast416, lv_fused_repeat_transpose3193), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1316 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul869,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2291: R.Tensor((4096, 8192), dtype="float16") = params[229]
            lv_relax_call_dps_packed772 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1316,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas16 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2291, lv_relax_call_dps_packed772), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed773 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas16,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul117 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed773,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add192 = R.call_tir(cls.add1, (lv_relax_add191, lv_fused_relax_permute_dims_relax_matmul117), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3410: R.Tensor((8192,), dtype="float16") = params[34]
            lv_fused_rms_norm194 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add192, lv_tuple_item3410), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed774 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm194,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2301: R.Tensor((8192, 28672), dtype="float16") = params[230]
            lv_fused_relax_matmul3_cublas16 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed774, lv_tuple_item2301), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed775 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas16,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul326 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed775,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply116 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul326,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2311: R.Tensor((4096, 28672), dtype="float16") = params[231]
            lv_relax_call_dps_packed776 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply116,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas16 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2311, lv_relax_call_dps_packed776), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed777 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas16,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul216 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed777,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add193 = R.call_tir(cls.add1, (lv_relax_add192, lv_fused_relax_permute_dims_relax_matmul216), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3510: R.Tensor((8192,), dtype="float16") = params[35]
            lv_fused_rms_norm195 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add193, lv_tuple_item3510), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed778 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm195,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2321: R.Tensor((8192, 5120), dtype="float16") = params[232]
            lv_fused_relax_matmul2_cublas17 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed778, lv_tuple_item2321), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed779 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas17,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul227 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed779,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split17 = R.call_tir(cls.split2, (lv_fused_relax_matmul227,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item017: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split17[0]
            lv_fused_reshape1117 = R.call_tir(cls.fused_reshape11, (lv_tuple_item017,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item117: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split17[1]
            lv_fused_reshape1217 = R.call_tir(cls.fused_reshape12, (lv_tuple_item117,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item217: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split17[2]
            lv_fused_reshape12_squeeze117 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item217,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162194: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163194: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir393 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1117, lv_tuple_item162194, lv_tuple_item163194), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162195: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163195: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir394 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1217, lv_tuple_item162195, lv_tuple_item163195), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze194 = R.call_tir(cls.squeeze1, (lv_relax_call_tir394,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item341: R.Object = kv_cache[34]
            lv388: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item341, lv_relax_squeeze194, sinfo_args=(R.Object,))
            lv_tuple_item351: R.Object = kv_cache[35]
            lv389: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item351, lv_fused_reshape12_squeeze117, sinfo_args=(R.Object,))
            lv390: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv388, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv391: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv389, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape589 = R.call_tir(cls.reshape5, (lv390,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape590 = R.call_tir(cls.reshape5, (lv391,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3194 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape589,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3195 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape590,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1168 = R.call_tir(cls.transpose8, (lv_relax_call_tir393,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul36 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3194, lv_relax_permute_dims1168), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast317 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul36, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast417 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast317,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul878 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast417, lv_fused_repeat_transpose3195), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1317 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul878,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2331: R.Tensor((4096, 8192), dtype="float16") = params[233]
            lv_relax_call_dps_packed780 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1317,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas17 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2331, lv_relax_call_dps_packed780), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed781 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas17,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul118 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed781,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add194 = R.call_tir(cls.add1, (lv_relax_add193, lv_fused_relax_permute_dims_relax_matmul118), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3610: R.Tensor((8192,), dtype="float16") = params[36]
            lv_fused_rms_norm196 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add194, lv_tuple_item3610), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed782 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm196,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2341: R.Tensor((8192, 28672), dtype="float16") = params[234]
            lv_fused_relax_matmul3_cublas17 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed782, lv_tuple_item2341), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed783 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas17,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul327 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed783,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply117 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul327,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2351: R.Tensor((4096, 28672), dtype="float16") = params[235]
            lv_relax_call_dps_packed784 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply117,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas17 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2351, lv_relax_call_dps_packed784), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed785 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas17,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul217 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed785,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add195 = R.call_tir(cls.add1, (lv_relax_add194, lv_fused_relax_permute_dims_relax_matmul217), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3710: R.Tensor((8192,), dtype="float16") = params[37]
            lv_fused_rms_norm197 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add195, lv_tuple_item3710), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed786 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm197,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2361: R.Tensor((8192, 5120), dtype="float16") = params[236]
            lv_fused_relax_matmul2_cublas18 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed786, lv_tuple_item2361), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed787 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas18,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul228 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed787,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split18 = R.call_tir(cls.split2, (lv_fused_relax_matmul228,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item018: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split18[0]
            lv_fused_reshape1118 = R.call_tir(cls.fused_reshape11, (lv_tuple_item018,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item118: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split18[1]
            lv_fused_reshape1218 = R.call_tir(cls.fused_reshape12, (lv_tuple_item118,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item218: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split18[2]
            lv_fused_reshape12_squeeze118 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item218,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162196: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163196: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir397 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1118, lv_tuple_item162196, lv_tuple_item163196), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162197: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163197: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir398 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1218, lv_tuple_item162197, lv_tuple_item163197), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze196 = R.call_tir(cls.squeeze1, (lv_relax_call_tir398,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item361: R.Object = kv_cache[36]
            lv392: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item361, lv_relax_squeeze196, sinfo_args=(R.Object,))
            lv_tuple_item371: R.Object = kv_cache[37]
            lv393: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item371, lv_fused_reshape12_squeeze118, sinfo_args=(R.Object,))
            lv394: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv392, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv395: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv393, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape595 = R.call_tir(cls.reshape5, (lv394,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape596 = R.call_tir(cls.reshape5, (lv395,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3196 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape595,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3197 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape596,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1180 = R.call_tir(cls.transpose8, (lv_relax_call_tir397,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul37 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3196, lv_relax_permute_dims1180), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast318 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul37, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast418 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast318,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul887 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast418, lv_fused_repeat_transpose3197), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1318 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul887,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2371: R.Tensor((4096, 8192), dtype="float16") = params[237]
            lv_relax_call_dps_packed788 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1318,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas18 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2371, lv_relax_call_dps_packed788), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed789 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas18,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul119 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed789,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add196 = R.call_tir(cls.add1, (lv_relax_add195, lv_fused_relax_permute_dims_relax_matmul119), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3810: R.Tensor((8192,), dtype="float16") = params[38]
            lv_fused_rms_norm198 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add196, lv_tuple_item3810), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed790 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm198,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2381: R.Tensor((8192, 28672), dtype="float16") = params[238]
            lv_fused_relax_matmul3_cublas18 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed790, lv_tuple_item2381), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed791 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas18,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul328 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed791,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply118 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul328,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2391: R.Tensor((4096, 28672), dtype="float16") = params[239]
            lv_relax_call_dps_packed792 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply118,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas18 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2391, lv_relax_call_dps_packed792), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed793 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas18,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul218 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed793,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add197 = R.call_tir(cls.add1, (lv_relax_add196, lv_fused_relax_permute_dims_relax_matmul218), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3910: R.Tensor((8192,), dtype="float16") = params[39]
            lv_fused_rms_norm199 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add197, lv_tuple_item3910), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed794 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm199,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2401: R.Tensor((8192, 5120), dtype="float16") = params[240]
            lv_fused_relax_matmul2_cublas19 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed794, lv_tuple_item2401), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed795 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas19,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul229 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed795,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split19 = R.call_tir(cls.split2, (lv_fused_relax_matmul229,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item019: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split19[0]
            lv_fused_reshape1119 = R.call_tir(cls.fused_reshape11, (lv_tuple_item019,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item119: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split19[1]
            lv_fused_reshape1219 = R.call_tir(cls.fused_reshape12, (lv_tuple_item119,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item219: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split19[2]
            lv_fused_reshape12_squeeze119 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item219,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162198: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163198: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir401 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1119, lv_tuple_item162198, lv_tuple_item163198), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162199: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163199: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir402 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1219, lv_tuple_item162199, lv_tuple_item163199), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze198 = R.call_tir(cls.squeeze1, (lv_relax_call_tir402,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item381: R.Object = kv_cache[38]
            lv396: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item381, lv_relax_squeeze198, sinfo_args=(R.Object,))
            lv_tuple_item391: R.Object = kv_cache[39]
            lv397: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item391, lv_fused_reshape12_squeeze119, sinfo_args=(R.Object,))
            lv398: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv396, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv399: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv397, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape601 = R.call_tir(cls.reshape5, (lv398,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape602 = R.call_tir(cls.reshape5, (lv399,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3198 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape601,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3199 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape602,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1192 = R.call_tir(cls.transpose8, (lv_relax_call_tir401,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul38 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3198, lv_relax_permute_dims1192), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast319 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul38, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast419 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast319,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul896 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast419, lv_fused_repeat_transpose3199), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1319 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul896,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2411: R.Tensor((4096, 8192), dtype="float16") = params[241]
            lv_relax_call_dps_packed796 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1319,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas19 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2411, lv_relax_call_dps_packed796), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed797 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas19,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul120 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed797,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add198 = R.call_tir(cls.add1, (lv_relax_add197, lv_fused_relax_permute_dims_relax_matmul120), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4010: R.Tensor((8192,), dtype="float16") = params[40]
            lv_fused_rms_norm1100 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add198, lv_tuple_item4010), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed798 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1100,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2421: R.Tensor((8192, 28672), dtype="float16") = params[242]
            lv_fused_relax_matmul3_cublas19 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed798, lv_tuple_item2421), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed799 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas19,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul329 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed799,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply119 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul329,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2431: R.Tensor((4096, 28672), dtype="float16") = params[243]
            lv_relax_call_dps_packed800 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply119,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas19 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2431, lv_relax_call_dps_packed800), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed801 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas19,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul219 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed801,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add199 = R.call_tir(cls.add1, (lv_relax_add198, lv_fused_relax_permute_dims_relax_matmul219), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4110: R.Tensor((8192,), dtype="float16") = params[41]
            lv_fused_rms_norm1101 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add199, lv_tuple_item4110), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed802 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1101,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2441: R.Tensor((8192, 5120), dtype="float16") = params[244]
            lv_fused_relax_matmul2_cublas20 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed802, lv_tuple_item2441), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed803 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas20,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul230 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed803,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split20 = R.call_tir(cls.split2, (lv_fused_relax_matmul230,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item020: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split20[0]
            lv_fused_reshape1120 = R.call_tir(cls.fused_reshape11, (lv_tuple_item020,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item120: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split20[1]
            lv_fused_reshape1220 = R.call_tir(cls.fused_reshape12, (lv_tuple_item120,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item220: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split20[2]
            lv_fused_reshape12_squeeze120 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item220,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162200: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163200: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir405 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1120, lv_tuple_item162200, lv_tuple_item163200), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162201: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163201: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir406 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1220, lv_tuple_item162201, lv_tuple_item163201), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze200 = R.call_tir(cls.squeeze1, (lv_relax_call_tir406,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item401: R.Object = kv_cache[40]
            lv400: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item401, lv_relax_squeeze200, sinfo_args=(R.Object,))
            lv_tuple_item411: R.Object = kv_cache[41]
            lv401: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item411, lv_fused_reshape12_squeeze120, sinfo_args=(R.Object,))
            lv402: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv400, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv403: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv401, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape607 = R.call_tir(cls.reshape5, (lv402,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape608 = R.call_tir(cls.reshape5, (lv403,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3200 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape607,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3201 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape608,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1204 = R.call_tir(cls.transpose8, (lv_relax_call_tir405,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul39 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3200, lv_relax_permute_dims1204), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast320 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul39, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast420 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast320,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul905 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast420, lv_fused_repeat_transpose3201), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1320 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul905,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2451: R.Tensor((4096, 8192), dtype="float16") = params[245]
            lv_relax_call_dps_packed804 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1320,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas20 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2451, lv_relax_call_dps_packed804), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed805 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas20,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul121 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed805,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add200 = R.call_tir(cls.add1, (lv_relax_add199, lv_fused_relax_permute_dims_relax_matmul121), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4210: R.Tensor((8192,), dtype="float16") = params[42]
            lv_fused_rms_norm1102 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add200, lv_tuple_item4210), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed806 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1102,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2461: R.Tensor((8192, 28672), dtype="float16") = params[246]
            lv_fused_relax_matmul3_cublas20 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed806, lv_tuple_item2461), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed807 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas20,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul330 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed807,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply120 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul330,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2471: R.Tensor((4096, 28672), dtype="float16") = params[247]
            lv_relax_call_dps_packed808 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply120,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas20 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2471, lv_relax_call_dps_packed808), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed809 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas20,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul220 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed809,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add201 = R.call_tir(cls.add1, (lv_relax_add200, lv_fused_relax_permute_dims_relax_matmul220), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4310: R.Tensor((8192,), dtype="float16") = params[43]
            lv_fused_rms_norm1103 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add201, lv_tuple_item4310), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed810 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1103,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2481: R.Tensor((8192, 5120), dtype="float16") = params[248]
            lv_fused_relax_matmul2_cublas21 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed810, lv_tuple_item2481), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed811 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas21,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul231 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed811,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split21 = R.call_tir(cls.split2, (lv_fused_relax_matmul231,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item021: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split21[0]
            lv_fused_reshape1121 = R.call_tir(cls.fused_reshape11, (lv_tuple_item021,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item121: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split21[1]
            lv_fused_reshape1221 = R.call_tir(cls.fused_reshape12, (lv_tuple_item121,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item221_1: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split21[2]
            lv_fused_reshape12_squeeze121 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item221_1,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162202: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163202: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir409 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1121, lv_tuple_item162202, lv_tuple_item163202), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162203: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163203: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir410 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1221, lv_tuple_item162203, lv_tuple_item163203), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze202 = R.call_tir(cls.squeeze1, (lv_relax_call_tir410,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item421: R.Object = kv_cache[42]
            lv404: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item421, lv_relax_squeeze202, sinfo_args=(R.Object,))
            lv_tuple_item431: R.Object = kv_cache[43]
            lv405: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item431, lv_fused_reshape12_squeeze121, sinfo_args=(R.Object,))
            lv406: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv404, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv407: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv405, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape613 = R.call_tir(cls.reshape5, (lv406,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape614 = R.call_tir(cls.reshape5, (lv407,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3202 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape613,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3203 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape614,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1216 = R.call_tir(cls.transpose8, (lv_relax_call_tir409,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul40 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3202, lv_relax_permute_dims1216), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast321 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul40, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast421 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast321,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul914 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast421, lv_fused_repeat_transpose3203), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1321 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul914,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2491: R.Tensor((4096, 8192), dtype="float16") = params[249]
            lv_relax_call_dps_packed812 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1321,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas21 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2491, lv_relax_call_dps_packed812), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed813 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas21,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul122 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed813,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add202 = R.call_tir(cls.add1, (lv_relax_add201, lv_fused_relax_permute_dims_relax_matmul122), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4410: R.Tensor((8192,), dtype="float16") = params[44]
            lv_fused_rms_norm1104 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add202, lv_tuple_item4410), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed814 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1104,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2501: R.Tensor((8192, 28672), dtype="float16") = params[250]
            lv_fused_relax_matmul3_cublas21 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed814, lv_tuple_item2501), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed815 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas21,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul331 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed815,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply121 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul331,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2511: R.Tensor((4096, 28672), dtype="float16") = params[251]
            lv_relax_call_dps_packed816 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply121,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas21 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2511, lv_relax_call_dps_packed816), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed817 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas21,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul221 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed817,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add203 = R.call_tir(cls.add1, (lv_relax_add202, lv_fused_relax_permute_dims_relax_matmul221), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4510: R.Tensor((8192,), dtype="float16") = params[45]
            lv_fused_rms_norm1105 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add203, lv_tuple_item4510), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed818 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1105,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2521: R.Tensor((8192, 5120), dtype="float16") = params[252]
            lv_fused_relax_matmul2_cublas22 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed818, lv_tuple_item2521), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed819 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas22,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul232 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed819,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split22 = R.call_tir(cls.split2, (lv_fused_relax_matmul232,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item022: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split22[0]
            lv_fused_reshape1122 = R.call_tir(cls.fused_reshape11, (lv_tuple_item022,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item122: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split22[1]
            lv_fused_reshape1222 = R.call_tir(cls.fused_reshape12, (lv_tuple_item122,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item222: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split22[2]
            lv_fused_reshape12_squeeze122 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item222,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162204: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163204: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir413 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1122, lv_tuple_item162204, lv_tuple_item163204), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162205: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163205: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir414 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1222, lv_tuple_item162205, lv_tuple_item163205), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze204 = R.call_tir(cls.squeeze1, (lv_relax_call_tir414,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item441: R.Object = kv_cache[44]
            lv408: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item441, lv_relax_squeeze204, sinfo_args=(R.Object,))
            lv_tuple_item451: R.Object = kv_cache[45]
            lv409: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item451, lv_fused_reshape12_squeeze122, sinfo_args=(R.Object,))
            lv410: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv408, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv411: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv409, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape619 = R.call_tir(cls.reshape5, (lv410,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape620 = R.call_tir(cls.reshape5, (lv411,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3204 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape619,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3205 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape620,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1228 = R.call_tir(cls.transpose8, (lv_relax_call_tir413,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul41 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3204, lv_relax_permute_dims1228), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast322 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul41, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast422 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast322,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul923 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast422, lv_fused_repeat_transpose3205), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1322 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul923,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2531: R.Tensor((4096, 8192), dtype="float16") = params[253]
            lv_relax_call_dps_packed820 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1322,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas22 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2531, lv_relax_call_dps_packed820), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed821 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas22,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul123 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed821,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add204 = R.call_tir(cls.add1, (lv_relax_add203, lv_fused_relax_permute_dims_relax_matmul123), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4610: R.Tensor((8192,), dtype="float16") = params[46]
            lv_fused_rms_norm1106 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add204, lv_tuple_item4610), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed822 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1106,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2541: R.Tensor((8192, 28672), dtype="float16") = params[254]
            lv_fused_relax_matmul3_cublas22 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed822, lv_tuple_item2541), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed823 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas22,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul332 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed823,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply122 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul332,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2551: R.Tensor((4096, 28672), dtype="float16") = params[255]
            lv_relax_call_dps_packed824 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply122,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas22 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2551, lv_relax_call_dps_packed824), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed825 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas22,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul222 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed825,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add205 = R.call_tir(cls.add1, (lv_relax_add204, lv_fused_relax_permute_dims_relax_matmul222), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4710: R.Tensor((8192,), dtype="float16") = params[47]
            lv_fused_rms_norm1107 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add205, lv_tuple_item4710), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed826 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1107,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2561: R.Tensor((8192, 5120), dtype="float16") = params[256]
            lv_fused_relax_matmul2_cublas23 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed826, lv_tuple_item2561), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed827 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas23,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul233 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed827,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split23 = R.call_tir(cls.split2, (lv_fused_relax_matmul233,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item023: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split23[0]
            lv_fused_reshape1123 = R.call_tir(cls.fused_reshape11, (lv_tuple_item023,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item123: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split23[1]
            lv_fused_reshape1223 = R.call_tir(cls.fused_reshape12, (lv_tuple_item123,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item223: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split23[2]
            lv_fused_reshape12_squeeze123 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item223,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162206: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163206: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir417 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1123, lv_tuple_item162206, lv_tuple_item163206), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162207: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163207: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir418 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1223, lv_tuple_item162207, lv_tuple_item163207), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze206 = R.call_tir(cls.squeeze1, (lv_relax_call_tir418,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item461: R.Object = kv_cache[46]
            lv412: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item461, lv_relax_squeeze206, sinfo_args=(R.Object,))
            lv_tuple_item471: R.Object = kv_cache[47]
            lv413: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item471, lv_fused_reshape12_squeeze123, sinfo_args=(R.Object,))
            lv414: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv412, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv415: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv413, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape625 = R.call_tir(cls.reshape5, (lv414,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape626 = R.call_tir(cls.reshape5, (lv415,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3206 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape625,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3207 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape626,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1240 = R.call_tir(cls.transpose8, (lv_relax_call_tir417,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul42 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3206, lv_relax_permute_dims1240), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast323 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul42, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast423 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast323,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul932 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast423, lv_fused_repeat_transpose3207), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1323 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul932,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2571: R.Tensor((4096, 8192), dtype="float16") = params[257]
            lv_relax_call_dps_packed828 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1323,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas23 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2571, lv_relax_call_dps_packed828), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed829 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas23,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul124 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed829,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add206 = R.call_tir(cls.add1, (lv_relax_add205, lv_fused_relax_permute_dims_relax_matmul124), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item486: R.Tensor((8192,), dtype="float16") = params[48]
            lv_fused_rms_norm1108 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add206, lv_tuple_item486), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed830 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1108,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2581: R.Tensor((8192, 28672), dtype="float16") = params[258]
            lv_fused_relax_matmul3_cublas23 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed830, lv_tuple_item2581), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed831 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas23,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul333 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed831,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply123 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul333,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2591: R.Tensor((4096, 28672), dtype="float16") = params[259]
            lv_relax_call_dps_packed832 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply123,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas23 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2591, lv_relax_call_dps_packed832), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed833 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas23,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul223 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed833,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add207 = R.call_tir(cls.add1, (lv_relax_add206, lv_fused_relax_permute_dims_relax_matmul223), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item491: R.Tensor((8192,), dtype="float16") = params[49]
            lv_fused_rms_norm1109 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add207, lv_tuple_item491), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed834 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1109,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2601: R.Tensor((8192, 5120), dtype="float16") = params[260]
            lv_fused_relax_matmul2_cublas24 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed834, lv_tuple_item2601), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed835 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas24,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul234 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed835,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split24 = R.call_tir(cls.split2, (lv_fused_relax_matmul234,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item024: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split24[0]
            lv_fused_reshape1124 = R.call_tir(cls.fused_reshape11, (lv_tuple_item024,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item124: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split24[1]
            lv_fused_reshape1224 = R.call_tir(cls.fused_reshape12, (lv_tuple_item124,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item224: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split24[2]
            lv_fused_reshape12_squeeze124 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item224,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162208: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163208: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir421 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1124, lv_tuple_item162208, lv_tuple_item163208), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162209: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163209: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir422 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1224, lv_tuple_item162209, lv_tuple_item163209), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze208 = R.call_tir(cls.squeeze1, (lv_relax_call_tir422,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item481: R.Object = kv_cache[48]
            lv416: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item481, lv_relax_squeeze208, sinfo_args=(R.Object,))
            lv_tuple_item491_1: R.Object = kv_cache[49]
            lv417: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item491_1, lv_fused_reshape12_squeeze124, sinfo_args=(R.Object,))
            lv418: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv416, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv419: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv417, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape631 = R.call_tir(cls.reshape5, (lv418,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape632 = R.call_tir(cls.reshape5, (lv419,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3208 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape631,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3209 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape632,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1252 = R.call_tir(cls.transpose8, (lv_relax_call_tir421,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul43 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3208, lv_relax_permute_dims1252), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast324 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul43, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast424 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast324,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul941 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast424, lv_fused_repeat_transpose3209), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1324 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul941,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2611: R.Tensor((4096, 8192), dtype="float16") = params[261]
            lv_relax_call_dps_packed836 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1324,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas24 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2611, lv_relax_call_dps_packed836), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed837 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas24,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul125 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed837,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add208 = R.call_tir(cls.add1, (lv_relax_add207, lv_fused_relax_permute_dims_relax_matmul125), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item501: R.Tensor((8192,), dtype="float16") = params[50]
            lv_fused_rms_norm1110 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add208, lv_tuple_item501), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed838 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1110,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2621: R.Tensor((8192, 28672), dtype="float16") = params[262]
            lv_fused_relax_matmul3_cublas24 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed838, lv_tuple_item2621), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed839 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas24,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul334 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed839,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply124 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul334,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2631: R.Tensor((4096, 28672), dtype="float16") = params[263]
            lv_relax_call_dps_packed840 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply124,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas24 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2631, lv_relax_call_dps_packed840), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed841 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas24,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul224 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed841,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add209 = R.call_tir(cls.add1, (lv_relax_add208, lv_fused_relax_permute_dims_relax_matmul224), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item511: R.Tensor((8192,), dtype="float16") = params[51]
            lv_fused_rms_norm1111 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add209, lv_tuple_item511), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed842 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1111,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2641: R.Tensor((8192, 5120), dtype="float16") = params[264]
            lv_fused_relax_matmul2_cublas25 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed842, lv_tuple_item2641), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed843 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas25,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul235 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed843,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split25 = R.call_tir(cls.split2, (lv_fused_relax_matmul235,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item025: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split25[0]
            lv_fused_reshape1125 = R.call_tir(cls.fused_reshape11, (lv_tuple_item025,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item125: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split25[1]
            lv_fused_reshape1225 = R.call_tir(cls.fused_reshape12, (lv_tuple_item125,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item225: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split25[2]
            lv_fused_reshape12_squeeze125 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item225,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162210: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163210: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir425 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1125, lv_tuple_item162210, lv_tuple_item163210), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162211: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163211: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir426 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1225, lv_tuple_item162211, lv_tuple_item163211), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze210 = R.call_tir(cls.squeeze1, (lv_relax_call_tir426,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item501_1: R.Object = kv_cache[50]
            lv420: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item501_1, lv_relax_squeeze210, sinfo_args=(R.Object,))
            lv_tuple_item511_1: R.Object = kv_cache[51]
            lv421: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item511_1, lv_fused_reshape12_squeeze125, sinfo_args=(R.Object,))
            lv422: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv420, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv423: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv421, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape637 = R.call_tir(cls.reshape5, (lv422,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape638 = R.call_tir(cls.reshape5, (lv423,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3210 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape637,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3211 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape638,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1264 = R.call_tir(cls.transpose8, (lv_relax_call_tir425,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul44 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3210, lv_relax_permute_dims1264), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast325 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul44, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast425 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast325,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul950 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast425, lv_fused_repeat_transpose3211), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1325 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul950,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2651: R.Tensor((4096, 8192), dtype="float16") = params[265]
            lv_relax_call_dps_packed844 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1325,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas25 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2651, lv_relax_call_dps_packed844), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed845 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas25,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul126 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed845,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add210 = R.call_tir(cls.add1, (lv_relax_add209, lv_fused_relax_permute_dims_relax_matmul126), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item521: R.Tensor((8192,), dtype="float16") = params[52]
            lv_fused_rms_norm1112 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add210, lv_tuple_item521), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed846 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1112,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2661: R.Tensor((8192, 28672), dtype="float16") = params[266]
            lv_fused_relax_matmul3_cublas25 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed846, lv_tuple_item2661), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed847 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas25,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul335 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed847,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply125 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul335,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2671: R.Tensor((4096, 28672), dtype="float16") = params[267]
            lv_relax_call_dps_packed848 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply125,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas25 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2671, lv_relax_call_dps_packed848), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed849 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas25,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul225 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed849,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add211 = R.call_tir(cls.add1, (lv_relax_add210, lv_fused_relax_permute_dims_relax_matmul225), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item531: R.Tensor((8192,), dtype="float16") = params[53]
            lv_fused_rms_norm1113 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add211, lv_tuple_item531), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed850 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1113,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2681: R.Tensor((8192, 5120), dtype="float16") = params[268]
            lv_fused_relax_matmul2_cublas26 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed850, lv_tuple_item2681), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed851 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas26,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul236 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed851,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split26 = R.call_tir(cls.split2, (lv_fused_relax_matmul236,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item026: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split26[0]
            lv_fused_reshape1126 = R.call_tir(cls.fused_reshape11, (lv_tuple_item026,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item126: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split26[1]
            lv_fused_reshape1226 = R.call_tir(cls.fused_reshape12, (lv_tuple_item126,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item226: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split26[2]
            lv_fused_reshape12_squeeze126 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item226,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162212: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163212: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir429 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1126, lv_tuple_item162212, lv_tuple_item163212), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162213: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163213: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir430 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1226, lv_tuple_item162213, lv_tuple_item163213), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze212 = R.call_tir(cls.squeeze1, (lv_relax_call_tir430,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item521_1: R.Object = kv_cache[52]
            lv424: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item521_1, lv_relax_squeeze212, sinfo_args=(R.Object,))
            lv_tuple_item531_1: R.Object = kv_cache[53]
            lv425: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item531_1, lv_fused_reshape12_squeeze126, sinfo_args=(R.Object,))
            lv426: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv424, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv427: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv425, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape643 = R.call_tir(cls.reshape5, (lv426,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape644 = R.call_tir(cls.reshape5, (lv427,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3212 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape643,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3213 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape644,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1276 = R.call_tir(cls.transpose8, (lv_relax_call_tir429,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul45 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3212, lv_relax_permute_dims1276), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast326 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul45, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast426 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast326,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul959 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast426, lv_fused_repeat_transpose3213), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1326 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul959,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2691: R.Tensor((4096, 8192), dtype="float16") = params[269]
            lv_relax_call_dps_packed852 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1326,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas26 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2691, lv_relax_call_dps_packed852), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed853 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas26,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul127 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed853,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add212 = R.call_tir(cls.add1, (lv_relax_add211, lv_fused_relax_permute_dims_relax_matmul127), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item541: R.Tensor((8192,), dtype="float16") = params[54]
            lv_fused_rms_norm1114 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add212, lv_tuple_item541), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed854 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1114,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2701: R.Tensor((8192, 28672), dtype="float16") = params[270]
            lv_fused_relax_matmul3_cublas26 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed854, lv_tuple_item2701), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed855 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas26,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul336 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed855,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply126 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul336,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2711: R.Tensor((4096, 28672), dtype="float16") = params[271]
            lv_relax_call_dps_packed856 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply126,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas26 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2711, lv_relax_call_dps_packed856), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed857 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas26,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul226 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed857,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add213 = R.call_tir(cls.add1, (lv_relax_add212, lv_fused_relax_permute_dims_relax_matmul226), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item551: R.Tensor((8192,), dtype="float16") = params[55]
            lv_fused_rms_norm1115 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add213, lv_tuple_item551), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed858 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1115,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2721: R.Tensor((8192, 5120), dtype="float16") = params[272]
            lv_fused_relax_matmul2_cublas27 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed858, lv_tuple_item2721), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed859 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas27,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul237 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed859,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split27 = R.call_tir(cls.split2, (lv_fused_relax_matmul237,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item027: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split27[0]
            lv_fused_reshape1127 = R.call_tir(cls.fused_reshape11, (lv_tuple_item027,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item127: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split27[1]
            lv_fused_reshape1227 = R.call_tir(cls.fused_reshape12, (lv_tuple_item127,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item227: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split27[2]
            lv_fused_reshape12_squeeze127 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item227,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162214: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163214: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir433 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1127, lv_tuple_item162214, lv_tuple_item163214), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162215: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163215: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir434 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1227, lv_tuple_item162215, lv_tuple_item163215), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze214 = R.call_tir(cls.squeeze1, (lv_relax_call_tir434,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item541_1: R.Object = kv_cache[54]
            lv428: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item541_1, lv_relax_squeeze214, sinfo_args=(R.Object,))
            lv_tuple_item551_1: R.Object = kv_cache[55]
            lv429: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item551_1, lv_fused_reshape12_squeeze127, sinfo_args=(R.Object,))
            lv430: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv428, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv431: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv429, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape649 = R.call_tir(cls.reshape5, (lv430,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape650 = R.call_tir(cls.reshape5, (lv431,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3214 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape649,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3215 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape650,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1288 = R.call_tir(cls.transpose8, (lv_relax_call_tir433,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul46 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3214, lv_relax_permute_dims1288), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast327 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul46, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast427 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast327,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul968 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast427, lv_fused_repeat_transpose3215), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1327 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul968,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2731: R.Tensor((4096, 8192), dtype="float16") = params[273]
            lv_relax_call_dps_packed860 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1327,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas27 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2731, lv_relax_call_dps_packed860), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed861 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas27,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul128 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed861,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add214 = R.call_tir(cls.add1, (lv_relax_add213, lv_fused_relax_permute_dims_relax_matmul128), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item561: R.Tensor((8192,), dtype="float16") = params[56]
            lv_fused_rms_norm1116 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add214, lv_tuple_item561), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed862 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1116,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2741: R.Tensor((8192, 28672), dtype="float16") = params[274]
            lv_fused_relax_matmul3_cublas27 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed862, lv_tuple_item2741), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed863 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas27,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul337 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed863,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply127 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul337,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2751: R.Tensor((4096, 28672), dtype="float16") = params[275]
            lv_relax_call_dps_packed864 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply127,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas27 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2751, lv_relax_call_dps_packed864), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed865 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas27,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul227 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed865,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add215 = R.call_tir(cls.add1, (lv_relax_add214, lv_fused_relax_permute_dims_relax_matmul227), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item571: R.Tensor((8192,), dtype="float16") = params[57]
            lv_fused_rms_norm1117 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add215, lv_tuple_item571), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed866 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1117,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2761: R.Tensor((8192, 5120), dtype="float16") = params[276]
            lv_fused_relax_matmul2_cublas28 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed866, lv_tuple_item2761), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed867 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas28,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul238 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed867,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split28 = R.call_tir(cls.split2, (lv_fused_relax_matmul238,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item028: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split28[0]
            lv_fused_reshape1128 = R.call_tir(cls.fused_reshape11, (lv_tuple_item028,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item128: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split28[1]
            lv_fused_reshape1228 = R.call_tir(cls.fused_reshape12, (lv_tuple_item128,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item228: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split28[2]
            lv_fused_reshape12_squeeze128 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item228,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162216: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163216: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir437 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1128, lv_tuple_item162216, lv_tuple_item163216), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162217: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163217: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir438 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1228, lv_tuple_item162217, lv_tuple_item163217), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze216 = R.call_tir(cls.squeeze1, (lv_relax_call_tir438,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item561_1: R.Object = kv_cache[56]
            lv432: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item561_1, lv_relax_squeeze216, sinfo_args=(R.Object,))
            lv_tuple_item571_1: R.Object = kv_cache[57]
            lv433: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item571_1, lv_fused_reshape12_squeeze128, sinfo_args=(R.Object,))
            lv434: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv432, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv435: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv433, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape655 = R.call_tir(cls.reshape5, (lv434,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape656 = R.call_tir(cls.reshape5, (lv435,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3216 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape655,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3217 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape656,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1300 = R.call_tir(cls.transpose8, (lv_relax_call_tir437,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul47 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3216, lv_relax_permute_dims1300), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast328 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul47, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast428 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast328,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul977 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast428, lv_fused_repeat_transpose3217), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1328 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul977,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2771: R.Tensor((4096, 8192), dtype="float16") = params[277]
            lv_relax_call_dps_packed868 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1328,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas28 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2771, lv_relax_call_dps_packed868), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed869 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas28,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul129 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed869,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add216 = R.call_tir(cls.add1, (lv_relax_add215, lv_fused_relax_permute_dims_relax_matmul129), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item581: R.Tensor((8192,), dtype="float16") = params[58]
            lv_fused_rms_norm1118 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add216, lv_tuple_item581), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed870 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1118,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2781: R.Tensor((8192, 28672), dtype="float16") = params[278]
            lv_fused_relax_matmul3_cublas28 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed870, lv_tuple_item2781), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed871 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas28,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul338 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed871,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply128 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul338,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2791: R.Tensor((4096, 28672), dtype="float16") = params[279]
            lv_relax_call_dps_packed872 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply128,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas28 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2791, lv_relax_call_dps_packed872), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed873 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas28,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul228 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed873,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add217 = R.call_tir(cls.add1, (lv_relax_add216, lv_fused_relax_permute_dims_relax_matmul228), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item591: R.Tensor((8192,), dtype="float16") = params[59]
            lv_fused_rms_norm1119 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add217, lv_tuple_item591), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed874 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1119,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2801: R.Tensor((8192, 5120), dtype="float16") = params[280]
            lv_fused_relax_matmul2_cublas29 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed874, lv_tuple_item2801), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed875 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas29,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul239 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed875,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split29 = R.call_tir(cls.split2, (lv_fused_relax_matmul239,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item029: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split29[0]
            lv_fused_reshape1129 = R.call_tir(cls.fused_reshape11, (lv_tuple_item029,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item129: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split29[1]
            lv_fused_reshape1229 = R.call_tir(cls.fused_reshape12, (lv_tuple_item129,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item229: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split29[2]
            lv_fused_reshape12_squeeze129 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item229,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162218: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163218: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir441 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1129, lv_tuple_item162218, lv_tuple_item163218), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162219: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163219: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir442 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1229, lv_tuple_item162219, lv_tuple_item163219), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze218 = R.call_tir(cls.squeeze1, (lv_relax_call_tir442,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item581_1: R.Object = kv_cache[58]
            lv436: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item581_1, lv_relax_squeeze218, sinfo_args=(R.Object,))
            lv_tuple_item591_1: R.Object = kv_cache[59]
            lv437: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item591_1, lv_fused_reshape12_squeeze129, sinfo_args=(R.Object,))
            lv438: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv436, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv439: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv437, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape661 = R.call_tir(cls.reshape5, (lv438,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape662 = R.call_tir(cls.reshape5, (lv439,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3218 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape661,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3219 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape662,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1312 = R.call_tir(cls.transpose8, (lv_relax_call_tir441,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul48 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3218, lv_relax_permute_dims1312), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast329 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul48, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast429 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast329,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul986 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast429, lv_fused_repeat_transpose3219), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1329 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul986,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2811: R.Tensor((4096, 8192), dtype="float16") = params[281]
            lv_relax_call_dps_packed876 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1329,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas29 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2811, lv_relax_call_dps_packed876), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed877 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas29,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul130 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed877,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add218 = R.call_tir(cls.add1, (lv_relax_add217, lv_fused_relax_permute_dims_relax_matmul130), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item601: R.Tensor((8192,), dtype="float16") = params[60]
            lv_fused_rms_norm1120 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add218, lv_tuple_item601), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed878 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1120,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2821: R.Tensor((8192, 28672), dtype="float16") = params[282]
            lv_fused_relax_matmul3_cublas29 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed878, lv_tuple_item2821), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed879 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas29,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul339 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed879,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply129 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul339,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2831: R.Tensor((4096, 28672), dtype="float16") = params[283]
            lv_relax_call_dps_packed880 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply129,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas29 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2831, lv_relax_call_dps_packed880), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed881 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas29,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul229 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed881,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add219 = R.call_tir(cls.add1, (lv_relax_add218, lv_fused_relax_permute_dims_relax_matmul229), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item611: R.Tensor((8192,), dtype="float16") = params[61]
            lv_fused_rms_norm1121 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add219, lv_tuple_item611), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed882 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1121,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2841: R.Tensor((8192, 5120), dtype="float16") = params[284]
            lv_fused_relax_matmul2_cublas30 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed882, lv_tuple_item2841), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed883 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas30,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul240 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed883,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split30 = R.call_tir(cls.split2, (lv_fused_relax_matmul240,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item030: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split30[0]
            lv_fused_reshape1130 = R.call_tir(cls.fused_reshape11, (lv_tuple_item030,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item130: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split30[1]
            lv_fused_reshape1230 = R.call_tir(cls.fused_reshape12, (lv_tuple_item130,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item230: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split30[2]
            lv_fused_reshape12_squeeze130 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item230,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162220: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163220: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir445 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1130, lv_tuple_item162220, lv_tuple_item163220), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162221: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163221: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir446 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1230, lv_tuple_item162221, lv_tuple_item163221), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze220 = R.call_tir(cls.squeeze1, (lv_relax_call_tir446,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item601_1: R.Object = kv_cache[60]
            lv440: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item601_1, lv_relax_squeeze220, sinfo_args=(R.Object,))
            lv_tuple_item611_1: R.Object = kv_cache[61]
            lv441: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item611_1, lv_fused_reshape12_squeeze130, sinfo_args=(R.Object,))
            lv442: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv440, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv443: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv441, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape667 = R.call_tir(cls.reshape5, (lv442,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape668 = R.call_tir(cls.reshape5, (lv443,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3220 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape667,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3221 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape668,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1324 = R.call_tir(cls.transpose8, (lv_relax_call_tir445,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul49 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3220, lv_relax_permute_dims1324), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast330 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul49, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast430 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast330,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul995 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast430, lv_fused_repeat_transpose3221), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1330 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul995,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2851: R.Tensor((4096, 8192), dtype="float16") = params[285]
            lv_relax_call_dps_packed884 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1330,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas30 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2851, lv_relax_call_dps_packed884), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed885 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas30,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul131 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed885,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add220 = R.call_tir(cls.add1, (lv_relax_add219, lv_fused_relax_permute_dims_relax_matmul131), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item621: R.Tensor((8192,), dtype="float16") = params[62]
            lv_fused_rms_norm1122 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add220, lv_tuple_item621), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed886 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1122,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2861: R.Tensor((8192, 28672), dtype="float16") = params[286]
            lv_fused_relax_matmul3_cublas30 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed886, lv_tuple_item2861), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed887 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas30,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul340 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed887,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply130 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul340,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2871: R.Tensor((4096, 28672), dtype="float16") = params[287]
            lv_relax_call_dps_packed888 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply130,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas30 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2871, lv_relax_call_dps_packed888), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed889 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas30,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul230 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed889,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add221 = R.call_tir(cls.add1, (lv_relax_add220, lv_fused_relax_permute_dims_relax_matmul230), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item631: R.Tensor((8192,), dtype="float16") = params[63]
            lv_fused_rms_norm1123 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add221, lv_tuple_item631), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed890 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1123,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2881: R.Tensor((8192, 5120), dtype="float16") = params[288]
            lv_fused_relax_matmul2_cublas31 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed890, lv_tuple_item2881), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed891 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas31,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul241 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed891,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split31 = R.call_tir(cls.split2, (lv_fused_relax_matmul241,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item031: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split31[0]
            lv_fused_reshape1131 = R.call_tir(cls.fused_reshape11, (lv_tuple_item031,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item131: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split31[1]
            lv_fused_reshape1231 = R.call_tir(cls.fused_reshape12, (lv_tuple_item131,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item231_1: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split31[2]
            lv_fused_reshape12_squeeze131 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item231_1,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162222: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163222: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir449 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1131, lv_tuple_item162222, lv_tuple_item163222), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162223: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163223: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir450 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1231, lv_tuple_item162223, lv_tuple_item163223), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze222 = R.call_tir(cls.squeeze1, (lv_relax_call_tir450,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item621_1: R.Object = kv_cache[62]
            lv444: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item621_1, lv_relax_squeeze222, sinfo_args=(R.Object,))
            lv_tuple_item631_1: R.Object = kv_cache[63]
            lv445: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item631_1, lv_fused_reshape12_squeeze131, sinfo_args=(R.Object,))
            lv446: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv444, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv447: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv445, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape673 = R.call_tir(cls.reshape5, (lv446,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape674 = R.call_tir(cls.reshape5, (lv447,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3222 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape673,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3223 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape674,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1336 = R.call_tir(cls.transpose8, (lv_relax_call_tir449,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul50 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3222, lv_relax_permute_dims1336), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast331 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul50, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast431 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast331,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1004 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast431, lv_fused_repeat_transpose3223), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1331 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1004,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2891: R.Tensor((4096, 8192), dtype="float16") = params[289]
            lv_relax_call_dps_packed892 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1331,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas31 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2891, lv_relax_call_dps_packed892), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed893 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas31,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul132 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed893,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add222 = R.call_tir(cls.add1, (lv_relax_add221, lv_fused_relax_permute_dims_relax_matmul132), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item641: R.Tensor((8192,), dtype="float16") = params[64]
            lv_fused_rms_norm1124 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add222, lv_tuple_item641), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed894 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1124,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2901: R.Tensor((8192, 28672), dtype="float16") = params[290]
            lv_fused_relax_matmul3_cublas31 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed894, lv_tuple_item2901), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed895 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas31,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul341 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed895,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply131 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul341,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2911: R.Tensor((4096, 28672), dtype="float16") = params[291]
            lv_relax_call_dps_packed896 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply131,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas31 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2911, lv_relax_call_dps_packed896), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed897 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas31,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul231 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed897,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add223 = R.call_tir(cls.add1, (lv_relax_add222, lv_fused_relax_permute_dims_relax_matmul231), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item651: R.Tensor((8192,), dtype="float16") = params[65]
            lv_fused_rms_norm1125 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add223, lv_tuple_item651), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed898 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1125,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2921: R.Tensor((8192, 5120), dtype="float16") = params[292]
            lv_fused_relax_matmul2_cublas32 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed898, lv_tuple_item2921), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed899 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas32,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul242 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed899,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split32 = R.call_tir(cls.split2, (lv_fused_relax_matmul242,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item032: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split32[0]
            lv_fused_reshape1132 = R.call_tir(cls.fused_reshape11, (lv_tuple_item032,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item132: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split32[1]
            lv_fused_reshape1232 = R.call_tir(cls.fused_reshape12, (lv_tuple_item132,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item232: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split32[2]
            lv_fused_reshape12_squeeze132 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item232,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162224: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163224: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir453 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1132, lv_tuple_item162224, lv_tuple_item163224), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162225: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163225: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir454 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1232, lv_tuple_item162225, lv_tuple_item163225), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze224 = R.call_tir(cls.squeeze1, (lv_relax_call_tir454,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item641_1: R.Object = kv_cache[64]
            lv448: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item641_1, lv_relax_squeeze224, sinfo_args=(R.Object,))
            lv_tuple_item651_1: R.Object = kv_cache[65]
            lv449: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item651_1, lv_fused_reshape12_squeeze132, sinfo_args=(R.Object,))
            lv450: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv448, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv451: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv449, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape679 = R.call_tir(cls.reshape5, (lv450,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape680 = R.call_tir(cls.reshape5, (lv451,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3224 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape679,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3225 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape680,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1348 = R.call_tir(cls.transpose8, (lv_relax_call_tir453,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul51 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3224, lv_relax_permute_dims1348), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast332 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul51, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast432 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast332,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1013 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast432, lv_fused_repeat_transpose3225), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1332 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1013,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2931: R.Tensor((4096, 8192), dtype="float16") = params[293]
            lv_relax_call_dps_packed900 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1332,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas32 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2931, lv_relax_call_dps_packed900), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed901 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas32,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul133 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed901,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add224 = R.call_tir(cls.add1, (lv_relax_add223, lv_fused_relax_permute_dims_relax_matmul133), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item661: R.Tensor((8192,), dtype="float16") = params[66]
            lv_fused_rms_norm1126 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add224, lv_tuple_item661), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed902 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1126,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2941: R.Tensor((8192, 28672), dtype="float16") = params[294]
            lv_fused_relax_matmul3_cublas32 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed902, lv_tuple_item2941), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed903 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas32,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul342 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed903,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply132 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul342,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2951: R.Tensor((4096, 28672), dtype="float16") = params[295]
            lv_relax_call_dps_packed904 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply132,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas32 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2951, lv_relax_call_dps_packed904), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed905 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas32,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul232 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed905,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add225 = R.call_tir(cls.add1, (lv_relax_add224, lv_fused_relax_permute_dims_relax_matmul232), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item671: R.Tensor((8192,), dtype="float16") = params[67]
            lv_fused_rms_norm1127 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add225, lv_tuple_item671), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed906 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1127,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2961: R.Tensor((8192, 5120), dtype="float16") = params[296]
            lv_fused_relax_matmul2_cublas33 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed906, lv_tuple_item2961), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed907 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas33,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul243 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed907,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split33 = R.call_tir(cls.split2, (lv_fused_relax_matmul243,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item033: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split33[0]
            lv_fused_reshape1133 = R.call_tir(cls.fused_reshape11, (lv_tuple_item033,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item133: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split33[1]
            lv_fused_reshape1233 = R.call_tir(cls.fused_reshape12, (lv_tuple_item133,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item233: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split33[2]
            lv_fused_reshape12_squeeze133 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item233,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162226: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163226: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir457 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1133, lv_tuple_item162226, lv_tuple_item163226), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162227: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163227: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir458 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1233, lv_tuple_item162227, lv_tuple_item163227), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze226 = R.call_tir(cls.squeeze1, (lv_relax_call_tir458,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item661_1: R.Object = kv_cache[66]
            lv452: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item661_1, lv_relax_squeeze226, sinfo_args=(R.Object,))
            lv_tuple_item671_1: R.Object = kv_cache[67]
            lv453: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item671_1, lv_fused_reshape12_squeeze133, sinfo_args=(R.Object,))
            lv454: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv452, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv455: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv453, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape685 = R.call_tir(cls.reshape5, (lv454,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape686 = R.call_tir(cls.reshape5, (lv455,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3226 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape685,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3227 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape686,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1360 = R.call_tir(cls.transpose8, (lv_relax_call_tir457,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul52 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3226, lv_relax_permute_dims1360), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast333 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul52, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast433 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast333,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1022 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast433, lv_fused_repeat_transpose3227), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1333 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1022,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2971: R.Tensor((4096, 8192), dtype="float16") = params[297]
            lv_relax_call_dps_packed908 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1333,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas33 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item2971, lv_relax_call_dps_packed908), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed909 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas33,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul134 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed909,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add226 = R.call_tir(cls.add1, (lv_relax_add225, lv_fused_relax_permute_dims_relax_matmul134), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item681: R.Tensor((8192,), dtype="float16") = params[68]
            lv_fused_rms_norm1128 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add226, lv_tuple_item681), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed910 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1128,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item2981: R.Tensor((8192, 28672), dtype="float16") = params[298]
            lv_fused_relax_matmul3_cublas33 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed910, lv_tuple_item2981), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed911 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas33,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul343 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed911,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply133 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul343,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item2991: R.Tensor((4096, 28672), dtype="float16") = params[299]
            lv_relax_call_dps_packed912 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply133,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas33 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item2991, lv_relax_call_dps_packed912), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed913 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas33,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul233 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed913,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add227 = R.call_tir(cls.add1, (lv_relax_add226, lv_fused_relax_permute_dims_relax_matmul233), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item691: R.Tensor((8192,), dtype="float16") = params[69]
            lv_fused_rms_norm1129 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add227, lv_tuple_item691), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed914 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1129,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3001: R.Tensor((8192, 5120), dtype="float16") = params[300]
            lv_fused_relax_matmul2_cublas34 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed914, lv_tuple_item3001), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed915 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas34,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul244 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed915,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split34 = R.call_tir(cls.split2, (lv_fused_relax_matmul244,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item034: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split34[0]
            lv_fused_reshape1134 = R.call_tir(cls.fused_reshape11, (lv_tuple_item034,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item134: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split34[1]
            lv_fused_reshape1234 = R.call_tir(cls.fused_reshape12, (lv_tuple_item134,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item234: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split34[2]
            lv_fused_reshape12_squeeze134 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item234,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162228: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163228: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir461 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1134, lv_tuple_item162228, lv_tuple_item163228), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162229: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163229: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir462 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1234, lv_tuple_item162229, lv_tuple_item163229), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze228 = R.call_tir(cls.squeeze1, (lv_relax_call_tir462,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item681_1: R.Object = kv_cache[68]
            lv456: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item681_1, lv_relax_squeeze228, sinfo_args=(R.Object,))
            lv_tuple_item691_1: R.Object = kv_cache[69]
            lv457: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item691_1, lv_fused_reshape12_squeeze134, sinfo_args=(R.Object,))
            lv458: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv456, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv459: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv457, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape691 = R.call_tir(cls.reshape5, (lv458,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape692 = R.call_tir(cls.reshape5, (lv459,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3228 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape691,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3229 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape692,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1372 = R.call_tir(cls.transpose8, (lv_relax_call_tir461,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul53 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3228, lv_relax_permute_dims1372), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast334 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul53, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast434 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast334,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1031 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast434, lv_fused_repeat_transpose3229), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1334 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1031,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3011: R.Tensor((4096, 8192), dtype="float16") = params[301]
            lv_relax_call_dps_packed916 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1334,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas34 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3011, lv_relax_call_dps_packed916), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed917 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas34,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul135 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed917,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add228 = R.call_tir(cls.add1, (lv_relax_add227, lv_fused_relax_permute_dims_relax_matmul135), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item701: R.Tensor((8192,), dtype="float16") = params[70]
            lv_fused_rms_norm1130 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add228, lv_tuple_item701), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed918 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1130,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3021: R.Tensor((8192, 28672), dtype="float16") = params[302]
            lv_fused_relax_matmul3_cublas34 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed918, lv_tuple_item3021), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed919 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas34,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul344 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed919,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply134 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul344,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3031: R.Tensor((4096, 28672), dtype="float16") = params[303]
            lv_relax_call_dps_packed920 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply134,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas34 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3031, lv_relax_call_dps_packed920), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed921 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas34,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul234 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed921,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add229 = R.call_tir(cls.add1, (lv_relax_add228, lv_fused_relax_permute_dims_relax_matmul234), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item711: R.Tensor((8192,), dtype="float16") = params[71]
            lv_fused_rms_norm1131 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add229, lv_tuple_item711), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed922 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1131,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3041: R.Tensor((8192, 5120), dtype="float16") = params[304]
            lv_fused_relax_matmul2_cublas35 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed922, lv_tuple_item3041), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed923 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas35,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul245 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed923,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split35 = R.call_tir(cls.split2, (lv_fused_relax_matmul245,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item035: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split35[0]
            lv_fused_reshape1135 = R.call_tir(cls.fused_reshape11, (lv_tuple_item035,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item135: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split35[1]
            lv_fused_reshape1235 = R.call_tir(cls.fused_reshape12, (lv_tuple_item135,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item235: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split35[2]
            lv_fused_reshape12_squeeze135 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item235,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162230: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163230: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir465 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1135, lv_tuple_item162230, lv_tuple_item163230), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162231: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163231: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir466 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1235, lv_tuple_item162231, lv_tuple_item163231), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze230 = R.call_tir(cls.squeeze1, (lv_relax_call_tir466,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item701_1: R.Object = kv_cache[70]
            lv460: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item701_1, lv_relax_squeeze230, sinfo_args=(R.Object,))
            lv_tuple_item711_1: R.Object = kv_cache[71]
            lv461: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item711_1, lv_fused_reshape12_squeeze135, sinfo_args=(R.Object,))
            lv462: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv460, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv463: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv461, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape697 = R.call_tir(cls.reshape5, (lv462,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape698 = R.call_tir(cls.reshape5, (lv463,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3230 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape697,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3231 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape698,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1384 = R.call_tir(cls.transpose8, (lv_relax_call_tir465,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul54 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3230, lv_relax_permute_dims1384), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast335 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul54, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast435 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast335,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1040 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast435, lv_fused_repeat_transpose3231), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1335 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1040,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3051: R.Tensor((4096, 8192), dtype="float16") = params[305]
            lv_relax_call_dps_packed924 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1335,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas35 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3051, lv_relax_call_dps_packed924), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed925 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas35,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul136 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed925,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add230 = R.call_tir(cls.add1, (lv_relax_add229, lv_fused_relax_permute_dims_relax_matmul136), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item721: R.Tensor((8192,), dtype="float16") = params[72]
            lv_fused_rms_norm1132 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add230, lv_tuple_item721), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed926 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1132,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3061: R.Tensor((8192, 28672), dtype="float16") = params[306]
            lv_fused_relax_matmul3_cublas35 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed926, lv_tuple_item3061), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed927 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas35,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul345 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed927,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply135 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul345,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3071: R.Tensor((4096, 28672), dtype="float16") = params[307]
            lv_relax_call_dps_packed928 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply135,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas35 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3071, lv_relax_call_dps_packed928), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed929 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas35,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul235 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed929,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add231 = R.call_tir(cls.add1, (lv_relax_add230, lv_fused_relax_permute_dims_relax_matmul235), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item731: R.Tensor((8192,), dtype="float16") = params[73]
            lv_fused_rms_norm1133 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add231, lv_tuple_item731), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed930 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1133,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3081: R.Tensor((8192, 5120), dtype="float16") = params[308]
            lv_fused_relax_matmul2_cublas36 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed930, lv_tuple_item3081), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed931 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas36,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul246 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed931,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split36 = R.call_tir(cls.split2, (lv_fused_relax_matmul246,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item036: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split36[0]
            lv_fused_reshape1136 = R.call_tir(cls.fused_reshape11, (lv_tuple_item036,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item136: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split36[1]
            lv_fused_reshape1236 = R.call_tir(cls.fused_reshape12, (lv_tuple_item136,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item236: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split36[2]
            lv_fused_reshape12_squeeze136 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item236,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162232: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163232: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir469 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1136, lv_tuple_item162232, lv_tuple_item163232), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162233: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163233: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir470 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1236, lv_tuple_item162233, lv_tuple_item163233), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze232 = R.call_tir(cls.squeeze1, (lv_relax_call_tir470,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item721_1: R.Object = kv_cache[72]
            lv464: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item721_1, lv_relax_squeeze232, sinfo_args=(R.Object,))
            lv_tuple_item731_1: R.Object = kv_cache[73]
            lv465: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item731_1, lv_fused_reshape12_squeeze136, sinfo_args=(R.Object,))
            lv466: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv464, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv467: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv465, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape703 = R.call_tir(cls.reshape5, (lv466,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape704 = R.call_tir(cls.reshape5, (lv467,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3232 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape703,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3233 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape704,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1396 = R.call_tir(cls.transpose8, (lv_relax_call_tir469,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul55 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3232, lv_relax_permute_dims1396), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast336 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul55, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast436 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast336,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1049 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast436, lv_fused_repeat_transpose3233), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1336 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1049,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3091: R.Tensor((4096, 8192), dtype="float16") = params[309]
            lv_relax_call_dps_packed932 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1336,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas36 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3091, lv_relax_call_dps_packed932), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed933 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas36,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul137 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed933,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add232 = R.call_tir(cls.add1, (lv_relax_add231, lv_fused_relax_permute_dims_relax_matmul137), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item741: R.Tensor((8192,), dtype="float16") = params[74]
            lv_fused_rms_norm1134 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add232, lv_tuple_item741), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed934 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1134,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3101: R.Tensor((8192, 28672), dtype="float16") = params[310]
            lv_fused_relax_matmul3_cublas36 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed934, lv_tuple_item3101), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed935 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas36,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul346 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed935,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply136 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul346,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3111: R.Tensor((4096, 28672), dtype="float16") = params[311]
            lv_relax_call_dps_packed936 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply136,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas36 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3111, lv_relax_call_dps_packed936), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed937 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas36,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul236 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed937,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add233 = R.call_tir(cls.add1, (lv_relax_add232, lv_fused_relax_permute_dims_relax_matmul236), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item751: R.Tensor((8192,), dtype="float16") = params[75]
            lv_fused_rms_norm1135 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add233, lv_tuple_item751), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed938 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1135,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3121: R.Tensor((8192, 5120), dtype="float16") = params[312]
            lv_fused_relax_matmul2_cublas37 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed938, lv_tuple_item3121), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed939 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas37,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul247 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed939,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split37 = R.call_tir(cls.split2, (lv_fused_relax_matmul247,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item037: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split37[0]
            lv_fused_reshape1137 = R.call_tir(cls.fused_reshape11, (lv_tuple_item037,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item137: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split37[1]
            lv_fused_reshape1237 = R.call_tir(cls.fused_reshape12, (lv_tuple_item137,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item237: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split37[2]
            lv_fused_reshape12_squeeze137 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item237,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162234: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163234: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir473 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1137, lv_tuple_item162234, lv_tuple_item163234), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162235: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163235: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir474 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1237, lv_tuple_item162235, lv_tuple_item163235), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze234 = R.call_tir(cls.squeeze1, (lv_relax_call_tir474,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item741_1: R.Object = kv_cache[74]
            lv468: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item741_1, lv_relax_squeeze234, sinfo_args=(R.Object,))
            lv_tuple_item751_1: R.Object = kv_cache[75]
            lv469: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item751_1, lv_fused_reshape12_squeeze137, sinfo_args=(R.Object,))
            lv470: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv468, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv471: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv469, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape709 = R.call_tir(cls.reshape5, (lv470,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape710 = R.call_tir(cls.reshape5, (lv471,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3234 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape709,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3235 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape710,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1408 = R.call_tir(cls.transpose8, (lv_relax_call_tir473,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul56 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3234, lv_relax_permute_dims1408), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast337 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul56, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast437 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast337,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1058 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast437, lv_fused_repeat_transpose3235), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1337 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1058,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3131: R.Tensor((4096, 8192), dtype="float16") = params[313]
            lv_relax_call_dps_packed940 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1337,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas37 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3131, lv_relax_call_dps_packed940), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed941 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas37,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul138 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed941,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add234 = R.call_tir(cls.add1, (lv_relax_add233, lv_fused_relax_permute_dims_relax_matmul138), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item761: R.Tensor((8192,), dtype="float16") = params[76]
            lv_fused_rms_norm1136 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add234, lv_tuple_item761), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed942 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1136,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3141: R.Tensor((8192, 28672), dtype="float16") = params[314]
            lv_fused_relax_matmul3_cublas37 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed942, lv_tuple_item3141), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed943 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas37,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul347 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed943,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply137 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul347,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3151: R.Tensor((4096, 28672), dtype="float16") = params[315]
            lv_relax_call_dps_packed944 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply137,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas37 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3151, lv_relax_call_dps_packed944), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed945 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas37,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul237 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed945,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add235 = R.call_tir(cls.add1, (lv_relax_add234, lv_fused_relax_permute_dims_relax_matmul237), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item771: R.Tensor((8192,), dtype="float16") = params[77]
            lv_fused_rms_norm1137 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add235, lv_tuple_item771), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed946 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1137,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3161: R.Tensor((8192, 5120), dtype="float16") = params[316]
            lv_fused_relax_matmul2_cublas38 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed946, lv_tuple_item3161), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed947 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas38,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul248 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed947,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split38 = R.call_tir(cls.split2, (lv_fused_relax_matmul248,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item038: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split38[0]
            lv_fused_reshape1138 = R.call_tir(cls.fused_reshape11, (lv_tuple_item038,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item138: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split38[1]
            lv_fused_reshape1238 = R.call_tir(cls.fused_reshape12, (lv_tuple_item138,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item238: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split38[2]
            lv_fused_reshape12_squeeze138 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item238,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162236: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163236: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir477 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1138, lv_tuple_item162236, lv_tuple_item163236), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162237: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163237: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir478 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1238, lv_tuple_item162237, lv_tuple_item163237), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze236 = R.call_tir(cls.squeeze1, (lv_relax_call_tir478,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item761_1: R.Object = kv_cache[76]
            lv472: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item761_1, lv_relax_squeeze236, sinfo_args=(R.Object,))
            lv_tuple_item771_1: R.Object = kv_cache[77]
            lv473: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item771_1, lv_fused_reshape12_squeeze138, sinfo_args=(R.Object,))
            lv474: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv472, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv475: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv473, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape715 = R.call_tir(cls.reshape5, (lv474,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape716 = R.call_tir(cls.reshape5, (lv475,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3236 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape715,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3237 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape716,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1420 = R.call_tir(cls.transpose8, (lv_relax_call_tir477,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul57 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3236, lv_relax_permute_dims1420), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast338 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul57, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast438 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast338,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1067 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast438, lv_fused_repeat_transpose3237), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1338 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1067,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3171: R.Tensor((4096, 8192), dtype="float16") = params[317]
            lv_relax_call_dps_packed948 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1338,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas38 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3171, lv_relax_call_dps_packed948), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed949 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas38,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul139 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed949,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add236 = R.call_tir(cls.add1, (lv_relax_add235, lv_fused_relax_permute_dims_relax_matmul139), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item781: R.Tensor((8192,), dtype="float16") = params[78]
            lv_fused_rms_norm1138 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add236, lv_tuple_item781), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed950 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1138,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3181: R.Tensor((8192, 28672), dtype="float16") = params[318]
            lv_fused_relax_matmul3_cublas38 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed950, lv_tuple_item3181), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed951 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas38,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul348 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed951,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply138 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul348,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3191: R.Tensor((4096, 28672), dtype="float16") = params[319]
            lv_relax_call_dps_packed952 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply138,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas38 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3191, lv_relax_call_dps_packed952), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed953 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas38,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul238 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed953,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add237 = R.call_tir(cls.add1, (lv_relax_add236, lv_fused_relax_permute_dims_relax_matmul238), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item791: R.Tensor((8192,), dtype="float16") = params[79]
            lv_fused_rms_norm1139 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add237, lv_tuple_item791), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed954 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1139,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3201: R.Tensor((8192, 5120), dtype="float16") = params[320]
            lv_fused_relax_matmul2_cublas39 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed954, lv_tuple_item3201), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed955 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas39,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul249 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed955,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split39 = R.call_tir(cls.split2, (lv_fused_relax_matmul249,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item039: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split39[0]
            lv_fused_reshape1139 = R.call_tir(cls.fused_reshape11, (lv_tuple_item039,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item139: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split39[1]
            lv_fused_reshape1239 = R.call_tir(cls.fused_reshape12, (lv_tuple_item139,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item239: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split39[2]
            lv_fused_reshape12_squeeze139 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item239,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162238: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163238: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir481 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1139, lv_tuple_item162238, lv_tuple_item163238), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162239: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163239: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir482 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1239, lv_tuple_item162239, lv_tuple_item163239), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze238 = R.call_tir(cls.squeeze1, (lv_relax_call_tir482,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item781_1: R.Object = kv_cache[78]
            lv476: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item781_1, lv_relax_squeeze238, sinfo_args=(R.Object,))
            lv_tuple_item791_1: R.Object = kv_cache[79]
            lv477: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item791_1, lv_fused_reshape12_squeeze139, sinfo_args=(R.Object,))
            lv478: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv476, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv479: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv477, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape721 = R.call_tir(cls.reshape5, (lv478,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape722 = R.call_tir(cls.reshape5, (lv479,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3238 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape721,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3239 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape722,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1432 = R.call_tir(cls.transpose8, (lv_relax_call_tir481,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul58 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3238, lv_relax_permute_dims1432), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast339 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul58, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast439 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast339,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1076 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast439, lv_fused_repeat_transpose3239), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1339 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1076,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3211: R.Tensor((4096, 8192), dtype="float16") = params[321]
            lv_relax_call_dps_packed956 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1339,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas39 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3211, lv_relax_call_dps_packed956), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed957 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas39,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul140 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed957,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add238 = R.call_tir(cls.add1, (lv_relax_add237, lv_fused_relax_permute_dims_relax_matmul140), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item801: R.Tensor((8192,), dtype="float16") = params[80]
            lv_fused_rms_norm1140 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add238, lv_tuple_item801), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed958 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1140,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3221: R.Tensor((8192, 28672), dtype="float16") = params[322]
            lv_fused_relax_matmul3_cublas39 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed958, lv_tuple_item3221), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed959 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas39,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul349 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed959,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply139 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul349,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3231: R.Tensor((4096, 28672), dtype="float16") = params[323]
            lv_relax_call_dps_packed960 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply139,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas39 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3231, lv_relax_call_dps_packed960), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed961 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas39,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul239 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed961,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add239 = R.call_tir(cls.add1, (lv_relax_add238, lv_fused_relax_permute_dims_relax_matmul239), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item811: R.Tensor((8192,), dtype="float16") = params[81]
            lv_fused_rms_norm1141 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add239, lv_tuple_item811), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed962 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1141,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3241: R.Tensor((8192, 5120), dtype="float16") = params[324]
            lv_fused_relax_matmul2_cublas40 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed962, lv_tuple_item3241), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed963 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas40,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul250 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed963,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split40 = R.call_tir(cls.split2, (lv_fused_relax_matmul250,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item040: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split40[0]
            lv_fused_reshape1140 = R.call_tir(cls.fused_reshape11, (lv_tuple_item040,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item140: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split40[1]
            lv_fused_reshape1240 = R.call_tir(cls.fused_reshape12, (lv_tuple_item140,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item240: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split40[2]
            lv_fused_reshape12_squeeze140 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item240,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162240: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163240: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir485 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1140, lv_tuple_item162240, lv_tuple_item163240), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162241: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163241: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir486 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1240, lv_tuple_item162241, lv_tuple_item163241), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze240 = R.call_tir(cls.squeeze1, (lv_relax_call_tir486,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item801_1: R.Object = kv_cache[80]
            lv480: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item801_1, lv_relax_squeeze240, sinfo_args=(R.Object,))
            lv_tuple_item811_1: R.Object = kv_cache[81]
            lv481: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item811_1, lv_fused_reshape12_squeeze140, sinfo_args=(R.Object,))
            lv482: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv480, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv483: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv481, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape727 = R.call_tir(cls.reshape5, (lv482,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape728 = R.call_tir(cls.reshape5, (lv483,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3240 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape727,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3241 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape728,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1444 = R.call_tir(cls.transpose8, (lv_relax_call_tir485,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul59 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3240, lv_relax_permute_dims1444), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast340 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul59, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast440 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast340,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1085 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast440, lv_fused_repeat_transpose3241), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1340 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1085,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3251: R.Tensor((4096, 8192), dtype="float16") = params[325]
            lv_relax_call_dps_packed964 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1340,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas40 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3251, lv_relax_call_dps_packed964), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed965 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas40,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul141 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed965,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add240 = R.call_tir(cls.add1, (lv_relax_add239, lv_fused_relax_permute_dims_relax_matmul141), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item821: R.Tensor((8192,), dtype="float16") = params[82]
            lv_fused_rms_norm1142 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add240, lv_tuple_item821), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed966 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1142,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3261: R.Tensor((8192, 28672), dtype="float16") = params[326]
            lv_fused_relax_matmul3_cublas40 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed966, lv_tuple_item3261), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed967 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas40,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul350 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed967,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply140 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul350,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3271: R.Tensor((4096, 28672), dtype="float16") = params[327]
            lv_relax_call_dps_packed968 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply140,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas40 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3271, lv_relax_call_dps_packed968), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed969 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas40,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul240 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed969,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add241 = R.call_tir(cls.add1, (lv_relax_add240, lv_fused_relax_permute_dims_relax_matmul240), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item831: R.Tensor((8192,), dtype="float16") = params[83]
            lv_fused_rms_norm1143 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add241, lv_tuple_item831), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed970 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1143,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3281: R.Tensor((8192, 5120), dtype="float16") = params[328]
            lv_fused_relax_matmul2_cublas41 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed970, lv_tuple_item3281), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed971 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas41,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul251 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed971,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split41 = R.call_tir(cls.split2, (lv_fused_relax_matmul251,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item041: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split41[0]
            lv_fused_reshape1141 = R.call_tir(cls.fused_reshape11, (lv_tuple_item041,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item141: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split41[1]
            lv_fused_reshape1241 = R.call_tir(cls.fused_reshape12, (lv_tuple_item141,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item241_1: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split41[2]
            lv_fused_reshape12_squeeze141 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item241_1,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162242: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163242: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir489 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1141, lv_tuple_item162242, lv_tuple_item163242), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162243: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163243: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir490 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1241, lv_tuple_item162243, lv_tuple_item163243), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze242 = R.call_tir(cls.squeeze1, (lv_relax_call_tir490,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item821_1: R.Object = kv_cache[82]
            lv484: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item821_1, lv_relax_squeeze242, sinfo_args=(R.Object,))
            lv_tuple_item831_1: R.Object = kv_cache[83]
            lv485: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item831_1, lv_fused_reshape12_squeeze141, sinfo_args=(R.Object,))
            lv486: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv484, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv487: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv485, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape733 = R.call_tir(cls.reshape5, (lv486,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape734 = R.call_tir(cls.reshape5, (lv487,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3242 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape733,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3243 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape734,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1456 = R.call_tir(cls.transpose8, (lv_relax_call_tir489,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul60 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3242, lv_relax_permute_dims1456), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast341 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul60, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast441 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast341,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1094 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast441, lv_fused_repeat_transpose3243), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1341 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1094,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3291: R.Tensor((4096, 8192), dtype="float16") = params[329]
            lv_relax_call_dps_packed972 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1341,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas41 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3291, lv_relax_call_dps_packed972), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed973 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas41,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul142 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed973,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add242 = R.call_tir(cls.add1, (lv_relax_add241, lv_fused_relax_permute_dims_relax_matmul142), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item841: R.Tensor((8192,), dtype="float16") = params[84]
            lv_fused_rms_norm1144 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add242, lv_tuple_item841), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed974 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1144,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3301: R.Tensor((8192, 28672), dtype="float16") = params[330]
            lv_fused_relax_matmul3_cublas41 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed974, lv_tuple_item3301), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed975 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas41,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul351 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed975,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply141 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul351,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3311: R.Tensor((4096, 28672), dtype="float16") = params[331]
            lv_relax_call_dps_packed976 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply141,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas41 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3311, lv_relax_call_dps_packed976), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed977 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas41,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul241 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed977,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add243 = R.call_tir(cls.add1, (lv_relax_add242, lv_fused_relax_permute_dims_relax_matmul241), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item851: R.Tensor((8192,), dtype="float16") = params[85]
            lv_fused_rms_norm1145 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add243, lv_tuple_item851), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed978 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1145,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3321: R.Tensor((8192, 5120), dtype="float16") = params[332]
            lv_fused_relax_matmul2_cublas42 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed978, lv_tuple_item3321), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed979 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas42,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul252 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed979,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split42 = R.call_tir(cls.split2, (lv_fused_relax_matmul252,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item042: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split42[0]
            lv_fused_reshape1142 = R.call_tir(cls.fused_reshape11, (lv_tuple_item042,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item142: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split42[1]
            lv_fused_reshape1242 = R.call_tir(cls.fused_reshape12, (lv_tuple_item142,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item242: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split42[2]
            lv_fused_reshape12_squeeze142 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item242,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162244: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163244: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir493 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1142, lv_tuple_item162244, lv_tuple_item163244), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162245: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163245: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir494 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1242, lv_tuple_item162245, lv_tuple_item163245), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze244 = R.call_tir(cls.squeeze1, (lv_relax_call_tir494,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item841_1: R.Object = kv_cache[84]
            lv488: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item841_1, lv_relax_squeeze244, sinfo_args=(R.Object,))
            lv_tuple_item851_1: R.Object = kv_cache[85]
            lv489: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item851_1, lv_fused_reshape12_squeeze142, sinfo_args=(R.Object,))
            lv490: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv488, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv491: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv489, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape739 = R.call_tir(cls.reshape5, (lv490,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape740 = R.call_tir(cls.reshape5, (lv491,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3244 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape739,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3245 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape740,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1468 = R.call_tir(cls.transpose8, (lv_relax_call_tir493,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul61 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3244, lv_relax_permute_dims1468), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast342 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul61, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast442 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast342,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1103 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast442, lv_fused_repeat_transpose3245), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1342 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1103,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3331: R.Tensor((4096, 8192), dtype="float16") = params[333]
            lv_relax_call_dps_packed980 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1342,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas42 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3331, lv_relax_call_dps_packed980), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed981 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas42,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul143 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed981,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add244 = R.call_tir(cls.add1, (lv_relax_add243, lv_fused_relax_permute_dims_relax_matmul143), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item861: R.Tensor((8192,), dtype="float16") = params[86]
            lv_fused_rms_norm1146 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add244, lv_tuple_item861), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed982 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1146,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3341: R.Tensor((8192, 28672), dtype="float16") = params[334]
            lv_fused_relax_matmul3_cublas42 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed982, lv_tuple_item3341), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed983 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas42,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul352 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed983,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply142 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul352,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3351: R.Tensor((4096, 28672), dtype="float16") = params[335]
            lv_relax_call_dps_packed984 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply142,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas42 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3351, lv_relax_call_dps_packed984), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed985 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas42,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul242 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed985,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add245 = R.call_tir(cls.add1, (lv_relax_add244, lv_fused_relax_permute_dims_relax_matmul242), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item871: R.Tensor((8192,), dtype="float16") = params[87]
            lv_fused_rms_norm1147 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add245, lv_tuple_item871), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed986 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1147,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3361: R.Tensor((8192, 5120), dtype="float16") = params[336]
            lv_fused_relax_matmul2_cublas43 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed986, lv_tuple_item3361), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed987 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas43,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul253 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed987,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split43 = R.call_tir(cls.split2, (lv_fused_relax_matmul253,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item043: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split43[0]
            lv_fused_reshape1143 = R.call_tir(cls.fused_reshape11, (lv_tuple_item043,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item143: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split43[1]
            lv_fused_reshape1243 = R.call_tir(cls.fused_reshape12, (lv_tuple_item143,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item243: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split43[2]
            lv_fused_reshape12_squeeze143 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item243,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162246: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163246: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir497 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1143, lv_tuple_item162246, lv_tuple_item163246), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162247: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163247: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir498 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1243, lv_tuple_item162247, lv_tuple_item163247), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze246 = R.call_tir(cls.squeeze1, (lv_relax_call_tir498,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item861_1: R.Object = kv_cache[86]
            lv492: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item861_1, lv_relax_squeeze246, sinfo_args=(R.Object,))
            lv_tuple_item871_1: R.Object = kv_cache[87]
            lv493: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item871_1, lv_fused_reshape12_squeeze143, sinfo_args=(R.Object,))
            lv494: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv492, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv495: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv493, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape745 = R.call_tir(cls.reshape5, (lv494,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape746 = R.call_tir(cls.reshape5, (lv495,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3246 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape745,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3247 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape746,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1480 = R.call_tir(cls.transpose8, (lv_relax_call_tir497,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul62 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3246, lv_relax_permute_dims1480), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast343 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul62, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast443 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast343,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1112 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast443, lv_fused_repeat_transpose3247), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1343 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1112,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3371: R.Tensor((4096, 8192), dtype="float16") = params[337]
            lv_relax_call_dps_packed988 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1343,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas43 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3371, lv_relax_call_dps_packed988), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed989 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas43,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul144 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed989,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add246 = R.call_tir(cls.add1, (lv_relax_add245, lv_fused_relax_permute_dims_relax_matmul144), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item881: R.Tensor((8192,), dtype="float16") = params[88]
            lv_fused_rms_norm1148 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add246, lv_tuple_item881), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed990 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1148,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3381: R.Tensor((8192, 28672), dtype="float16") = params[338]
            lv_fused_relax_matmul3_cublas43 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed990, lv_tuple_item3381), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed991 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas43,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul353 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed991,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply143 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul353,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3391: R.Tensor((4096, 28672), dtype="float16") = params[339]
            lv_relax_call_dps_packed992 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply143,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas43 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3391, lv_relax_call_dps_packed992), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed993 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas43,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul243 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed993,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add247 = R.call_tir(cls.add1, (lv_relax_add246, lv_fused_relax_permute_dims_relax_matmul243), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item891: R.Tensor((8192,), dtype="float16") = params[89]
            lv_fused_rms_norm1149 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add247, lv_tuple_item891), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed994 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1149,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3401: R.Tensor((8192, 5120), dtype="float16") = params[340]
            lv_fused_relax_matmul2_cublas44 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed994, lv_tuple_item3401), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed995 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas44,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul254 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed995,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split44 = R.call_tir(cls.split2, (lv_fused_relax_matmul254,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item044: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split44[0]
            lv_fused_reshape1144 = R.call_tir(cls.fused_reshape11, (lv_tuple_item044,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item144: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split44[1]
            lv_fused_reshape1244 = R.call_tir(cls.fused_reshape12, (lv_tuple_item144,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item244: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split44[2]
            lv_fused_reshape12_squeeze144 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item244,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162248: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163248: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir501 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1144, lv_tuple_item162248, lv_tuple_item163248), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162249: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163249: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir502 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1244, lv_tuple_item162249, lv_tuple_item163249), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze248 = R.call_tir(cls.squeeze1, (lv_relax_call_tir502,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item881_1: R.Object = kv_cache[88]
            lv496: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item881_1, lv_relax_squeeze248, sinfo_args=(R.Object,))
            lv_tuple_item891_1: R.Object = kv_cache[89]
            lv497: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item891_1, lv_fused_reshape12_squeeze144, sinfo_args=(R.Object,))
            lv498: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv496, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv499: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv497, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape751 = R.call_tir(cls.reshape5, (lv498,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape752 = R.call_tir(cls.reshape5, (lv499,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3248 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape751,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3249 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape752,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1492 = R.call_tir(cls.transpose8, (lv_relax_call_tir501,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul63 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3248, lv_relax_permute_dims1492), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast344 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul63, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast444 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast344,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1121 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast444, lv_fused_repeat_transpose3249), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1344 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1121,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3411: R.Tensor((4096, 8192), dtype="float16") = params[341]
            lv_relax_call_dps_packed996 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1344,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas44 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3411, lv_relax_call_dps_packed996), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed997 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas44,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul145 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed997,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add248 = R.call_tir(cls.add1, (lv_relax_add247, lv_fused_relax_permute_dims_relax_matmul145), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item901: R.Tensor((8192,), dtype="float16") = params[90]
            lv_fused_rms_norm1150 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add248, lv_tuple_item901), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed998 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1150,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3421: R.Tensor((8192, 28672), dtype="float16") = params[342]
            lv_fused_relax_matmul3_cublas44 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed998, lv_tuple_item3421), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed999 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas44,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul354 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed999,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply144 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul354,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3431: R.Tensor((4096, 28672), dtype="float16") = params[343]
            lv_relax_call_dps_packed1000 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply144,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas44 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3431, lv_relax_call_dps_packed1000), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1001 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas44,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul244 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1001,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add249 = R.call_tir(cls.add1, (lv_relax_add248, lv_fused_relax_permute_dims_relax_matmul244), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item911: R.Tensor((8192,), dtype="float16") = params[91]
            lv_fused_rms_norm1151 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add249, lv_tuple_item911), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1002 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1151,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3441: R.Tensor((8192, 5120), dtype="float16") = params[344]
            lv_fused_relax_matmul2_cublas45 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1002, lv_tuple_item3441), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1003 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas45,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul255 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1003,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split45 = R.call_tir(cls.split2, (lv_fused_relax_matmul255,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item045: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split45[0]
            lv_fused_reshape1145 = R.call_tir(cls.fused_reshape11, (lv_tuple_item045,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item145: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split45[1]
            lv_fused_reshape1245 = R.call_tir(cls.fused_reshape12, (lv_tuple_item145,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item245: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split45[2]
            lv_fused_reshape12_squeeze145 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item245,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162250: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163250: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir505 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1145, lv_tuple_item162250, lv_tuple_item163250), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162251: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163251: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir506 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1245, lv_tuple_item162251, lv_tuple_item163251), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze250 = R.call_tir(cls.squeeze1, (lv_relax_call_tir506,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item901_1: R.Object = kv_cache[90]
            lv500: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item901_1, lv_relax_squeeze250, sinfo_args=(R.Object,))
            lv_tuple_item911_1: R.Object = kv_cache[91]
            lv501: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item911_1, lv_fused_reshape12_squeeze145, sinfo_args=(R.Object,))
            lv502: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv500, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv503: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv501, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape757 = R.call_tir(cls.reshape5, (lv502,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape758 = R.call_tir(cls.reshape5, (lv503,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3250 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape757,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3251 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape758,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1504 = R.call_tir(cls.transpose8, (lv_relax_call_tir505,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul64 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3250, lv_relax_permute_dims1504), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast345 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul64, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast445 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast345,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1130 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast445, lv_fused_repeat_transpose3251), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1345 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1130,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3451: R.Tensor((4096, 8192), dtype="float16") = params[345]
            lv_relax_call_dps_packed1004 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1345,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas45 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3451, lv_relax_call_dps_packed1004), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1005 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas45,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul146 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1005,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add250 = R.call_tir(cls.add1, (lv_relax_add249, lv_fused_relax_permute_dims_relax_matmul146), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item921: R.Tensor((8192,), dtype="float16") = params[92]
            lv_fused_rms_norm1152 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add250, lv_tuple_item921), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1006 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1152,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3461: R.Tensor((8192, 28672), dtype="float16") = params[346]
            lv_fused_relax_matmul3_cublas45 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1006, lv_tuple_item3461), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1007 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas45,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul355 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1007,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply145 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul355,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3471: R.Tensor((4096, 28672), dtype="float16") = params[347]
            lv_relax_call_dps_packed1008 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply145,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas45 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3471, lv_relax_call_dps_packed1008), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1009 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas45,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul245 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1009,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add251 = R.call_tir(cls.add1, (lv_relax_add250, lv_fused_relax_permute_dims_relax_matmul245), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item931: R.Tensor((8192,), dtype="float16") = params[93]
            lv_fused_rms_norm1153 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add251, lv_tuple_item931), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1010 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1153,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3481: R.Tensor((8192, 5120), dtype="float16") = params[348]
            lv_fused_relax_matmul2_cublas46 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1010, lv_tuple_item3481), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1011 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas46,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul256 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1011,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split46 = R.call_tir(cls.split2, (lv_fused_relax_matmul256,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item046: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split46[0]
            lv_fused_reshape1146 = R.call_tir(cls.fused_reshape11, (lv_tuple_item046,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item146: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split46[1]
            lv_fused_reshape1246 = R.call_tir(cls.fused_reshape12, (lv_tuple_item146,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item246: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split46[2]
            lv_fused_reshape12_squeeze146 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item246,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162252: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163252: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir509 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1146, lv_tuple_item162252, lv_tuple_item163252), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162253: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163253: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir510 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1246, lv_tuple_item162253, lv_tuple_item163253), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze252 = R.call_tir(cls.squeeze1, (lv_relax_call_tir510,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item921_1: R.Object = kv_cache[92]
            lv504: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item921_1, lv_relax_squeeze252, sinfo_args=(R.Object,))
            lv_tuple_item931_1: R.Object = kv_cache[93]
            lv505: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item931_1, lv_fused_reshape12_squeeze146, sinfo_args=(R.Object,))
            lv506: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv504, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv507: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv505, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape763 = R.call_tir(cls.reshape5, (lv506,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape764 = R.call_tir(cls.reshape5, (lv507,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3252 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape763,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3253 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape764,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1516 = R.call_tir(cls.transpose8, (lv_relax_call_tir509,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul65 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3252, lv_relax_permute_dims1516), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast346 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul65, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast446 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast346,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1139 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast446, lv_fused_repeat_transpose3253), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1346 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1139,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3491: R.Tensor((4096, 8192), dtype="float16") = params[349]
            lv_relax_call_dps_packed1012 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1346,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas46 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3491, lv_relax_call_dps_packed1012), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1013 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas46,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul147 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1013,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add252 = R.call_tir(cls.add1, (lv_relax_add251, lv_fused_relax_permute_dims_relax_matmul147), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item941: R.Tensor((8192,), dtype="float16") = params[94]
            lv_fused_rms_norm1154 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add252, lv_tuple_item941), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1014 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1154,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3501: R.Tensor((8192, 28672), dtype="float16") = params[350]
            lv_fused_relax_matmul3_cublas46 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1014, lv_tuple_item3501), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1015 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas46,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul356 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1015,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply146 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul356,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3511: R.Tensor((4096, 28672), dtype="float16") = params[351]
            lv_relax_call_dps_packed1016 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply146,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas46 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3511, lv_relax_call_dps_packed1016), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1017 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas46,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul246 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1017,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add253 = R.call_tir(cls.add1, (lv_relax_add252, lv_fused_relax_permute_dims_relax_matmul246), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item951: R.Tensor((8192,), dtype="float16") = params[95]
            lv_fused_rms_norm1155 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add253, lv_tuple_item951), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1018 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1155,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3521: R.Tensor((8192, 5120), dtype="float16") = params[352]
            lv_fused_relax_matmul2_cublas47 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1018, lv_tuple_item3521), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1019 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas47,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul257 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1019,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split47 = R.call_tir(cls.split2, (lv_fused_relax_matmul257,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item047: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split47[0]
            lv_fused_reshape1147 = R.call_tir(cls.fused_reshape11, (lv_tuple_item047,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item147: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split47[1]
            lv_fused_reshape1247 = R.call_tir(cls.fused_reshape12, (lv_tuple_item147,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item247: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split47[2]
            lv_fused_reshape12_squeeze147 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item247,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162254: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163254: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir513 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1147, lv_tuple_item162254, lv_tuple_item163254), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162255: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163255: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir514 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1247, lv_tuple_item162255, lv_tuple_item163255), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze254 = R.call_tir(cls.squeeze1, (lv_relax_call_tir514,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item941_1: R.Object = kv_cache[94]
            lv508: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item941_1, lv_relax_squeeze254, sinfo_args=(R.Object,))
            lv_tuple_item951_1: R.Object = kv_cache[95]
            lv509: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item951_1, lv_fused_reshape12_squeeze147, sinfo_args=(R.Object,))
            lv510: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv508, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv511: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv509, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape769 = R.call_tir(cls.reshape5, (lv510,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape770 = R.call_tir(cls.reshape5, (lv511,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3254 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape769,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3255 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape770,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1528 = R.call_tir(cls.transpose8, (lv_relax_call_tir513,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul66 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3254, lv_relax_permute_dims1528), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast347 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul66, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast447 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast347,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1148 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast447, lv_fused_repeat_transpose3255), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1347 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1148,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3531: R.Tensor((4096, 8192), dtype="float16") = params[353]
            lv_relax_call_dps_packed1020 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1347,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas47 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3531, lv_relax_call_dps_packed1020), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1021 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas47,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul148 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1021,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add254 = R.call_tir(cls.add1, (lv_relax_add253, lv_fused_relax_permute_dims_relax_matmul148), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item961: R.Tensor((8192,), dtype="float16") = params[96]
            lv_fused_rms_norm1156 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add254, lv_tuple_item961), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1022 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1156,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3541: R.Tensor((8192, 28672), dtype="float16") = params[354]
            lv_fused_relax_matmul3_cublas47 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1022, lv_tuple_item3541), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1023 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas47,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul357 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1023,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply147 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul357,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3551: R.Tensor((4096, 28672), dtype="float16") = params[355]
            lv_relax_call_dps_packed1024 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply147,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas47 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3551, lv_relax_call_dps_packed1024), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1025 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas47,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul247 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1025,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add255 = R.call_tir(cls.add1, (lv_relax_add254, lv_fused_relax_permute_dims_relax_matmul247), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item971: R.Tensor((8192,), dtype="float16") = params[97]
            lv_fused_rms_norm1157 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add255, lv_tuple_item971), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1026 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1157,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3561: R.Tensor((8192, 5120), dtype="float16") = params[356]
            lv_fused_relax_matmul2_cublas48 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1026, lv_tuple_item3561), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1027 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas48,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul258 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1027,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split48 = R.call_tir(cls.split2, (lv_fused_relax_matmul258,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item048: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split48[0]
            lv_fused_reshape1148 = R.call_tir(cls.fused_reshape11, (lv_tuple_item048,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item148: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split48[1]
            lv_fused_reshape1248 = R.call_tir(cls.fused_reshape12, (lv_tuple_item148,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item248: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split48[2]
            lv_fused_reshape12_squeeze148 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item248,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162256: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163256: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir517 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1148, lv_tuple_item162256, lv_tuple_item163256), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162257: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163257: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir518 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1248, lv_tuple_item162257, lv_tuple_item163257), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze256 = R.call_tir(cls.squeeze1, (lv_relax_call_tir518,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item961_1: R.Object = kv_cache[96]
            lv512: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item961_1, lv_relax_squeeze256, sinfo_args=(R.Object,))
            lv_tuple_item971_1: R.Object = kv_cache[97]
            lv513: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item971_1, lv_fused_reshape12_squeeze148, sinfo_args=(R.Object,))
            lv514: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv512, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv515: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv513, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape775 = R.call_tir(cls.reshape5, (lv514,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape776 = R.call_tir(cls.reshape5, (lv515,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3256 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape775,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3257 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape776,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1540 = R.call_tir(cls.transpose8, (lv_relax_call_tir517,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul67 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3256, lv_relax_permute_dims1540), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast348 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul67, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast448 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast348,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1157 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast448, lv_fused_repeat_transpose3257), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1348 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1157,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3571: R.Tensor((4096, 8192), dtype="float16") = params[357]
            lv_relax_call_dps_packed1028 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1348,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas48 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3571, lv_relax_call_dps_packed1028), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1029 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas48,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul149 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1029,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add256 = R.call_tir(cls.add1, (lv_relax_add255, lv_fused_relax_permute_dims_relax_matmul149), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item981: R.Tensor((8192,), dtype="float16") = params[98]
            lv_fused_rms_norm1158 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add256, lv_tuple_item981), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1030 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1158,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3581: R.Tensor((8192, 28672), dtype="float16") = params[358]
            lv_fused_relax_matmul3_cublas48 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1030, lv_tuple_item3581), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1031 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas48,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul358 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1031,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply148 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul358,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3591: R.Tensor((4096, 28672), dtype="float16") = params[359]
            lv_relax_call_dps_packed1032 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply148,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas48 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3591, lv_relax_call_dps_packed1032), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1033 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas48,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul248 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1033,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add257 = R.call_tir(cls.add1, (lv_relax_add256, lv_fused_relax_permute_dims_relax_matmul248), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item991: R.Tensor((8192,), dtype="float16") = params[99]
            lv_fused_rms_norm1159 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add257, lv_tuple_item991), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1034 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1159,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3601: R.Tensor((8192, 5120), dtype="float16") = params[360]
            lv_fused_relax_matmul2_cublas49 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1034, lv_tuple_item3601), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1035 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas49,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul259 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1035,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split49 = R.call_tir(cls.split2, (lv_fused_relax_matmul259,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item049: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split49[0]
            lv_fused_reshape1149 = R.call_tir(cls.fused_reshape11, (lv_tuple_item049,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item149: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split49[1]
            lv_fused_reshape1249 = R.call_tir(cls.fused_reshape12, (lv_tuple_item149,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item249: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split49[2]
            lv_fused_reshape12_squeeze149 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item249,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162258: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163258: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir521 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1149, lv_tuple_item162258, lv_tuple_item163258), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162259: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163259: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir522 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1249, lv_tuple_item162259, lv_tuple_item163259), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze258 = R.call_tir(cls.squeeze1, (lv_relax_call_tir522,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item981_1: R.Object = kv_cache[98]
            lv516: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item981_1, lv_relax_squeeze258, sinfo_args=(R.Object,))
            lv_tuple_item991_1: R.Object = kv_cache[99]
            lv517: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item991_1, lv_fused_reshape12_squeeze149, sinfo_args=(R.Object,))
            lv518: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv516, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv519: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv517, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape781 = R.call_tir(cls.reshape5, (lv518,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape782 = R.call_tir(cls.reshape5, (lv519,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3258 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape781,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3259 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape782,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1552 = R.call_tir(cls.transpose8, (lv_relax_call_tir521,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul68 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3258, lv_relax_permute_dims1552), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast349 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul68, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast449 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast349,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1166 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast449, lv_fused_repeat_transpose3259), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1349 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1166,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3611: R.Tensor((4096, 8192), dtype="float16") = params[361]
            lv_relax_call_dps_packed1036 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1349,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas49 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3611, lv_relax_call_dps_packed1036), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1037 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas49,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul150 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1037,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add258 = R.call_tir(cls.add1, (lv_relax_add257, lv_fused_relax_permute_dims_relax_matmul150), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1001: R.Tensor((8192,), dtype="float16") = params[100]
            lv_fused_rms_norm1160 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add258, lv_tuple_item1001), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1038 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1160,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3621: R.Tensor((8192, 28672), dtype="float16") = params[362]
            lv_fused_relax_matmul3_cublas49 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1038, lv_tuple_item3621), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1039 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas49,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul359 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1039,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply149 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul359,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3631: R.Tensor((4096, 28672), dtype="float16") = params[363]
            lv_relax_call_dps_packed1040 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply149,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas49 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3631, lv_relax_call_dps_packed1040), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1041 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas49,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul249 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1041,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add259 = R.call_tir(cls.add1, (lv_relax_add258, lv_fused_relax_permute_dims_relax_matmul249), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1011: R.Tensor((8192,), dtype="float16") = params[101]
            lv_fused_rms_norm1161 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add259, lv_tuple_item1011), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1042 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1161,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3641: R.Tensor((8192, 5120), dtype="float16") = params[364]
            lv_fused_relax_matmul2_cublas50 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1042, lv_tuple_item3641), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1043 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas50,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul260 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1043,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split50 = R.call_tir(cls.split2, (lv_fused_relax_matmul260,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item050: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split50[0]
            lv_fused_reshape1150 = R.call_tir(cls.fused_reshape11, (lv_tuple_item050,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item150: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split50[1]
            lv_fused_reshape1250 = R.call_tir(cls.fused_reshape12, (lv_tuple_item150,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item250: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split50[2]
            lv_fused_reshape12_squeeze150 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item250,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162260: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163260: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir525 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1150, lv_tuple_item162260, lv_tuple_item163260), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162261: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163261: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir526 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1250, lv_tuple_item162261, lv_tuple_item163261), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze260 = R.call_tir(cls.squeeze1, (lv_relax_call_tir526,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1001_1: R.Object = kv_cache[100]
            lv520: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1001_1, lv_relax_squeeze260, sinfo_args=(R.Object,))
            lv_tuple_item1011_1: R.Object = kv_cache[101]
            lv521: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1011_1, lv_fused_reshape12_squeeze150, sinfo_args=(R.Object,))
            lv522: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv520, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv523: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv521, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape787 = R.call_tir(cls.reshape5, (lv522,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape788 = R.call_tir(cls.reshape5, (lv523,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3260 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape787,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3261 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape788,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1564 = R.call_tir(cls.transpose8, (lv_relax_call_tir525,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul69 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3260, lv_relax_permute_dims1564), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast350 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul69, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast450 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast350,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1175 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast450, lv_fused_repeat_transpose3261), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1350 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1175,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3651: R.Tensor((4096, 8192), dtype="float16") = params[365]
            lv_relax_call_dps_packed1044 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1350,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas50 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3651, lv_relax_call_dps_packed1044), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1045 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas50,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul151 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1045,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add260 = R.call_tir(cls.add1, (lv_relax_add259, lv_fused_relax_permute_dims_relax_matmul151), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1021: R.Tensor((8192,), dtype="float16") = params[102]
            lv_fused_rms_norm1162 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add260, lv_tuple_item1021), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1046 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1162,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3661: R.Tensor((8192, 28672), dtype="float16") = params[366]
            lv_fused_relax_matmul3_cublas50 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1046, lv_tuple_item3661), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1047 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas50,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul360 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1047,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply150 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul360,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3671: R.Tensor((4096, 28672), dtype="float16") = params[367]
            lv_relax_call_dps_packed1048 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply150,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas50 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3671, lv_relax_call_dps_packed1048), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1049 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas50,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul250 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1049,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add261 = R.call_tir(cls.add1, (lv_relax_add260, lv_fused_relax_permute_dims_relax_matmul250), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1031: R.Tensor((8192,), dtype="float16") = params[103]
            lv_fused_rms_norm1163 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add261, lv_tuple_item1031), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1050 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1163,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3681: R.Tensor((8192, 5120), dtype="float16") = params[368]
            lv_fused_relax_matmul2_cublas51 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1050, lv_tuple_item3681), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1051 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas51,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul261 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1051,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split51 = R.call_tir(cls.split2, (lv_fused_relax_matmul261,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item051: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split51[0]
            lv_fused_reshape1151 = R.call_tir(cls.fused_reshape11, (lv_tuple_item051,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item151: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split51[1]
            lv_fused_reshape1251 = R.call_tir(cls.fused_reshape12, (lv_tuple_item151,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item251_1: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split51[2]
            lv_fused_reshape12_squeeze151 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item251_1,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162262: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163262: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir529 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1151, lv_tuple_item162262, lv_tuple_item163262), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162263: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163263: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir530 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1251, lv_tuple_item162263, lv_tuple_item163263), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze262 = R.call_tir(cls.squeeze1, (lv_relax_call_tir530,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1021_1: R.Object = kv_cache[102]
            lv524: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1021_1, lv_relax_squeeze262, sinfo_args=(R.Object,))
            lv_tuple_item1031_1: R.Object = kv_cache[103]
            lv525: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1031_1, lv_fused_reshape12_squeeze151, sinfo_args=(R.Object,))
            lv526: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv524, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv527: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv525, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape793 = R.call_tir(cls.reshape5, (lv526,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape794 = R.call_tir(cls.reshape5, (lv527,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3262 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape793,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3263 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape794,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1576 = R.call_tir(cls.transpose8, (lv_relax_call_tir529,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul70 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3262, lv_relax_permute_dims1576), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast351 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul70, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast451 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast351,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1184 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast451, lv_fused_repeat_transpose3263), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1351 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1184,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3691: R.Tensor((4096, 8192), dtype="float16") = params[369]
            lv_relax_call_dps_packed1052 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1351,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas51 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3691, lv_relax_call_dps_packed1052), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1053 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas51,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul152 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1053,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add262 = R.call_tir(cls.add1, (lv_relax_add261, lv_fused_relax_permute_dims_relax_matmul152), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1041: R.Tensor((8192,), dtype="float16") = params[104]
            lv_fused_rms_norm1164 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add262, lv_tuple_item1041), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1054 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1164,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3701: R.Tensor((8192, 28672), dtype="float16") = params[370]
            lv_fused_relax_matmul3_cublas51 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1054, lv_tuple_item3701), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1055 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas51,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul361 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1055,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply151 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul361,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3711: R.Tensor((4096, 28672), dtype="float16") = params[371]
            lv_relax_call_dps_packed1056 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply151,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas51 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3711, lv_relax_call_dps_packed1056), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1057 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas51,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul251 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1057,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add263 = R.call_tir(cls.add1, (lv_relax_add262, lv_fused_relax_permute_dims_relax_matmul251), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1051: R.Tensor((8192,), dtype="float16") = params[105]
            lv_fused_rms_norm1165 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add263, lv_tuple_item1051), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1058 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1165,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3721: R.Tensor((8192, 5120), dtype="float16") = params[372]
            lv_fused_relax_matmul2_cublas52 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1058, lv_tuple_item3721), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1059 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas52,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul262 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1059,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split52 = R.call_tir(cls.split2, (lv_fused_relax_matmul262,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item052: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split52[0]
            lv_fused_reshape1152 = R.call_tir(cls.fused_reshape11, (lv_tuple_item052,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item152: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split52[1]
            lv_fused_reshape1252 = R.call_tir(cls.fused_reshape12, (lv_tuple_item152,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item252: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split52[2]
            lv_fused_reshape12_squeeze152 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item252,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162264: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163264: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir533 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1152, lv_tuple_item162264, lv_tuple_item163264), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162265: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163265: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir534 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1252, lv_tuple_item162265, lv_tuple_item163265), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze264 = R.call_tir(cls.squeeze1, (lv_relax_call_tir534,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1041_1: R.Object = kv_cache[104]
            lv528: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1041_1, lv_relax_squeeze264, sinfo_args=(R.Object,))
            lv_tuple_item1051_1: R.Object = kv_cache[105]
            lv529: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1051_1, lv_fused_reshape12_squeeze152, sinfo_args=(R.Object,))
            lv530: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv528, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv531: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv529, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape799 = R.call_tir(cls.reshape5, (lv530,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape800 = R.call_tir(cls.reshape5, (lv531,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3264 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape799,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3265 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape800,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1588 = R.call_tir(cls.transpose8, (lv_relax_call_tir533,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul71 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3264, lv_relax_permute_dims1588), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast352 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul71, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast452 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast352,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1193 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast452, lv_fused_repeat_transpose3265), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1352 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1193,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3731: R.Tensor((4096, 8192), dtype="float16") = params[373]
            lv_relax_call_dps_packed1060 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1352,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas52 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3731, lv_relax_call_dps_packed1060), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1061 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas52,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul153 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1061,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add264 = R.call_tir(cls.add1, (lv_relax_add263, lv_fused_relax_permute_dims_relax_matmul153), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1061: R.Tensor((8192,), dtype="float16") = params[106]
            lv_fused_rms_norm1166 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add264, lv_tuple_item1061), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1062 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1166,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3741: R.Tensor((8192, 28672), dtype="float16") = params[374]
            lv_fused_relax_matmul3_cublas52 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1062, lv_tuple_item3741), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1063 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas52,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul362 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1063,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply152 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul362,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3751: R.Tensor((4096, 28672), dtype="float16") = params[375]
            lv_relax_call_dps_packed1064 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply152,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas52 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3751, lv_relax_call_dps_packed1064), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1065 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas52,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul252 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1065,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add265 = R.call_tir(cls.add1, (lv_relax_add264, lv_fused_relax_permute_dims_relax_matmul252), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1071: R.Tensor((8192,), dtype="float16") = params[107]
            lv_fused_rms_norm1167 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add265, lv_tuple_item1071), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1066 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1167,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3761: R.Tensor((8192, 5120), dtype="float16") = params[376]
            lv_fused_relax_matmul2_cublas53 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1066, lv_tuple_item3761), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1067 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas53,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul263 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1067,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split53 = R.call_tir(cls.split2, (lv_fused_relax_matmul263,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item053: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split53[0]
            lv_fused_reshape1153 = R.call_tir(cls.fused_reshape11, (lv_tuple_item053,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item153: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split53[1]
            lv_fused_reshape1253 = R.call_tir(cls.fused_reshape12, (lv_tuple_item153,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item253: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split53[2]
            lv_fused_reshape12_squeeze153 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item253,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162266: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163266: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir537 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1153, lv_tuple_item162266, lv_tuple_item163266), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162267: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163267: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir538 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1253, lv_tuple_item162267, lv_tuple_item163267), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze266 = R.call_tir(cls.squeeze1, (lv_relax_call_tir538,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1061_1: R.Object = kv_cache[106]
            lv532: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1061_1, lv_relax_squeeze266, sinfo_args=(R.Object,))
            lv_tuple_item1071_1: R.Object = kv_cache[107]
            lv533: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1071_1, lv_fused_reshape12_squeeze153, sinfo_args=(R.Object,))
            lv534: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv532, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv535: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv533, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape805 = R.call_tir(cls.reshape5, (lv534,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape806 = R.call_tir(cls.reshape5, (lv535,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3266 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape805,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3267 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape806,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1600 = R.call_tir(cls.transpose8, (lv_relax_call_tir537,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul72 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3266, lv_relax_permute_dims1600), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast353 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul72, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast453 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast353,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1202 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast453, lv_fused_repeat_transpose3267), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1353 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1202,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3771: R.Tensor((4096, 8192), dtype="float16") = params[377]
            lv_relax_call_dps_packed1068 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1353,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas53 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3771, lv_relax_call_dps_packed1068), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1069 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas53,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul154 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1069,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add266 = R.call_tir(cls.add1, (lv_relax_add265, lv_fused_relax_permute_dims_relax_matmul154), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1081: R.Tensor((8192,), dtype="float16") = params[108]
            lv_fused_rms_norm1168 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add266, lv_tuple_item1081), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1070 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1168,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3781: R.Tensor((8192, 28672), dtype="float16") = params[378]
            lv_fused_relax_matmul3_cublas53 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1070, lv_tuple_item3781), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1071 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas53,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul363 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1071,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply153 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul363,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3791: R.Tensor((4096, 28672), dtype="float16") = params[379]
            lv_relax_call_dps_packed1072 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply153,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas53 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3791, lv_relax_call_dps_packed1072), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1073 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas53,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul253 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1073,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add267 = R.call_tir(cls.add1, (lv_relax_add266, lv_fused_relax_permute_dims_relax_matmul253), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1091: R.Tensor((8192,), dtype="float16") = params[109]
            lv_fused_rms_norm1169 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add267, lv_tuple_item1091), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1074 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1169,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3801: R.Tensor((8192, 5120), dtype="float16") = params[380]
            lv_fused_relax_matmul2_cublas54 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1074, lv_tuple_item3801), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1075 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas54,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul264 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1075,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split54 = R.call_tir(cls.split2, (lv_fused_relax_matmul264,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item054: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split54[0]
            lv_fused_reshape1154 = R.call_tir(cls.fused_reshape11, (lv_tuple_item054,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item154: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split54[1]
            lv_fused_reshape1254 = R.call_tir(cls.fused_reshape12, (lv_tuple_item154,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item254: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split54[2]
            lv_fused_reshape12_squeeze154 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item254,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162268: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163268: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir541 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1154, lv_tuple_item162268, lv_tuple_item163268), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162269: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163269: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir542 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1254, lv_tuple_item162269, lv_tuple_item163269), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze268 = R.call_tir(cls.squeeze1, (lv_relax_call_tir542,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1081_1: R.Object = kv_cache[108]
            lv536: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1081_1, lv_relax_squeeze268, sinfo_args=(R.Object,))
            lv_tuple_item1091_1: R.Object = kv_cache[109]
            lv537: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1091_1, lv_fused_reshape12_squeeze154, sinfo_args=(R.Object,))
            lv538: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv536, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv539: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv537, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape811 = R.call_tir(cls.reshape5, (lv538,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape812 = R.call_tir(cls.reshape5, (lv539,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3268 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape811,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3269 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape812,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1612 = R.call_tir(cls.transpose8, (lv_relax_call_tir541,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul73 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3268, lv_relax_permute_dims1612), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast354 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul73, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast454 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast354,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1211 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast454, lv_fused_repeat_transpose3269), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1354 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1211,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3811: R.Tensor((4096, 8192), dtype="float16") = params[381]
            lv_relax_call_dps_packed1076 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1354,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas54 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3811, lv_relax_call_dps_packed1076), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1077 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas54,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul155 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1077,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add268 = R.call_tir(cls.add1, (lv_relax_add267, lv_fused_relax_permute_dims_relax_matmul155), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1101: R.Tensor((8192,), dtype="float16") = params[110]
            lv_fused_rms_norm1170 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add268, lv_tuple_item1101), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1078 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1170,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3821: R.Tensor((8192, 28672), dtype="float16") = params[382]
            lv_fused_relax_matmul3_cublas54 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1078, lv_tuple_item3821), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1079 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas54,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul364 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1079,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply154 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul364,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3831: R.Tensor((4096, 28672), dtype="float16") = params[383]
            lv_relax_call_dps_packed1080 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply154,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas54 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3831, lv_relax_call_dps_packed1080), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1081 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas54,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul254 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1081,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add269 = R.call_tir(cls.add1, (lv_relax_add268, lv_fused_relax_permute_dims_relax_matmul254), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1111: R.Tensor((8192,), dtype="float16") = params[111]
            lv_fused_rms_norm1171 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add269, lv_tuple_item1111), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1082 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1171,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3841: R.Tensor((8192, 5120), dtype="float16") = params[384]
            lv_fused_relax_matmul2_cublas55 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1082, lv_tuple_item3841), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1083 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas55,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul265 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1083,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split55 = R.call_tir(cls.split2, (lv_fused_relax_matmul265,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item055: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split55[0]
            lv_fused_reshape1155 = R.call_tir(cls.fused_reshape11, (lv_tuple_item055,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item155: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split55[1]
            lv_fused_reshape1255 = R.call_tir(cls.fused_reshape12, (lv_tuple_item155,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item255: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split55[2]
            lv_fused_reshape12_squeeze155 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item255,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162270: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163270: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir545 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1155, lv_tuple_item162270, lv_tuple_item163270), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162271: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163271: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir546 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1255, lv_tuple_item162271, lv_tuple_item163271), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze270 = R.call_tir(cls.squeeze1, (lv_relax_call_tir546,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1101_1: R.Object = kv_cache[110]
            lv540: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1101_1, lv_relax_squeeze270, sinfo_args=(R.Object,))
            lv_tuple_item1111_1: R.Object = kv_cache[111]
            lv541: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1111_1, lv_fused_reshape12_squeeze155, sinfo_args=(R.Object,))
            lv542: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv540, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv543: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv541, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape817 = R.call_tir(cls.reshape5, (lv542,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape818 = R.call_tir(cls.reshape5, (lv543,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3270 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape817,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3271 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape818,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1624 = R.call_tir(cls.transpose8, (lv_relax_call_tir545,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul74 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3270, lv_relax_permute_dims1624), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast355 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul74, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast455 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast355,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1220 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast455, lv_fused_repeat_transpose3271), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1355 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1220,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3851: R.Tensor((4096, 8192), dtype="float16") = params[385]
            lv_relax_call_dps_packed1084 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1355,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas55 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3851, lv_relax_call_dps_packed1084), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1085 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas55,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul156 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1085,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add270 = R.call_tir(cls.add1, (lv_relax_add269, lv_fused_relax_permute_dims_relax_matmul156), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1121: R.Tensor((8192,), dtype="float16") = params[112]
            lv_fused_rms_norm1172 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add270, lv_tuple_item1121), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1086 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1172,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3861: R.Tensor((8192, 28672), dtype="float16") = params[386]
            lv_fused_relax_matmul3_cublas55 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1086, lv_tuple_item3861), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1087 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas55,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul365 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1087,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply155 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul365,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3871: R.Tensor((4096, 28672), dtype="float16") = params[387]
            lv_relax_call_dps_packed1088 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply155,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas55 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3871, lv_relax_call_dps_packed1088), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1089 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas55,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul255 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1089,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add271 = R.call_tir(cls.add1, (lv_relax_add270, lv_fused_relax_permute_dims_relax_matmul255), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1131: R.Tensor((8192,), dtype="float16") = params[113]
            lv_fused_rms_norm1173 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add271, lv_tuple_item1131), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1090 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1173,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3881: R.Tensor((8192, 5120), dtype="float16") = params[388]
            lv_fused_relax_matmul2_cublas56 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1090, lv_tuple_item3881), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1091 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas56,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul266 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1091,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split56 = R.call_tir(cls.split2, (lv_fused_relax_matmul266,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item056: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split56[0]
            lv_fused_reshape1156 = R.call_tir(cls.fused_reshape11, (lv_tuple_item056,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item156: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split56[1]
            lv_fused_reshape1256 = R.call_tir(cls.fused_reshape12, (lv_tuple_item156,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item256: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split56[2]
            lv_fused_reshape12_squeeze156 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item256,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162272: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163272: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir549 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1156, lv_tuple_item162272, lv_tuple_item163272), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162273: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163273: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir550 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1256, lv_tuple_item162273, lv_tuple_item163273), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze272 = R.call_tir(cls.squeeze1, (lv_relax_call_tir550,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1121_1: R.Object = kv_cache[112]
            lv544: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1121_1, lv_relax_squeeze272, sinfo_args=(R.Object,))
            lv_tuple_item1131_1: R.Object = kv_cache[113]
            lv545: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1131_1, lv_fused_reshape12_squeeze156, sinfo_args=(R.Object,))
            lv546: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv544, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv547: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv545, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape823 = R.call_tir(cls.reshape5, (lv546,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape824 = R.call_tir(cls.reshape5, (lv547,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3272 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape823,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3273 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape824,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1636 = R.call_tir(cls.transpose8, (lv_relax_call_tir549,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul75 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3272, lv_relax_permute_dims1636), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast356 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul75, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast456 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast356,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1229 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast456, lv_fused_repeat_transpose3273), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1356 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1229,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3891: R.Tensor((4096, 8192), dtype="float16") = params[389]
            lv_relax_call_dps_packed1092 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1356,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas56 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3891, lv_relax_call_dps_packed1092), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1093 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas56,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul157 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1093,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add272 = R.call_tir(cls.add1, (lv_relax_add271, lv_fused_relax_permute_dims_relax_matmul157), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1141: R.Tensor((8192,), dtype="float16") = params[114]
            lv_fused_rms_norm1174 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add272, lv_tuple_item1141), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1094 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1174,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3901: R.Tensor((8192, 28672), dtype="float16") = params[390]
            lv_fused_relax_matmul3_cublas56 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1094, lv_tuple_item3901), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1095 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas56,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul366 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1095,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply156 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul366,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3911: R.Tensor((4096, 28672), dtype="float16") = params[391]
            lv_relax_call_dps_packed1096 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply156,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas56 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3911, lv_relax_call_dps_packed1096), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1097 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas56,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul256 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1097,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add273 = R.call_tir(cls.add1, (lv_relax_add272, lv_fused_relax_permute_dims_relax_matmul256), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1151: R.Tensor((8192,), dtype="float16") = params[115]
            lv_fused_rms_norm1175 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add273, lv_tuple_item1151), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1098 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1175,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3921: R.Tensor((8192, 5120), dtype="float16") = params[392]
            lv_fused_relax_matmul2_cublas57 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1098, lv_tuple_item3921), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1099 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas57,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul267 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1099,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split57 = R.call_tir(cls.split2, (lv_fused_relax_matmul267,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item057: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split57[0]
            lv_fused_reshape1157 = R.call_tir(cls.fused_reshape11, (lv_tuple_item057,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item157: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split57[1]
            lv_fused_reshape1257 = R.call_tir(cls.fused_reshape12, (lv_tuple_item157,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item257: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split57[2]
            lv_fused_reshape12_squeeze157 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item257,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162274: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163274: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir553 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1157, lv_tuple_item162274, lv_tuple_item163274), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162275: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163275: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir554 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1257, lv_tuple_item162275, lv_tuple_item163275), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze274 = R.call_tir(cls.squeeze1, (lv_relax_call_tir554,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1141_1: R.Object = kv_cache[114]
            lv548: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1141_1, lv_relax_squeeze274, sinfo_args=(R.Object,))
            lv_tuple_item1151_1: R.Object = kv_cache[115]
            lv549: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1151_1, lv_fused_reshape12_squeeze157, sinfo_args=(R.Object,))
            lv550: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv548, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv551: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv549, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape829 = R.call_tir(cls.reshape5, (lv550,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape830 = R.call_tir(cls.reshape5, (lv551,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3274 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape829,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3275 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape830,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1648 = R.call_tir(cls.transpose8, (lv_relax_call_tir553,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul76 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3274, lv_relax_permute_dims1648), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast357 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul76, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast457 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast357,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1238 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast457, lv_fused_repeat_transpose3275), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1357 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1238,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3931: R.Tensor((4096, 8192), dtype="float16") = params[393]
            lv_relax_call_dps_packed1100 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1357,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas57 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3931, lv_relax_call_dps_packed1100), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1101 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas57,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul158 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1101,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add274 = R.call_tir(cls.add1, (lv_relax_add273, lv_fused_relax_permute_dims_relax_matmul158), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1161: R.Tensor((8192,), dtype="float16") = params[116]
            lv_fused_rms_norm1176 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add274, lv_tuple_item1161), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1102 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1176,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3941: R.Tensor((8192, 28672), dtype="float16") = params[394]
            lv_fused_relax_matmul3_cublas57 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1102, lv_tuple_item3941), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1103 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas57,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul367 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1103,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply157 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul367,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3951: R.Tensor((4096, 28672), dtype="float16") = params[395]
            lv_relax_call_dps_packed1104 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply157,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas57 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3951, lv_relax_call_dps_packed1104), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1105 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas57,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul257 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1105,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add275 = R.call_tir(cls.add1, (lv_relax_add274, lv_fused_relax_permute_dims_relax_matmul257), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1171: R.Tensor((8192,), dtype="float16") = params[117]
            lv_fused_rms_norm1177 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add275, lv_tuple_item1171), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1106 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1177,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3961: R.Tensor((8192, 5120), dtype="float16") = params[396]
            lv_fused_relax_matmul2_cublas58 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1106, lv_tuple_item3961), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1107 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas58,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul268 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1107,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split58 = R.call_tir(cls.split2, (lv_fused_relax_matmul268,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item058: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split58[0]
            lv_fused_reshape1158 = R.call_tir(cls.fused_reshape11, (lv_tuple_item058,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item158: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split58[1]
            lv_fused_reshape1258 = R.call_tir(cls.fused_reshape12, (lv_tuple_item158,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item258: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split58[2]
            lv_fused_reshape12_squeeze158 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item258,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162276: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163276: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir557 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1158, lv_tuple_item162276, lv_tuple_item163276), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162277: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163277: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir558 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1258, lv_tuple_item162277, lv_tuple_item163277), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze276 = R.call_tir(cls.squeeze1, (lv_relax_call_tir558,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1161_1: R.Object = kv_cache[116]
            lv552: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1161_1, lv_relax_squeeze276, sinfo_args=(R.Object,))
            lv_tuple_item1171_1: R.Object = kv_cache[117]
            lv553: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1171_1, lv_fused_reshape12_squeeze158, sinfo_args=(R.Object,))
            lv554: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv552, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv555: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv553, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape835 = R.call_tir(cls.reshape5, (lv554,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape836 = R.call_tir(cls.reshape5, (lv555,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3276 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape835,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3277 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape836,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1660 = R.call_tir(cls.transpose8, (lv_relax_call_tir557,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul77 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3276, lv_relax_permute_dims1660), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast358 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul77, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast458 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast358,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1247 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast458, lv_fused_repeat_transpose3277), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1358 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1247,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3971: R.Tensor((4096, 8192), dtype="float16") = params[397]
            lv_relax_call_dps_packed1108 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1358,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas58 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item3971, lv_relax_call_dps_packed1108), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1109 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas58,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul159 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1109,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add276 = R.call_tir(cls.add1, (lv_relax_add275, lv_fused_relax_permute_dims_relax_matmul159), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1181: R.Tensor((8192,), dtype="float16") = params[118]
            lv_fused_rms_norm1178 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add276, lv_tuple_item1181), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1110 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1178,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item3981: R.Tensor((8192, 28672), dtype="float16") = params[398]
            lv_fused_relax_matmul3_cublas58 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1110, lv_tuple_item3981), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1111 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas58,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul368 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1111,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply158 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul368,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item3991: R.Tensor((4096, 28672), dtype="float16") = params[399]
            lv_relax_call_dps_packed1112 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply158,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas58 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item3991, lv_relax_call_dps_packed1112), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1113 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas58,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul258 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1113,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add277 = R.call_tir(cls.add1, (lv_relax_add276, lv_fused_relax_permute_dims_relax_matmul258), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1191: R.Tensor((8192,), dtype="float16") = params[119]
            lv_fused_rms_norm1179 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add277, lv_tuple_item1191), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1114 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1179,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4001: R.Tensor((8192, 5120), dtype="float16") = params[400]
            lv_fused_relax_matmul2_cublas59 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1114, lv_tuple_item4001), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1115 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas59,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul269 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1115,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split59 = R.call_tir(cls.split2, (lv_fused_relax_matmul269,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item059: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split59[0]
            lv_fused_reshape1159 = R.call_tir(cls.fused_reshape11, (lv_tuple_item059,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item159: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split59[1]
            lv_fused_reshape1259 = R.call_tir(cls.fused_reshape12, (lv_tuple_item159,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item259: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split59[2]
            lv_fused_reshape12_squeeze159 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item259,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162278: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163278: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir561 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1159, lv_tuple_item162278, lv_tuple_item163278), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162279: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163279: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir562 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1259, lv_tuple_item162279, lv_tuple_item163279), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze278 = R.call_tir(cls.squeeze1, (lv_relax_call_tir562,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1181_1: R.Object = kv_cache[118]
            lv556: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1181_1, lv_relax_squeeze278, sinfo_args=(R.Object,))
            lv_tuple_item1191_1: R.Object = kv_cache[119]
            lv557: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1191_1, lv_fused_reshape12_squeeze159, sinfo_args=(R.Object,))
            lv558: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv556, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv559: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv557, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape841 = R.call_tir(cls.reshape5, (lv558,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape842 = R.call_tir(cls.reshape5, (lv559,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3278 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape841,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3279 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape842,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1672 = R.call_tir(cls.transpose8, (lv_relax_call_tir561,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul78 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3278, lv_relax_permute_dims1672), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast359 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul78, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast459 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast359,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1256 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast459, lv_fused_repeat_transpose3279), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1359 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1256,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4011: R.Tensor((4096, 8192), dtype="float16") = params[401]
            lv_relax_call_dps_packed1116 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1359,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas59 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4011, lv_relax_call_dps_packed1116), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1117 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas59,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul160 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1117,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add278 = R.call_tir(cls.add1, (lv_relax_add277, lv_fused_relax_permute_dims_relax_matmul160), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1201: R.Tensor((8192,), dtype="float16") = params[120]
            lv_fused_rms_norm1180 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add278, lv_tuple_item1201), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1118 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1180,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4021: R.Tensor((8192, 28672), dtype="float16") = params[402]
            lv_fused_relax_matmul3_cublas59 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1118, lv_tuple_item4021), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1119 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas59,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul369 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1119,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply159 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul369,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4031: R.Tensor((4096, 28672), dtype="float16") = params[403]
            lv_relax_call_dps_packed1120 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply159,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas59 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4031, lv_relax_call_dps_packed1120), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1121 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas59,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul259 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1121,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add279 = R.call_tir(cls.add1, (lv_relax_add278, lv_fused_relax_permute_dims_relax_matmul259), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1211: R.Tensor((8192,), dtype="float16") = params[121]
            lv_fused_rms_norm1181 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add279, lv_tuple_item1211), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1122 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1181,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4041: R.Tensor((8192, 5120), dtype="float16") = params[404]
            lv_fused_relax_matmul2_cublas60 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1122, lv_tuple_item4041), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1123 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas60,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul270 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1123,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split60 = R.call_tir(cls.split2, (lv_fused_relax_matmul270,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item060: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split60[0]
            lv_fused_reshape1160 = R.call_tir(cls.fused_reshape11, (lv_tuple_item060,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item160_1: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split60[1]
            lv_fused_reshape1260 = R.call_tir(cls.fused_reshape12, (lv_tuple_item160_1,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item260: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split60[2]
            lv_fused_reshape12_squeeze160 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item260,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162280: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163280: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir565 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1160, lv_tuple_item162280, lv_tuple_item163280), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162281: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163281: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir566 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1260, lv_tuple_item162281, lv_tuple_item163281), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze280 = R.call_tir(cls.squeeze1, (lv_relax_call_tir566,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1201_1: R.Object = kv_cache[120]
            lv560: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1201_1, lv_relax_squeeze280, sinfo_args=(R.Object,))
            lv_tuple_item1211_1: R.Object = kv_cache[121]
            lv561: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1211_1, lv_fused_reshape12_squeeze160, sinfo_args=(R.Object,))
            lv562: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv560, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv563: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv561, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape847 = R.call_tir(cls.reshape5, (lv562,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape848 = R.call_tir(cls.reshape5, (lv563,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3280 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape847,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3281 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape848,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1684 = R.call_tir(cls.transpose8, (lv_relax_call_tir565,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul79 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3280, lv_relax_permute_dims1684), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast360 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul79, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast460 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast360,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1265 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast460, lv_fused_repeat_transpose3281), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1360 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1265,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4051: R.Tensor((4096, 8192), dtype="float16") = params[405]
            lv_relax_call_dps_packed1124 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1360,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas60 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4051, lv_relax_call_dps_packed1124), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1125 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas60,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul161 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1125,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add280 = R.call_tir(cls.add1, (lv_relax_add279, lv_fused_relax_permute_dims_relax_matmul161), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1221: R.Tensor((8192,), dtype="float16") = params[122]
            lv_fused_rms_norm1182 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add280, lv_tuple_item1221), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1126 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1182,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4061: R.Tensor((8192, 28672), dtype="float16") = params[406]
            lv_fused_relax_matmul3_cublas60 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1126, lv_tuple_item4061), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1127 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas60,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul370 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1127,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply160 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul370,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4071: R.Tensor((4096, 28672), dtype="float16") = params[407]
            lv_relax_call_dps_packed1128 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply160,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas60 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4071, lv_relax_call_dps_packed1128), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1129 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas60,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul260 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1129,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add281 = R.call_tir(cls.add1, (lv_relax_add280, lv_fused_relax_permute_dims_relax_matmul260), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1231: R.Tensor((8192,), dtype="float16") = params[123]
            lv_fused_rms_norm1183 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add281, lv_tuple_item1231), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1130 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1183,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4081: R.Tensor((8192, 5120), dtype="float16") = params[408]
            lv_fused_relax_matmul2_cublas61 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1130, lv_tuple_item4081), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1131 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas61,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul271 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1131,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split61 = R.call_tir(cls.split2, (lv_fused_relax_matmul271,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item061: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split61[0]
            lv_fused_reshape1161 = R.call_tir(cls.fused_reshape11, (lv_tuple_item061,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item161_1: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split61[1]
            lv_fused_reshape1261 = R.call_tir(cls.fused_reshape12, (lv_tuple_item161_1,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item261_1: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split61[2]
            lv_fused_reshape12_squeeze161 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item261_1,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162282: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163282: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir569 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1161, lv_tuple_item162282, lv_tuple_item163282), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162283: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163283: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir570 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1261, lv_tuple_item162283, lv_tuple_item163283), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze282 = R.call_tir(cls.squeeze1, (lv_relax_call_tir570,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1221_1: R.Object = kv_cache[122]
            lv564: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1221_1, lv_relax_squeeze282, sinfo_args=(R.Object,))
            lv_tuple_item1231_1: R.Object = kv_cache[123]
            lv565: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1231_1, lv_fused_reshape12_squeeze161, sinfo_args=(R.Object,))
            lv566: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv564, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv567: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv565, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape853 = R.call_tir(cls.reshape5, (lv566,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape854 = R.call_tir(cls.reshape5, (lv567,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3282 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape853,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3283 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape854,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1696 = R.call_tir(cls.transpose8, (lv_relax_call_tir569,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul80 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3282, lv_relax_permute_dims1696), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast361 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul80, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast461 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast361,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1274 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast461, lv_fused_repeat_transpose3283), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1361 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1274,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4091: R.Tensor((4096, 8192), dtype="float16") = params[409]
            lv_relax_call_dps_packed1132 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1361,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas61 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4091, lv_relax_call_dps_packed1132), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1133 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas61,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul162 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1133,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add282 = R.call_tir(cls.add1, (lv_relax_add281, lv_fused_relax_permute_dims_relax_matmul162), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1241: R.Tensor((8192,), dtype="float16") = params[124]
            lv_fused_rms_norm1184 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add282, lv_tuple_item1241), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1134 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1184,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4101: R.Tensor((8192, 28672), dtype="float16") = params[410]
            lv_fused_relax_matmul3_cublas61 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1134, lv_tuple_item4101), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1135 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas61,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul371 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1135,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply161 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul371,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4111: R.Tensor((4096, 28672), dtype="float16") = params[411]
            lv_relax_call_dps_packed1136 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply161,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas61 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4111, lv_relax_call_dps_packed1136), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1137 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas61,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul261 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1137,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add283 = R.call_tir(cls.add1, (lv_relax_add282, lv_fused_relax_permute_dims_relax_matmul261), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1251: R.Tensor((8192,), dtype="float16") = params[125]
            lv_fused_rms_norm1185 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add283, lv_tuple_item1251), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1138 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1185,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4121: R.Tensor((8192, 5120), dtype="float16") = params[412]
            lv_fused_relax_matmul2_cublas62 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1138, lv_tuple_item4121), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1139 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas62,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul272 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1139,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split62 = R.call_tir(cls.split2, (lv_fused_relax_matmul272,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item062: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split62[0]
            lv_fused_reshape1162 = R.call_tir(cls.fused_reshape11, (lv_tuple_item062,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item162: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split62[1]
            lv_fused_reshape1262 = R.call_tir(cls.fused_reshape12, (lv_tuple_item162,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item262: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split62[2]
            lv_fused_reshape12_squeeze162 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item262,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162284: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163284: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir573 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1162, lv_tuple_item162284, lv_tuple_item163284), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162285: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163285: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir574 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1262, lv_tuple_item162285, lv_tuple_item163285), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze284 = R.call_tir(cls.squeeze1, (lv_relax_call_tir574,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1241_1: R.Object = kv_cache[124]
            lv568: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1241_1, lv_relax_squeeze284, sinfo_args=(R.Object,))
            lv_tuple_item1251_1: R.Object = kv_cache[125]
            lv569: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1251_1, lv_fused_reshape12_squeeze162, sinfo_args=(R.Object,))
            lv570: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv568, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv571: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv569, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape859 = R.call_tir(cls.reshape5, (lv570,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape860 = R.call_tir(cls.reshape5, (lv571,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3284 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape859,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3285 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape860,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1708 = R.call_tir(cls.transpose8, (lv_relax_call_tir573,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul81 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3284, lv_relax_permute_dims1708), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast362 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul81, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast462 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast362,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1283 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast462, lv_fused_repeat_transpose3285), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1362 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1283,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4131: R.Tensor((4096, 8192), dtype="float16") = params[413]
            lv_relax_call_dps_packed1140 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1362,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas62 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4131, lv_relax_call_dps_packed1140), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1141 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas62,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul163 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1141,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add284 = R.call_tir(cls.add1, (lv_relax_add283, lv_fused_relax_permute_dims_relax_matmul163), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1261: R.Tensor((8192,), dtype="float16") = params[126]
            lv_fused_rms_norm1186 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add284, lv_tuple_item1261), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1142 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1186,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4141: R.Tensor((8192, 28672), dtype="float16") = params[414]
            lv_fused_relax_matmul3_cublas62 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1142, lv_tuple_item4141), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1143 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas62,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul372 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1143,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply162 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul372,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4151: R.Tensor((4096, 28672), dtype="float16") = params[415]
            lv_relax_call_dps_packed1144 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply162,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas62 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4151, lv_relax_call_dps_packed1144), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1145 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas62,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul262 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1145,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add285 = R.call_tir(cls.add1, (lv_relax_add284, lv_fused_relax_permute_dims_relax_matmul262), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1271: R.Tensor((8192,), dtype="float16") = params[127]
            lv_fused_rms_norm1187 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add285, lv_tuple_item1271), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1146 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1187,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4161: R.Tensor((8192, 5120), dtype="float16") = params[416]
            lv_fused_relax_matmul2_cublas63 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1146, lv_tuple_item4161), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1147 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas63,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul273 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1147,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split63 = R.call_tir(cls.split2, (lv_fused_relax_matmul273,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item063: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split63[0]
            lv_fused_reshape1163 = R.call_tir(cls.fused_reshape11, (lv_tuple_item063,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item163: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split63[1]
            lv_fused_reshape1263 = R.call_tir(cls.fused_reshape12, (lv_tuple_item163,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item263: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split63[2]
            lv_fused_reshape12_squeeze163 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item263,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162286: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163286: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir577 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1163, lv_tuple_item162286, lv_tuple_item163286), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162287: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163287: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir578 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1263, lv_tuple_item162287, lv_tuple_item163287), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze286 = R.call_tir(cls.squeeze1, (lv_relax_call_tir578,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1261_1: R.Object = kv_cache[126]
            lv572: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1261_1, lv_relax_squeeze286, sinfo_args=(R.Object,))
            lv_tuple_item1271_1: R.Object = kv_cache[127]
            lv573: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1271_1, lv_fused_reshape12_squeeze163, sinfo_args=(R.Object,))
            lv574: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv572, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv575: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv573, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape865 = R.call_tir(cls.reshape5, (lv574,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape866 = R.call_tir(cls.reshape5, (lv575,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3286 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape865,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3287 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape866,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1720 = R.call_tir(cls.transpose8, (lv_relax_call_tir577,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul82 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3286, lv_relax_permute_dims1720), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast363 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul82, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast463 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast363,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1292 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast463, lv_fused_repeat_transpose3287), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1363 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1292,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4171: R.Tensor((4096, 8192), dtype="float16") = params[417]
            lv_relax_call_dps_packed1148 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1363,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas63 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4171, lv_relax_call_dps_packed1148), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1149 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas63,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul164 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1149,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add286 = R.call_tir(cls.add1, (lv_relax_add285, lv_fused_relax_permute_dims_relax_matmul164), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1281: R.Tensor((8192,), dtype="float16") = params[128]
            lv_fused_rms_norm1188 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add286, lv_tuple_item1281), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1150 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1188,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4181: R.Tensor((8192, 28672), dtype="float16") = params[418]
            lv_fused_relax_matmul3_cublas63 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1150, lv_tuple_item4181), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1151 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas63,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul373 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1151,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply163 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul373,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4191: R.Tensor((4096, 28672), dtype="float16") = params[419]
            lv_relax_call_dps_packed1152 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply163,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas63 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4191, lv_relax_call_dps_packed1152), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1153 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas63,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul263 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1153,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add287 = R.call_tir(cls.add1, (lv_relax_add286, lv_fused_relax_permute_dims_relax_matmul263), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1291: R.Tensor((8192,), dtype="float16") = params[129]
            lv_fused_rms_norm1189 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add287, lv_tuple_item1291), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1154 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1189,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4201: R.Tensor((8192, 5120), dtype="float16") = params[420]
            lv_fused_relax_matmul2_cublas64 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1154, lv_tuple_item4201), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1155 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas64,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul274 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1155,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split64 = R.call_tir(cls.split2, (lv_fused_relax_matmul274,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item064: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split64[0]
            lv_fused_reshape1164 = R.call_tir(cls.fused_reshape11, (lv_tuple_item064,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item164: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split64[1]
            lv_fused_reshape1264 = R.call_tir(cls.fused_reshape12, (lv_tuple_item164,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item264: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split64[2]
            lv_fused_reshape12_squeeze164 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item264,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162288: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163288: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir581 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1164, lv_tuple_item162288, lv_tuple_item163288), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162289: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163289: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir582 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1264, lv_tuple_item162289, lv_tuple_item163289), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze288 = R.call_tir(cls.squeeze1, (lv_relax_call_tir582,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1281_1: R.Object = kv_cache[128]
            lv576: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1281_1, lv_relax_squeeze288, sinfo_args=(R.Object,))
            lv_tuple_item1291_1: R.Object = kv_cache[129]
            lv577: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1291_1, lv_fused_reshape12_squeeze164, sinfo_args=(R.Object,))
            lv578: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv576, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv579: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv577, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape871 = R.call_tir(cls.reshape5, (lv578,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape872 = R.call_tir(cls.reshape5, (lv579,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3288 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape871,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3289 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape872,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1732 = R.call_tir(cls.transpose8, (lv_relax_call_tir581,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul83 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3288, lv_relax_permute_dims1732), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast364 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul83, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast464 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast364,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1301 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast464, lv_fused_repeat_transpose3289), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1364 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1301,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4211: R.Tensor((4096, 8192), dtype="float16") = params[421]
            lv_relax_call_dps_packed1156 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1364,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas64 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4211, lv_relax_call_dps_packed1156), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1157 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas64,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul165 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1157,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add288 = R.call_tir(cls.add1, (lv_relax_add287, lv_fused_relax_permute_dims_relax_matmul165), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1301: R.Tensor((8192,), dtype="float16") = params[130]
            lv_fused_rms_norm1190 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add288, lv_tuple_item1301), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1158 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1190,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4221: R.Tensor((8192, 28672), dtype="float16") = params[422]
            lv_fused_relax_matmul3_cublas64 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1158, lv_tuple_item4221), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1159 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas64,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul374 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1159,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply164 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul374,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4231: R.Tensor((4096, 28672), dtype="float16") = params[423]
            lv_relax_call_dps_packed1160 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply164,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas64 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4231, lv_relax_call_dps_packed1160), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1161 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas64,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul264 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1161,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add289 = R.call_tir(cls.add1, (lv_relax_add288, lv_fused_relax_permute_dims_relax_matmul264), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1311: R.Tensor((8192,), dtype="float16") = params[131]
            lv_fused_rms_norm1191 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add289, lv_tuple_item1311), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1162 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1191,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4241: R.Tensor((8192, 5120), dtype="float16") = params[424]
            lv_fused_relax_matmul2_cublas65 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1162, lv_tuple_item4241), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1163 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas65,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul275 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1163,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split65 = R.call_tir(cls.split2, (lv_fused_relax_matmul275,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item065: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split65[0]
            lv_fused_reshape1165 = R.call_tir(cls.fused_reshape11, (lv_tuple_item065,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item165: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split65[1]
            lv_fused_reshape1265 = R.call_tir(cls.fused_reshape12, (lv_tuple_item165,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item265: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split65[2]
            lv_fused_reshape12_squeeze165 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item265,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162290: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163290: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir585 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1165, lv_tuple_item162290, lv_tuple_item163290), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162291: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163291: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir586 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1265, lv_tuple_item162291, lv_tuple_item163291), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze290 = R.call_tir(cls.squeeze1, (lv_relax_call_tir586,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1301_1: R.Object = kv_cache[130]
            lv580: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1301_1, lv_relax_squeeze290, sinfo_args=(R.Object,))
            lv_tuple_item1311_1: R.Object = kv_cache[131]
            lv581: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1311_1, lv_fused_reshape12_squeeze165, sinfo_args=(R.Object,))
            lv582: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv580, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv583: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv581, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape877 = R.call_tir(cls.reshape5, (lv582,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape878 = R.call_tir(cls.reshape5, (lv583,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3290 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape877,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3291 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape878,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1744 = R.call_tir(cls.transpose8, (lv_relax_call_tir585,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul84 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3290, lv_relax_permute_dims1744), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast365 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul84, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast465 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast365,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1310 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast465, lv_fused_repeat_transpose3291), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1365 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1310,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4251: R.Tensor((4096, 8192), dtype="float16") = params[425]
            lv_relax_call_dps_packed1164 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1365,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas65 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4251, lv_relax_call_dps_packed1164), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1165 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas65,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul166 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1165,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add290 = R.call_tir(cls.add1, (lv_relax_add289, lv_fused_relax_permute_dims_relax_matmul166), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1321: R.Tensor((8192,), dtype="float16") = params[132]
            lv_fused_rms_norm1192 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add290, lv_tuple_item1321), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1166 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1192,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4261: R.Tensor((8192, 28672), dtype="float16") = params[426]
            lv_fused_relax_matmul3_cublas65 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1166, lv_tuple_item4261), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1167 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas65,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul375 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1167,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply165 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul375,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4271: R.Tensor((4096, 28672), dtype="float16") = params[427]
            lv_relax_call_dps_packed1168 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply165,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas65 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4271, lv_relax_call_dps_packed1168), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1169 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas65,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul265 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1169,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add291 = R.call_tir(cls.add1, (lv_relax_add290, lv_fused_relax_permute_dims_relax_matmul265), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1331: R.Tensor((8192,), dtype="float16") = params[133]
            lv_fused_rms_norm1193 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add291, lv_tuple_item1331), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1170 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1193,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4281: R.Tensor((8192, 5120), dtype="float16") = params[428]
            lv_fused_relax_matmul2_cublas66 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1170, lv_tuple_item4281), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1171 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas66,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul276 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1171,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split66 = R.call_tir(cls.split2, (lv_fused_relax_matmul276,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item066: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split66[0]
            lv_fused_reshape1166 = R.call_tir(cls.fused_reshape11, (lv_tuple_item066,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item166: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split66[1]
            lv_fused_reshape1266 = R.call_tir(cls.fused_reshape12, (lv_tuple_item166,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item266: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split66[2]
            lv_fused_reshape12_squeeze166 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item266,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162292: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163292: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir589 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1166, lv_tuple_item162292, lv_tuple_item163292), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162293: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163293: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir590 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1266, lv_tuple_item162293, lv_tuple_item163293), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze292 = R.call_tir(cls.squeeze1, (lv_relax_call_tir590,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1321_1: R.Object = kv_cache[132]
            lv584: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1321_1, lv_relax_squeeze292, sinfo_args=(R.Object,))
            lv_tuple_item1331_1: R.Object = kv_cache[133]
            lv585: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1331_1, lv_fused_reshape12_squeeze166, sinfo_args=(R.Object,))
            lv586: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv584, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv587: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv585, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape883 = R.call_tir(cls.reshape5, (lv586,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape884 = R.call_tir(cls.reshape5, (lv587,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3292 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape883,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3293 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape884,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1756 = R.call_tir(cls.transpose8, (lv_relax_call_tir589,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul85 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3292, lv_relax_permute_dims1756), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast366 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul85, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast466 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast366,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1319 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast466, lv_fused_repeat_transpose3293), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1366 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1319,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4291: R.Tensor((4096, 8192), dtype="float16") = params[429]
            lv_relax_call_dps_packed1172 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1366,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas66 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4291, lv_relax_call_dps_packed1172), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1173 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas66,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul167 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1173,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add292 = R.call_tir(cls.add1, (lv_relax_add291, lv_fused_relax_permute_dims_relax_matmul167), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1341: R.Tensor((8192,), dtype="float16") = params[134]
            lv_fused_rms_norm1194 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add292, lv_tuple_item1341), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1174 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1194,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4301: R.Tensor((8192, 28672), dtype="float16") = params[430]
            lv_fused_relax_matmul3_cublas66 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1174, lv_tuple_item4301), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1175 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas66,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul376 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1175,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply166 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul376,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4311: R.Tensor((4096, 28672), dtype="float16") = params[431]
            lv_relax_call_dps_packed1176 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply166,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas66 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4311, lv_relax_call_dps_packed1176), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1177 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas66,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul266 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1177,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add293 = R.call_tir(cls.add1, (lv_relax_add292, lv_fused_relax_permute_dims_relax_matmul266), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1351: R.Tensor((8192,), dtype="float16") = params[135]
            lv_fused_rms_norm1195 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add293, lv_tuple_item1351), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1178 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1195,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4321: R.Tensor((8192, 5120), dtype="float16") = params[432]
            lv_fused_relax_matmul2_cublas67 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1178, lv_tuple_item4321), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1179 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas67,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul277 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1179,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split67 = R.call_tir(cls.split2, (lv_fused_relax_matmul277,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item067: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split67[0]
            lv_fused_reshape1167 = R.call_tir(cls.fused_reshape11, (lv_tuple_item067,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item167: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split67[1]
            lv_fused_reshape1267 = R.call_tir(cls.fused_reshape12, (lv_tuple_item167,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item267: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split67[2]
            lv_fused_reshape12_squeeze167 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item267,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162294: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163294: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir593 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1167, lv_tuple_item162294, lv_tuple_item163294), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162295: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163295: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir594 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1267, lv_tuple_item162295, lv_tuple_item163295), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze294 = R.call_tir(cls.squeeze1, (lv_relax_call_tir594,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1341_1: R.Object = kv_cache[134]
            lv588: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1341_1, lv_relax_squeeze294, sinfo_args=(R.Object,))
            lv_tuple_item1351_1: R.Object = kv_cache[135]
            lv589: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1351_1, lv_fused_reshape12_squeeze167, sinfo_args=(R.Object,))
            lv590: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv588, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv591: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv589, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape889 = R.call_tir(cls.reshape5, (lv590,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape890 = R.call_tir(cls.reshape5, (lv591,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3294 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape889,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3295 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape890,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1768 = R.call_tir(cls.transpose8, (lv_relax_call_tir593,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul86 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3294, lv_relax_permute_dims1768), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast367 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul86, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast467 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast367,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1328 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast467, lv_fused_repeat_transpose3295), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1367 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1328,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4331: R.Tensor((4096, 8192), dtype="float16") = params[433]
            lv_relax_call_dps_packed1180 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1367,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas67 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4331, lv_relax_call_dps_packed1180), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1181 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas67,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul168 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1181,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add294 = R.call_tir(cls.add1, (lv_relax_add293, lv_fused_relax_permute_dims_relax_matmul168), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1361: R.Tensor((8192,), dtype="float16") = params[136]
            lv_fused_rms_norm1196 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add294, lv_tuple_item1361), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1182 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1196,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4341: R.Tensor((8192, 28672), dtype="float16") = params[434]
            lv_fused_relax_matmul3_cublas67 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1182, lv_tuple_item4341), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1183 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas67,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul377 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1183,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply167 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul377,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4351: R.Tensor((4096, 28672), dtype="float16") = params[435]
            lv_relax_call_dps_packed1184 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply167,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas67 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4351, lv_relax_call_dps_packed1184), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1185 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas67,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul267 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1185,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add295 = R.call_tir(cls.add1, (lv_relax_add294, lv_fused_relax_permute_dims_relax_matmul267), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1371: R.Tensor((8192,), dtype="float16") = params[137]
            lv_fused_rms_norm1197 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add295, lv_tuple_item1371), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1186 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1197,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4361: R.Tensor((8192, 5120), dtype="float16") = params[436]
            lv_fused_relax_matmul2_cublas68 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1186, lv_tuple_item4361), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1187 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas68,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul278 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1187,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split68 = R.call_tir(cls.split2, (lv_fused_relax_matmul278,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item068: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split68[0]
            lv_fused_reshape1168 = R.call_tir(cls.fused_reshape11, (lv_tuple_item068,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item168: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split68[1]
            lv_fused_reshape1268 = R.call_tir(cls.fused_reshape12, (lv_tuple_item168,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item268: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split68[2]
            lv_fused_reshape12_squeeze168 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item268,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162296: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163296: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir597 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1168, lv_tuple_item162296, lv_tuple_item163296), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162297: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163297: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir598 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1268, lv_tuple_item162297, lv_tuple_item163297), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze296 = R.call_tir(cls.squeeze1, (lv_relax_call_tir598,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1361_1: R.Object = kv_cache[136]
            lv592: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1361_1, lv_relax_squeeze296, sinfo_args=(R.Object,))
            lv_tuple_item1371_1: R.Object = kv_cache[137]
            lv593: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1371_1, lv_fused_reshape12_squeeze168, sinfo_args=(R.Object,))
            lv594: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv592, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv595: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv593, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape895 = R.call_tir(cls.reshape5, (lv594,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape896 = R.call_tir(cls.reshape5, (lv595,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3296 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape895,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3297 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape896,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1780 = R.call_tir(cls.transpose8, (lv_relax_call_tir597,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul87 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3296, lv_relax_permute_dims1780), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast368 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul87, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast468 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast368,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1337 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast468, lv_fused_repeat_transpose3297), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1368 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1337,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4371: R.Tensor((4096, 8192), dtype="float16") = params[437]
            lv_relax_call_dps_packed1188 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1368,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas68 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4371, lv_relax_call_dps_packed1188), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1189 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas68,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul169 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1189,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add296 = R.call_tir(cls.add1, (lv_relax_add295, lv_fused_relax_permute_dims_relax_matmul169), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1381: R.Tensor((8192,), dtype="float16") = params[138]
            lv_fused_rms_norm1198 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add296, lv_tuple_item1381), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1190 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1198,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4381: R.Tensor((8192, 28672), dtype="float16") = params[438]
            lv_fused_relax_matmul3_cublas68 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1190, lv_tuple_item4381), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1191 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas68,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul378 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1191,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply168 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul378,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4391: R.Tensor((4096, 28672), dtype="float16") = params[439]
            lv_relax_call_dps_packed1192 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply168,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas68 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4391, lv_relax_call_dps_packed1192), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1193 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas68,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul268 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1193,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add297 = R.call_tir(cls.add1, (lv_relax_add296, lv_fused_relax_permute_dims_relax_matmul268), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1391: R.Tensor((8192,), dtype="float16") = params[139]
            lv_fused_rms_norm1199 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add297, lv_tuple_item1391), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1194 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1199,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4401: R.Tensor((8192, 5120), dtype="float16") = params[440]
            lv_fused_relax_matmul2_cublas69 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1194, lv_tuple_item4401), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1195 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas69,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul279 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1195,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split69 = R.call_tir(cls.split2, (lv_fused_relax_matmul279,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item069: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split69[0]
            lv_fused_reshape1169 = R.call_tir(cls.fused_reshape11, (lv_tuple_item069,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item169: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split69[1]
            lv_fused_reshape1269 = R.call_tir(cls.fused_reshape12, (lv_tuple_item169,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item269: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split69[2]
            lv_fused_reshape12_squeeze169 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item269,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162298: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163298: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir601 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1169, lv_tuple_item162298, lv_tuple_item163298), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162299: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163299: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir602 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1269, lv_tuple_item162299, lv_tuple_item163299), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze298 = R.call_tir(cls.squeeze1, (lv_relax_call_tir602,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1381_1: R.Object = kv_cache[138]
            lv596: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1381_1, lv_relax_squeeze298, sinfo_args=(R.Object,))
            lv_tuple_item1391_1: R.Object = kv_cache[139]
            lv597: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1391_1, lv_fused_reshape12_squeeze169, sinfo_args=(R.Object,))
            lv598: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv596, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv599: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv597, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape901 = R.call_tir(cls.reshape5, (lv598,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape902 = R.call_tir(cls.reshape5, (lv599,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3298 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape901,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3299 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape902,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1792 = R.call_tir(cls.transpose8, (lv_relax_call_tir601,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul88 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3298, lv_relax_permute_dims1792), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast369 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul88, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast469 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast369,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1346 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast469, lv_fused_repeat_transpose3299), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1369 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1346,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4411: R.Tensor((4096, 8192), dtype="float16") = params[441]
            lv_relax_call_dps_packed1196 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1369,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas69 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4411, lv_relax_call_dps_packed1196), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1197 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas69,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul170 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1197,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add298 = R.call_tir(cls.add1, (lv_relax_add297, lv_fused_relax_permute_dims_relax_matmul170), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1401: R.Tensor((8192,), dtype="float16") = params[140]
            lv_fused_rms_norm1200 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add298, lv_tuple_item1401), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1198 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1200,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4421: R.Tensor((8192, 28672), dtype="float16") = params[442]
            lv_fused_relax_matmul3_cublas69 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1198, lv_tuple_item4421), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1199 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas69,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul379 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1199,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply169 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul379,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4431: R.Tensor((4096, 28672), dtype="float16") = params[443]
            lv_relax_call_dps_packed1200 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply169,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas69 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4431, lv_relax_call_dps_packed1200), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1201 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas69,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul269 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1201,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add299 = R.call_tir(cls.add1, (lv_relax_add298, lv_fused_relax_permute_dims_relax_matmul269), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1411: R.Tensor((8192,), dtype="float16") = params[141]
            lv_fused_rms_norm1201 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add299, lv_tuple_item1411), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1202 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1201,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4441: R.Tensor((8192, 5120), dtype="float16") = params[444]
            lv_fused_relax_matmul2_cublas70 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1202, lv_tuple_item4441), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1203 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas70,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul280 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1203,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split70 = R.call_tir(cls.split2, (lv_fused_relax_matmul280,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item070: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split70[0]
            lv_fused_reshape1170 = R.call_tir(cls.fused_reshape11, (lv_tuple_item070,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item170: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split70[1]
            lv_fused_reshape1270 = R.call_tir(cls.fused_reshape12, (lv_tuple_item170,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item270: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split70[2]
            lv_fused_reshape12_squeeze170 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item270,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162300: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163300: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir605 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1170, lv_tuple_item162300, lv_tuple_item163300), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162301: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163301: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir606 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1270, lv_tuple_item162301, lv_tuple_item163301), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze300 = R.call_tir(cls.squeeze1, (lv_relax_call_tir606,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1401_1: R.Object = kv_cache[140]
            lv600: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1401_1, lv_relax_squeeze300, sinfo_args=(R.Object,))
            lv_tuple_item1411_1: R.Object = kv_cache[141]
            lv601: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1411_1, lv_fused_reshape12_squeeze170, sinfo_args=(R.Object,))
            lv602: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv600, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv603: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv601, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape907 = R.call_tir(cls.reshape5, (lv602,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape908 = R.call_tir(cls.reshape5, (lv603,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3300 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape907,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3301 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape908,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1804 = R.call_tir(cls.transpose8, (lv_relax_call_tir605,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul89 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3300, lv_relax_permute_dims1804), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast370 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul89, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast470 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast370,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1355 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast470, lv_fused_repeat_transpose3301), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1370 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1355,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4451: R.Tensor((4096, 8192), dtype="float16") = params[445]
            lv_relax_call_dps_packed1204 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1370,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas70 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4451, lv_relax_call_dps_packed1204), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1205 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas70,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul171 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1205,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add300 = R.call_tir(cls.add1, (lv_relax_add299, lv_fused_relax_permute_dims_relax_matmul171), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1421: R.Tensor((8192,), dtype="float16") = params[142]
            lv_fused_rms_norm1202 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add300, lv_tuple_item1421), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1206 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1202,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4461: R.Tensor((8192, 28672), dtype="float16") = params[446]
            lv_fused_relax_matmul3_cublas70 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1206, lv_tuple_item4461), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1207 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas70,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul380 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1207,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply170 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul380,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4471: R.Tensor((4096, 28672), dtype="float16") = params[447]
            lv_relax_call_dps_packed1208 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply170,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas70 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4471, lv_relax_call_dps_packed1208), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1209 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas70,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul270 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1209,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add301 = R.call_tir(cls.add1, (lv_relax_add300, lv_fused_relax_permute_dims_relax_matmul270), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1431: R.Tensor((8192,), dtype="float16") = params[143]
            lv_fused_rms_norm1203 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add301, lv_tuple_item1431), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1210 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1203,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4481: R.Tensor((8192, 5120), dtype="float16") = params[448]
            lv_fused_relax_matmul2_cublas71 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1210, lv_tuple_item4481), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1211 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas71,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul281 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1211,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split71 = R.call_tir(cls.split2, (lv_fused_relax_matmul281,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item071: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split71[0]
            lv_fused_reshape1171 = R.call_tir(cls.fused_reshape11, (lv_tuple_item071,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item171_1: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split71[1]
            lv_fused_reshape1271 = R.call_tir(cls.fused_reshape12, (lv_tuple_item171_1,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item271_1: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split71[2]
            lv_fused_reshape12_squeeze171 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item271_1,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162302: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163302: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir609 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1171, lv_tuple_item162302, lv_tuple_item163302), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162303: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163303: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir610 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1271, lv_tuple_item162303, lv_tuple_item163303), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze302 = R.call_tir(cls.squeeze1, (lv_relax_call_tir610,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1421_1: R.Object = kv_cache[142]
            lv604: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1421_1, lv_relax_squeeze302, sinfo_args=(R.Object,))
            lv_tuple_item1431_1: R.Object = kv_cache[143]
            lv605: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1431_1, lv_fused_reshape12_squeeze171, sinfo_args=(R.Object,))
            lv606: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv604, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv607: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv605, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape913 = R.call_tir(cls.reshape5, (lv606,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape914 = R.call_tir(cls.reshape5, (lv607,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3302 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape913,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3303 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape914,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1816 = R.call_tir(cls.transpose8, (lv_relax_call_tir609,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul90 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3302, lv_relax_permute_dims1816), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast371 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul90, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast471 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast371,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1364 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast471, lv_fused_repeat_transpose3303), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1371 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1364,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4491: R.Tensor((4096, 8192), dtype="float16") = params[449]
            lv_relax_call_dps_packed1212 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1371,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas71 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4491, lv_relax_call_dps_packed1212), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1213 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas71,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul172 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1213,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add302 = R.call_tir(cls.add1, (lv_relax_add301, lv_fused_relax_permute_dims_relax_matmul172), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1441: R.Tensor((8192,), dtype="float16") = params[144]
            lv_fused_rms_norm1204 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add302, lv_tuple_item1441), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1214 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1204,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4501: R.Tensor((8192, 28672), dtype="float16") = params[450]
            lv_fused_relax_matmul3_cublas71 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1214, lv_tuple_item4501), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1215 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas71,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul381 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1215,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply171 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul381,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4511: R.Tensor((4096, 28672), dtype="float16") = params[451]
            lv_relax_call_dps_packed1216 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply171,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas71 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4511, lv_relax_call_dps_packed1216), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1217 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas71,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul271 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1217,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add303 = R.call_tir(cls.add1, (lv_relax_add302, lv_fused_relax_permute_dims_relax_matmul271), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1451: R.Tensor((8192,), dtype="float16") = params[145]
            lv_fused_rms_norm1205 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add303, lv_tuple_item1451), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1218 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1205,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4521: R.Tensor((8192, 5120), dtype="float16") = params[452]
            lv_fused_relax_matmul2_cublas72 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1218, lv_tuple_item4521), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1219 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas72,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul282 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1219,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split72 = R.call_tir(cls.split2, (lv_fused_relax_matmul282,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item072: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split72[0]
            lv_fused_reshape1172 = R.call_tir(cls.fused_reshape11, (lv_tuple_item072,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item172: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split72[1]
            lv_fused_reshape1272 = R.call_tir(cls.fused_reshape12, (lv_tuple_item172,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item272: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split72[2]
            lv_fused_reshape12_squeeze172 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item272,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162304: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163304: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir613 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1172, lv_tuple_item162304, lv_tuple_item163304), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162305: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163305: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir614 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1272, lv_tuple_item162305, lv_tuple_item163305), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze304 = R.call_tir(cls.squeeze1, (lv_relax_call_tir614,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1441_1: R.Object = kv_cache[144]
            lv608: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1441_1, lv_relax_squeeze304, sinfo_args=(R.Object,))
            lv_tuple_item1451_1: R.Object = kv_cache[145]
            lv609: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1451_1, lv_fused_reshape12_squeeze172, sinfo_args=(R.Object,))
            lv610: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv608, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv611: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv609, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape919 = R.call_tir(cls.reshape5, (lv610,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape920 = R.call_tir(cls.reshape5, (lv611,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3304 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape919,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3305 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape920,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1828 = R.call_tir(cls.transpose8, (lv_relax_call_tir613,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul91 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3304, lv_relax_permute_dims1828), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast372 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul91, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast472 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast372,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1373 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast472, lv_fused_repeat_transpose3305), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1372 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1373,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4531: R.Tensor((4096, 8192), dtype="float16") = params[453]
            lv_relax_call_dps_packed1220 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1372,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas72 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4531, lv_relax_call_dps_packed1220), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1221 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas72,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul173 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1221,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add304 = R.call_tir(cls.add1, (lv_relax_add303, lv_fused_relax_permute_dims_relax_matmul173), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1461: R.Tensor((8192,), dtype="float16") = params[146]
            lv_fused_rms_norm1206 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add304, lv_tuple_item1461), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1222 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1206,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4541: R.Tensor((8192, 28672), dtype="float16") = params[454]
            lv_fused_relax_matmul3_cublas72 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1222, lv_tuple_item4541), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1223 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas72,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul382 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1223,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply172 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul382,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4551: R.Tensor((4096, 28672), dtype="float16") = params[455]
            lv_relax_call_dps_packed1224 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply172,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas72 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4551, lv_relax_call_dps_packed1224), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1225 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas72,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul272 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1225,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add305 = R.call_tir(cls.add1, (lv_relax_add304, lv_fused_relax_permute_dims_relax_matmul272), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1471: R.Tensor((8192,), dtype="float16") = params[147]
            lv_fused_rms_norm1207 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add305, lv_tuple_item1471), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1226 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1207,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4561: R.Tensor((8192, 5120), dtype="float16") = params[456]
            lv_fused_relax_matmul2_cublas73 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1226, lv_tuple_item4561), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1227 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas73,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul283 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1227,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split73 = R.call_tir(cls.split2, (lv_fused_relax_matmul283,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item073: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split73[0]
            lv_fused_reshape1173 = R.call_tir(cls.fused_reshape11, (lv_tuple_item073,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item173: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split73[1]
            lv_fused_reshape1273 = R.call_tir(cls.fused_reshape12, (lv_tuple_item173,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item273: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split73[2]
            lv_fused_reshape12_squeeze173 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item273,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162306: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163306: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir617 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1173, lv_tuple_item162306, lv_tuple_item163306), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162307: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163307: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir618 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1273, lv_tuple_item162307, lv_tuple_item163307), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze306 = R.call_tir(cls.squeeze1, (lv_relax_call_tir618,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1461_1: R.Object = kv_cache[146]
            lv612: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1461_1, lv_relax_squeeze306, sinfo_args=(R.Object,))
            lv_tuple_item1471_1: R.Object = kv_cache[147]
            lv613: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1471_1, lv_fused_reshape12_squeeze173, sinfo_args=(R.Object,))
            lv614: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv612, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv615: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv613, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape925 = R.call_tir(cls.reshape5, (lv614,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape926 = R.call_tir(cls.reshape5, (lv615,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3306 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape925,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3307 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape926,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1840 = R.call_tir(cls.transpose8, (lv_relax_call_tir617,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul92 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3306, lv_relax_permute_dims1840), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast373 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul92, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast473 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast373,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1382 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast473, lv_fused_repeat_transpose3307), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1373 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1382,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4571: R.Tensor((4096, 8192), dtype="float16") = params[457]
            lv_relax_call_dps_packed1228 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1373,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas73 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4571, lv_relax_call_dps_packed1228), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1229 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas73,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul174 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1229,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add306 = R.call_tir(cls.add1, (lv_relax_add305, lv_fused_relax_permute_dims_relax_matmul174), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1481: R.Tensor((8192,), dtype="float16") = params[148]
            lv_fused_rms_norm1208 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add306, lv_tuple_item1481), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1230 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1208,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4581: R.Tensor((8192, 28672), dtype="float16") = params[458]
            lv_fused_relax_matmul3_cublas73 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1230, lv_tuple_item4581), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1231 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas73,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul383 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1231,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply173 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul383,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4591: R.Tensor((4096, 28672), dtype="float16") = params[459]
            lv_relax_call_dps_packed1232 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply173,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas73 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4591, lv_relax_call_dps_packed1232), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1233 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas73,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul273 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1233,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add307 = R.call_tir(cls.add1, (lv_relax_add306, lv_fused_relax_permute_dims_relax_matmul273), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1491: R.Tensor((8192,), dtype="float16") = params[149]
            lv_fused_rms_norm1209 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add307, lv_tuple_item1491), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1234 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1209,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4601: R.Tensor((8192, 5120), dtype="float16") = params[460]
            lv_fused_relax_matmul2_cublas74 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1234, lv_tuple_item4601), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1235 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas74,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul284 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1235,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split74 = R.call_tir(cls.split2, (lv_fused_relax_matmul284,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item074: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split74[0]
            lv_fused_reshape1174 = R.call_tir(cls.fused_reshape11, (lv_tuple_item074,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item174: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split74[1]
            lv_fused_reshape1274 = R.call_tir(cls.fused_reshape12, (lv_tuple_item174,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item274: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split74[2]
            lv_fused_reshape12_squeeze174 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item274,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162308: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163308: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir621 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1174, lv_tuple_item162308, lv_tuple_item163308), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162309: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163309: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir622 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1274, lv_tuple_item162309, lv_tuple_item163309), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze308 = R.call_tir(cls.squeeze1, (lv_relax_call_tir622,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1481_1: R.Object = kv_cache[148]
            lv616: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1481_1, lv_relax_squeeze308, sinfo_args=(R.Object,))
            lv_tuple_item1491_1: R.Object = kv_cache[149]
            lv617: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1491_1, lv_fused_reshape12_squeeze174, sinfo_args=(R.Object,))
            lv618: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv616, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv619: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv617, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape931 = R.call_tir(cls.reshape5, (lv618,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape932 = R.call_tir(cls.reshape5, (lv619,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3308 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape931,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3309 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape932,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1852 = R.call_tir(cls.transpose8, (lv_relax_call_tir621,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul93 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3308, lv_relax_permute_dims1852), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast374 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul93, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast474 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast374,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1391 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast474, lv_fused_repeat_transpose3309), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1374 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1391,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4611: R.Tensor((4096, 8192), dtype="float16") = params[461]
            lv_relax_call_dps_packed1236 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1374,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas74 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4611, lv_relax_call_dps_packed1236), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1237 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas74,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul175 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1237,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add308 = R.call_tir(cls.add1, (lv_relax_add307, lv_fused_relax_permute_dims_relax_matmul175), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1501: R.Tensor((8192,), dtype="float16") = params[150]
            lv_fused_rms_norm1210 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add308, lv_tuple_item1501), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1238 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1210,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4621: R.Tensor((8192, 28672), dtype="float16") = params[462]
            lv_fused_relax_matmul3_cublas74 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1238, lv_tuple_item4621), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1239 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas74,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul384 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1239,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply174 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul384,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4631: R.Tensor((4096, 28672), dtype="float16") = params[463]
            lv_relax_call_dps_packed1240 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply174,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas74 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4631, lv_relax_call_dps_packed1240), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1241 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas74,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul274 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1241,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add309 = R.call_tir(cls.add1, (lv_relax_add308, lv_fused_relax_permute_dims_relax_matmul274), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1511: R.Tensor((8192,), dtype="float16") = params[151]
            lv_fused_rms_norm1211 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add309, lv_tuple_item1511), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1242 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1211,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4641: R.Tensor((8192, 5120), dtype="float16") = params[464]
            lv_fused_relax_matmul2_cublas75 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1242, lv_tuple_item4641), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1243 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas75,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul285 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1243,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split75 = R.call_tir(cls.split2, (lv_fused_relax_matmul285,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item075: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split75[0]
            lv_fused_reshape1175 = R.call_tir(cls.fused_reshape11, (lv_tuple_item075,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item175: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split75[1]
            lv_fused_reshape1275 = R.call_tir(cls.fused_reshape12, (lv_tuple_item175,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item275: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split75[2]
            lv_fused_reshape12_squeeze175 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item275,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162310: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163310: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir625 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1175, lv_tuple_item162310, lv_tuple_item163310), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162311: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163311: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir626 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1275, lv_tuple_item162311, lv_tuple_item163311), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze310 = R.call_tir(cls.squeeze1, (lv_relax_call_tir626,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1501_1: R.Object = kv_cache[150]
            lv620: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1501_1, lv_relax_squeeze310, sinfo_args=(R.Object,))
            lv_tuple_item1511_1: R.Object = kv_cache[151]
            lv621: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1511_1, lv_fused_reshape12_squeeze175, sinfo_args=(R.Object,))
            lv622: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv620, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv623: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv621, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape937 = R.call_tir(cls.reshape5, (lv622,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape938 = R.call_tir(cls.reshape5, (lv623,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3310 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape937,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3311 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape938,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1864 = R.call_tir(cls.transpose8, (lv_relax_call_tir625,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul94 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3310, lv_relax_permute_dims1864), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast375 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul94, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast475 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast375,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1400 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast475, lv_fused_repeat_transpose3311), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1375 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1400,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4651: R.Tensor((4096, 8192), dtype="float16") = params[465]
            lv_relax_call_dps_packed1244 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1375,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas75 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4651, lv_relax_call_dps_packed1244), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1245 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas75,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul176 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1245,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add310 = R.call_tir(cls.add1, (lv_relax_add309, lv_fused_relax_permute_dims_relax_matmul176), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1521: R.Tensor((8192,), dtype="float16") = params[152]
            lv_fused_rms_norm1212 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add310, lv_tuple_item1521), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1246 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1212,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4661: R.Tensor((8192, 28672), dtype="float16") = params[466]
            lv_fused_relax_matmul3_cublas75 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1246, lv_tuple_item4661), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1247 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas75,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul385 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1247,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply175 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul385,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4671: R.Tensor((4096, 28672), dtype="float16") = params[467]
            lv_relax_call_dps_packed1248 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply175,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas75 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4671, lv_relax_call_dps_packed1248), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1249 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas75,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul275 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1249,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add311 = R.call_tir(cls.add1, (lv_relax_add310, lv_fused_relax_permute_dims_relax_matmul275), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1531: R.Tensor((8192,), dtype="float16") = params[153]
            lv_fused_rms_norm1213 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add311, lv_tuple_item1531), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1250 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1213,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4681: R.Tensor((8192, 5120), dtype="float16") = params[468]
            lv_fused_relax_matmul2_cublas76 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1250, lv_tuple_item4681), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1251 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas76,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul286 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1251,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split76 = R.call_tir(cls.split2, (lv_fused_relax_matmul286,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item076: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split76[0]
            lv_fused_reshape1176 = R.call_tir(cls.fused_reshape11, (lv_tuple_item076,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item176: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split76[1]
            lv_fused_reshape1276 = R.call_tir(cls.fused_reshape12, (lv_tuple_item176,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item276: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split76[2]
            lv_fused_reshape12_squeeze176 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item276,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162312: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163312: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir629 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1176, lv_tuple_item162312, lv_tuple_item163312), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162313: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163313: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir630 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1276, lv_tuple_item162313, lv_tuple_item163313), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze312 = R.call_tir(cls.squeeze1, (lv_relax_call_tir630,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1521_1: R.Object = kv_cache[152]
            lv624: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1521_1, lv_relax_squeeze312, sinfo_args=(R.Object,))
            lv_tuple_item1531_1: R.Object = kv_cache[153]
            lv625: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1531_1, lv_fused_reshape12_squeeze176, sinfo_args=(R.Object,))
            lv626: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv624, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv627: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv625, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape943 = R.call_tir(cls.reshape5, (lv626,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape944 = R.call_tir(cls.reshape5, (lv627,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3312 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape943,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3313 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape944,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1876 = R.call_tir(cls.transpose8, (lv_relax_call_tir629,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul95 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3312, lv_relax_permute_dims1876), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast376 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul95, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast476 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast376,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1409 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast476, lv_fused_repeat_transpose3313), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1376 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1409,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4691: R.Tensor((4096, 8192), dtype="float16") = params[469]
            lv_relax_call_dps_packed1252 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1376,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas76 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4691, lv_relax_call_dps_packed1252), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1253 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas76,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul177 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1253,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add312 = R.call_tir(cls.add1, (lv_relax_add311, lv_fused_relax_permute_dims_relax_matmul177), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1541: R.Tensor((8192,), dtype="float16") = params[154]
            lv_fused_rms_norm1214 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add312, lv_tuple_item1541), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1254 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1214,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4701: R.Tensor((8192, 28672), dtype="float16") = params[470]
            lv_fused_relax_matmul3_cublas76 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1254, lv_tuple_item4701), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1255 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas76,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul386 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1255,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply176 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul386,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4711: R.Tensor((4096, 28672), dtype="float16") = params[471]
            lv_relax_call_dps_packed1256 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply176,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas76 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4711, lv_relax_call_dps_packed1256), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1257 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas76,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul276 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1257,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add313 = R.call_tir(cls.add1, (lv_relax_add312, lv_fused_relax_permute_dims_relax_matmul276), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1551: R.Tensor((8192,), dtype="float16") = params[155]
            lv_fused_rms_norm1215 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add313, lv_tuple_item1551), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1258 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1215,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4721: R.Tensor((8192, 5120), dtype="float16") = params[472]
            lv_fused_relax_matmul2_cublas77 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1258, lv_tuple_item4721), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1259 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas77,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul287 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1259,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split77 = R.call_tir(cls.split2, (lv_fused_relax_matmul287,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item077: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split77[0]
            lv_fused_reshape1177 = R.call_tir(cls.fused_reshape11, (lv_tuple_item077,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item177: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split77[1]
            lv_fused_reshape1277 = R.call_tir(cls.fused_reshape12, (lv_tuple_item177,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item277: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split77[2]
            lv_fused_reshape12_squeeze177 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item277,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162314: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163314: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir633 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1177, lv_tuple_item162314, lv_tuple_item163314), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162315: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163315: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir634 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1277, lv_tuple_item162315, lv_tuple_item163315), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze314 = R.call_tir(cls.squeeze1, (lv_relax_call_tir634,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1541_1: R.Object = kv_cache[154]
            lv628: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1541_1, lv_relax_squeeze314, sinfo_args=(R.Object,))
            lv_tuple_item1551_1: R.Object = kv_cache[155]
            lv629: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1551_1, lv_fused_reshape12_squeeze177, sinfo_args=(R.Object,))
            lv630: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv628, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv631: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv629, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape949 = R.call_tir(cls.reshape5, (lv630,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape950 = R.call_tir(cls.reshape5, (lv631,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3314 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape949,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3315 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape950,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1888 = R.call_tir(cls.transpose8, (lv_relax_call_tir633,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul96 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3314, lv_relax_permute_dims1888), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast377 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul96, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast477 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast377,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1418 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast477, lv_fused_repeat_transpose3315), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1377 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1418,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4731: R.Tensor((4096, 8192), dtype="float16") = params[473]
            lv_relax_call_dps_packed1260 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1377,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas77 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4731, lv_relax_call_dps_packed1260), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1261 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas77,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul178 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1261,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add314 = R.call_tir(cls.add1, (lv_relax_add313, lv_fused_relax_permute_dims_relax_matmul178), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1561: R.Tensor((8192,), dtype="float16") = params[156]
            lv_fused_rms_norm1216 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add314, lv_tuple_item1561), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1262 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1216,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4741: R.Tensor((8192, 28672), dtype="float16") = params[474]
            lv_fused_relax_matmul3_cublas77 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1262, lv_tuple_item4741), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1263 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas77,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul387 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1263,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply177 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul387,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4751: R.Tensor((4096, 28672), dtype="float16") = params[475]
            lv_relax_call_dps_packed1264 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply177,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas77 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4751, lv_relax_call_dps_packed1264), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1265 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas77,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul277 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1265,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add315 = R.call_tir(cls.add1, (lv_relax_add314, lv_fused_relax_permute_dims_relax_matmul277), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1571: R.Tensor((8192,), dtype="float16") = params[157]
            lv_fused_rms_norm1217 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add315, lv_tuple_item1571), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1266 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1217,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4761: R.Tensor((8192, 5120), dtype="float16") = params[476]
            lv_fused_relax_matmul2_cublas78 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1266, lv_tuple_item4761), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1267 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas78,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul288 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1267,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split78 = R.call_tir(cls.split2, (lv_fused_relax_matmul288,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item078: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split78[0]
            lv_fused_reshape1178 = R.call_tir(cls.fused_reshape11, (lv_tuple_item078,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item178: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split78[1]
            lv_fused_reshape1278 = R.call_tir(cls.fused_reshape12, (lv_tuple_item178,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item278: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split78[2]
            lv_fused_reshape12_squeeze178 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item278,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162316: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163316: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir637 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1178, lv_tuple_item162316, lv_tuple_item163316), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162317: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163317: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir638 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1278, lv_tuple_item162317, lv_tuple_item163317), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze316 = R.call_tir(cls.squeeze1, (lv_relax_call_tir638,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1561_1: R.Object = kv_cache[156]
            lv632: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1561_1, lv_relax_squeeze316, sinfo_args=(R.Object,))
            lv_tuple_item1571_1: R.Object = kv_cache[157]
            lv633: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1571_1, lv_fused_reshape12_squeeze178, sinfo_args=(R.Object,))
            lv634: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv632, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv635: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv633, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape955 = R.call_tir(cls.reshape5, (lv634,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape956 = R.call_tir(cls.reshape5, (lv635,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3316 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape955,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3317 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape956,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1900 = R.call_tir(cls.transpose8, (lv_relax_call_tir637,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul97 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3316, lv_relax_permute_dims1900), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast378 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul97, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast478 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast378,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1427 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast478, lv_fused_repeat_transpose3317), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1378 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1427,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4771: R.Tensor((4096, 8192), dtype="float16") = params[477]
            lv_relax_call_dps_packed1268 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1378,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas78 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4771, lv_relax_call_dps_packed1268), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1269 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas78,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul179 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1269,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add316 = R.call_tir(cls.add1, (lv_relax_add315, lv_fused_relax_permute_dims_relax_matmul179), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1581: R.Tensor((8192,), dtype="float16") = params[158]
            lv_fused_rms_norm1218 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add316, lv_tuple_item1581), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1270 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1218,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4781: R.Tensor((8192, 28672), dtype="float16") = params[478]
            lv_fused_relax_matmul3_cublas78 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1270, lv_tuple_item4781), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1271 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas78,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul388 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1271,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply178 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul388,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4791: R.Tensor((4096, 28672), dtype="float16") = params[479]
            lv_relax_call_dps_packed1272 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply178,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas78 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4791, lv_relax_call_dps_packed1272), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1273 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas78,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul278 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1273,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add317 = R.call_tir(cls.add1, (lv_relax_add316, lv_fused_relax_permute_dims_relax_matmul278), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1591: R.Tensor((8192,), dtype="float16") = params[159]
            lv_fused_rms_norm1219 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add317, lv_tuple_item1591), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1274 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1219,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4801: R.Tensor((8192, 5120), dtype="float16") = params[480]
            lv_fused_relax_matmul2_cublas79 = R.call_dps_packed("fused_relax_matmul2_cublas", (lv_relax_call_dps_packed1274, lv_tuple_item4801), out_sinfo=R.Tensor((1, 1, 5120), dtype="float16"))
            lv_relax_call_dps_packed1275 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul2_cublas79,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_fused_relax_matmul289 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1275,), out_sinfo=R.Tensor((1, 1, 10240), dtype="float16"))
            lv_relax_split79 = R.call_tir(cls.split2, (lv_fused_relax_matmul289,), out_sinfo=[R.Tensor((1, 1, 8192), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16"), R.Tensor((1, 1, 1024), dtype="float16")])
            lv_tuple_item079: R.Tensor((1, 1, 8192), dtype="float16") = lv_relax_split79[0]
            lv_fused_reshape1179 = R.call_tir(cls.fused_reshape11, (lv_tuple_item079,), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"))
            lv_tuple_item179: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split79[1]
            lv_fused_reshape1279 = R.call_tir(cls.fused_reshape12, (lv_tuple_item179,), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"))
            lv_tuple_item279: R.Tensor((1, 1, 1024), dtype="float16") = lv_relax_split79[2]
            lv_fused_reshape12_squeeze179 = R.call_tir(cls.fused_reshape12_squeeze1, (lv_tuple_item279,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item162318: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163318: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir641 = R.call_tir(cls.rotary_embedding2, (lv_fused_reshape1179, lv_tuple_item162318, lv_tuple_item163318), out_sinfo=R.Tensor((1, 1, 64, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_tuple_item162319: R.Tensor((2048, 128), dtype="float16") = params[162]
            lv_tuple_item163319: R.Tensor((2048, 128), dtype="float16") = params[163]
            lv_relax_call_tir642 = R.call_tir(cls.rotary_embedding3, (lv_fused_reshape1279, lv_tuple_item162319, lv_tuple_item163319), out_sinfo=R.Tensor((1, 1, 8, 128), dtype="float16"), tir_vars=R.shape([n]))
            lv_relax_squeeze318 = R.call_tir(cls.squeeze1, (lv_relax_call_tir642,), out_sinfo=R.Tensor((1, 8, 128), dtype="float16"))
            lv_tuple_item1581_1: R.Object = kv_cache[158]
            lv636: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1581_1, lv_relax_squeeze318, sinfo_args=(R.Object,))
            lv_tuple_item1591_1: R.Object = kv_cache[159]
            lv637: R.Object = R.call_packed("vm.builtin.attention_kv_cache_append", lv_tuple_item1591_1, lv_fused_reshape12_squeeze179, sinfo_args=(R.Object,))
            lv638: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv636, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv639: R.Tensor((n, 8, 128), dtype="float16") = R.call_packed("vm.builtin.attention_kv_cache_view", lv637, R.shape([n, 8, 128]), sinfo_args=(R.Tensor((n, 8, 128), dtype="float16"),))
            lv_relax_reshape961 = R.call_tir(cls.reshape5, (lv638,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_relax_reshape962 = R.call_tir(cls.reshape5, (lv639,), out_sinfo=R.Tensor((1, n, 8, 128), dtype="float16"))
            lv_fused_repeat_transpose3318 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape961,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_fused_repeat_transpose3319 = R.call_tir(cls.fused_repeat_transpose3, (lv_relax_reshape962,), out_sinfo=R.Tensor((1, 64, n, 128), dtype="float16"))
            lv_relax_permute_dims1912 = R.call_tir(cls.transpose8, (lv_relax_call_tir641,), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul98 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul_cublas", (lv_fused_repeat_transpose3318, lv_relax_permute_dims1912), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_fused_divide2_maximum1_minimum1_cast379 = R.call_tir(cls.fused_divide2_maximum1_minimum1_cast3, (lv_fused_relax_permute_dims_relax_matmul98, lv_relax_full), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float32"))
            lv_fused_softmax2_cast479 = R.call_tir(cls.fused_softmax2_cast4, (lv_fused_divide2_maximum1_minimum1_cast379,), out_sinfo=R.Tensor((1, 64, 1, n), dtype="float16"))
            lv_relax_matmul1436 = R.call_tir(cls.matmul1, (lv_fused_softmax2_cast479, lv_fused_repeat_transpose3319), out_sinfo=R.Tensor((1, 64, 1, 128), dtype="float16"))
            lv_fused_transpose9_reshape1379 = R.call_tir(cls.fused_transpose9_reshape13, (lv_relax_matmul1436,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4811: R.Tensor((4096, 8192), dtype="float16") = params[481]
            lv_relax_call_dps_packed1276 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_transpose9_reshape1379,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul1_cublas79 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul1_cublas", (lv_tuple_item4811, lv_relax_call_dps_packed1276), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1277 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul1_cublas79,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul180 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1277,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add318 = R.call_tir(cls.add1, (lv_relax_add317, lv_fused_relax_permute_dims_relax_matmul180), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1601: R.Tensor((8192,), dtype="float16") = params[160]
            lv_fused_rms_norm1220 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add318, lv_tuple_item1601), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_dps_packed1278 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_rms_norm1220,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4821: R.Tensor((8192, 28672), dtype="float16") = params[482]
            lv_fused_relax_matmul3_cublas79 = R.call_dps_packed("fused_relax_matmul3_cublas", (lv_relax_call_dps_packed1278, lv_tuple_item4821), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_relax_call_dps_packed1279 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_matmul3_cublas79,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_relax_matmul389 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1279,), out_sinfo=R.Tensor((1, 1, 57344), dtype="float16"))
            lv_fused_split3_silu1_multiply179 = R.call_tir(cls.fused_split3_silu1_multiply1, (lv_fused_relax_matmul389,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_tuple_item4831: R.Tensor((4096, 28672), dtype="float16") = params[483]
            lv_relax_call_dps_packed1280 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_fused_split3_silu1_multiply179,), out_sinfo=R.Tensor((1, 1, 28672), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul2_cublas79 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul2_cublas", (lv_tuple_item4831, lv_relax_call_dps_packed1280), out_sinfo=R.Tensor((1, 1, 4096), dtype="float16"))
            lv_relax_call_dps_packed1281 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul2_cublas79,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul279 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1281,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_add319 = R.call_tir(cls.add1, (lv_relax_add318, lv_fused_relax_permute_dims_relax_matmul279), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item1611: R.Tensor((8192,), dtype="float16") = params[161]
            lv_fused_rms_norm1221 = R.call_dps_packed("fused_rms_norm1_cutlass", (lv_relax_add319, lv_tuple_item1611), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_relax_call_tir645 = R.call_tir(cls.slice1, (lv_fused_rms_norm1221,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_tuple_item4841: R.Tensor((16000, 8192), dtype="float16") = params[484]
            lv_relax_call_dps_packed1282 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_tir645,), out_sinfo=R.Tensor((1, 1, 8192), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul3_cublas1 = R.call_dps_packed("fused_relax_permute_dims_relax_matmul3_cublas", (lv_tuple_item4841, lv_relax_call_dps_packed1282), out_sinfo=R.Tensor((1, 1, 16000), dtype="float16"))
            lv_relax_call_dps_packed1283 = R.call_dps_packed("tvm.nccl.allgather", (lv_fused_relax_permute_dims_relax_matmul3_cublas1,), out_sinfo=R.Tensor((1, 1, 32000), dtype="float16"))
            lv_fused_relax_permute_dims_relax_matmul310 = R.call_dps_packed("tvm.save_and_copy_tensor", (lv_relax_call_dps_packed1283,), out_sinfo=R.Tensor((1, 1, 32000), dtype="float16"))
            lv_relax_astype321 = R.call_tir(cls.cast2, (lv_fused_relax_permute_dims_relax_matmul310,), out_sinfo=R.Tensor((1, 1, 32000), dtype="float32"))
            gv1: R.Tuple(R.Tensor((1, 1, 32000), dtype="float32"), R.Tuple(R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object, R.Object)) = lv_relax_astype321, (lv320, lv321, lv324, lv325, lv328, lv329, lv332, lv333, lv336, lv337, lv340, lv341, lv344, lv345, lv348, lv349, lv352, lv353, lv356, lv357, lv360, lv361, lv364, lv365, lv368, lv369, lv372, lv373, lv376, lv377, lv380, lv381, lv384, lv385, lv388, lv389, lv392, lv393, lv396, lv397, lv400, lv401, lv404, lv405, lv408, lv409, lv412, lv413, lv416, lv417, lv420, lv421, lv424, lv425, lv428, lv429, lv432, lv433, lv436, lv437, lv440, lv441, lv444, lv445, lv448, lv449, lv452, lv453, lv456, lv457, lv460, lv461, lv464, lv465, lv468, lv469, lv472, lv473, lv476, lv477, lv480, lv481, lv484, lv485, lv488, lv489, lv492, lv493, lv496, lv497, lv500, lv501, lv504, lv505, lv508, lv509, lv512, lv513, lv516, lv517, lv520, lv521, lv524, lv525, lv528, lv529, lv532, lv533, lv536, lv537, lv540, lv541, lv544, lv545, lv548, lv549, lv552, lv553, lv556, lv557, lv560, lv561, lv564, lv565, lv568, lv569, lv572, lv573, lv576, lv577, lv580, lv581, lv584, lv585, lv588, lv589, lv592, lv593, lv596, lv597, lv600, lv601, lv604, lv605, lv608, lv609, lv612, lv613, lv616, lv617, lv620, lv621, lv624, lv625, lv628, lv629, lv632, lv633, lv636, lv637)
            R.output(gv1)
        return gv1