Sandeep Kumar Behera sandeepkumar-skb

## vectorized_4x4_gemm.s
/* Floating Point 4x4 Matrix Multiplication */

.global _start

_start:

LDR R0, =matrix0
LDR R1, =matrix1
LDR R2, =matrix2

## multi_streaming_to_reduce_launch_latency.cu
#include <chrono>
#include <iostream>
#include <vector>
#include <thread>

__global__ void do_nothing(int time_us, int clock_rate) {
  clock_t start = clock64();
  clock_t end;
  for (;;) {
    end = clock64();

## redirect_streams_and_cuda_checks.cu
#include <limits.h>
#include <unistd.h>
#include <csignal>
#include <cstdlib>
#include <fstream>
#include <iostream>

#include <iostream>
#include <sstream>
#include <stdexcept>

## device-prop-test.cu
// Compiling and running this program:
//   nvcc -std=c++11 device-prop-test.cu && ./a.out
#include <chrono>
#include <iostream>
using namespace std;

#define CUDA_CHECK(call)                                    \
  do {                                                      \
    cudaError_t status = call;                              \
    if(status != cudaSuccess) {                             \

## profile.py
'''
Memory profiling utilities
'''
import gc
import inspect
import linecache
import os.path
import sys
import time
import threading

## profile.py
'''
Memory profiling utilities
'''
import gc
import inspect
import linecache
import os.path
import sys
import time
import threading

## onnx_tensorrt_inference.py
import tensorrt as trt
import numpy as np
import pycuda.autoinit
import pycuda.driver as cuda
import time

model_path = "model.onnx"
input_size = 32

TRT_LOGGER = trt.Logger(trt.Logger.WARNING)

## onnx_checker_printer.py
import onnx
import sys

name = sys.argv[1]
model = onnx.load(name)
onnx.checker.check_model(model)
print(onnx.helper.printable_graph(model.graph))
	/* Floating Point 4x4 Matrix Multiplication */

	.global _start

	_start:

	LDR R0, =matrix0
	LDR R1, =matrix1
	LDR R2, =matrix2
	#include <chrono>
	#include <iostream>
	#include <vector>
	#include <thread>

	__global__ void do_nothing(int time_us, int clock_rate) {
	clock_t start = clock64();
	clock_t end;
	for (;;) {
	end = clock64();
	#include <limits.h>
	#include <unistd.h>
	#include <csignal>
	#include <cstdlib>
	#include <fstream>
	#include <iostream>

	#include <iostream>
	#include <sstream>
	#include <stdexcept>
	// Compiling and running this program:
	// nvcc -std=c++11 device-prop-test.cu && ./a.out
	#include <chrono>
	#include <iostream>
	using namespace std;

	#define CUDA_CHECK(call) \
	do { \
	cudaError_t status = call; \
	if(status != cudaSuccess) { \
	'''
	Memory profiling utilities
	'''
	import gc
	import inspect
	import linecache
	import os.path
	import sys
	import time
	import threading
	import tensorrt as trt
	import numpy as np
	import pycuda.autoinit
	import pycuda.driver as cuda
	import time

	model_path = "model.onnx"
	input_size = 32

	TRT_LOGGER = trt.Logger(trt.Logger.WARNING)
	import onnx
	import sys

	name = sys.argv[1]
	model = onnx.load(name)
	onnx.checker.check_model(model)
	print(onnx.helper.printable_graph(model.graph))