Sandeep Kumar Behera sandeepkumar-skb

## py_multiprocess_computeB.py
import multiprocessing as mp
import time as time

def square():
    for i in range(1000000):
        x = pow(i, 2)

if __name__ == "__main__":
    num_iter = 10
    start = time.time()

## py_thread_compute_bound.py
import threading
import time as time

def square():
    for i in range(1000000):
        x = pow(i, 2)

if __name__ == "__main__":
    num_iter = 10
    start = time.time()

## reduce.cu
#include <iostream>
#include <chrono>

#define BLOCK_SIZE 256

inline void gpuAssert(cudaError_t err, const char *file, int line)
{
    if (err != cudaSuccess){
        printf("%s in %s at line %d\n", cudaGetErrorString(err), file, line);
        exit(EXIT_FAILURE);

## transpose.cu
#include <cuda.h>
#include <stdio.h>
#define BLOCK_SIZE 32
#define NUM_REPS 100

inline void gpuAssert(cudaError_t err, const char *file, int line)
{
    if (err != cudaSuccess){
        printf("%s in %s at line %d\n", cudaGetErrorString(err), file, line);
        exit(EXIT_FAILURE);

## cooperative_groups.cu
#include <cooperative_groups.h>
#include <algorithm>
#include <cuda.h>
#include<stdio.h>

using namespace cooperative_groups;

inline void gpuAssert(cudaError_t err, const char *file, int line)
{
    if (err != cudaSuccess){

## pointer_aliasing_demo.cu
#include <stdio.h>
#include <chrono>
#include <iostream>

#define BLOCK_SIZE 128

inline void gpuAssert(cudaError_t err, const char *file, int line)
{
    if (err != cudaSuccess){
        printf("%s in %s at line %d\n", cudaGetErrorString(err), __FILE__, __LINE__);

## histogram_shmem.cu
#include <stdio.h>
#include <iostream>
#include <chrono>

#define BLOCK_SIZE 256
#define GRID_SIZE 72 //Turing Titan RTX
#define OUT_SIZE  256

inline void gpuAssert(cudaError_t err, const char *file, int line)
{

## conv_bn_folding.py
import torch
import torch.nn as nn
import copy
import torchvision.models as models


class BN_Folder():
    def fold(self, model):
        mymodel = copy.deepcopy(model)
        mymodel.eval()

## openmp_thread_pool.cpp
#include "omp.h"
#include <thread>
#include <iostream>
#include <vector>
#include <chrono>


void doNothing(){
    int count =0;
    for (int i=0; i<1000; ++i)

## redirect_streams_and_cuda_checks.cu
#include <csignal>
#include <cstdlib>
#include <fstream>
#include <iostream>
#include <unistd.h>
#include <limits.h>

#include <iostream>
#include <sstream>
#include <stdexcept>
	import multiprocessing as mp
	import time as time

	def square():
	for i in range(1000000):
	x = pow(i, 2)

	if __name__ == "__main__":
	num_iter = 10
	start = time.time()
	import threading
	import time as time

	def square():
	for i in range(1000000):
	x = pow(i, 2)

	if __name__ == "__main__":
	num_iter = 10
	start = time.time()
	#include <iostream>
	#include <chrono>

	#define BLOCK_SIZE 256

	inline void gpuAssert(cudaError_t err, const char *file, int line)
	{
	if (err != cudaSuccess){
	printf("%s in %s at line %d\n", cudaGetErrorString(err), file, line);
	exit(EXIT_FAILURE);
	#include <cuda.h>
	#include <stdio.h>
	#define BLOCK_SIZE 32
	#define NUM_REPS 100

	inline void gpuAssert(cudaError_t err, const char *file, int line)
	{
	if (err != cudaSuccess){
	printf("%s in %s at line %d\n", cudaGetErrorString(err), file, line);
	exit(EXIT_FAILURE);
	#include <cooperative_groups.h>
	#include <algorithm>
	#include <cuda.h>
	#include<stdio.h>

	using namespace cooperative_groups;

	inline void gpuAssert(cudaError_t err, const char *file, int line)
	{
	if (err != cudaSuccess){
	import torch
	import torch.nn as nn
	import copy
	import torchvision.models as models


	class BN_Folder():
	def fold(self, model):
	mymodel = copy.deepcopy(model)
	mymodel.eval()
	#include "omp.h"
	#include <thread>
	#include <iostream>
	#include <vector>
	#include <chrono>


	void doNothing(){
	int count =0;
	for (int i=0; i<1000; ++i)
	#include <csignal>
	#include <cstdlib>
	#include <fstream>
	#include <iostream>
	#include <unistd.h>
	#include <limits.h>

	#include <iostream>
	#include <sstream>
	#include <stdexcept>