jrok seungrokjung

## quant_cuda_kernel.cu
#include <torch/all.h>
#include <torch/python.h>
#include <cuda.h>
#include <cuda_runtime.h>
#include <cuda_fp16.h>

// atomicAdd for double-precision floating-point numbers on hardware with
// compute capability < 6.0 from:
// https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#atomic-functions
#if defined(__CUDA_ARCH__) && __CUDA_ARCH__ < 600
	#include <torch/all.h>
	#include <torch/python.h>
	#include <cuda.h>
	#include <cuda_runtime.h>
	#include <cuda_fp16.h>

	// atomicAdd for double-precision floating-point numbers on hardware with
	// compute capability < 6.0 from:
	// https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#atomic-functions
	#if defined(__CUDA_ARCH__) && __CUDA_ARCH__ < 600