Ferdinand Mom 3outeille

## pipeline-model-parallel-visualization.ipynb

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                3outeille
                / pipeline-model-parallel-visualization.ipynb
            
            
              Created
              June 14, 2024 19:58
                — forked from sighingnow/pipeline-model-parallel-visualization.ipynb
            
              
                Visualizing various different pipeline model parallel scheduling algorithms: GPipe, Pipedream(1F1B), Pipedream-2BW(async, no-flushes), and eager-1F1B
              
          
        Loading

      Sorry, something went wrong. Reload?
      Sorry, we cannot display this file.
      Sorry, this file is invalid so it cannot be displayed.
      
          Viewer requires iframe.
      
    
## pipeline-model-parallel-visualization.ipynb

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                3outeille
                / pipeline-model-parallel-visualization.ipynb
            
            
              Created
              June 14, 2024 19:58
                — forked from sighingnow/pipeline-model-parallel-visualization.ipynb
            
              
                Visualizing various different pipeline model parallel scheduling algorithms: GPipe, Pipedream(1F1B), Pipedream-2BW(async, no-flushes), and eager-1F1B
              
          
        Loading

      Sorry, something went wrong. Reload?
      Sorry, we cannot display this file.
      Sorry, this file is invalid so it cannot be displayed.
      
          Viewer requires iframe.
      
    
## test_hf.py
import torch
from torch.nn import functional as F
from torch import distributed as dist
import os
import numpy as np
import random

def set_random_seed(seed: int):
    torch.manual_seed(seed)
    if torch.cuda.is_available():

## sanity_check.py
from copy import deepcopy
import torch
from datasets import load_dataset
from torch.optim import SGD
from torch.utils.data import DataLoader
from transformers import AutoModelForCausalLM, AutoTokenizer
import random
import os
import numpy as np

## full_cpu.py

import torch
from tqdm import tqdm
from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset

# Model
device = "cpu"

device_map = {

## README.md

      
              2 files
            
          
              0 forks
            
          
              1 comment
            
          
              0 stars
            
          
                3outeille
                / README.md
            
            
              Last active
              April 14, 2023 13:55
            
              
                Triton Matmul Group-ordering vs Row-major ordering
              
          
Matmul benchmark of Group-ordering vs Row-major ordering on A100 => No significant improvment over row-major ordering


https://triton-lang.org/master/getting-started/tutorials/03-matrix-multiplication.html#l2-cache-optimizations

matmul-performance:
        M  group_ordering  row_major_ordering
0   256.0        3.640889            3.640889
1   384.0       11.059200           12.288000
2   512.0       23.831273           23.831273
3   640.0       39.384616           39.384616
4 768.0 58.982401 58.982401


## README.md

      
              5 files
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                3outeille
                / README.md
            
            
              Last active
              March 28, 2023 19:22
            
              
                race condition fuck my life
              
          
Problem: We have blocks that are scheduled later than others which imply that we won't get the "true max value" at the time we need it.
Direction: We should find a way to wait for all threads of all blocks to finish
Solution:


Split into 2 kernels


Use cooperative groups: https://numba.readthedocs.io/en/stable/cuda/cooperative_groups.html


## CMakeLists.txt
# To run
# mkdir build && cd build
# cmake ..
# make -j && ./bank conflict <offset> <is_debug>

cmake_minimum_required(VERSION 3.0)

set(CMAKE_CXX_FLAGS "-O3 -std=c++14")

set(CUDA_NVCC_FLAGS -arch=compute_52 -code=sm_75)

## c-cpp-oops.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                3outeille
                / c-cpp-oops.md
            
            
              Created
              October 2, 2022 06:37
                — forked from ayan-b/c-cpp-oops.md
            
              
                C, C++ & OOPS for Interviews
              
          
    ⚠️ ⚠️ This Gist Has Been Moved to This Repo ⚠️ ⚠️

Table of Contents


Features of OOP
Smart Pointers
Name Mangling and Externs
Virtual Functions

Pure Virtual Functions
Virtual Destructors


Virtual Table


## context.c
 /* Loop of 16x16 blocks */
for (y = 0; y < heightComp[compCtr]; y += 16)
{
    ...
    for (x = 0; x < widthComp[compCtr]; x += 16)
    {
        ...
        for (blkId = 0; blkId < 4; blkId++)
        {
            yOffset8x8 = (blkId >> 1) * 8;
	import torch
	from torch.nn import functional as F
	from torch import distributed as dist
	import os
	import numpy as np
	import random

	def set_random_seed(seed: int):
	torch.manual_seed(seed)
	if torch.cuda.is_available():
	from copy import deepcopy
	import torch
	from datasets import load_dataset
	from torch.optim import SGD
	from torch.utils.data import DataLoader
	from transformers import AutoModelForCausalLM, AutoTokenizer
	import random
	import os
	import numpy as np

	import torch
	from tqdm import tqdm
	from transformers import AutoModelForCausalLM, AutoTokenizer
	from datasets import load_dataset

	# Model
	device = "cpu"

	device_map = {
	# To run
	# mkdir build && cd build
	# cmake ..
	# make -j && ./bank conflict <offset> <is_debug>

	cmake_minimum_required(VERSION 3.0)

	set(CMAKE_CXX_FLAGS "-O3 -std=c++14")

	set(CUDA_NVCC_FLAGS -arch=compute_52 -code=sm_75)