Nauman Mustafa NaxAlpha

## mmc4_pythia.py
# WIP: Fine-tuned a Causal LM with images & text mixed on MMC4 Dataset
import os
import json
import random
from PIL import Image
from concurrent.futures import ThreadPoolExecutor

import torch
import torch.nn as nn
import torch.nn.functional as F

## compressor.py
import random
from time import sleep
from functools import partial
from threading import Thread, Lock

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import torch.nn.utils.rnn as rnn

## pythia_1b4_8k.py
import copy

import torch
import torch.nn.functional as F
import torch.backends.cuda as cuda
from torch.utils.data import DataLoader, IterableDataset

import wandb
from tqdm import tqdm
import bitsandbytes as bnb

## gpta.py
import math

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.backends.cuda as cuda


class NewGELU(nn.Module):
    def forward(self, x):

## long_gpt.py
import time
from contextlib import suppress

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import torch.backends.cuda as cuda
from torch.utils.data import DataLoader, IterableDataset

## softformer.py
import torch
import torch.nn as nn
import torch.nn.functional as F


def cum_softmax(x, dim=1):  # <- main novelty
    z = x.exp()
    d = z.cumsum(dim)
    return z / d

## hf_pile.py
import torch
from torch.utils.data import IterableDataset

from transformers import PreTrainedTokenizerBase

from pile import ThePile


class ThePileTokenized(IterableDataset):
    def __init__(

## c4x2.py
import json
import torch
import random
from time import sleep
from threading import Thread
from datasets import load_dataset
from transformers import GPT2Tokenizer
from torch.utils.data import Dataset, get_worker_info


## c4x.py
# stream C4 dataset from Huggingface with GPT-2 Tokenizer for PyTorch Language Model Training
import json
import torch
import random
from datasets import load_dataset
from transformers import GPT2Tokenizer
from torch.utils.data import Dataset, get_worker_info


def cycled(itr):

## 1.json
{
  "message": "healthy",
  "label": "ping",
  "color": "green"
}
	# WIP: Fine-tuned a Causal LM with images & text mixed on MMC4 Dataset
	import os
	import json
	import random
	from PIL import Image
	from concurrent.futures import ThreadPoolExecutor

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import random
	from time import sleep
	from functools import partial
	from threading import Thread, Lock

	import torch
	import torch.nn as nn
	import torch.optim as optim
	import torch.nn.functional as F
	import torch.nn.utils.rnn as rnn
	import copy

	import torch
	import torch.nn.functional as F
	import torch.backends.cuda as cuda
	from torch.utils.data import DataLoader, IterableDataset

	import wandb
	from tqdm import tqdm
	import bitsandbytes as bnb
	import math

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import torch.backends.cuda as cuda


	class NewGELU(nn.Module):
	def forward(self, x):
	import time
	from contextlib import suppress

	import torch
	import torch.nn as nn
	import torch.optim as optim
	import torch.nn.functional as F
	import torch.backends.cuda as cuda
	from torch.utils.data import DataLoader, IterableDataset
	import torch
	from torch.utils.data import IterableDataset

	from transformers import PreTrainedTokenizerBase

	from pile import ThePile


	class ThePileTokenized(IterableDataset):
	def __init__(
	# stream C4 dataset from Huggingface with GPT-2 Tokenizer for PyTorch Language Model Training
	import json
	import torch
	import random
	from datasets import load_dataset
	from transformers import GPT2Tokenizer
	from torch.utils.data import Dataset, get_worker_info


	def cycled(itr):