Thomas Wolf thomwolf

## datadistributedparallel.py
from torch.utils.data.distributed import DistributedSampler
from torch.utils.data import DataLoader

# Each process runs on 1 GPU device specified by the local_rank argument.
parser = argparse.ArgumentParser()
parser.add_argument("--local_rank", type=int)
args = parser.parse_args()

# Initializes the distributed backend which will take care of sychronizing nodes/GPUs
torch.distributed.init_process_group(backend='nccl')

## Using_parallel.py
from parallel import DataParallelModel, DataParallelCriterion

parallel_model = DataParallelModel(model)             # Encapsulate the model
parallel_loss  = DataParallelCriterion(loss_function) # Encapsulate the loss function

predictions = parallel_model(inputs)      # Parallel forward pass
                                          # "predictions" is a tuple of n_gpu tensors
loss = parallel_loss(predictions, labels) # Compute loss function in parallel
loss.backward()                           # Backward pass
optimizer.step()                          # Optimizer step

## parallel.py
##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
## Created by: Hang Zhang, Rutgers University, Email: zhang.hang@rutgers.edu
## Modified by Thomas Wolf, HuggingFace Inc., Email: thomas@huggingface.co
## Copyright (c) 2017-2018
##
## This source code is licensed under the MIT-style license found in the
## LICENSE file in the root directory of this source tree
##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

"""Encoding Data Parallel"""

## dataparallel_pytorch.py
parallel_model = torch.nn.DataParallel(model) # Encapsulate the model

predictions = parallel_model(inputs)          # Forward pass on multi-GPUs
loss = loss_function(predictions, labels)     # Compute loss function
loss.mean().backward()                        # Average GPU-losses + backward pass
optimizer.step()                              # Optimizer step
predictions = parallel_model(inputs)          # Forward pass with new parameters

## gradient_accumulation.py
model.zero_grad()                                   # Reset gradients tensors
for i, (inputs, labels) in enumerate(training_set):
    predictions = model(inputs)                     # Forward pass
    loss = loss_function(predictions, labels)       # Compute loss function
    loss = loss / accumulation_steps                # Normalize our loss (if averaged)
    loss.backward()                                 # Backward pass
    if (i+1) % accumulation_steps == 0:             # Wait for several backward steps
        optimizer.step()                            # Now we can do an optimizer step
        model.zero_grad()                           # Reset gradients tensors
        if (i+1) % evaluation_steps == 0:           # Evaluate the model when we...

## pytorch_training.py
predictions = model(inputs)               # Forward pass
loss = loss_function(predictions, labels) # Compute loss function
loss.backward()                           # Backward pass
optimizer.step()                          # Optimizer step
predictions = model(inputs)               # Forward pass with new parameters

## AdamW.py
from torch.optim import Optimizer

class AdamW(Optimizer):
    """
       Implements Adam algorithm with weight decay fix in PyTorch
       Paper: Fixing Weight Decay Regularization in Adam by Ilya Loshchilov, Frank Hutter
       https://arxiv.org/abs/1711.05101
    """
    def __init__(self, params, lr, b1=0.9, b2=0.999, e=1e-8, l2=0,
                 vector_l2=False, max_grad_norm=-1, **kwargs):

## download_big_doc.py
import urllib.request
import spacy

with urllib.request.urlopen('https://raw.githubusercontent.com/pytorch/examples/master/word_language_model/data/wikitext-2/valid.txt') as response:
   text = response.read()
nlp = spacy.load('en')
doc_list = list(nlp(text[:800000].decode('utf8')) for i in range(10))

## fast_cython_loop.pyx
%%cython -+
import numpy # Sometime we have a fail to import numpy compilation error if we don't import numpy
from cymem.cymem cimport Pool
from spacy.tokens.doc cimport Doc
from spacy.typedefs cimport hash_t
from spacy.structs cimport TokenC

cdef struct DocElement:
    TokenC* c
    int length

## slow_python_loop.py
def slow_loop(doc_list, word, tag):
    n_out = 0
    for doc in doc_list:
        for tok in doc:
            if tok.lower_ == word and tok.tag_ == tag:
                n_out += 1
    return n_out

def main_nlp_slow(doc_list):
    n_out = slow_loop(doc_list, 'run', 'NN')
	from torch.utils.data.distributed import DistributedSampler
	from torch.utils.data import DataLoader

	# Each process runs on 1 GPU device specified by the local_rank argument.
	parser = argparse.ArgumentParser()
	parser.add_argument("--local_rank", type=int)
	args = parser.parse_args()

	# Initializes the distributed backend which will take care of sychronizing nodes/GPUs
	torch.distributed.init_process_group(backend='nccl')
	from parallel import DataParallelModel, DataParallelCriterion

	parallel_model = DataParallelModel(model) # Encapsulate the model
	parallel_loss = DataParallelCriterion(loss_function) # Encapsulate the loss function

	predictions = parallel_model(inputs) # Parallel forward pass
	# "predictions" is a tuple of n_gpu tensors
	loss = parallel_loss(predictions, labels) # Compute loss function in parallel
	loss.backward() # Backward pass
	optimizer.step() # Optimizer step
	##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
	## Created by: Hang Zhang, Rutgers University, Email: zhang.hang@rutgers.edu
	## Modified by Thomas Wolf, HuggingFace Inc., Email: thomas@huggingface.co
	## Copyright (c) 2017-2018
	##
	## This source code is licensed under the MIT-style license found in the
	## LICENSE file in the root directory of this source tree
	##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

	"""Encoding Data Parallel"""
	parallel_model = torch.nn.DataParallel(model) # Encapsulate the model

	predictions = parallel_model(inputs) # Forward pass on multi-GPUs
	loss = loss_function(predictions, labels) # Compute loss function
	loss.mean().backward() # Average GPU-losses + backward pass
	optimizer.step() # Optimizer step
	predictions = parallel_model(inputs) # Forward pass with new parameters
	model.zero_grad() # Reset gradients tensors
	for i, (inputs, labels) in enumerate(training_set):
	predictions = model(inputs) # Forward pass
	loss = loss_function(predictions, labels) # Compute loss function
	loss = loss / accumulation_steps # Normalize our loss (if averaged)
	loss.backward() # Backward pass
	if (i+1) % accumulation_steps == 0: # Wait for several backward steps
	optimizer.step() # Now we can do an optimizer step
	model.zero_grad() # Reset gradients tensors
	if (i+1) % evaluation_steps == 0: # Evaluate the model when we...
	from torch.optim import Optimizer

	class AdamW(Optimizer):
	"""
	Implements Adam algorithm with weight decay fix in PyTorch
	Paper: Fixing Weight Decay Regularization in Adam by Ilya Loshchilov, Frank Hutter
	https://arxiv.org/abs/1711.05101
	"""
	def __init__(self, params, lr, b1=0.9, b2=0.999, e=1e-8, l2=0,
	vector_l2=False, max_grad_norm=-1, **kwargs):
	import urllib.request
	import spacy

	with urllib.request.urlopen('https://raw.githubusercontent.com/pytorch/examples/master/word_language_model/data/wikitext-2/valid.txt') as response:
	text = response.read()
	nlp = spacy.load('en')
	doc_list = list(nlp(text[:800000].decode('utf8')) for i in range(10))
	%%cython -+
	import numpy # Sometime we have a fail to import numpy compilation error if we don't import numpy
	from cymem.cymem cimport Pool
	from spacy.tokens.doc cimport Doc
	from spacy.typedefs cimport hash_t
	from spacy.structs cimport TokenC

	cdef struct DocElement:
	TokenC* c
	int length
	def slow_loop(doc_list, word, tag):
	n_out = 0
	for doc in doc_list:
	for tok in doc:
	if tok.lower_ == word and tok.tag_ == tag:
	n_out += 1
	return n_out

	def main_nlp_slow(doc_list):
	n_out = slow_loop(doc_list, 'run', 'NN')