rasbt/vgg16.py

## vgg16.py
import time
import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision import datasets
from torchvision import transforms
from torch.utils.data import DataLoader


if torch.cuda.is_available():
    torch.backends.cudnn.deterministic = True

# Device
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print('Device:', device)

# Hyperparameters
random_seed = 1
learning_rate = 0.001
num_epochs = 50
batch_size = 128

# Architecture
num_features = 784
num_classes = 10


train_dataset = datasets.CIFAR10(root='data',
                                 train=True,
                                 transform=transforms.ToTensor(),
                                 download=True)

train_loader = DataLoader(dataset=train_dataset,
                          batch_size=batch_size,
                          shuffle=True)


class VGG16(torch.nn.Module):

    def __init__(self, num_features, num_classes):
        super(VGG16, self).__init__()

        # calculate same padding:
        # (w - k + 2*p)/s + 1 = o
        # => p = (s(o-1) - w + k)/2

        self.block_1 = nn.Sequential(
                nn.Conv2d(in_channels=3,
                          out_channels=64,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          # (1(32-1)- 32 + 3)/2 = 1
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=64,
                          out_channels=64,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.MaxPool2d(kernel_size=(2, 2),
                             stride=(2, 2))
        )

        self.block_2 = nn.Sequential(
                nn.Conv2d(in_channels=64,
                          out_channels=128,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=128,
                          out_channels=128,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.MaxPool2d(kernel_size=(2, 2),
                             stride=(2, 2))
        )

        self.block_3 = nn.Sequential(
                nn.Conv2d(in_channels=128,
                          out_channels=256,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=256,
                          out_channels=256,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=256,
                          out_channels=256,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.MaxPool2d(kernel_size=(2, 2),
                             stride=(2, 2))
        )


        self.block_4 = nn.Sequential(
                nn.Conv2d(in_channels=256,
                          out_channels=512,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=512,
                          out_channels=512,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=512,
                          out_channels=512,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.MaxPool2d(kernel_size=(2, 2),
                             stride=(2, 2))
        )

        self.block_5 = nn.Sequential(
                nn.Conv2d(in_channels=512,
                          out_channels=512,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=512,
                          out_channels=512,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=512,
                          out_channels=512,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.MaxPool2d(kernel_size=(2, 2),
                             stride=(2, 2))
        )

        self.classifier = nn.Sequential(
                nn.Linear(512, 4096),
                nn.Linear(4096, 4096),
                nn.Linear(4096, num_classes)
        )


        for m in self.modules():
            if isinstance(m, torch.nn.Conv2d):
                #n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
                #m.weight.data.normal_(0, np.sqrt(2. / n))
                m.weight.detach().normal_(0, 0.05)
                if m.bias is not None:
                    m.bias.detach().zero_()
            elif isinstance(m, torch.nn.Linear):
                m.weight.detach().normal_(0, 0.05)
                m.bias.detach().detach().zero_()


    def forward(self, x):

        x = self.block_1(x)
        x = self.block_2(x)
        x = self.block_3(x)
        x = self.block_4(x)
        x = self.block_5(x)
        logits = self.classifier(x.view(-1, 512))
        probas = F.softmax(logits, dim=1)

        return logits, probas


torch.manual_seed(random_seed)
model = VGG16(num_features=num_features,
              num_classes=num_classes)

model = model.to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)


start_time = time.time()
for epoch in range(num_epochs):

    model.train()
    for batch_idx, (features, targets) in enumerate(train_loader):

        features = features.to(device)
        targets = targets.to(device)

        ### FORWARD AND BACK PROP
        logits, probas = model(features)
        cost = F.cross_entropy(logits, targets)
        optimizer.zero_grad()

        cost.backward()

        ### UPDATE MODEL PARAMETERS
        optimizer.step()

        ### LOGGING
        if not batch_idx % 50:
            print ('Epoch: %03d/%03d | Batch %04d/%04d | Cost: %.4f'
                   %(epoch+1, num_epochs, batch_idx,
                     len(train_loader), cost))

    print('Time elapsed: %.2f min' % ((time.time() - start_time)/60))

print('Total Training Time: %.2f min' % ((time.time() - start_time)/60))

## vgg16_inmemory.py
import time
import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision import datasets
from torchvision import transforms
from torch.utils.data import DataLoader


if torch.cuda.is_available():
    torch.backends.cudnn.deterministic = True

# Device
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print('Device:', device)

# Hyperparameters
random_seed = 1
learning_rate = 0.001
num_epochs = 50
batch_size = 128

# Architecture
num_features = 784
num_classes = 10


train_dataset = datasets.CIFAR10(root='data',
                                 train=True,
                                 transform=transforms.ToTensor(),
                                 download=True)

train_loader = DataLoader(dataset=train_dataset,
                          batch_size=batch_size,
                          shuffle=True)

all_features = torch.zeros([len(train_dataset), 3, 32, 32]).float()
all_targets = torch.zeros(len(train_dataset)).long()

all_batch_start, all_batch_end = [], []
for batch_idx, (features, targets) in enumerate(train_loader):
    batch_start = batch_idx*targets.size(0)
    batch_end = (batch_idx+1)*targets.size(0)
    all_batch_start.append(batch_start)
    all_batch_end.append(batch_end)
    all_features[batch_start: batch_end] = features
    all_targets[batch_start: batch_end] = targets


class VGG16(torch.nn.Module):

    def __init__(self, num_features, num_classes):
        super(VGG16, self).__init__()

        # calculate same padding:
        # (w - k + 2*p)/s + 1 = o
        # => p = (s(o-1) - w + k)/2

        self.block_1 = nn.Sequential(
                nn.Conv2d(in_channels=3,
                          out_channels=64,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          # (1(32-1)- 32 + 3)/2 = 1
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=64,
                          out_channels=64,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.MaxPool2d(kernel_size=(2, 2),
                             stride=(2, 2))
        )

        self.block_2 = nn.Sequential(
                nn.Conv2d(in_channels=64,
                          out_channels=128,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=128,
                          out_channels=128,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.MaxPool2d(kernel_size=(2, 2),
                             stride=(2, 2))
        )

        self.block_3 = nn.Sequential(
                nn.Conv2d(in_channels=128,
                          out_channels=256,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=256,
                          out_channels=256,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=256,
                          out_channels=256,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.MaxPool2d(kernel_size=(2, 2),
                             stride=(2, 2))
        )


        self.block_4 = nn.Sequential(
                nn.Conv2d(in_channels=256,
                          out_channels=512,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=512,
                          out_channels=512,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=512,
                          out_channels=512,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.MaxPool2d(kernel_size=(2, 2),
                             stride=(2, 2))
        )

        self.block_5 = nn.Sequential(
                nn.Conv2d(in_channels=512,
                          out_channels=512,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=512,
                          out_channels=512,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.Conv2d(in_channels=512,
                          out_channels=512,
                          kernel_size=(3, 3),
                          stride=(1, 1),
                          padding=1),
                nn.ReLU(),
                nn.MaxPool2d(kernel_size=(2, 2),
                             stride=(2, 2))
        )

        self.classifier = nn.Sequential(
                nn.Linear(512, 4096),
                nn.Linear(4096, 4096),
                nn.Linear(4096, num_classes)
        )


        for m in self.modules():
            if isinstance(m, torch.nn.Conv2d):
                #n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
                #m.weight.data.normal_(0, np.sqrt(2. / n))
                m.weight.detach().normal_(0, 0.05)
                if m.bias is not None:
                    m.bias.detach().zero_()
            elif isinstance(m, torch.nn.Linear):
                m.weight.detach().normal_(0, 0.05)
                m.bias.detach().detach().zero_()


    def forward(self, x):

        x = self.block_1(x)
        x = self.block_2(x)
        x = self.block_3(x)
        x = self.block_4(x)
        x = self.block_5(x)
        logits = self.classifier(x.view(-1, 512))
        probas = F.softmax(logits, dim=1)

        return logits, probas


torch.manual_seed(random_seed)
model = VGG16(num_features=num_features,
              num_classes=num_classes)

model = model.to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)


start_time = time.time()

for epoch in range(num_epochs):
    shuffle_idx = torch.randperm(len(train_dataset))
    all_features = all_features[shuffle_idx]
    all_targets = all_targets[shuffle_idx]
    model.train()
    for batch_idx, (start, end) in enumerate(zip(all_batch_start, all_batch_end)):

        features = all_features[start:end]
        targets = all_targets[start:end]
        features = features.to(device)
        targets = targets.to(device)

        ### FORWARD AND BACK PROP
        logits, probas = model(features)
        cost = F.cross_entropy(logits, targets)
        optimizer.zero_grad()

        cost.backward()

        ### UPDATE MODEL PARAMETERS
        optimizer.step()

        ### LOGGING
        if not batch_idx % 50:
            print ('Epoch: %03d/%03d | Batch %04d/%04d | Cost: %.4f'
                   %(epoch+1, num_epochs, batch_idx,
                     len(train_loader), cost))

    print('Time elapsed: %.2f min' % ((time.time() - start_time)/60))

print('Total Training Time: %.2f min' % ((time.time() - start_time)/60))
	import time
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from torchvision import datasets
	from torchvision import transforms
	from torch.utils.data import DataLoader


	if torch.cuda.is_available():
	torch.backends.cudnn.deterministic = True

	# Device
	device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
	print('Device:', device)

	# Hyperparameters
	random_seed = 1
	learning_rate = 0.001
	num_epochs = 50
	batch_size = 128

	# Architecture
	num_features = 784
	num_classes = 10


	train_dataset = datasets.CIFAR10(root='data',
	train=True,
	transform=transforms.ToTensor(),
	download=True)

	train_loader = DataLoader(dataset=train_dataset,
	batch_size=batch_size,
	shuffle=True)


	class VGG16(torch.nn.Module):

	def __init__(self, num_features, num_classes):
	super(VGG16, self).__init__()

	# calculate same padding:
	# (w - k + 2*p)/s + 1 = o
	# => p = (s(o-1) - w + k)/2

	self.block_1 = nn.Sequential(
	nn.Conv2d(in_channels=3,
	out_channels=64,
	kernel_size=(3, 3),
	stride=(1, 1),
	# (1(32-1)- 32 + 3)/2 = 1
	padding=1),
	nn.ReLU(),
	nn.Conv2d(in_channels=64,
	out_channels=64,
	kernel_size=(3, 3),
	stride=(1, 1),
	padding=1),
	nn.ReLU(),
	nn.MaxPool2d(kernel_size=(2, 2),
	stride=(2, 2))
	)

	self.block_2 = nn.Sequential(
	nn.Conv2d(in_channels=64,
	out_channels=128,
	kernel_size=(3, 3),
	stride=(1, 1),
	padding=1),
	nn.ReLU(),
	nn.Conv2d(in_channels=128,
	out_channels=128,
	kernel_size=(3, 3),
	stride=(1, 1),
	padding=1),
	nn.ReLU(),
	nn.MaxPool2d(kernel_size=(2, 2),
	stride=(2, 2))
	)

	self.block_3 = nn.Sequential(
	nn.Conv2d(in_channels=128,
	out_channels=256,
	kernel_size=(3, 3),
	stride=(1, 1),
	padding=1),
	nn.ReLU(),
	nn.Conv2d(in_channels=256,
	out_channels=256,
	kernel_size=(3, 3),
	stride=(1, 1),
	padding=1),
	nn.ReLU(),
	nn.Conv2d(in_channels=256,
	out_channels=256,
	kernel_size=(3, 3),
	stride=(1, 1),
	padding=1),
	nn.ReLU(),
	nn.MaxPool2d(kernel_size=(2, 2),
	stride=(2, 2))
	)


	self.block_4 = nn.Sequential(
	nn.Conv2d(in_channels=256,
	out_channels=512,
	kernel_size=(3, 3),
	stride=(1, 1),
	padding=1),
	nn.ReLU(),
	nn.Conv2d(in_channels=512,
	out_channels=512,
	kernel_size=(3, 3),
	stride=(1, 1),
	padding=1),
	nn.ReLU(),
	nn.Conv2d(in_channels=512,
	out_channels=512,
	kernel_size=(3, 3),
	stride=(1, 1),
	padding=1),
	nn.ReLU(),
	nn.MaxPool2d(kernel_size=(2, 2),
	stride=(2, 2))
	)

	self.block_5 = nn.Sequential(
	nn.Conv2d(in_channels=512,
	out_channels=512,
	kernel_size=(3, 3),
	stride=(1, 1),
	padding=1),
	nn.ReLU(),
	nn.Conv2d(in_channels=512,
	out_channels=512,
	kernel_size=(3, 3),
	stride=(1, 1),
	padding=1),
	nn.ReLU(),
	nn.Conv2d(in_channels=512,
	out_channels=512,
	kernel_size=(3, 3),
	stride=(1, 1),
	padding=1),
	nn.ReLU(),
	nn.MaxPool2d(kernel_size=(2, 2),
	stride=(2, 2))
	)

	self.classifier = nn.Sequential(
	nn.Linear(512, 4096),
	nn.Linear(4096, 4096),
	nn.Linear(4096, num_classes)
	)


	for m in self.modules():
	if isinstance(m, torch.nn.Conv2d):
	#n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
	#m.weight.data.normal_(0, np.sqrt(2. / n))
	m.weight.detach().normal_(0, 0.05)
	if m.bias is not None:
	m.bias.detach().zero_()
	elif isinstance(m, torch.nn.Linear):
	m.weight.detach().normal_(0, 0.05)
	m.bias.detach().detach().zero_()


	def forward(self, x):

	x = self.block_1(x)
	x = self.block_2(x)
	x = self.block_3(x)
	x = self.block_4(x)
	x = self.block_5(x)
	logits = self.classifier(x.view(-1, 512))
	probas = F.softmax(logits, dim=1)

	return logits, probas


	torch.manual_seed(random_seed)
	model = VGG16(num_features=num_features,
	num_classes=num_classes)

	model = model.to(device)
	optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)




	start_time = time.time()
	for epoch in range(num_epochs):

	model.train()
	for batch_idx, (features, targets) in enumerate(train_loader):

	features = features.to(device)
	targets = targets.to(device)

	### FORWARD AND BACK PROP
	logits, probas = model(features)
	cost = F.cross_entropy(logits, targets)
	optimizer.zero_grad()

	cost.backward()

	### UPDATE MODEL PARAMETERS
	optimizer.step()

	### LOGGING
	if not batch_idx % 50:
	print ('Epoch: %03d/%03d \| Batch %04d/%04d \| Cost: %.4f'
	%(epoch+1, num_epochs, batch_idx,
	len(train_loader), cost))

	print('Time elapsed: %.2f min' % ((time.time() - start_time)/60))

	print('Total Training Time: %.2f min' % ((time.time() - start_time)/60))