krsnewwave/cdae_dataloaders.py

## cdae_dataloaders.py
class RecoSparseTrainDataset(Dataset):
    def __init__(self, sparse_mat):
        self.sparse_mat = sparse_mat

    def __len__(self):
        return self.sparse_mat.shape[0]

    def __getitem__(self, idx):
        batch_matrix = self.sparse_mat[idx].toarray().squeeze()
        return batch_matrix, idx

class RecoSparseTestSet(Dataset):
    """
    The test dataset contains the training and test matrices.
    The latter should be predicted from the training
    """
    def __init__(self, train_mat, test_mat):
        self.train_mat = train_mat
        self.test_mat = test_mat
        assert train_mat.shape == test_mat.shape

    def __len__(self):
        return self.train_mat.shape[0]

    def __getitem__(self, idx):
        train_matrix = self.train_mat[idx].toarray().squeeze()
        test_matrix = self.test_mat[idx].toarray().squeeze()
        return train_matrix, test_matrix, idx

class RecoSparseInferenceDataset(Dataset):
    def __init__(self, sparse_mat, user_ids):
        """
        sparse_mat : interaction matrix
        user_ids : ids of the users (positional)
        """
        self.sparse_mat = sparse_mat
        self.user_ids = user_ids

        assert sparse_mat.shape[0] == len(user_ids)

    def __len__(self):
        return self.sparse_mat.shape[0]

    def __getitem__(self, idx):
        batch_matrix = self.sparse_mat[idx].toarray().squeeze()
        batch_ids = self.user_ids[idx]
        return batch_matrix, batch_ids


###
batch_size = 512
num_workers = multiprocessing.cpu_count()

train_loader = torch.utils.data.DataLoader(RecoSparseTrainDataset(train), batch_size=batch_size, shuffle=True, num_workers=num_workers)
val_loader = torch.utils.data.DataLoader(RecoSparseTestSet(train, val), batch_size=batch_size, shuffle=False, num_workers=num_workers)
test_loader = torch.utils.data.DataLoader(RecoSparseTestSet(train, test), batch_size=batch_size, shuffle=False, num_workers=num_workers)
	class RecoSparseTrainDataset(Dataset):
	def __init__(self, sparse_mat):
	self.sparse_mat = sparse_mat

	def __len__(self):
	return self.sparse_mat.shape[0]

	def __getitem__(self, idx):
	batch_matrix = self.sparse_mat[idx].toarray().squeeze()
	return batch_matrix, idx

	class RecoSparseTestSet(Dataset):
	"""
	The test dataset contains the training and test matrices.
	The latter should be predicted from the training
	"""
	def __init__(self, train_mat, test_mat):
	self.train_mat = train_mat
	self.test_mat = test_mat
	assert train_mat.shape == test_mat.shape

	def __len__(self):
	return self.train_mat.shape[0]

	def __getitem__(self, idx):
	train_matrix = self.train_mat[idx].toarray().squeeze()
	test_matrix = self.test_mat[idx].toarray().squeeze()
	return train_matrix, test_matrix, idx

	class RecoSparseInferenceDataset(Dataset):
	def __init__(self, sparse_mat, user_ids):
	"""
	sparse_mat : interaction matrix
	user_ids : ids of the users (positional)
	"""
	self.sparse_mat = sparse_mat
	self.user_ids = user_ids

	assert sparse_mat.shape[0] == len(user_ids)

	def __len__(self):
	return self.sparse_mat.shape[0]

	def __getitem__(self, idx):
	batch_matrix = self.sparse_mat[idx].toarray().squeeze()
	batch_ids = self.user_ids[idx]
	return batch_matrix, batch_ids


	###
	batch_size = 512
	num_workers = multiprocessing.cpu_count()

	train_loader = torch.utils.data.DataLoader(RecoSparseTrainDataset(train), batch_size=batch_size, shuffle=True, num_workers=num_workers)
	val_loader = torch.utils.data.DataLoader(RecoSparseTestSet(train, val), batch_size=batch_size, shuffle=False, num_workers=num_workers)
	test_loader = torch.utils.data.DataLoader(RecoSparseTestSet(train, test), batch_size=batch_size, shuffle=False, num_workers=num_workers)