Controla a versão de um dataset com base no hash do arquivo.
Digamos que um projeto é desenvolvido no diretório experimento
.
Ao iniciar o dvc na pasta com dvc init
, é criado um arquivo que gerencia o projeto.
- Get Started: Data Versioning | Data Version Control · DVC
- Get Started: Experimenting Using Pipelines | Data Version Control · DVC
- Discovering and Accessing Data | Data Version Control · DVC
- Experiment Management | Data Version Control · DVC
Exemplos de repositório fornecido pela documentação:
- https://github.com/iterative/example-get-started
- https://github.com/iterative/example-get-started-experiments
Inicializando um novo projeto
dvc init
Download de dados por
dvc get <url> - o data/data.xml
Adicionando um arquivo de dados para ser monitorado pelo DVC
dvc add data/data.xml
Configurando um repositório remoto de dados, onde eles ficarão sendo versionados:
dvc remote add <name> <path>
Listando os repositórios remotos adicionados ao projeto
dvc remote list
Enviando dados do projeto para o repositório remoto:
dvc push
Baixando dados do repositório remoto, indicado pelos arquivos .dvc
dvc pull
Alternando entre os arquivos de dados de acordo com o arquivos .dvc
git checkout <...>
dvc checkout
- neptune.ai | The MLOps stack component for experiment tracking
- Weights & Biases – Developer tools for ML (wandb.ai)
Answer from <How To Checkout Git Tags – devconnected>
git checkout tags/<tag> -b <branch>
One example would be:
git checkout tags/v1.0 -b v1.0-branch
To get all available tags:
git fetch --all --tags
Fetching origin
From git-repository
98a14be..7a9ad7f master -> origin/master
* [new tag] v1.0 -> v1.0