elo7-developer/teste_data_science.md

## teste_data_science.md

      
    Raw
  

              teste_data_science.md
            
          
    Teste Data Science

Esse desafio foi separado em duas etapas: na primeira, queremos entender como você pensa e elabora soluções de um ponto de vista conceitual e enquanto na segunda, queremos ver como você prototipa (codifica) suas soluções.
Objetivo:

Sua tarefa é criar um analisador de sentimentos com base nos reviews de filmes do Rotten Tomatoes. Este dataset foi baseado numa base de dados pública que foi retirado do seguinte link.
Os dados (rt-polarity.pos e rt.polarity.neg) foram anexados no email que você recebeu com este gist e estão divididos em 10,662 sentenças de reviews, sendo metade positivas e  metade negativas. Mais detalhes sobre o dataset podem ser vistos neste README
Parte 1

Nessa parte, você deve submeter um jupyter notebook utilizando apenas as células Markdown explicando detalhadamente
como que você resolveria o problema. Aqui, queremos entender sua forma de pensar e argumentação, então sinta-se livre para embasar seus argumentos (ou idéias) com artigos e/ou vídeos. Explicite os algoritmos que você pretende usar e as etapas de pré processamento que você recomenda fazer, justificando o porquê de cada uma das decisões tomadas.
Observações:

Caso nunca tenha trabalhado com Natural Language Processing antes, o site que contém o dataset apresenta alguns artigos que podem auxiliá-lo numa abordagem inicial ao problema. Porém, não se limite aos artigos e sinta-se livre para procurar outras soluções na internet e em outras fontes.
Parte 2

No mesmo jupyter, agora queremos que você codifique sua solução :)
A ideia aqui é detalhar passo a passo o desenvolvimento do seu raciocínio. Procure elaborar uma "história", alternando explicações e código, para facilitar o entendimento.
Sinta-se livre para utilizar qualquer linguagem de programação para resolver o desafio, desde que a submissão seja o arquivo .ipynb
Aqui você pode ver uma lista de linguagens compatíveis com o jupyter e aqui algumas instruções que podem auxiliar na instalação da mesma.
Você também deve incluir métricas que avaliem o desempenho do seu modelo. No caso, apenas a acurácia nos dados de teste é mais do que suficiente.
Suba um arquivo final .ipynb, um .html e um requirements.txt (gerado pelo comando pip freeze > requirements.txt) em seu github pessoal. Deixe o repositório público e nos mande o link por email. Caso tenha utilizado uma linguagem diferente de Python, nos explicite como rodar o seu projeto localmente.
Observações:

Sinta-se a vontade para fazer o uso de bibliotecas (como o scikit-learn), mas, novamente, você deve saber explicar o porquê de você aplicar determinado algoritmo para determinada situação.
Não queremos a solução ideal para o problema. Queremos entender sua forma de pensar :)
Boa sorte e qualquer dúvida pode mandar um e-mail.