eduardofcgo/guia.md

## guia.md

      
    Raw
  

              guia.md
            
          
Analisa o dataset do Twitter em /datasets/twitter.csv. Qual o comando que utilizarias para obter todos os tweets em português?
E caso pretendas obter todos os tweets em japonês, qual seria o comando?
Caso queiras consultar os tweets portugueses várias vezes durante um dia, consideras eficiente o comando que fizeste? Como farias para não ter de percorrer o dataset inteiro sempre que pretendes fazer fazer essa consulta?
Cria um script que irá resolver o problema da pergunta anterior. O script deverá criar os índices de forma a que seja eficiente procurar todos os tweets de uma lingua específica - seja português, japonês, inglês etc. Através dos índices, não será necessário procurar o dataset inteiro sempre que se faz uma consulta. Recomendacao: Deveras criar um índice (ficheiro) para tweets de cada língua. Uma das solucoes seria primeiro criar um ficheiro com uma lista de todas as linguas. Por exemplo:

en
jp
es
Depois e possível percorrer cada linha desse ficheiro usando um while, de forma a criar o indice para cada lingua. O codigo que esta dentro do do ira ser executado para cada linha do ficheiro. A variável user pode ter um nome diferente, por exemplo língua. Como no exemplo, a variável pode ser referenciada usando $lingua.
cat /config/users.txt | while read user
do
    echo "ola $user"
done


Supoe que pretendes procurar todos os tweets que mensionam a apresentadora "Cristina Ferreira". Como farias para os encontrar da forma mais rapida possivel? Qual seria o indice que utilizavas?
Cria um script chamado tweets_lingua.sh de forma que seja possível obter todos os tweets para uma lingua, por exemplo executar ./tweets_lingua.sh fr imprimia todos os tweets em francês.
Cria um script chamado todos_os_tweets.sh que utiliza o índices que criaste anteriormente para devolver o dataset completo. Irás precisar mais do dataset original em /datasets/tweets?