Skip to content

Instantly share code, notes, and snippets.

@eduardofcgo
Last active April 29, 2021 10:32
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save eduardofcgo/7217a193e3b9c0997faec18514972e2a to your computer and use it in GitHub Desktop.
Save eduardofcgo/7217a193e3b9c0997faec18514972e2a to your computer and use it in GitHub Desktop.
Tweets dataset
  1. Analisa o dataset do Twitter em /datasets/twitter.csv. Qual o comando que utilizarias para obter todos os tweets em português?
  2. E caso pretendas obter todos os tweets em japonês, qual seria o comando?
  3. Caso queiras consultar os tweets portugueses várias vezes durante um dia, consideras eficiente o comando que fizeste? Como farias para não ter de percorrer o dataset inteiro sempre que pretendes fazer fazer essa consulta?
  4. Cria um script que irá resolver o problema da pergunta anterior. O script deverá criar os índices de forma a que seja eficiente procurar todos os tweets de uma lingua específica - seja português, japonês, inglês etc. Através dos índices, não será necessário procurar o dataset inteiro sempre que se faz uma consulta. Recomendacao: Deveras criar um índice (ficheiro) para tweets de cada língua. Uma das solucoes seria primeiro criar um ficheiro com uma lista de todas as linguas. Por exemplo:
en
jp
es

Depois e possível percorrer cada linha desse ficheiro usando um while, de forma a criar o indice para cada lingua. O codigo que esta dentro do do ira ser executado para cada linha do ficheiro. A variável user pode ter um nome diferente, por exemplo língua. Como no exemplo, a variável pode ser referenciada usando $lingua.

cat /config/users.txt | while read user
do
    echo "ola $user"
done
  1. Supoe que pretendes procurar todos os tweets que mensionam a apresentadora "Cristina Ferreira". Como farias para os encontrar da forma mais rapida possivel? Qual seria o indice que utilizavas?
  2. Cria um script chamado tweets_lingua.sh de forma que seja possível obter todos os tweets para uma lingua, por exemplo executar ./tweets_lingua.sh fr imprimia todos os tweets em francês.
  3. Cria um script chamado todos_os_tweets.sh que utiliza o índices que criaste anteriormente para devolver o dataset completo. Irás precisar mais do dataset original em /datasets/tweets?
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment