- Analisa o dataset do Twitter em
/datasets/twitter.csv
. Qual o comando que utilizarias para obter todos os tweets em português? - E caso pretendas obter todos os tweets em japonês, qual seria o comando?
- Caso queiras consultar os tweets portugueses várias vezes durante um dia, consideras eficiente o comando que fizeste? Como farias para não ter de percorrer o dataset inteiro sempre que pretendes fazer fazer essa consulta?
- Cria um script que irá resolver o problema da pergunta anterior. O script deverá criar os índices de forma a que seja eficiente procurar todos os tweets de uma lingua específica - seja português, japonês, inglês etc. Através dos índices, não será necessário procurar o dataset inteiro sempre que se faz uma consulta. Recomendacao: Deveras criar um índice (ficheiro) para tweets de cada língua. Uma das solucoes seria primeiro criar um ficheiro com uma lista de todas as linguas. Por exemplo:
en
jp
es
Depois e possível percorrer cada linha desse ficheiro usando um while, de forma a criar o indice para cada lingua. O codigo que esta dentro do do
ira ser executado para cada linha do ficheiro. A variável user
pode ter um nome diferente, por exemplo língua
. Como no exemplo, a variável pode ser referenciada usando $lingua
.
cat /config/users.txt | while read user
do
echo "ola $user"
done
- Supoe que pretendes procurar todos os tweets que mensionam a apresentadora "Cristina Ferreira". Como farias para os encontrar da forma mais rapida possivel? Qual seria o indice que utilizavas?
- Cria um script chamado
tweets_lingua.sh
de forma que seja possível obter todos os tweets para uma lingua, por exemplo executar./tweets_lingua.sh fr
imprimia todos os tweets em francês. - Cria um script chamado
todos_os_tweets.sh
que utiliza o índices que criaste anteriormente para devolver o dataset completo. Irás precisar mais do dataset original em/datasets/tweets
?