Skip to content

Instantly share code, notes, and snippets.

@mjlassila
Created November 11, 2012 17:06
Show Gist options
  • Save mjlassila/4055537 to your computer and use it in GitHub Desktop.
Save mjlassila/4055537 to your computer and use it in GitHub Desktop.
ITIA41 - Viikkoharjoitusten palaute 8
# Yleiskommentteja
'''Läpikäynnin tarkoituksena oli ohjata kertaamaan kurssilla aiemmin
käsiteltyjä asioita ja toimia demonstraationa luennon sisällöille.
Tähän asti olimme käyttäneet harjoituksissa ainoastaan Pythonin
perustoiminnallisuuksia sekä NLTK-kirjastoa. Nyt otimme lisäksi
käyttöön Gensim-kirjaston, joka sisältää monia tiedonhaun tutkimuksessa
ja käytännön sovellutuksissa hyödyllisiä toiminnallisuuksia Python-kielellä
toteutettuna.
Mikäli tiedonhaun tekninen puoli on alkanut kiinnostamaan kurssimme mittaan enemmän,
Gensimin tutoriaali sekä muu dokumentaatio ovat mainio lähtöpiste omaehtoiselle
opiskelulle (http://radimrehurek.com/gensim/tutorial.html).
Astetta teoreettisempaan lisäopiskeluun omin päin sopii Stanfordin
yliopiston NLP-kurssi, jonka videotallenteet löytyvät osoitteesta
https://class.coursera.org/nlp/lecture/preview/index. Lisäksi helmikuussa 2013 alkaa
itseopiskeluun sopiva ilmainen verkkokurssi, joka noudattaa Columbian yliopiston
/ MIT:n NLP-kurssin sisältörunkoa (https://www.coursera.org/course/nlangp)
Nämä molemmat kurssit edellyttävät suht vahvaa tietojenkäsittelyn osaamista.
'''
## Tehtävä 1
>>> for index, document in enumerate(documents):
... pprint.pprint(str(str(index) + ' '+ document))
...
'0 Tropical fish include fish found in tropical environments around the world, including both freshwater and salt water species.'
'1 Fishkeepers often use the term tropical fish to refer only those requiring fresh water, with saltwater tropical fish referred to as marine fish.'
'2 Tropical fish are popular aquarium fish, due to their often bright coloration.'
'3 In freshwater fish, this coloration typically derives from iridescence, while salt water fish are generally pigmented.'
'4 Tropical fish aquarium store'
## Tehtävä 5 ##
>>> transformed_corpus = []
>>> for document in tfidf_corpus:
... transformed_corpus.append(document)
...
>>> pprint.pprint(transformed_corpus[3])
[(4, 0.21406879160904874),
(7, 0.21406879160904874),
(10, 0.11934184227625994),
(24, 0.21406879160904874),
(27, 0.37600558108872828),
(28, 0.37600558108872828),
(29, 0.37600558108872828),
(30, 0.37600558108872828),
(31, 0.37600558108872828),
(32, 0.37600558108872828)]
>>> pprint.pprint(corpus[3])
[(2, 2.0),
(4, 1.0),
(7, 1.0),
(10, 1.0),
(24, 1.0),
(27, 1.0),
(28, 1.0),
(29, 1.0),
(30, 1.0),
(31, 1.0),
(32, 1.0)]
## Tehtävä 6
'''Tässä tehtävänantoon oli jäänyt virheellinen esimerkkituloste, johon
syynä oli vanhentuneen sanakirjatiedoston mukaan rakennettu indeksi.
Tämä vaikutti myös seuraavassa tehtävässä kyselyn vastauksena saatuihin
relevanssiarvoihin. Vanhentunut sanakirjatiedosto oli luodu vain neljä
ensimmäistä dokumenttia sisältäneen dokumenttikokoleman pohjalta,
l. dokumenttia "Tropical fish aquarium store" ei oltu otettu huomioon
sanakirjatiedostoa rakennettaessa.
Tehtävän 5 esimerkkitulosteet oli tehty ajantasaisen sanakirjatiedoston
mukaan rakennetusta indeksistä, joten ne täsmäsivät saamiinne tulosteisiin.'''
### Tehtävä 7 ###
>>> list(enumerate(query_results))
[(0, 0.15131788), (1, 0.044978824), (2, 0.17717849), (3, 0.10703439), (4, 0.30541483)]
'''Virheellisen sanakirjatiedoston pohjalta luotu indeksi ei kuitenkaan
vaikuttanut haun tuloksiin niin, että relevanteimmaksi dokumentiksi
olisi saatu jokin muu kuin dokumentti 4, joka on:'''
>>> documents[4]
u'Tropical fish aquarium store'
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment