Created
November 11, 2012 17:06
-
-
Save mjlassila/4055537 to your computer and use it in GitHub Desktop.
ITIA41 - Viikkoharjoitusten palaute 8
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
# Yleiskommentteja | |
'''Läpikäynnin tarkoituksena oli ohjata kertaamaan kurssilla aiemmin | |
käsiteltyjä asioita ja toimia demonstraationa luennon sisällöille. | |
Tähän asti olimme käyttäneet harjoituksissa ainoastaan Pythonin | |
perustoiminnallisuuksia sekä NLTK-kirjastoa. Nyt otimme lisäksi | |
käyttöön Gensim-kirjaston, joka sisältää monia tiedonhaun tutkimuksessa | |
ja käytännön sovellutuksissa hyödyllisiä toiminnallisuuksia Python-kielellä | |
toteutettuna. | |
Mikäli tiedonhaun tekninen puoli on alkanut kiinnostamaan kurssimme mittaan enemmän, | |
Gensimin tutoriaali sekä muu dokumentaatio ovat mainio lähtöpiste omaehtoiselle | |
opiskelulle (http://radimrehurek.com/gensim/tutorial.html). | |
Astetta teoreettisempaan lisäopiskeluun omin päin sopii Stanfordin | |
yliopiston NLP-kurssi, jonka videotallenteet löytyvät osoitteesta | |
https://class.coursera.org/nlp/lecture/preview/index. Lisäksi helmikuussa 2013 alkaa | |
itseopiskeluun sopiva ilmainen verkkokurssi, joka noudattaa Columbian yliopiston | |
/ MIT:n NLP-kurssin sisältörunkoa (https://www.coursera.org/course/nlangp) | |
Nämä molemmat kurssit edellyttävät suht vahvaa tietojenkäsittelyn osaamista. | |
''' | |
## Tehtävä 1 | |
>>> for index, document in enumerate(documents): | |
... pprint.pprint(str(str(index) + ' '+ document)) | |
... | |
'0 Tropical fish include fish found in tropical environments around the world, including both freshwater and salt water species.' | |
'1 Fishkeepers often use the term tropical fish to refer only those requiring fresh water, with saltwater tropical fish referred to as marine fish.' | |
'2 Tropical fish are popular aquarium fish, due to their often bright coloration.' | |
'3 In freshwater fish, this coloration typically derives from iridescence, while salt water fish are generally pigmented.' | |
'4 Tropical fish aquarium store' | |
## Tehtävä 5 ## | |
>>> transformed_corpus = [] | |
>>> for document in tfidf_corpus: | |
... transformed_corpus.append(document) | |
... | |
>>> pprint.pprint(transformed_corpus[3]) | |
[(4, 0.21406879160904874), | |
(7, 0.21406879160904874), | |
(10, 0.11934184227625994), | |
(24, 0.21406879160904874), | |
(27, 0.37600558108872828), | |
(28, 0.37600558108872828), | |
(29, 0.37600558108872828), | |
(30, 0.37600558108872828), | |
(31, 0.37600558108872828), | |
(32, 0.37600558108872828)] | |
>>> pprint.pprint(corpus[3]) | |
[(2, 2.0), | |
(4, 1.0), | |
(7, 1.0), | |
(10, 1.0), | |
(24, 1.0), | |
(27, 1.0), | |
(28, 1.0), | |
(29, 1.0), | |
(30, 1.0), | |
(31, 1.0), | |
(32, 1.0)] | |
## Tehtävä 6 | |
'''Tässä tehtävänantoon oli jäänyt virheellinen esimerkkituloste, johon | |
syynä oli vanhentuneen sanakirjatiedoston mukaan rakennettu indeksi. | |
Tämä vaikutti myös seuraavassa tehtävässä kyselyn vastauksena saatuihin | |
relevanssiarvoihin. Vanhentunut sanakirjatiedosto oli luodu vain neljä | |
ensimmäistä dokumenttia sisältäneen dokumenttikokoleman pohjalta, | |
l. dokumenttia "Tropical fish aquarium store" ei oltu otettu huomioon | |
sanakirjatiedostoa rakennettaessa. | |
Tehtävän 5 esimerkkitulosteet oli tehty ajantasaisen sanakirjatiedoston | |
mukaan rakennetusta indeksistä, joten ne täsmäsivät saamiinne tulosteisiin.''' | |
### Tehtävä 7 ### | |
>>> list(enumerate(query_results)) | |
[(0, 0.15131788), (1, 0.044978824), (2, 0.17717849), (3, 0.10703439), (4, 0.30541483)] | |
'''Virheellisen sanakirjatiedoston pohjalta luotu indeksi ei kuitenkaan | |
vaikuttanut haun tuloksiin niin, että relevanteimmaksi dokumentiksi | |
olisi saatu jokin muu kuin dokumentti 4, joka on:''' | |
>>> documents[4] | |
u'Tropical fish aquarium store' |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment