atupal/Multiple queues data mining websites.py

## hello_threads_example.py

        import threading
        import datetime

        class ThreadClass(threading.Thread):
          def run(self):
            now = datetime.datetime.now()
            print "%s says Hello World at time: %s" %
            (self.getName(), now)

        for i in range(2):
          t = ThreadClass()
          t.start()

## Multiple queues data mining websites.py

import Queue
import threading
import urllib2
import time
from BeautifulSoup import BeautifulSoup

hosts = ["http://yahoo.com", "http://google.com", "http://amazon.com",
        "http://ibm.com", "http://apple.com"]

queue = Queue.Queue()
out_queue = Queue.Queue()

class ThreadUrl(threading.Thread):
    """Threaded Url Grab"""
    def __init__(self, queue, out_queue):
        threading.Thread.__init__(self)
        self.queue = queue
        self.out_queue = out_queue

    def run(self):
        while True:
            #grabs host from queue
            host = self.queue.get()

            #grabs urls of hosts and then grabs chunk of webpage
            url = urllib2.urlopen(host)
            chunk = url.read()

            #place chunk into out queue
            self.out_queue.put(chunk)

            #signals to queue job is done
            self.queue.task_done()

class DatamineThread(threading.Thread):
    """Threaded Url Grab"""
    def __init__(self, out_queue):
        threading.Thread.__init__(self)
        self.out_queue = out_queue

    def run(self):
        while True:
            #grabs host from queue
            chunk = self.out_queue.get()

            #parse the chunk
            soup = BeautifulSoup(chunk)
            print soup.findAll(['title'])

            #signals to queue job is done
            self.out_queue.task_done()

start = time.time()
def main():

    #spawn a pool of threads, and pass them queue instance
    for i in range(5):
        t = ThreadUrl(queue, out_queue)
        t.setDaemon(True)
        t.start()

    #populate queue with data
    for host in hosts:
        queue.put(host)

    for i in range(5):
        dt = DatamineThread(out_queue)
        dt.setDaemon(True)
        dt.start()


    #wait on the queue until everything has been processed
    queue.join()
    out_queue.join()

main()
print "Elapsed Time: %s" % (time.time() - start)

## URL fetch serial.py

        import urllib2
        import time

        hosts = ["http://yahoo.com", "http://google.com", "http://amazon.com",
        "http://ibm.com", "http://apple.com"]

        start = time.time()
        #grabs urls of hosts and prints first 1024 bytes of page
        for host in hosts:
          url = urllib2.urlopen(host)
          print url.read(1024)

        print "Elapsed Time: %s" % (time.time() - start)


## URL fetch threaded.py
          #!/usr/bin/env python
          import Queue
          import threading
          import urllib2
          import time

          hosts = ["http://yahoo.com", "http://google.com", "http://amazon.com",
          "http://ibm.com", "http://apple.com"]

          queue = Queue.Queue()

          class ThreadUrl(threading.Thread):
          """Threaded Url Grab"""
            def __init__(self, queue):
              threading.Thread.__init__(self)
              self.queue = queue

            def run(self):
              while True:
                #grabs host from queue
                host = self.queue.get()

                #grabs urls of hosts and prints first 1024 bytes of page
                url = urllib2.urlopen(host)
                print url.read(1024)

                #signals to queue job is done
                self.queue.task_done()

          start = time.time()
          def main():

            #spawn a pool of threads, and pass them queue instance
            for i in range(5):
              t = ThreadUrl(queue)
              t.setDaemon(True)
              t.start()

           #populate queue with data
              for host in hosts:
                queue.put(host)

           #wait on the queue until everything has been processed
           queue.join()

          main()
          print "Elapsed Time: %s" % (time.time() - start)

	import threading
	import datetime

	class ThreadClass(threading.Thread):
	def run(self):
	now = datetime.datetime.now()
	print "%s says Hello World at time: %s" %
	(self.getName(), now)

	for i in range(2):
	t = ThreadClass()
	t.start()

	import Queue
	import threading
	import urllib2
	import time
	from BeautifulSoup import BeautifulSoup

	hosts = ["http://yahoo.com", "http://google.com", "http://amazon.com",
	"http://ibm.com", "http://apple.com"]

	queue = Queue.Queue()
	out_queue = Queue.Queue()

	class ThreadUrl(threading.Thread):
	"""Threaded Url Grab"""
	def __init__(self, queue, out_queue):
	threading.Thread.__init__(self)
	self.queue = queue
	self.out_queue = out_queue

	def run(self):
	while True:
	#grabs host from queue
	host = self.queue.get()

	#grabs urls of hosts and then grabs chunk of webpage
	url = urllib2.urlopen(host)
	chunk = url.read()

	#place chunk into out queue
	self.out_queue.put(chunk)

	#signals to queue job is done
	self.queue.task_done()

	class DatamineThread(threading.Thread):
	"""Threaded Url Grab"""
	def __init__(self, out_queue):
	threading.Thread.__init__(self)
	self.out_queue = out_queue

	def run(self):
	while True:
	#grabs host from queue
	chunk = self.out_queue.get()

	#parse the chunk
	soup = BeautifulSoup(chunk)
	print soup.findAll(['title'])

	#signals to queue job is done
	self.out_queue.task_done()

	start = time.time()
	def main():

	#spawn a pool of threads, and pass them queue instance
	for i in range(5):
	t = ThreadUrl(queue, out_queue)
	t.setDaemon(True)
	t.start()

	#populate queue with data
	for host in hosts:
	queue.put(host)

	for i in range(5):
	dt = DatamineThread(out_queue)
	dt.setDaemon(True)
	dt.start()


	#wait on the queue until everything has been processed
	queue.join()
	out_queue.join()

	main()
	print "Elapsed Time: %s" % (time.time() - start)
	#!/usr/bin/env python
	import Queue
	import threading
	import urllib2
	import time

	hosts = ["http://yahoo.com", "http://google.com", "http://amazon.com",
	"http://ibm.com", "http://apple.com"]

	queue = Queue.Queue()

	class ThreadUrl(threading.Thread):
	"""Threaded Url Grab"""
	def __init__(self, queue):
	threading.Thread.__init__(self)
	self.queue = queue

	def run(self):
	while True:
	#grabs host from queue
	host = self.queue.get()

	#grabs urls of hosts and prints first 1024 bytes of page
	url = urllib2.urlopen(host)
	print url.read(1024)

	#signals to queue job is done
	self.queue.task_done()

	start = time.time()
	def main():

	#spawn a pool of threads, and pass them queue instance
	for i in range(5):
	t = ThreadUrl(queue)
	t.setDaemon(True)
	t.start()

	#populate queue with data
	for host in hosts:
	queue.put(host)

	#wait on the queue until everything has been processed
	queue.join()

	main()
	print "Elapsed Time: %s" % (time.time() - start)