eupendra/read_csv_xlsx_scrapy.py

## read_csv_xlsx_scrapy.py
import scrapy
import pandas as pd


base_url = 'https://stackoverflow.com/questions/tagged/{}'

def read_csv():
    df = pd.read_csv('so_tags.csv')
    return df['Tags'].values.tolist()


def read_excel():
    df = pd.read_excel('so_tags.xlsx')
    return df['Tags'].values.tolist()


class SoSpider(scrapy.Spider):
    name = 'so'

    def start_requests(self):
        for tag in read_excel():
            yield scrapy.Request(base_url.format(tag))

    def parse(self, response):
        questions = response.xpath('normalize-space(//*[@id="mainbar"]/div[4]/div/div[1]/text())').get()
        questions = questions.strip('questions')

        yield {
            'questions': questions,
            'url': response.url
        }
	import scrapy
	import pandas as pd


	base_url = 'https://stackoverflow.com/questions/tagged/{}'

	def read_csv():
	df = pd.read_csv('so_tags.csv')
	return df['Tags'].values.tolist()


	def read_excel():
	df = pd.read_excel('so_tags.xlsx')
	return df['Tags'].values.tolist()


	class SoSpider(scrapy.Spider):
	name = 'so'

	def start_requests(self):
	for tag in read_excel():
	yield scrapy.Request(base_url.format(tag))

	def parse(self, response):
	questions = response.xpath('normalize-space(//*[@id="mainbar"]/div[4]/div/div[1]/text())').get()
	questions = questions.strip('questions')

	yield {
	'questions': questions,
	'url': response.url
	}