harrywang/duplicates_pipeline.py

## duplicates_pipeline.py
class DuplicatesPipeline(object):

    def __init__(self):
        """
        Initializes database connection and sessionmaker.
        Creates tables.
        """
        engine = db_connect()
        create_table(engine)
        self.Session = sessionmaker(bind=engine)
        logging.info("****DuplicatesPipeline: database connected****")

    def process_item(self, item, spider):
        session = self.Session()
        exist_quote = session.query(Quote).filter_by(quote_content = item["quote_content"]).first()
        session.close()
        if exist_quote is not None:  # the current quote exists
            raise DropItem("Duplicate item found: %s" % item["quote_content"])
        else:
            return item
	class DuplicatesPipeline(object):

	def __init__(self):
	"""
	Initializes database connection and sessionmaker.
	Creates tables.
	"""
	engine = db_connect()
	create_table(engine)
	self.Session = sessionmaker(bind=engine)
	logging.info("**DuplicatesPipeline: database connected**")

	def process_item(self, item, spider):
	session = self.Session()
	exist_quote = session.query(Quote).filter_by(quote_content = item["quote_content"]).first()
	session.close()
	if exist_quote is not None: # the current quote exists
	raise DropItem("Duplicate item found: %s" % item["quote_content"])
	else:
	return item