alexlimh/convert_pyserini_to_dpr_file.py

## convert_pyserini_to_dpr_file.py
#!/usr/bin/env python3
# Copyright (c) Facebook, Inc. and its affiliates.
# All rights reserved.
#
# This source code is licensed under the license found in the
# LICENSE file in the root directory of this source tree.

"""
 Command line tool to get dense results and validate them
"""

import argparse
import os
import csv
import glob
import json
import gzip
import logging
import pickle
import time
from typing import List, Tuple, Dict, Iterator
from tqdm import tqdm
from pyserini.index import IndexReader

import numpy as np
import torch
from torch import Tensor as T
from torch import nn

from dpr.data.qa_validation import calculate_matches
from dpr.models import init_biencoder_components
from dpr.options import (
    add_encoder_params,
    setup_args_gpu,
    print_args,
    set_encoder_params_from_state,
    add_tokenizer_params,
    add_cuda_params,
)
from dpr.utils.data_utils import Tensorizer
from dpr.utils.model_utils import (
    setup_for_distributed_mode,
    get_model_obj,
    load_states_from_checkpoint,
)
from dpr.indexer.faiss_indexers import (
    DenseIndexer,
    DenseHNSWFlatIndexer,
    DenseFlatIndexer,
    DenseReconIndexer,
)

logger = logging.getLogger()
logger.setLevel(logging.INFO)
if logger.hasHandlers():
    logger.handlers.clear()
console = logging.StreamHandler()
logger.addHandler(console)

def load_passages(ctx_file: str) -> Dict[object, Tuple[str, str]]:
    docs = {}
    logger.info("Reading data from: %s", ctx_file)
    if ctx_file.endswith(".gz"):
        with gzip.open(ctx_file, "rt") as tsvfile:
            reader = csv.reader(
                tsvfile,
                delimiter="\t",
            )
            # file format: doc_id, doc_text, title
            for row in reader:
                if row[0] != "id":
                    docs[row[0]] = (row[1], row[2])
    else:
        with open(ctx_file) as tsvfile:
            reader = csv.reader(
                tsvfile,
                delimiter="\t",
            )
            # file format: doc_id, doc_text, title
            for row in reader:
                if row[0] != "id":
                    docs[row[0]] = (row[1], row[2])
    return docs

def validate(
    passages: Dict[object, Tuple[str, str]],
    answers: List[List[str]],
    result_ctx_ids: List[Tuple[List[object], List[float]]],
    workers_num: int,
    match_type: str,
) -> List[List[bool]]:
    match_stats = calculate_matches(
        passages, answers, result_ctx_ids, workers_num, match_type
    )
    top_k_hits = match_stats.top_k_hits

    logger.info("Validation results: top k documents hits %s", top_k_hits)
    top_k_hits = [v / len(result_ctx_ids) for v in top_k_hits]
    logger.info("Validation results: top k documents hits accuracy %s", top_k_hits)
    return match_stats.questions_doc_hits

def save_results(
    path,
    passages: Dict[object, Tuple[str, str]],
    questions: List[str],
    answers: List[List[str]],
    top_passages_and_scores: List[Tuple[List[object], List[float]]],
    per_question_hits: List[List[bool]],
    out_file: str,
):
    # join passages text with the result ids, their questions and assigning has|no answer labels
    merged_data = []
    assert len(per_question_hits) == len(questions) == len(answers)
    all_keys = list(passages.keys())
    for i, q in tqdm(enumerate(questions)):
        q_answers = answers[i]
        results_and_scores = top_passages_and_scores[i]
        hits = per_question_hits[i]
        docs = [passages[doc_id] for doc_id in results_and_scores[0]]
        scores = [str(score) for score in results_and_scores[1]]
        ctxs_num = len(hits)

        positive_ctxs = []
        negative_ctxs = []
        hard_negative_ctxs = []
        for c in range(ctxs_num):
          sample = {"title": docs[c][1],
                    "title_score": 0,
                    "text": docs[c][0],
                    "score": scores[c],
                    "passage_id": results_and_scores[0][c]
                    }
          if hits[c]:
            positive_ctxs.append(sample)
          else:
            hard_negative_ctxs.append(sample)

        if len(positive_ctxs) == 0:
          continue

        docids = {doc_id:0 for doc_id in results_and_scores[0]}
        while len(negative_ctxs) < 50:
          neg_id = all_keys[np.random.randint(len(all_keys))]
          if neg_id in docids:
            continue
          else:
            negative_ctxs.append({"title": passages[neg_id][1],
                                  "title_score": 0,
                                  "text": passages[neg_id][0],
                                  "score": 0,
                                  "passage_id": neg_id
                                  })
        merged_data.append(
            {
                "dataset": path,
                "question": q,
                "answers": q_answers,
                "positive_ctxs": positive_ctxs,
                "negative_ctxs": negative_ctxs,
                "hard_negative_ctxs": hard_negative_ctxs,
            }
        )

    print(f"Filtered data:{len(merged_data)}/{len(questions)}")

    with open(out_file, "w") as writer:
        writer.write(json.dumps(merged_data, indent=4) + "\n")
    logger.info("Saved results * scores  to %s", out_file)

def main(args):
    logger.info("Loading retrieved results ...")
    with open(args.retrieval_results) as f:
        retrieved_data = json.load(f)

    questions = []
    question_answers = []
    top_ids_and_scores = []

    for sample in retrieved_data.values():
      questions.append(sample["question"])
      question_answers.append(sample["answers"])
      scores, ids = [], []
      for ctx in sample["contexts"]:
        scores.append(ctx["score"])
        ids.append(ctx["docid"])
      top_ids_and_scores.append((ids, scores))

    logger.info("Loading passages ...")
    all_passages = load_passages(args.ctx_file)

    questions_doc_hits = validate(
        all_passages,
        question_answers,
        top_ids_and_scores,
        args.validation_workers,
        args.match,
    )

    if args.out_file:
        save_results(
            args.retrieval_results,
            all_passages,
            questions,
            question_answers,
            top_ids_and_scores,
            questions_doc_hits,
            args.out_file,
        )


if __name__ == "__main__":
    parser = argparse.ArgumentParser()

    add_encoder_params(parser)
    add_tokenizer_params(parser)
    add_cuda_params(parser)

    parser.add_argument(
        "--ctx_file",
        required=True,
        type=str,
        default=None,
        help="All passages file in the tsv format: id \\t passage_text \\t title",
    )

    parser.add_argument(
        "--out_file",
        type=str,
        default=None,
        help="output .tsv file path to write results to ",
    )
    parser.add_argument(
        "--match",
        type=str,
        default="string",
        choices=["regex", "string"],
        help="Answer matching logic type",
    )
    parser.add_argument(
        "--validation_workers",
        type=int,
        default=16,
        help="Number of parallel processes to validate results",
    )
    parser.add_argument(
        "--batch_size",
        type=int,
        default=32,
        help="Batch size for question encoder forward pass",
    )
    parser.add_argument(
        "--retrieval_results",
        required=True,
        type=str,
        default=None,
        help="Retreival results from another model",
    )

    args = parser.parse_args()

    setup_args_gpu(args)
    print_args(args)
    main(args)
	#!/usr/bin/env python3
	# Copyright (c) Facebook, Inc. and its affiliates.
	# All rights reserved.
	#
	# This source code is licensed under the license found in the
	# LICENSE file in the root directory of this source tree.

	"""
	Command line tool to get dense results and validate them
	"""

	import argparse
	import os
	import csv
	import glob
	import json
	import gzip
	import logging
	import pickle
	import time
	from typing import List, Tuple, Dict, Iterator
	from tqdm import tqdm
	from pyserini.index import IndexReader

	import numpy as np
	import torch
	from torch import Tensor as T
	from torch import nn

	from dpr.data.qa_validation import calculate_matches
	from dpr.models import init_biencoder_components
	from dpr.options import (
	add_encoder_params,
	setup_args_gpu,
	print_args,
	set_encoder_params_from_state,
	add_tokenizer_params,
	add_cuda_params,
	)
	from dpr.utils.data_utils import Tensorizer
	from dpr.utils.model_utils import (
	setup_for_distributed_mode,
	get_model_obj,
	load_states_from_checkpoint,
	)
	from dpr.indexer.faiss_indexers import (
	DenseIndexer,
	DenseHNSWFlatIndexer,
	DenseFlatIndexer,
	DenseReconIndexer,
	)

	logger = logging.getLogger()
	logger.setLevel(logging.INFO)
	if logger.hasHandlers():
	logger.handlers.clear()
	console = logging.StreamHandler()
	logger.addHandler(console)

	def load_passages(ctx_file: str) -> Dict[object, Tuple[str, str]]:
	docs = {}
	logger.info("Reading data from: %s", ctx_file)
	if ctx_file.endswith(".gz"):
	with gzip.open(ctx_file, "rt") as tsvfile:
	reader = csv.reader(
	tsvfile,
	delimiter="\t",
	)
	# file format: doc_id, doc_text, title
	for row in reader:
	if row[0] != "id":
	docs[row[0]] = (row[1], row[2])
	else:
	with open(ctx_file) as tsvfile:
	reader = csv.reader(
	tsvfile,
	delimiter="\t",
	)
	# file format: doc_id, doc_text, title
	for row in reader:
	if row[0] != "id":
	docs[row[0]] = (row[1], row[2])
	return docs

	def validate(
	passages: Dict[object, Tuple[str, str]],
	answers: List[List[str]],
	result_ctx_ids: List[Tuple[List[object], List[float]]],
	workers_num: int,
	match_type: str,
	) -> List[List[bool]]:
	match_stats = calculate_matches(
	passages, answers, result_ctx_ids, workers_num, match_type
	)
	top_k_hits = match_stats.top_k_hits

	logger.info("Validation results: top k documents hits %s", top_k_hits)
	top_k_hits = [v / len(result_ctx_ids) for v in top_k_hits]
	logger.info("Validation results: top k documents hits accuracy %s", top_k_hits)
	return match_stats.questions_doc_hits

	def save_results(
	path,
	passages: Dict[object, Tuple[str, str]],
	questions: List[str],
	answers: List[List[str]],
	top_passages_and_scores: List[Tuple[List[object], List[float]]],
	per_question_hits: List[List[bool]],
	out_file: str,
	):
	# join passages text with the result ids, their questions and assigning has\|no answer labels
	merged_data = []
	assert len(per_question_hits) == len(questions) == len(answers)
	all_keys = list(passages.keys())
	for i, q in tqdm(enumerate(questions)):
	q_answers = answers[i]
	results_and_scores = top_passages_and_scores[i]
	hits = per_question_hits[i]
	docs = [passages[doc_id] for doc_id in results_and_scores[0]]
	scores = [str(score) for score in results_and_scores[1]]
	ctxs_num = len(hits)

	positive_ctxs = []
	negative_ctxs = []
	hard_negative_ctxs = []
	for c in range(ctxs_num):
	sample = {"title": docs[c][1],
	"title_score": 0,
	"text": docs[c][0],
	"score": scores[c],
	"passage_id": results_and_scores[0][c]
	}
	if hits[c]:
	positive_ctxs.append(sample)
	else:
	hard_negative_ctxs.append(sample)

	if len(positive_ctxs) == 0:
	continue

	docids = {doc_id:0 for doc_id in results_and_scores[0]}
	while len(negative_ctxs) < 50:
	neg_id = all_keys[np.random.randint(len(all_keys))]
	if neg_id in docids:
	continue
	else:
	negative_ctxs.append({"title": passages[neg_id][1],
	"title_score": 0,
	"text": passages[neg_id][0],
	"score": 0,
	"passage_id": neg_id
	})
	merged_data.append(
	{
	"dataset": path,
	"question": q,
	"answers": q_answers,
	"positive_ctxs": positive_ctxs,
	"negative_ctxs": negative_ctxs,
	"hard_negative_ctxs": hard_negative_ctxs,
	}
	)

	print(f"Filtered data:{len(merged_data)}/{len(questions)}")

	with open(out_file, "w") as writer:
	writer.write(json.dumps(merged_data, indent=4) + "\n")
	logger.info("Saved results * scores to %s", out_file)

	def main(args):
	logger.info("Loading retrieved results ...")
	with open(args.retrieval_results) as f:
	retrieved_data = json.load(f)

	questions = []
	question_answers = []
	top_ids_and_scores = []

	for sample in retrieved_data.values():
	questions.append(sample["question"])
	question_answers.append(sample["answers"])
	scores, ids = [], []
	for ctx in sample["contexts"]:
	scores.append(ctx["score"])
	ids.append(ctx["docid"])
	top_ids_and_scores.append((ids, scores))

	logger.info("Loading passages ...")
	all_passages = load_passages(args.ctx_file)

	questions_doc_hits = validate(
	all_passages,
	question_answers,
	top_ids_and_scores,
	args.validation_workers,
	args.match,
	)

	if args.out_file:
	save_results(
	args.retrieval_results,
	all_passages,
	questions,
	question_answers,
	top_ids_and_scores,
	questions_doc_hits,
	args.out_file,
	)


	if __name__ == "__main__":
	parser = argparse.ArgumentParser()

	add_encoder_params(parser)
	add_tokenizer_params(parser)
	add_cuda_params(parser)

	parser.add_argument(
	"--ctx_file",
	required=True,
	type=str,
	default=None,
	help="All passages file in the tsv format: id \\t passage_text \\t title",
	)

	parser.add_argument(
	"--out_file",
	type=str,
	default=None,
	help="output .tsv file path to write results to ",
	)
	parser.add_argument(
	"--match",
	type=str,
	default="string",
	choices=["regex", "string"],
	help="Answer matching logic type",
	)
	parser.add_argument(
	"--validation_workers",
	type=int,
	default=16,
	help="Number of parallel processes to validate results",
	)
	parser.add_argument(
	"--batch_size",
	type=int,
	default=32,
	help="Batch size for question encoder forward pass",
	)
	parser.add_argument(
	"--retrieval_results",
	required=True,
	type=str,
	default=None,
	help="Retreival results from another model",
	)

	args = parser.parse_args()

	setup_args_gpu(args)
	print_args(args)
	main(args)