goddoe/reservoir_sampling.py

## reservoir_sampling.py
import random

def reservoir_sampling(file_name, k):
    sample = []
    with open(file_name, 'r') as f:
        f.seek(0, 2)  # 파일의 끝으로 이동
        filesize = f.tell()  # 파일의 크기를 얻음 (바이트)

        random_set = sorted(random.sample(range(filesize), k))

        for i in range(k):
            f.seek(random_set[i])
            # 파일의 중간에 끼어있을 수 있는 줄을 건너뜀
            f.readline()
            # 다음 줄을 샘플로 취함
            sample.append(f.readline())
    return sample

# 사용 예
samples = reservoir_sampling('large_file.txt', 100)  # 100개의 무작위 라인을 샘플링
	import random

	def reservoir_sampling(file_name, k):
	sample = []
	with open(file_name, 'r') as f:
	f.seek(0, 2) # 파일의 끝으로 이동
	filesize = f.tell() # 파일의 크기를 얻음 (바이트)

	random_set = sorted(random.sample(range(filesize), k))

	for i in range(k):
	f.seek(random_set[i])
	# 파일의 중간에 끼어있을 수 있는 줄을 건너뜀
	f.readline()
	# 다음 줄을 샘플로 취함
	sample.append(f.readline())
	return sample

	# 사용 예
	samples = reservoir_sampling('large_file.txt', 100) # 100개의 무작위 라인을 샘플링