snakeye/relevance.py

## relevance.py
import argparse
import logging
import os
import string
from typing import List

import frontmatter
import nltk
import numpy as np
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

logger = logging.getLogger(__name__)

nltk.download("stopwords", quiet=True)
nltk.download("wordnet", quiet=True)


def collect_md_files(directory: str) -> List[str]:
    md_files = []
    for root, dirs, files in os.walk(directory):
        for file in files:
            if file.endswith(".md"):
                md_files.append(os.path.join(root, file))
    return md_files


def extract_tokens(
    text: str,
    stop_words: set,
    lemmatizer: WordNetLemmatizer,
    punctuation: str,
) -> List[str]:
    text = text.lower().translate(str.maketrans("", "", punctuation))
    tokens = word_tokenize(text)
    tokens = [token for token in tokens if len(token) >= 3 and token not in stop_words]
    return [lemmatizer.lemmatize(token) for token in tokens]


def find_similar_posts(
    posts: List[frontmatter.Post], similarity_matrix: np.ndarray, limit: int = 3
) -> dict:
    similar_posts = {}

    for i, post in enumerate(posts):
        similarities = similarity_matrix[i]
        sorted_indices = np.argsort(similarities)[::-1]

        top_indices = sorted_indices[: limit + 1]
        top_posts = [posts[idx] for idx in top_indices if idx != i]
        similar_posts[post] = top_posts

    return similar_posts


def main(args):
    md_files = collect_md_files(args.dir)

    # load posts
    posts = []
    for file in md_files:
        with open(file) as ifile:
            post = frontmatter.load(ifile)

            if "permalink" not in post:
                logger.error(f"Post {file} does not have permalink!")

            post["file"] = file
            posts.append(post)

    # tokenise post contents
    stop_words = set(stopwords.words("english"))
    punctuation = string.punctuation + "’–‘“”（）"
    lemmatizer = WordNetLemmatizer()

    tokenized_sources = [
        " ".join(extract_tokens(post.content, stop_words, lemmatizer, punctuation))
        for post in posts
    ]

    # build similarity matrix
    tfidf_vectorizer = TfidfVectorizer()
    tfidf_matrix = tfidf_vectorizer.fit_transform(tokenized_sources)
    similarity_matrix = cosine_similarity(tfidf_matrix)

    # process similar posts
    similar_posts = find_similar_posts(posts, similarity_matrix)
    for post, similar in similar_posts.items():
        update = []
        for i, sim_post in enumerate(similar):
            url = sim_post.get("permalink")
            update.append(
                {
                    "url": url,
                    "title": sim_post.get("title"),
                    "description": sim_post.get("description"),
                    "image": sim_post.get("image"),
                    'date': sim_post.get('date'),
                },
            )
        post["similar"] = update

    # save posts
    for post in posts:
        file_path = post["file"]
        del post["file"]
        with open(file_path, "wb") as ofile:
            frontmatter.dump(post, ofile)


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("dir", type=str)
    args = parser.parse_args()
    main(args)
	import argparse
	import logging
	import os
	import string
	from typing import List

	import frontmatter
	import nltk
	import numpy as np
	from nltk.corpus import stopwords
	from nltk.stem import WordNetLemmatizer
	from nltk.tokenize import word_tokenize
	from sklearn.feature_extraction.text import TfidfVectorizer
	from sklearn.metrics.pairwise import cosine_similarity

	logger = logging.getLogger(__name__)

	nltk.download("stopwords", quiet=True)
	nltk.download("wordnet", quiet=True)


	def collect_md_files(directory: str) -> List[str]:
	md_files = []
	for root, dirs, files in os.walk(directory):
	for file in files:
	if file.endswith(".md"):
	md_files.append(os.path.join(root, file))
	return md_files


	def extract_tokens(
	text: str,
	stop_words: set,
	lemmatizer: WordNetLemmatizer,
	punctuation: str,
	) -> List[str]:
	text = text.lower().translate(str.maketrans("", "", punctuation))
	tokens = word_tokenize(text)
	tokens = [token for token in tokens if len(token) >= 3 and token not in stop_words]
	return [lemmatizer.lemmatize(token) for token in tokens]


	def find_similar_posts(
	posts: List[frontmatter.Post], similarity_matrix: np.ndarray, limit: int = 3
	) -> dict:
	similar_posts = {}

	for i, post in enumerate(posts):
	similarities = similarity_matrix[i]
	sorted_indices = np.argsort(similarities)[::-1]

	top_indices = sorted_indices[: limit + 1]
	top_posts = [posts[idx] for idx in top_indices if idx != i]
	similar_posts[post] = top_posts

	return similar_posts


	def main(args):
	md_files = collect_md_files(args.dir)

	# load posts
	posts = []
	for file in md_files:
	with open(file) as ifile:
	post = frontmatter.load(ifile)

	if "permalink" not in post:
	logger.error(f"Post {file} does not have permalink!")

	post["file"] = file
	posts.append(post)

	# tokenise post contents
	stop_words = set(stopwords.words("english"))
	punctuation = string.punctuation + "’–‘“”（）"
	lemmatizer = WordNetLemmatizer()

	tokenized_sources = [
	" ".join(extract_tokens(post.content, stop_words, lemmatizer, punctuation))
	for post in posts
	]

	# build similarity matrix
	tfidf_vectorizer = TfidfVectorizer()
	tfidf_matrix = tfidf_vectorizer.fit_transform(tokenized_sources)
	similarity_matrix = cosine_similarity(tfidf_matrix)

	# process similar posts
	similar_posts = find_similar_posts(posts, similarity_matrix)
	for post, similar in similar_posts.items():
	update = []
	for i, sim_post in enumerate(similar):
	url = sim_post.get("permalink")
	update.append(
	{
	"url": url,
	"title": sim_post.get("title"),
	"description": sim_post.get("description"),
	"image": sim_post.get("image"),
	'date': sim_post.get('date'),
	},
	)
	post["similar"] = update

	# save posts
	for post in posts:
	file_path = post["file"]
	del post["file"]
	with open(file_path, "wb") as ofile:
	frontmatter.dump(post, ofile)


	if __name__ == "__main__":
	parser = argparse.ArgumentParser()
	parser.add_argument("dir", type=str)
	args = parser.parse_args()
	main(args)