-
с помоща на tf-idf се определят важните думи, така че ако се научат да може поне 80% от текста да бъде разбран
-
да се използва API-то на Google Translate да се преведат тези думи и да се запазват в текстов файл
-
да може да се прави quizz с тези думи, като може да се използва levenshtein distance за оценяване на това колко близо си до превода (0-100%)
-
quizz-а да може да работи и в двете посоки на превод. Например:
- да имаме quizz за EN -> BG
- да имеме quizz за BG -> EN
-
да се осигури начин за настройване на параметрите - например чрез settings файл и/или CLI аргументи
-
да може да се чете текста от mobi и epub файлове.
- https://pypi.org/project/EbookLib/
- https://stackoverflow.com/questions/50965671/extract-text-from-epub-in-python
- https://pypi.org/project/pyandoc/
- https://pypi.org/project/pypolyglot/
- https://www.reddit.com/r/Python/comments/5hw28y/library_to_extract_content_of_an_epub_possibly/
- https://www.quora.com/How-can-I-extract-text-from-an-epub-mobi-file-from-the-terminal
Created
July 10, 2019 15:49
-
-
Save dim4o/c815b7d1b5f7359675283304602ff6ac to your computer and use it in GitHub Desktop.
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment