Skip to content

Instantly share code, notes, and snippets.

@layik
Created October 3, 2022 10:34
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save layik/3b04d249c4306568f5229ca332a6eeae to your computer and use it in GitHub Desktop.
Save layik/3b04d249c4306568f5229ca332a6eeae to your computer and use it in GitHub Desktop.
CLDR Kurdish word lists
w = readLines("https://raw.githubusercontent.com/layik/kurdi/master/corpus/kurdi_words.txt")
length(unique(w)) == length(w)
c = length(w)
c == 1668692
ku_v = readLines("https://raw.githubusercontent.com/layik/kurdi/master/corpus/letters_lines.txt")
message("Kurdish alphabet: ", length(ku_v), " letters.")
letters_used = sapply(ku_v, function(x){
length(grep(x, w))
})
head(letters_used)
set.seed(123)
samples_list = lapply(1:5, function(x){
paste(sample(w, 10), collapse="،")
})
str(samples_list)
@layik
Copy link
Author

layik commented Oct 3, 2022

List of 5
$ : chr "سەرسورمانێ،شەوەزەنگت،هەڵبڕێژین،عەلەویەکانن،ڕفرێنسێکی،زۆرخۆری،بەرەوپێشتربچێت،هاوڕێکی،مەساحێکی،ناجائیزانەی"
$ : chr "پێکراوین،باقیان،سەقامگیرم،وانەکانیان،توخمانەشەوە،لەموتارەکە،لێقبوڵناکات،کردارانەدایە،موڕیم،بیشیکڕن"
$ : chr "شەڕنامەکەی،زەبییەو،کومەک،تەنیاییەکانیم،نووسراێکیان،پیاهەڵگوتنەدا،شەرەفمەندانەم،هۆرسەنگنایش،تەجروبەکرد،یشرون"
$ : chr "سترایکرزی،ترناگرێ،عەسکەرەکانی،بەرخۆدانیدان،لەبازارە،تاتووە،کازیووە،مناڵەکەیە،کۆنترۆڵدایە،مەزارگەییە"
$ : chr "زەوینەی،تەعبیئەیەکی،بەئالیەتێکی،گوونمەوە،لەسەرەوەو،ڕاجیمەکەی،نیشانکردین،جیانەبووەن،بەپشتێنێکی،ڕامابوون"

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment