Skip to content

Instantly share code, notes, and snippets.

@gsdefender
Forked from brianteachman/stop_words.php
Last active September 28, 2016 13:00
Show Gist options
  • Save gsdefender/26021499fbf56b4cc516efe142396058 to your computer and use it in GitHub Desktop.
Save gsdefender/26021499fbf56b4cc516efe142396058 to your computer and use it in GitHub Desktop.
A function that returns a PHP array of common English and Italian stop words.
<?php
//http://www.ranks.nl/stopwords/(language)
function stop_words($lang)
{
$stop_words = array("it_IT" => array("a",
"adesso",
"ai",
"al",
"alla",
"allo",
"allora",
"altre",
"altri",
"altro",
"anche",
"ancora",
"avere",
"aveva",
"avevano",
"ben",
"buono",
"che",
"chi",
"cinque",
"comprare",
"con",
"consecutivi",
"consecutivo",
"cosa",
"cui",
"da",
"del",
"della",
"dello",
"dentro",
"deve",
"devo",
"di",
"doppio",
"due",
"e",
"ecco",
"fare",
"fine",
"fino",
"fra",
"gente",
"giu",
"ha",
"hai",
"hanno",
"ho",
"il",
"indietro",
"invece",
"io",
"la",
"lavoro",
"le",
"lei",
"lo",
"loro",
"lui",
"lungo",
"ma",
"me",
"meglio",
"molta",
"molti",
"molto",
"nei",
"nella",
"no",
"noi",
"nome",
"nostro",
"nove",
"nuovi",
"nuovo",
"o",
"oltre",
"ora",
"otto",
"peggio",
"pero",
"persone",
"piu",
"poco",
"primo",
"promesso",
"qua",
"quarto",
"quasi",
"quattro",
"quello",
"questo",
"qui",
"quindi",
"quinto",
"rispetto",
"sara",
"secondo",
"sei",
"sembra",
"sembrava",
"senza",
"sette",
"sia",
"siamo",
"siete",
"solo",
"sono",
"sopra",
"soprattutto",
"sotto",
"stati",
"stato",
"stesso",
"su",
"subito",
"sul",
"sulla",
"tanto",
"te",
"tempo",
"terzo",
"tra",
"tre",
"triplo",
"ultimo",
"un",
"una",
"uno",
"va",
"vai",
"voi",
"volte",
"vostro"),
"en_US" => array(
'a',
'about',
'above',
'after',
'again',
'against',
'all',
'am',
'an',
'and',
'any',
'are',
"aren't",
'as',
'at',
'be',
'because',
'been',
'before',
'being',
'below',
'between',
'both',
'but',
'by',
"can't",
'cannot',
'could',
"couldn't",
'did',
"didn't",
'do',
'does',
"doesn't",
'doing',
"don't",
'down',
'during',
'each',
'few',
'for',
'from',
'further',
'had',
"hadn't",
'has',
"hasn't",
'have',
"haven't",
'having',
'he',
"he'd",
"he'll",
"he's",
'her',
'here',
"here's",
'hers',
'herself',
'him',
'himself',
'his',
'how',
"how's",
'i',
"i'd",
"i'll",
"i'm",
"i've",
'if',
'in',
'into',
'is',
"isn't",
'it',
"it's",
'its',
'itself',
"let's",
'me',
'more',
'most',
"mustn't",
'my',
'myself',
'no',
'nor',
'not',
'of',
'off',
'on',
'once',
'only',
'or',
'other',
'ought',
'our',
'ours',
'ourselves',
'out',
'over',
'own',
'same',
"shan't",
'she',
"she'd",
"she'll",
"she's",
'should',
"shouldn't",
'so',
'some',
'such',
'than',
'that',
"that's",
'the',
'their',
'theirs',
'them',
'themselves',
'then',
'there',
"there's",
'these',
'they',
"they'd",
"they'll",
"they're",
"they've",
'this',
'those',
'through',
'to',
'too',
'under',
'until',
'up',
'very',
'was',
"wasn't",
'we',
"we'd",
"we'll",
"we're",
"we've",
'were',
"weren't",
'what',
"what's",
'when',
"when's",
'where',
"where's",
'which',
'while',
'who',
"who's",
'whom',
'why',
"why's",
'with',
"won't",
'would',
"wouldn't",
'you',
"you'd",
"you'll",
"you're",
"you've",
'your',
'yours',
'yourself',
'yourselves',
'zero'
));
if(array_key_exists($lang,$stop_words))
return $stop_words[$lang];
return array();
}
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment