Skip to content

Instantly share code, notes, and snippets.

@hsawano
Last active February 19, 2018 11:50
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save hsawano/a7a5d02dba5fe474ef19c68904d35bb8 to your computer and use it in GitHub Desktop.
Save hsawano/a7a5d02dba5fe474ef19c68904d35bb8 to your computer and use it in GitHub Desktop.
SuggestExpressionValidator Input Error

Commands

$ bin/redpen -c redpen-config.xml -L ja -f plain sample-doc/ja/sampledoc-ja_paper.txt

Setting files

<redpen-conf lang="ja" variant="zenkaku2">
	<validators>
		<validator name="SectionLevel">
			<property name="max_num" value="6"/>
		</validator>
		<validator name="EmptySection"/>
		<validator name="KatakanaSpellCheck">
			<property name="min_ratio" value="0.3"/>
			<property name="disable-default" value="false"/>
			<property name="dict" value=""/>
			<property name="max_ignore_len" value="3"/>
			<property name="min_freq" value="5"/>
			<property name="list" value=""/>
		</validator>
		<validator name="ParagraphNumber">
			<property name="max_num" value="5"/>
		</validator>
		<validator name="ParagraphStartWith">
			<property name="start_from" value=""/>
		</validator>
		<validator name="SentenceLength">
			<property name="max_len" value="100"/>
		</validator>
		<validator name="WordNumber">
			<property name="max_num" value="30"/>
		</validator>
		<validator name="Okurigana"/>
		<validator name="WordFrequency">
			<property name="deviation_factor" value="3.0"/>
			<property name="min_word_count" value="200"/>
		</validator>
		<validator name="DoubledWord">
			<property name="min_len" value="3"/>
			<property name="dict" value=""/>
			<property name="list" value=""/>
		</validator>
		<validator name="HankakuKana"/>
		<validator name="ListLevel">
			<property name="max_level" value="5"/>
		</validator>
		<validator name="ParenthesizedSentence">
			<property name="max_count" value="1"/>
			<property name="max_nesting_level" value="1"/>
			<property name="max_length" value="10"/>
		</validator>
		<validator name="JapaneseBrokenExpression"/>
		<validator name="WeakExpression"/>
		<validator name="JapaneseAmbiguousNounConjunction">
			<property name="dict" value=""/>
			<property name="list" value=""/>
		</validator>
		<validator name="SectionLength">
			<property name="max_num" value="1000"/>
		</validator>
		<validator name="JavaScript">
			<property name="script-path" value="js"/>
		</validator>
		<validator name="InvalidSymbol"/>
		<validator name="DuplicatedSection">
			<property name="threshold" value="0.9"/>
		</validator>
		<validator name="JapaneseJoyoKanji"/>
		<validator name="SymbolWithSpace"/>
		<validator name="InvalidExpression">
			<property name="dict" value=""/>
			<property name="list" value=""/>
		</validator>
		<validator name="JapaneseAnchorExpression">
			<property name="mode" value="numeric"/>
		</validator>
		<validator name="DoubledJoshi">
			<property name="min_interval" value="1"/>
			<property name="dict" value=""/>
			<property name="list" value=""/>
		</validator>
		<validator name="JapaneseNumberExpression">
			<property name="mode" value="kansuji"/>
		</validator>
		<validator name="HeaderLength">
			<property name="min_level" value="3"/>
			<property name="max_len" value="70"/>
		</validator>
		<validator name="JapaneseExpressionVariation">
			<property name="dict" value=""/>
			<property name="map" value="{}"/>
		</validator>
		<validator name="Spelling">
			<property name="dict" value=""/>
			<property name="list" value=""/>
		</validator>
		<validator name="DoubledConjunctiveParticleGa"/>
		<validator name="KatakanaEndHyphen">
			<property name="dict" value=""/>
			<property name="list" value=""/>
		</validator>
		<validator name="Hyphenation">
			<property name="dict" value=""/>
			<property name="list" value=""/>
		</validator>
		<validator name="CommaNumber">
			<property name="max_num" value="3"/>
		</validator>
		<validator name="LongKanjiChain">
			<property name="dict" value=""/>
			<property name="list" value=""/>
			<property name="max_len" value="5"/>
		</validator>
		<validator name="SuccessiveWord"/>
		<validator name="FrequentSentenceStart">
			<property name="leading_word_limit" value="3"/>
			<property name="min_sentence_count" value="5"/>
			<property name="percentage_threshold" value="25"/>
		</validator>
		<validator name="SpaceBetweenAlphabeticalWord">
			<property name="skip_before" value=""/>
			<property name="forbidden" value="false"/>
			<property name="skip_after" value=""/>
		</validator>
		<validator name="SuggestExpression">
			<property name="dict" value="../redpen_contribution/suggestExpressionDictionary/SuggestExpressionDictionary.txt"/>
		</validator>
		<validator name="KeyValueDictionary">
			<property name="dict" value=""/>
			<property name="map" value="{}"/>
		</validator>
		<validator name="DoubleNegative"/>
		<validator name="SuccessiveSentence">
			<property name="min_len" value="5"/>
			<property name="dist" value="3"/>
		</validator>
		<validator name="JapaneseStyle"/>
		<validator name="GappedSection"/>
		<validator name="NumberFormat">
			<property name="ignore_years" value="true"/>
			<property name="decimal_delimiter_is_comma" value="false"/>
		</validator>
	</validators>
</redpen-conf>

log file

[2018-02-19 11:43:00.724][INFO ] cc.redpen.Main - Configuration file: /Applications/MAMP/htdocs/research/redpen/conf/redpen-conf_sawanolab.xml
[2018-02-19 11:43:00.731][INFO ] cc.redpen.config.ConfigurationLoader - Loading config from specified config file: "/Applications/MAMP/htdocs/research/redpen/conf/redpen-conf_sawanolab.xml"
[2018-02-19 11:43:00.748][INFO ] cc.redpen.config.ConfigurationLoader - Succeeded to load configuration file
[2018-02-19 11:43:00.748][INFO ] cc.redpen.config.ConfigurationLoader - Language is set to "ja"
[2018-02-19 11:43:00.748][INFO ] cc.redpen.config.ConfigurationLoader - Variant is set to "zenkaku2"
[2018-02-19 11:43:00.801][INFO ] cc.redpen.config.ConfigurationLoader - No "symbols" block found in the configuration
[2018-02-19 11:43:00.804][INFO ] cc.redpen.config.SymbolTable - "ja" is specified.
[2018-02-19 11:43:00.804][INFO ] cc.redpen.config.SymbolTable - "zenkaku2" variant is specified
[2018-02-19 11:43:01.282][INFO ] cc.redpen.parser.SentenceExtractor - "[., ?, !]" are added as a end of sentence characters
[2018-02-19 11:43:01.283][INFO ] cc.redpen.parser.SentenceExtractor - "[’, ”]" are added as a right quotation characters
[2018-02-19 11:43:01.539][INFO ] org.reflections.Reflections - Reflections took 62 ms to scan 1 urls, producing 6 keys and 58 values
[2018-02-19 11:43:01.598][WARN ] cc.redpen.validator.ValidatorFactory - cc.redpen.validator.sentence.SpaceBeginningOfSentenceValidator is deprecated
[2018-02-19 11:43:01.603][WARN ] cc.redpen.validator.ValidatorFactory - cc.redpen.validator.section.VoidSectionValidator is deprecated
[2018-02-19 11:43:01.608][INFO ] org.reflections.Reflections - Reflections took 2 ms to scan 1 urls, producing 175 keys and 180 values
[2018-02-19 11:43:01.627][INFO ] cc.redpen.util.DictionaryLoader - Succeeded to load katakana word dictionary.
[2018-02-19 11:43:01.629][ERROR] cc.redpen.util.DictionaryLoader - Failed to load WordFrequencyValidator default dictionary:default-resources/spellchecker/spellchecker-ja.dat: Failed to load input default-resources/spellchecker/spellchecker-ja.dat
[2018-02-19 11:43:01.631][ERROR] cc.redpen.util.DictionaryLoader - Failed to load word frequencies:default-resources/word-frequency/word-frequency-ja.dat: Failed to load input default-resources/word-frequency/word-frequency-ja.dat
[2018-02-19 11:43:01.631][INFO ] cc.redpen.util.DictionaryLoader - Succeeded to load DoubledWordValidator default dictionary.
[2018-02-19 11:43:01.633][ERROR] cc.redpen.util.DictionaryLoader - Failed to load weak expressions:default-resources/weak-expressions/weak-expressions-ja.dat: Failed to load input default-resources/weak-expressions/weak-expressions-ja.dat
[2018-02-19 11:43:01.633][INFO ] cc.redpen.validator.JavaScriptValidator - JavaScript validators directory: js
[2018-02-19 11:43:01.634][INFO ] cc.redpen.util.DictionaryLoader - Succeeded to load InvalidExpressionValidator default dictionary.
[2018-02-19 11:43:01.635][INFO ] cc.redpen.util.DictionaryLoader - Succeeded to load JapaneseExpressionVariationValidator default dictionary.
[2018-02-19 11:43:01.639][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: イメージ図  図
[2018-02-19 11:43:01.639][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 私は    筆者は
[2018-02-19 11:43:01.639][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: とても  極めて
[2018-02-19 11:43:01.639][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 同じ    同一
[2018-02-19 11:43:01.639][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: がわかった  が明らかになった
[2018-02-19 11:43:01.639][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: Journal J.
[2018-02-19 11:43:01.640][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: Transactions    Trans.
[2018-02-19 11:43:01.640][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: Proceedings Proc.
[2018-02-19 11:43:01.640][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: Annals  Ann.
[2018-02-19 11:43:01.640][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: Annual  Annu.
[2018-02-19 11:43:01.640][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: Conference  Conf.
[2018-02-19 11:43:01.640][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: Congress    Cong.
[2018-02-19 11:43:01.640][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: International   Int'l
[2018-02-19 11:43:01.640][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 電子情報通信学会論文誌  信学論
[2018-02-19 11:43:01.640][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 情報処理学会論文誌 情処論
[2018-02-19 11:43:01.640][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 画像電子学会誌 画電学誌
[2018-02-19 11:43:01.641][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 電子情報通信学会技術報告  信学技報
[2018-02-19 11:43:01.641][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 信学技法  信学技報
[2018-02-19 11:43:01.641][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 情報処理学会研究報告  情処研報
[2018-02-19 11:43:01.641][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 情処憲法  情処研報
[2018-02-19 11:43:01.641][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 情処研法  情処研報
[2018-02-19 11:43:01.641][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 電子情報通信学会全国大会講演論文集 信学全大
[2018-02-19 11:43:01.641][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 情報処理学会全国大会講演論文集 情処全大
[2018-02-19 11:43:01.641][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 内臓する 内蔵する
[2018-02-19 11:43:01.642][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 内臓した 内蔵した
[2018-02-19 11:43:01.642][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 誤差逆伝搬 誤差逆伝播
[2018-02-19 11:43:01.642][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: 電波伝搬  電波伝播
[2018-02-19 11:43:01.642][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: シュミレーション シミュレーション
[2018-02-19 11:43:01.642][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: と言う という
[2018-02-19 11:43:01.642][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: so  Therefore
[2018-02-19 11:43:01.642][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: can't cannot
[2018-02-19 11:43:01.642][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: isn't is not
[2018-02-19 11:43:01.643][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: don't do not
[2018-02-19 11:43:01.643][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: some  several
[2018-02-19 11:43:01.643][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: give  provide
[2018-02-19 11:43:01.643][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: so much too much
[2018-02-19 11:43:01.643][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: huge  significant
[2018-02-19 11:43:01.643][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: tell  inform
[2018-02-19 11:43:01.643][ERROR] cc.redpen.validator.Validator - Skip to load line... Invalid line: やった 実施した
[2018-02-19 11:43:01.644][INFO ] cc.redpen.util.DictionaryLoader - Succeeded to load SuggestExpressionValidator user dictionary.
[2018-02-19 11:43:01.649][INFO ] cc.redpen.util.DictionaryLoader - Succeeded to load double negative expression rules.
[2018-02-19 11:43:01.649][INFO ] cc.redpen.util.DictionaryLoader - Succeeded to load double negative words.
sampledoc-ja_paper.txt:2: ValidationError[JapaneseExpressionVariation], 単語 ”Cluster” の揺らぎと考えられる表現 ”クラスター(名詞)” が (L4,8) で見つかりました。 at line: 本稿では,複数の計算機(Cluster)でで動作する各サーバーを「インスタンス」と呼びます.
sampledoc-ja_paper.txt:3: ValidationError[JapaneseExpressionVariation], 単語 ”インデックス” の揺らぎと考えられる表現 ”インデクス(名詞)” が (L4,15) で見つかりました。 at line: たとえば検索エンジンやデータベースではインデックスを複数のインスタンスで分割して保持します.
sampledoc-ja_paper.txt:1: ValidationError[SentenceLength], 文長("125")が最大値 "100" を超えています。 at line: 最近利用されているソフトウェアの中には複数の計算機上で動作(分散)するものが多く存在し,このような分散ソフトウェアは複数の計算機で動作することで一台では処理が追いつかない大量のデータを扱えたり,高負荷な状況に対処できたり,可用性を向上できたりします.
sampledoc-ja_paper.txt:1: ValidationError[WordNumber], 一文に存在する単語数 (73) が最大値 "30" を超えています.。 at line: 最近利用されているソフトウェアの中には複数の計算機上で動作(分散)するものが多く存在し,このような分散ソフトウェアは複数の計算機で動作することで一台では処理が追いつかない大量のデータを扱えたり,高負荷な状況に対処できたり,可用性を向上できたりします.
sampledoc-ja_paper.txt:1: ValidationError[DoubledWord], 一文に二回以上利用されている単語 "ソフトウェア" がみつかりました。 at line: 最近利用されているソフトウェアの中には複数の計算機上で動作(分散)するものが多く存在し,このような分散ソフトウェアは複数の計算機で動作することで一台では処理が追いつかない大量のデータを扱えたり,高負荷な状況に対処できたり,可用性を向上できたりします.
sampledoc-ja_paper.txt:1: ValidationError[DoubledWord], 一文に二回以上利用されている単語 "計算機" がみつかりました。 at line: 最近利用されているソフトウェアの中には複数の計算機上で動作(分散)するものが多く存在し,このような分散ソフトウェアは複数の計算機で動作することで一台では処理が追いつかない大量のデータを扱えたり,高負荷な状況に対処できたり,可用性を向上できたりします.
sampledoc-ja_paper.txt:2: ValidationError[InvalidSymbol], 不正なシンボル ")" がみつかりました。 at line: 本稿では,複数の計算機(Cluster)でで動作する各サーバーを「インスタンス」と呼びます.
sampledoc-ja_paper.txt:2: ValidationError[InvalidSymbol], 不正なシンボル "," がみつかりました。 at line: 本稿では,複数の計算機(Cluster)でで動作する各サーバーを「インスタンス」と呼びます.
sampledoc-ja_paper.txt:1: ValidationError[DoubledJoshi], 一文に二回以上利用されている助詞 "で" がみつかりました。 at line: 最近利用されているソフトウェアの中には複数の計算機上で動作(分散)するものが多く存在し,このような分散ソフトウェアは複数の計算機で動作することで一台では処理が追いつかない大量のデータを扱えたり,高負荷な状況に対処できたり,可用性を向上できたりします.
sampledoc-ja_paper.txt:2: ValidationError[DoubledJoshi], 一文に二回以上利用されている助詞 "で" がみつかりました。 at line: 本稿では,複数の計算機(Cluster)でで動作する各サーバーを「インスタンス」と呼びます.
sampledoc-ja_paper.txt:5: ValidationError[DoubledJoshi], 一文に二回以上利用されている助詞 "は" がみつかりました。 at line: 本研究では私は論文を執筆する.
sampledoc-ja_paper.txt:2: ValidationError[KatakanaEndHyphen], カタカナ単語 "サーバー" に不正なハイフンが見つかりました。 at line: 本稿では,複数の計算機(Cluster)でで動作する各サーバーを「インスタンス」と呼びます.
sampledoc-ja_paper.txt:4: ValidationError[KatakanaEndHyphen], カタカナ単語 "クラスター" に不正なハイフンが見つかりました。 at line: このような場合,クラスターの各インデクスが返す結果をマージしてクライアントにわたす機構が必要です.
sampledoc-ja_paper.txt:2: ValidationError[SuccessiveWord], 単語 "で" は連続して使用されています。 at line: 本稿では,複数の計算機(Cluster)でで動作する各サーバーを「インスタンス」と呼びます.
sampledoc-ja_paper.txt:5: ValidationError[JapaneseStyle], 不正な日本語のスタイルを発見しました "である" at line: 投稿学会は信学技報である.

[2018-02-19 11:43:01.706][ERROR] cc.redpen.Main - The number of errors "15" is larger than specified (limit is "1").

外部ファイル

SuggestExpressionDictionary.txt

@takahi-i
Copy link

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment