Skip to content

Instantly share code, notes, and snippets.

@alix-tz
Last active November 21, 2022 16:21
Show Gist options
  • Save alix-tz/6f89444521bf1cab0522da520f7e4ff4 to your computer and use it in GitHub Desktop.
Save alix-tz/6f89444521bf1cab0522da520f7e4ff4 to your computer and use it in GitHub Desktop.

Règles générales de transcription pour les corpus CREMMA

Les corpus CREMMA désignent un ensemble de corpus de vérité de terrain produit dans le cadre du projet CREMMA (Consortium pour la Reconnaissance des Écritures Manuscrites des Matériaux Anciens).

Abréviations

Les abréviations ne sont pas développées. Pour les textes médiévaux, on suit les recommandations du projet CREMMA-MEDIEVAL et l'emploi de la MUFI.

Ratures et difficultés de lecture

Les fautes d'orthoraphe du fait de l'auteur-rice du document sont respectées.

Exemple Transcription recommandée Transcription rejetée
image Je soussignie Je soussigné

Les mots raturés sont signalés par >< ou <>. Lorsque le mot barré peut être lu, on l'insert entre les deux chevrons : >mot< ou <mot>.

Exemple Transcription recommandée Transcription rejetée
image dont 76 >< sont

Les mots qui posent une difficultés de lecture durant la transcription sont signalés par [?] ou [??], voire [[??]]. En théorie, ils n'en reste pas dans les documents publiés dans les répertoires, mais dans le cas où ils auraient échapé à notre attention, les lignes les contenant peuvent normalement être ignorées.

Ponctuation et accentuation

Lorsqu'un accent n'est pas tracé par l'auteur-rice d'un document, il n'est pas rétabli lors de la transcription. Dans le cas d'une accentuation ambiguë (notamment entre accent graves et accent aigu), les choix sont opérés au cas par cas (voir les issues dans les corpus correspondants).

Les signes de ponctuation employés sont respectés. Ils ne sont pas rétablis quand ils sont absents.

Pour les signes employés pour tracé une ligne entre un item et un autre (----- ou ....), on n'essaiera pas nécessairement d'avoir exactement le même nombre de points. Dans pareil cas, les tirets sont toujours transcrits par des - et jamais par des _.

Les guillemets français sont transcrits comme tels : « ou ».

Exemple Transcription recommandée Transcription rejetée
image « né tardivement » "né tardivement"

Traitement de certains caractères

Les portions de texte écrites en position "suscrites" sont précédées du symbole ^. La seule exception possible concerne le caractère ° (comme dans ou encore °C).

Exemple Transcription recommandée Transcription rejetée
image S^r Marie Sr Marie, S.r Marie
image 42°15'

Afin de maintenir une simplicité dans la transcription des documents les plus récents, on ne distinguera que les s cours (s) des s long (ſ).

Exemple Transcription recommandée Transcription rejetée
image eſt paſſe ung est passe vng
image depuis des siècles

L'emploi des majuscules est respécté : une majuscule est transcrit comme une majuscule, même lorsque son tracé est similaire à celle d'une minuscule.

Exemple Transcription recommandée Transcription rejetée
image Le caractère le caractère
image le 31 Août 1915 le 31 août 1915

Citer ce document

Chagué, A., Clérice, T., & CREMMA. (2022, septembre 23). Règles générales de transcription pour les corpus CREMMA. https://gist.github.com/alix-tz/6f89444521bf1cab0522da520f7e4ff4

@misc{chague_regles_2022,
	title = {Règles générales de transcription pour les corpus {CREMMA}},
	url = {https://gist.github.com/alix-tz/6f89444521bf1cab0522da520f7e4ff4},
	language = {fr},
	urldate = {2022-11-21},
	author = {Chagué, Alix and Clérice, Thibault and {CREMMA}},
	month = sep,
	year = {2022},
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment