Les corpus CREMMA désignent un ensemble de corpus de vérité de terrain produit dans le cadre du projet CREMMA (Consortium pour la Reconnaissance des Écritures Manuscrites des Matériaux Anciens).
- CREMMA-Medieval-LAT
- CREMMA-MSS-15 (manuscrits du XVe siècle)
- CREMMA-MSS-16 (manuscrits du XVIe siècle)
- CREMMA-MSS-17 (manuscrits du XVIIe siècle)
- CREMMA-MSS-18 (manuscrits du XVIIIe siècle)
- CREMMA-MSS-19 (manuscrits du XIXe siècle)
- CREMMA-MSS-20 (manuscrits du XXe siècle)
- CREMMA-WIKIPEDIA
Les abréviations ne sont pas développées. Pour les textes médiévaux, on suit les recommandations du projet CREMMA-MEDIEVAL et l'emploi de la MUFI.
Les fautes d'orthoraphe du fait de l'auteur-rice du document sont respectées.
Exemple | Transcription recommandée | Transcription rejetée |
---|---|---|
Je soussignie |
Les mots raturés sont signalés par ><
ou <>
. Lorsque le mot barré peut être lu, on l'insert entre les deux chevrons : >mot<
ou <mot>
.
Exemple | Transcription recommandée | Transcription rejetée |
---|---|---|
dont 76 >< sont |
Les mots qui posent une difficultés de lecture durant la transcription sont signalés par [?]
ou [??]
, voire [[??]]
. En théorie, ils n'en reste pas dans les documents publiés dans les répertoires, mais dans le cas où ils auraient échapé à notre attention, les lignes les contenant peuvent normalement être ignorées.
Lorsqu'un accent n'est pas tracé par l'auteur-rice d'un document, il n'est pas rétabli lors de la transcription. Dans le cas d'une accentuation ambiguë (notamment entre accent graves et accent aigu), les choix sont opérés au cas par cas (voir les issues dans les corpus correspondants).
Les signes de ponctuation employés sont respectés. Ils ne sont pas rétablis quand ils sont absents.
Pour les signes employés pour tracé une ligne entre un item et un autre (-----
ou ....
), on n'essaiera pas nécessairement d'avoir exactement le même nombre de points. Dans pareil cas, les tirets sont toujours transcrits par des -
et jamais par des _
.
Les guillemets français sont transcrits comme tels : «
ou »
.
Exemple | Transcription recommandée | Transcription rejetée |
---|---|---|
« né tardivement » |
Les portions de texte écrites en position "suscrites" sont précédées du symbole ^
. La seule exception possible concerne le caractère °
(comme dans N°
ou encore °C
).
Exemple | Transcription recommandée | Transcription rejetée |
---|---|---|
S^r Marie | ||
42°15' |
Afin de maintenir une simplicité dans la transcription des documents les plus récents, on ne distinguera que les s cours (s
) des s long (ſ
).
Exemple | Transcription recommandée | Transcription rejetée |
---|---|---|
eſt paſſe ung | ||
depuis des siècles |
L'emploi des majuscules est respécté : une majuscule est transcrit comme une majuscule, même lorsque son tracé est similaire à celle d'une minuscule.
Exemple | Transcription recommandée | Transcription rejetée |
---|---|---|
Le caractère | ||
le 31 Août 1915 |
Chagué, A., Clérice, T., & CREMMA. (2022, septembre 23). Règles générales de transcription pour les corpus CREMMA. https://gist.github.com/alix-tz/6f89444521bf1cab0522da520f7e4ff4
@misc{chague_regles_2022,
title = {Règles générales de transcription pour les corpus {CREMMA}},
url = {https://gist.github.com/alix-tz/6f89444521bf1cab0522da520f7e4ff4},
language = {fr},
urldate = {2022-11-21},
author = {Chagué, Alix and Clérice, Thibault and {CREMMA}},
month = sep,
year = {2022},
}