Skip to content

Instantly share code, notes, and snippets.

@freaz
Last active May 14, 2016 07:42
Show Gist options
  • Star 1 You must be signed in to star a gist
  • Fork 1 You must be signed in to fork a gist
  • Save freaz/37105dbf6bbfc8e088d7 to your computer and use it in GitHub Desktop.
Save freaz/37105dbf6bbfc8e088d7 to your computer and use it in GitHub Desktop.
FI-ULI

ULI výpisky

Přednáška 1 - Jazyk, komunikace a lingvistika

Jazyk je:

  • znakový systém
  • sloužící k dorozuívání mezi lidmi
  • k vyjádření libovolného obsahu vědomí
  • s bohatou vnitřní strukturou
  • užívaný a přijímaný v určitém společenství
  • objektový jazyk x metajazyk

Komunikativní funkce

  • Referenční - vztah k obsahu promlovy [Kontext]
  • Emotivní/expresivní - sebyvyjádření postojů, emocí [Mluvčí]
  • Direktivní - záměr ovlivnit posluchače [Posluchač]
  • Poetická - důraz na podobu sdělení [Sdělení]
  • Kontaktová - navázání kontaktu [Kontakt]
  • Metajyzyková - o jazyce [Kód]

Sapir-Whorfova hypotéza

  • Jazykový determinismus: jazyk podmiňuje způsob, jakým přemýšlíme
  • Jazyková relativita: rozdíly vyjádřitelné (zakódované) v jednom jazyce nemusí být vyjádřitelné v jazyce druhém

Langue x parole

  • langage (řeč) - schopnost řeči (fyziologická i psychpologiká, dědičná)
    • Langue (jazyk) - abstraktní jazyková systém jednotek znakové povahy a pravidel jejich užíváním (norem a modeů) uložených v mysli mluvčích (intersubjektivní); přímo nepozorovatelný
    • parole (mluva) - realizace jazyka, text (psaný i mluvený); přístuoný zkoumání

Syntagmatika x paradigmatika

  • jaykový systém (langue) je uspořádán paradigmaticky
  • text (parole) je sekvencí syntagmat

Paradigmatika - skupiny jdnotek in absetntia (buď - nebo)
syntagmatika - jednotky in praesentia (i - a zároveň i)

Diachronie x synchronie

  • pohled na kontinuálně se měnící médium (diachronie) x stav v určité době (synchronie)
  • oddělování obou pohledů (ačkoli diachronní zkoumání předpokládá synchronní výzkum a synchronní pozorování vyplývá z předchozích stavů)

Signifiant x signifié

  • signifiant = označující, zvukový obraz, forma
  • signifié = označované, koncept/pojem

vztah mezi oběma složkami je arbitrární

Strukturalismus

  • jazyk jako struktura - celostní, hierarchizovaná organizace stejnorodých jednotek, které lze vymezit pouze na základě vzájemných vztahů
  • v některých pojetích struktura = systém
  • literární věda, antropologie, estetika, sociologie

Přednáška 2 - Jazykové korpusy a jejich výstavba

Korpus

  • databáze autentických textů/promluv
  • uložená elektronicky v jdnotném formátu
  • prohledávatelná
  • reprezentativní vzhledem ke svému účelu
  • zobrazující jevy v jeich přirozeném a typickém kontextu
  • spolu s informací o frekvenci
  • původně pro lexikografické účely

Typy korpusů

  • reprezentativní (vyvážené) x oportunistické
  • referenční x otevřené
  • mluvený jazyk x psaný jazyk x obojí
  • synchronní x diachronní
  • jednojazyčné x vícejazyčné (paralelní)
  • obecné x specializované

ČNK - Český národní korpus

struktura:

  • SYN
    • lemmatizace - přidělení základního slovníkového tvaru každému rokenu
    • tagování - přidělení morfologické značky (tagu) každému tokenu
    • co má/může korpus reprezentovat?
      • produkci textů
      • recepci textů
      • texty/styly jako entity
  • Oral
    • nakrávka -> přepis -> kontrola
    • dialogický neformální, nepřipravený jazyk
    • anonymizace - v přepis i na nahrávce
    • demografické vyvažování - věk, pohlaví, vzdělání, oblast
  • Diakorp
    • Korpus starší psané češtiny
  • InterCorp
    • paralelní multijazyčný korpus
      • čeština (pivot) ve srovnání s 27 jazyky
      • kontrastní jazykový výzkum
      • specifické způsoby vyhledávání
      • zarovnání

Morfologické značkování korpusů a lemmatizace

Fáze připravy textu

  • konverze a čištění
  • přidělení lingvistické (strukturní) anotace
  • morfologie - dodání všech možných lemmat a tagů
  • desambiguace (zjednoznačnění) - stochastická, pravidlová

Morfologická značka - tag

  1. POS
  2. SUBPOS
  3. GENDER
  4. NUMBER
  5. CASE
  6. POSSG
  7. POSSN
  8. PERSON
  9. TENSE
  10. GRADE
  11. NEG
  12. VOICE
  13. VAR
  14. ASPECT

Korpusová lingvistika

  • vnímá jazyk jako společenský (níikoli mentální) fenomén
  • důraz je kladen na perfomanci nokoli na kompetenci (x Chomsky)
  • syntagmatický přístup (studium typických kontextů)
  • reálný jazyk - neexistují špatné nebo dobré prostředky
  • popis je založen na rozsáhlých datech, nikoliv na introspekci
  • studuje význam (zájem o lexikon)
  • opakovatelnost experimetů (verifikace)

Corpus-based x Corpus-driven přístupy

Corpus-based

výzkum, který ověřuje introspekci získané hypotézy na materiálu korpusu
hypotéza -> verifikace/falzifikace(korpus) -> teorie

Corpus-driven

výzkum, který přeformulovává introspekcí získané hypotézy tak, aby byly v souladu s korpusovou evidencí
hypotéza A -> verifikace/falzifikace(korpus) -> hypotéza A' -> verifkace/falzifikace(korpus) -> ... -> teorie

Přednáška 3 - Jazykový systém, jazykovědné disciplíny; znaková povaha jazyka

Jazyk jako systém

  • uspořádaná soustava jazykových jednotek (znaků)
  • F. de Saussure: langue x parole
  • hierarchie jednotek a jejich vzájemné vztahy (kombinatorika, podobnost)
  • celek je víc než suma částí
  • proměnlivost realizací -> systém je výrazem hledání invariantu

Vnitřní propojenost složek systému

historický příklad:

  • před koncem 10. století probějlo tzv. stahování A + j + A > Á
  • např. dobroje > dobré, moja > má

Redukce výslovnosti:

Jazykové roviny

  • hlásky, písmena (desítky)
  • morfémy (stovky, desetitisíce)
  • slova (statisíce)
  • kolokace (miliony)
  • věty (inf?)

Všechny jdnotky jsou vymezeny na základě opozic.

Zipfovy zákony

  • statistické vlastnosti jazyka jako struktury
  • rovnováha mezi jazykovou aekonomií a snahou po distinktivnosti (unifikující a diversifikující síly)
  • tři typy vztahů (zákonů):
    1. f x r = k, kde r je rank slova s frekvencí f
    2. a_f x^2 = k, kde a je počet slov s frekvencí f
    3. m/sqrt(f) = k, kde m je počet významů slova a f jeho frekvence

Fonetika a fonologie

Jednotky mluvené řeči, neznakové povahy z pohledu artikulačního, percepčního i akustického.

  • fon - konkrétní realizace zvuku v konkrétní promluvě (token)
  • hláska abstrakce, invariant, typ - vymezená artikulačními, akustickými a percepčnímu vlastnosti - [p]
  • foném - abstrakcem invariant, typ - systémová jednotka (langue); je schopen odlišovat význam - /p/
  • slabika není systémovou jednotkou (nemá vztah k ostatním částem/rovinám systému), je základní skladební jednotkou produkce a percepce řeči

Distinktivní rysy - např. místo tvoření, způsob, akustické vlastnosti apod.

Hláska versus foném

Hledání minimálního páru

  • Minimální pár = dvojice slov s rozdílným významem, která se odlišuje právě jedním segmentem
    [a] a [e]: pes - pas => /a/ a /e/ jsou fonémy
    [n] a [ŋ]: minimální pár neexistuje
    • hlásky [n] a [ŋ] jsou v komplementární distribuci [ŋ] se vyskytuje poze před [k] a [g], zatímco [n] se vyskytuje ve všech ostatních kontextech
    • takovéto dvojce jsou pak považovány za alofony, tj. varianty fonému

Morfologie

Morfologie (tvarosloví) + Syntax (skladba) = Gramatika (mluvnice)

  • v centru pozornosti je vždy morfém = nejmenší jednotka jazyka nesoucí význam, elementární jazykový znak
  • konkrétní realizace morfému je morf: moc-t, můž-u, moh-l...
  • morfematika – stavba slova, segmentace na morfémy – kořen, předpony, přípony, koncovky
  • morfémy lexikální × gramatické: uč-i-tel-k-a

Vymezení morfologie

  • morflogie v užším smyslu
    • flexe (ohýbání): deklinace (skloňování) a konjugace (časování)
    • tvary slov a jejich významy
    • forma a funkce jednotlivých slovních tvarů, gramatické kategorie
  • morfologie v širším smyslu
    • včetně slovotvorny, tvoření pojmenování
    • formát = morfém se slovotvarným významem (např. -tel)
    • způsob odvozování, skládání slov

Syntax

Je oblat pravidel, způsobů a modelů kombinace slov, která slouží k tvorbě vět.

  • abstraktní jednotka jazykového systému × realizací věty v textu je promluva
  • J. Ries: 140 definic věty (ještě Saussure ji nepovažoval za systémovou jednotku)
  • elementární komunikativní jednotka textu znakové povahy, intonačně uzavřená, s obvyklou strukturou
  • větný vzorec = abstraktní model pro realizaci určitého typu vět
  • lineární sled prvků propojený vzájemnými vztahy

Lexikologie

Je nauka o slovní zásobě (lexikografie = tvorba slovníků)

Slovo, lexém, lex

  • systémová jednotka – lexém, realizace (token) – lex
  • lexém zahrnuje celé paradigma: les, lesa, lesu...
  • jednoslovné – stůl, když, přišel jsem
  • víceslovné – kolokace, víceslovné termíny, frazémy
  • různá vymezení slova – fonetické, grafické, významové
  • přemístitelnost, substituovatelnost, ustálenost
  • typy slov: slovní druhy

Sémantika

Nauka o významu (obecně, tj. na všech rovinách jazyka)

Význam

  • signifié (označované) v opozici k formě (signifiant)
  • sémantika lexikální, propozice, text (diskurzu)

Sém

  • minimální významový distinktivní rys, prvek schopný odlišit jeden lexém od druhého
  • generický sém (jídlo) x specifikační sém (_ovoce, masi, těstovina, pečivo)

Jazykový znak

Ogden-Richardsův trojuhelník

	                 Význam/myšlenka
	                     /\
	                    /  \
	                   /    \
	           označuje      poukazuhe
	                 /        \
	                /          \
	               /--zastupuje-\
forma (psaná, mluvená)           objekt/denotát(referent)

Typy znaků - vztah znaku a denotátu

  • ikon - vztah podobnosti - piktogramy, fotografie
    • obrazy - onomatopoia - haf, bum
    • diagramy - podobají se poměry mezi znaky - sg./pl., stupňování
  • index - ukazování nebo příčinná slouvislost - tento, systém časů
  • symbol - konvenční (arbitrární) znak - zeď

Stylistická a textová lingvistika

Nauka o stylu (slohu)

Styl

  • manifestuje se pouze v parole
  • jenotný ráz projevu daný vnějšími a vnitřními činiteli
  • předpokladem pro vznik stylu je konkurence prostředků: dítě konzumuje – přijímá potravu – jí – papá – žere
  • typizované rozdíly mezi texty – vliv žánru, tématu, času, autora

Text - diskurz

  • komplexnost, vnitřní členění a organizace, koherence, tématická a funkční jednota, uzavřenost
  • dialog = komplex textů, diskurz

Sociolingvistika

Vzájemné vztahy jazyka a společnosti

  • systematická kovariance jazykových a sociálních struktur, odkrývání kauzálních vztahů
  • výzkumy W. Labova v New Yorku (60. léta)
  • polemika s (generativistickou) představou ideálního mluvčího v homogenním prostředí
  • témata: bilingvismus, diglosie, sociální stratifikace jazyka, language management
  • jazyk odráží společenskou realitu, ale zároveň ji formuje

Psycholingvistika

  • psychické mechanizmy umožňující tvořit výpovědi a rozumět jim
  • proces produkce řeči od záměru až po artikulaci
  • mentální uspořádání znalostí o jazyce (lexikon)
  • osvojování jazyka dětmi, poruchy řeči

Neurolingvistika

  • fyzilogie mozku (Broccovo centrum, Wernickeho centrum)
  • výzkum dyslexie, dysgrafie, afázie

Diachronní disciplíny

Historická mluvnice a lexikologie

  • popis jazykového systému (fonologie, morfologie, syntaxe, slovní zásoby) ve vývojové perspektivě
  • jazykové změny a pravidla pro jejich provedení – např. Havlíkovo jerové pravidlo
  • snaží se dohledat nejstarší možný stav

Dialektologie

  • studium nářečí (dialektů) – teritoriálně (a často i funkčně) omezené jazykové útvary
  • výsledkem působení pouze některých jazykových změn (ve srovnání s ostatními útvary národního jazyka)
  • v současnosti probíhá nivelizace nářečí
  • Český jazykový atlas

Jazyky v komparaci

Typologie jazyků (jazykové univerzálie)

  • synchronní srovnávání jazyků (nikoli podle příbuznosti → genetická klasifikace)
  • jazykové typy – fonologické, morfologické, syntaktické
  • strukturní typologie (V. Skalička) – aglutinační, flektivní, izolační, introflektivní a polysyntetický typ
  • univerzálie – obecné rysy jazyků, např. má-li jazyk flexi, má i odvozování, volný slovosled vyžaduje bohatou morfologii
    • absolutní univerzálie – 10–70 fonému (min. 2 samohlásky), deiktické prostředky, kvantifikátory, vlastní jména

Další jazykovědné disciplíny

  • etymologie zkoumání původu slov
  • onomastika nauka o vlastních jménech (propriích)
  • forenzní l. odhalování autorství
  • pragmatika vztah znaku k situačnímu kontextu
  • ortoepie normativní výslovnost
  • ortografie pravopis, normativní
  • paremiologie nauka o příslovích (součást frazeologie)

Přednáška 4 - Fonetika a fonologie

Fonetika

  • věda o zvukové stránce jazyka
  • artikulační (produkční), akustické a percepční aspekty
  • fon, hláska

Fonologie

  • jak se podílejí neznakové jednotky na tvorbě jednotek znakových
  • funkční přístup – popisují se pouze relevantní rozdíly
  • foném – systémová jednotka, distinktivní platnost
  • segmentální a suprasegmentální rovina

Vztah mluvené a psané komunikace

  • mluvená forma je primární, psaná je odvozená
  • časový aspekt a linearita
  • rozdílný kanál komunikace – hluk, vzdálenost, směr atp.
  • redundance, kontext
  • transkripční systémy (IPA) x písmo (fonetické, slabičné, ideografické)

Fyziologie

Řečové orgány

Vokální trakt

  • iniciační ústrojí
    • v češtině pouze výdechový proud
    • plíce, bránice, mezižeberní svaly
    • průdušinky → průdušky → průdušnice (trachea)
  • fonační ústrojí (hrtan)
    • hlasivky (jemný pár svalů)
    • schopnost vibrace při průchodu vzduchu – produkují f0
  • modulační ústrojí (dutina hrdelní, ústní a nosní)
    • aktivní: měkké patro, jazyk, rty, čelisti
    • pasivní: zuby, alveoly, tvrdé patro, nosní dutina
  • původně se všechny orgány vyvinuly k jiným účelům

Fyzikální vlastnosti a jejich percepční koreláty

intenzita          | hlasitost       |    30–90 dB (130 dB)  
frekvence          | výška           |    20–20.000 Hz  
trvání             | délka           |    V: 100–200 ms  
spektrální skladba | barva (kvalita) |

Samohlásky – vokály

  • Převažuje tónová složka nad šumovou
  • Modulace f0 a zesílení některých vrchních harmonických tónů
  • Postavení jazyka a čelistí
  • horizontálně: přední, střední a zadní
  • vertikálně: nízké, středové, vysoké

Fromanty F1, F2 - lokální maxima, vrchní harmonické tóny nad f0.
Poměr F1 a F2 určuje kvalitu vokálu, f0 pak intonaci.

Souhlásky – konsonanty

Klasifikace souhlásek

  • podle způsobu: závěrové (explozivy), úžinové (frikativy), polozávěrové (afrikáty)
  • podle místa: retné (bilabiály), retozubné (labiodentály), zubodásňové (alveoláry), patrové (palatály, veláry), hrtanové (laryngály)
  • podle znělosti: znělé, neznělé
  • podle nosovosti: nosovky, ústní hlásky

Změny hlásek při produkci řeči

Při souvislé řeči se sousední hlásky ovlivňují

  • asimilace (spodoba) – [gdiš]
  • elize (výpůstka) – [japko]
  • epenteze (vkládání) – [sedum]
  • proteze (opěrná hláska) – [vokno]

Asimilace

  • znělosti: regresivní změna, která se týká jen párových hlásek – sjednocení znělosti
    • zpěv, sdělit, rád bych, strach zmizel
      [spje], [zďelit], [ra:d bix], [straγ zmizel]
  • místa tvoření: regresivní změna, týká se především nosovek
    • venku, studenti, kotník
      [veŋku], [studeňťi], [koťňi:k]
  • způsobu: regresivní i progresivní změna, nesystematické
    • jednou, japonský, manželka
      [jennou], [japoncki:], [manǮelka]

Slabika

Přirozená jednotka produkce řeči

  • jazyková univerzálie
  • sevření – otevření vokálního traktu
  • (prétura), jádro, (koda) – stř-e-p
    • charakteristický je sonorní vrchol, realizovaný většinou V nebo l, r × sedm, osm
  • struktura: CV (50 %), CVC (15 %), CCV (10 %), CCVC (méně než 10 %)
  • čeština umožňuje dlouhé prétury: vzplál, pštros, má ale krátké kody

Mluvní takt

Mluvní/přízvukový takt (fonologické slovo) = úsek řeči od jedné přízvučné slabiky k druhé.

’Uslyšel ’táhlý ’hvizd | a ’po něm ’několik ’dutých ’ran.

Přízvuk

  • v češtině na první slabice slova (obtížně akusticky uchopitelné)
  • výjimka 1: předrážka (vymezeno na základě určení hranic vyšších celků)
  • výjimka 2: příklonky = slova bez přízvuku (mi, ti, se, mu, ho, jsem, bych...)

Promluvový úsek, promluva

Jeden nebo více taktů tvoří promluvový úsek – zvuková kompaktnost (specifické melodické průběhy, zpomalování na konci, pauzy), percepční vymezení.

Dejte to tam do háje.
Dejte to tam | do háje.

Melodémy = funkční melodické konfigurace

  • melodém neukončující
  • melodém ukončující klesavý
  • melodém ukončující stoupavý

Poruchy řeči a hlasu

  • Hlasivkové uzlíky – zbytnělá místa na sliznici hlasivek
  • Huhňavost – nosovost (nebo její absence) v důsledku nedostatečnosti patrohltanového závěru
  • Dyslalie (patlavost) – sigmatismus, rotacismus (bohemicus), lambdacismus
  • Afázie – motorická (neschopnost tvořit řeč), senzorická (neschopnost rozumět řeči)
  • Koktavost – postižena motorická oblast mluvní koordinace (predispozice + trauma)
  • Breptavost – řeč překotná, omezená plynulost (lze kontrolovat)

Přednáška 5 - Grafémika. Morfologie a morfematika

Grafémika - Grafická stránka jazyka

Písmo

  • soubor znaků užívaných k zaznamenávání jazyka
  • vůči mluvené formě je psaná sekundární

Specifika psané komunikace

  • permanentnost – větší nároky na produktora i příjemce
  • nepřítomnost adresáta (× web)
  • specifické vyjadřovací prostředky – interpunkce, typografie
  • specifický jazyk – nýbrž/ale, stále/pořád/furt

Původ a historie písma

  • vznik nezávisle v několika oblastech – Mezopotámie, Čína, Amerika
  • je obtížné odlišit, které grafické symboly sloužily k zachycování jazyka
  • nejstarší doklady
    • předchůdce písma – hliněné oblázky ze Susy (9. tisíciletí BC)
    • Sumerové a jihovýchodní Evropa – 3500 BC – hliněné destičky
    • většinou se jedná o úřední nebo obchodní záznamy

Druhy písem

Písmo podle druhu informace, které znak zachycuje

  • piktografické/ideografické – slovo/pojem ∼ znak
    • více či méně názorný obrázek představy nebo pojmu
    • stará čínština, egyptské hieroglyfy
    • dopravní značky, návody apod.
  • slabičné – slabika ∼ znak
    • klínové písmo – chetitština, sumerština, perština apod.
    • japonská hiragana i katagana
    • v některých případech odpovídá znak i morfu
  • fonologické – foném ∼ písmeno (litera)
    • latinka, cyrilice (azbuka), řečtina, runové písmo
    • nejmenší repertoár znaků, největší abstrakce

Principy české psací soustavy

Pravopis – ortografie

  • fonologický – každému fonému odpovídá jedno písmeno
    • struna – strunka × [struna] – [struŋka]
  • analogie (morfologický, syntaktický princip) – stejné (podobné) významy zachycujeme stejně (podobně)
    • lampa ∼ žena, lampy ∼ ženy
    • muži běhali, byli káráni × ženy běhaly, byly kárány
  • historický – když, jméno, výjimka...
  • primitivní → spřežkový → diakritický pravopis
  • velká a malá písmena (majuskule a minuskule)

Odchylky od fonologického principu

  1. psaní ch, q, w a x
  2. psaní hlásek podléhajících asimilaci znělosti (p, b, t, d, s, z) – dub ← dubu
  3. psaní skupin di, ti, ni
  4. psaní i/í a y/ý
  5. psaní ě
  6. psaní ú/ů
  7. interpunkce, velká/malá písmena

Tradiční a historický princip

Několik výjimek a nepravidelností

  • jsi × seš (ale jsi – nejsi)
  • psani i/í po c × kecy, tácy, hecy, puncy × skici
  • psani i/í po š/č × Stašy, Maryšy, čačy
  • mladí muži běhali × mladý mužský běhali/y?
  • přes, přese [přeze] × skrz/skrze, bez/beze
  • předpony s/z: velkou část z nich nelze odvůdnit – skončit, sdělit, spatřit; zpráva, zkušenost, zhruba apod.

LINGVISTIKA != PRAVOPIS

Morfologie

Tvarosloví

  • nauka o tvarech slov
  • část gramatiky, která studuje povahu a chování morfémů
  • základní jednotka: morfém = nejmenší část, která nese význam; minimální znak
  • v užším smyslu: deklinace a konjugace
  • v širším smyslu: i tvoření slov

Morfematika

Druhy morfémů

  • předpona (prefix)
  • kořen (radix)
  • přípona (sufix), koncovka
  • cirkumfix (obpona)

Morfémy se vydělují na základě analogie (stejná forma se v podobné funkci nachází i jiné části systému)

Morfematický rozbor

Morfémy vyčleňujeme na základě analogie (= kde jinkde se rovněž vyskytují ve stejném významu a funkci) a substituce (= co může nahrazovat).

Některé morfémy slouží i ke strukturaci paradigmatu (např. téma = kmenotvorná přípona u sloves).

Funkce morfémů

Význam a funkce morfémů

  • prefix – převážně lexikální, gramatické jen zřídka – po-ros-te, -jd-u
  • kořen – vždy lexikální – nad-les-ní, -i-tel
  • sufix – lexikální i gramatický
    • kmenotvorná přípona – gramatický význam – kup-ova-l, kup-uj-e
    • slovotvorná přípona – lexikální význam – uči-tel, dom--ek
    • ostatní tvarotvorné přípony, vč. koncov

Automatická identifikace morfematických hranic

Greenbergovy čtverce

  • distribucionalistická metoda analyzování morfematického švu
  • pro každé potenciální dělení slova na části A-B hledáme v korpusu slova, která odpovídají A-B’, A’-B, A’-B’
  • např. A-B: kup-ovat, ne-štěstí
    • A-B’: kup-uju, ne-bezpečí
    • A’-B: stěh-ovat, Ø-štěstí
    • A’-B’: stěh-uju, Ø-bezpečí

Specifické jevy ve stavbě slova

Specifické morfematické jevy

  • nulový morfém – pán-Ø (× pán-a)
  • supletivismus – různé kořeny pro tvary jednoho lexému (člověk – lidé, dobrý – lepší, jde – šel, brzo – dříve...)
  • alomorf – poziční varianta morfému (vliv okolních hlásek) – ps át, do pis, píš u, pís ař; hr a – her
  • alternace – pravidelná hlásková změna (proces, při kterém vznikají alomorfy): ruka – ruce – ručka, noha – noze – nožka, stál – stůj – stojí
  • konektém – specifický morfém sloužící ke spojování kořenů: červen-o-modr-o-bílý, česk-o-moravský
  • cirkumfix – specifický morfém, který se připojuje na začátek i na konec slova: nej-draž-ší, po-lab-í

Slovotvorba

Slovotvorba = hledání a analyzování takových pravidelně se opakujících languových vztahů mezi slovy, které se realizují charakteristickou formální odlišností, jíž odpovídá ustálený lexikálně-sémantický rozdíl.

Pojmenování

  • značkové (nemotivované) – arbitrární vztah mezi formou a významem (je třeba se ho naučit)
    • železo, jít, sám
  • popisné (motivované) – význam je odvoditelný z významů částí (samotné části je ale rovněž třeba se znát)
    • železnice, dojít, samota

Pojmenovávací kategorie

Pojmenovávací (onomaziologické) kategorie (význam)

  • mutace – mění se význam i slovní druh: chytrý – chytrák
  • transpozice – mění se pouze slovní druh: rychlý – rychlost, hostinský (konverze)
  • modifikace – nemění se slovní druh, slovo získává dodatečný významový rys: učitel – učitelka, dům – domeček

Slovotvorné způsoby (forma)

  • derivace – prefixace, sufixace
  • kompozice, abreviace, univerbizace, juxtapozice, kalk

Slovotvorný model

slovo základové (fundující) -> slovo odvozené (fundované)
báze (+ formant A)          -> báze (+ formant A’)
význam 1                    -> význam 2
uči-t                       -> uči-tel

synchroní interpretace motivace a etymologie se nemusí krýt: -zloděj, zákeřný_

specifikace slovotvorného modelu

Vzor = sekjvence společných a odlišných částí (báze a formanty):

   | F1   B   F2
-----------------
1. |     lov  it
2. |  ú  lov  ek

Dotaz = nahrazení regulárními výrazy tak, abychom zjistili rozsah modelu:

   | F1   B   F2
-----------------
1. |      .+  it
2. |  ú   .+  ek

Model = zjištění všech dvojic, kterým odpovídají paralelní dotazy: čin it – ú čin ek, plat it - ú plat ek, rad it – ú rad ek, škleb it – ú škleb ek...

Odhad produktivity formantů

Produktivita není:

  • počet výskytů slov (tokenů) s daným formantem
  • počet různých slov (typů) s daným formantem
  • vázána na směr derivace (odvozené slovo nemusí být méně produktivní než jednotka fundující)

Produktivita by mohla být:

  • ochota, s níž formant vstupuje do nových kombinací
  • pravděpodobnost, že po prozkoumání všech dokladů v rozsáhlém korpusu, budeme v okolním jazyce nacházet další nové typy

Model založený na Good–Turingovu odhadu, popsaný H. Baayenem (1992).

P(N) = V(1,N)/N

Souhrnná pravděpodobnost všech v korpusu neregistrovaných jednotek je rovna podílu počtu hapaxů k celkové velikosti korpusu.

=> čím víc máme dokladů, tím menší je souhrnná pravděpodobnost dosud neregistrovaného jevu.

Přednáška 6 - Morfologie a gramatické kategorie českých slov

Morfologie

Flektivní morfologie se dělí na

  • funkční = gramatické významy a funkce morfémů význam jednotlivých gamatických kategorií, např. čísla, rodu nebo pádu u substantiv
  • formální = kombinatorika morfémů (skloňování a časování) možnosti vyjádření gramatických kategorií u jednotlivých slov, např. jak se tvoří 7. pád pl. myš

Gramatika × lexikon

Hranice mezi mluvnicí a slovníkem

  • povrchní pohled 1: lexikon je prostý soupis prostředků, gramatika popis jejich spojování
  • povrchní pohled 2: gramatika = pravidla, systém, lexikon = inventář bez systému
  • gramatika zkoumá omezené a uzavřené třídy jevů (např. pády, čísla), lexikon naopak především třídy otevřené
  • lexikon (sémantické vztahy) má přednost před gramatikou (=lineární uspořádání výpovědi)
  • agramatická věta může být srozumitelná, ale sémanticky nekompatibilní sdělení ne:
    Po návrat být zaslechnout na dvůr kolo bryčka. ×
    Po břemenu jsem rozpočítal na pevnině paměť břichomluvectví.

Ačkoli je hranice nejasná, z praktických důvodů se vymezuje především mírou obecnosti, pravidelnosti chování jazykových jednotek, frekvencí a ne/uzavřeností tříd, do níž patří.

Gramatikalizace je proces přechodu lexikálního významu slova k významu či funkci gramatické: tvary být, mít, předl. nehledě na, angl. will

Lexikalizace je proces přeměny slov v ustálenou jednotku slovníku s pevným významem celku v důsledku potlačwní významu komponentů: nahoru, být in, včas.

Gramatický a lexikální význam

  1. gramatický význam
  • obecný
  • produktivní (vyjadřuje se u většiny slov dané třídy)
  • ustálený (vyjadřuje stále zhruba totéž)
  • malý počet formálních prostředků (repertoár uzavřený a v čase relativně stabilní)
  1. lexikální význam
  • obecný i konkrétní
  • význam se může realizovat jen u malé podmnožiny (např. jména mláďat)
  • variabilní (srov. rozsah toho, co všechno může být pro různé mluvčí červené)
  • potenciálně nekonečný počet formálních prostředků

Gramatická (neplnovýznamová) slova

  • s převahou gramatického významu
  • spolupodílejí se na celkovém obsahu sdělení, zejména na jeho gramatické stránce
  • pomohl bych, k domovu, luka a lesy
  • tradičně: předložky, spojky, pomocná slovesa apod.

Lexikální (plnovýznamová) slova

  • nesou hlavní část obsahu sdělení (mají ale také gramatický význam)
  • mohou stát sama o sobě a ”něco znamenat”
  • tradičně: podstatná jména, přídavná jména, slovesa a příslovce

Slovní druhy

Dělení slov má svůj zíklad ve významové klasifikaci: některá slova označují substance, jiná děje, vlastnosti, počet apod.

Kritéria klasifikace:

  • tvaroslovné - formální podoba slova
  • významové - sémantická stránka
  • syntaktické - funkce ve větě

Tvaroslovné kritérium

Rozděkuje slova na:

  • ohebná (flektovaná) - skloňovaná
    • mění svůj tvar, ale nemění svůj lexikální význam
    • subst., adj., pron., num.; verba
  • neohebná
    • jedentvar pro všechny funkce (x vokalizace, stupňování adv.)
    • adv., prep., konj., part. inter.

Významové kritérium

Rozděluje slova na:

  • plnovýznamová (autosémantická)
    • význam relaticně nezávislý
  • neplnovýznamová (synsématická)
    • uplatňuje význam až v kontextu jiných slov

Syntaktické kriterium

Podíl na stavbě věty:

  • typická syntaktická role (podmět, přísudek apod.)
  • pojí se se jmény -> předložky
  • spojují věty a větné členy -> spojky
  • realizují se jako samostatná výpověď -> citoslovce

Klasifikace

  • Podstatná jména (substantiva) – nejfrekventovanější slovní druh; základem pojmenování předmětů, osob, zvířat, dějů, stavů a vlastností, které jsou chápány jako nezávislé entity (stůl, žena, kobyla, kreslení, radost, měkkost); primární synt. funkcí je vyjadřovat podmět; většina substantiv jsou slova ohebná (skloňují se)
  • Přídavná jména (adjektiva) – vlastnosti substancí (velký, další, otcův); ohebná plnovýznamová slova, která ve větě rozvíjejí podstatná jména, slovesa nebo zájmena, a to nejčastěji ve funkci shodného přívlastku, příp. přísudku
  • Zájmena (pronomina) – většinou ohebná (skloňují se) slova, která ve větě zastupují podstatná a přídavná jména, odkazují k nim nebo vyjadřují vztah mluvčího k nim (já, my, ten, který); synt. funkce se odvíjí od toho, jaký slovní druh zastupují
  • Číslovky (numeralia) – vyjadřují množství (jedna, sedmnáct, druhý, sedmnáctkrát); nejsou (až na výjimky) vymezeny specifickým způsobem ohýbání nebo syntaktickou funkcí, ale významem, který ukazuje na kvantovost.
  • Slovesa (verba) – plnovýznamový ohebný slovní druh; jako jediný slovní druh se časují; vyjadřují stavy substancí (ležím), akce (nesu) nebo děje (hádat se); jsou prototypickým představitelem přísudku.
  • Příslovce (adverbia) – neohebný plnovýznamový slovní druh; vyjadřují okolnosti dějů vyjádřených slovesy nebo okolnosti vlastností vyjádřených přídavnými jmény, příp. příslovci
  • Předložky (prepozice) – neohebný a významově nesamostatný (synsémantický) slovní druh; pojí se ke jménům, vyjadřují vztah jmen k jejich nadřazeným větným členům a podílejí se tak na vytváření syntaktických i jiných významů (v lese, nad stromem)
  • Spojky (konjunkce) – neohebný a neplnovýznamový slovní druh, který slouží ke spojování vět a větných členů (a, nebo, že), tj. vyjadřují jejich vztah souřadný (koordinaci) nebo podřadný (subordinaci) a významově ho specifikují
  • Částice (partikule) – neplnovýznamový neohebný slovní druh; obohacují výpověď, v níž jsou užity, o nějaký specifický pragmatický rys (asi, bohudík, ať ); netvoří samostatnou výpověď
  • Citoslovce (interjekce) – neohebný slovní druh umožňující mluvčímu vyjadřovat různé typy postojů (kuš), emoce (kruci!), posilovat komunikační kontakt s adresátem (hele), řídč. slouží k napodobování různých

Klasifikace shrnutí

Kritéria    |       Tvaroslovná         |           významová               |   syntaktická
------------+---------------------------+-----------------------------------+-------------------
            |   Oh. |   Skl.|   Stup.   |   Autos.  |   význam/fce.         |   Synt. funkce
------------+-------+-------+-----------+-----------+-----------------------+-------------------
Substantiva |   ano |   ano |   ne      |   ano     |   názvy substancí     |   -
Adjektiva   |   ano |   ano |   (ano)   |   ano     |   vlastnosti subst.   |   -
Pronomina   |   ano |   ano |   ne      |   ano/ne  |   zastupují jména     |   -
Numeralia   |   ano |   ano |   ne      |   ano/ne  |   kvantovost          |   -
Verba       |   ano |   ne  |   ne      |   ano     |   názvy dějů          |   -
Adverbia    |   ne  |   ne  |   (ano)   |   ano     |   vlastnosti dějů     |   -
Prepozice   |   ne  |   ne  |   ne      |   ne      |   význam pádu         |   pojí se se jmény
Konjunkce   |   ne  |   ne  |   ne      |   ne      |   vztah vět/členů     |   spoj. věty/členy
Partikule   |   ne  |   ne  |   ne      |   ne      |   postoj k větě/členu |   -
Interjekce  |   ne  |   ne  |   ne      |   ano     |   expresivní/kontak   |   stojí samost.

Jména

Jmenný rod (genus)

  • původně opozice živé – neživé (neutrum), později opozice pohlaví
  • u substantiv je rod dán biologicky (žena, muž, štěně) nebo lexikálně (list, taška, přistání )
  • u adjektiv, zájmen a číslovek je rod dán syntakticky (mladý, mladá, mladé)

Gramatické rody v češtině

  • mužský životný – maskulinum animatum
  • mužský neživotný – maskulinum inanimatum
  • ženský – femininum
  • střední – neutrum

Číslo (numerus)

  • jednotné (singulár) – jeden předmět
  • množné (plurál) – dva a více předmětů
  • dvojné (duál) – dnes už jen zbytky (stě, nohama)

Singularia tantum – nepočitatelné věci (písek) nebo jevy (spánek), nebo víc předmětů téhož druhu souborně (ptactvo). Pluralia tantum – jeden předmět s formou plurálu: _šaty, rozpaky, kalhoty, nůžky, dveře, housle, hrábě, kleště, záda, kamn_a, a to i tehdy, existuje-li k nim v jiném významu i singulár: noviny, hodiny, padesátiny.

Pád (casus)

Pády – postavení a funkce jména ve větě; neexistují k nim v mimojazykové realitě takové modely, jaké v ní mají kategorie rodu a čísla jmen nebo kategorie osoby a času sloves ⇒ zbytková kategorie

České pády:

  • nominativ – pád podmětu
  • genitiv – pád neshodného přívlastku
  • dativ – pád adresáta
  • akuzativ – pád přímého předmětu
  • vokativ – pád oslovení, syntakticky nezapojen
  • lokál – pád příslovečného určení (místa, času)
  • instrumentál – pád prostředku/nástroje, doprovodu/souvýskytu

Stupňování (gradace)

  • stupňopvat lze jen malou část adjektiv a adverbií (asi 6 %)
    1. pozitiv – slovníkový tvar přídavného jména (starý)
    2. komparativ – srovnání s mírou vlastnosti jiného jevu (starší )
    3. superlativ – nejvyšší míra vlastnosti mezi srovnávanými jevy (nejstarší )
  • absolutní komparativ (elativ) – nevyjadřuje srovnání, ale absolutní míru vlastnosti (měl delší vlasy, starší pán)
  • nepravidelné stupňování: velký, dobrý, malý, špatný/zlý, dlouhý, brzký, snadný, zadní, pozdní

Slovesa

Osoba

  • děj se týká autora promluvy (já mluvím)
  • děj se týká adresáta promluvy (ty posloucháš)
  • děj osoby nezúčastněné, téma komunikace (on přihlíží )

Forma a význam se však vždy nekryjí:

  • mluva dětí, vojáků – Vašík udělá hají. Vojín Kos hlásí příchod.
  • onkání – Marie, šla nakoupit!
  • plurál majestaticus – My, král Kruťák, jsme tento list podepsali...
  • plurál mateřský – My už papáme zeleninu!
  • vykání – Vy jste byl šílený, Milane!
  • onikání – Posadili se, pane kapitáne,...

Způsob (modus)

  • oznamovací (indikativ) – prosté sdělení, děj reálný
  • podmiňovací (kondicionál) – podmínka, děj možný
  • rozkazovací (imperativ) – apel, děj nutný

Čas (tempus)

  • přítomný (prézens)
  • budoucí (futurum)
  • minulý (préteritum)
  • zastaralé, řídké časy: perfektum, aorist, imperfektum

Slovesný rod (genus verbi)

Vztah mezi podmětem věty a konatelem činnosti

  • rod činný (aktivum) – Bylo ticho, protože číšník stavěl na stůl pití. – konatel = podmět
  • rod trpný (pasivum) – Dům byl stavěn do půlkruhu směrem ke Kalužské bráně. – konatel ̸ = podmět
  • zvratné pasivum – Dům se staví...

Vid (aspekt)

Některá česká slovesa existují ve variantách, které se vzájemně liší tím, zda děj, který označují, je chápán jako ukončený, ohraničený, nebo ne.

Slovesný vid

  • na pomezí mezi gramatickými kategoriemi a lexikálními významy jednotlivých sloves
    1. dokonavý vid (perfektivní) – přijdu, udělals, najdem
    2. nedokonavý vid (imperfektivní) – sleduju, věnoval ses, budem nabízet
  • vztah mezi videm a časem – prezens dokonavých sloves vyjadřuje budoucnost

Shrnutí

Gramatické kategorie

  • mluvnické (velmi obecné) významy
  • nejsou třída a vzor sloves nebo vzor jmen!
  • na pomezí jsou vokativ, stupňování, vid
  • realizují se plně vždy u typického jádra, na periférii míň nebo vůbec

Přednáška 7 - Lexikon a slovní zásoba

Gramatika a lexikon

Lexikologie

  • výzkum lexikonu, slovní zásoby
  • forma i význam lexikálních jednotek

Lexikografie (slovníkářství)

  • teorie a praxe tvorby slovníků
  • aplikace lexikologie
  • struktrura slovníku, hesla, způsoby popisu významu atp.

Gramatika x Lexikon

hranice mezi mluvnicí a slovníkem

  • gramatika zkoumá omezené a uzavřené třídy jevů (např. pády, čísla), lexikon naopak především třídy otevřené (třeba pojmenování osob, vlastnosti maetriálů apod.)
  • lexikon (sémantické vztahy) má přednost před gramatikou (=lineární uspořádání výpovědi)
  • agramatická věta může být srozumitelná, ale sémanticky nekompatibilní sdělení

Slovo

Intuitivní a obtížně definovatelná jednotka

  • fonetické slovo = skevence hlásek oddělená pauzami s přízvukem na první slabice (horolezec, na kole, byl jsem)
  • grafické slovo = sekvence písmen oddělená v textu mezerami (horolezec, na, kole, byl, jsem)
  • syntaktické slovo = tvoří jeden větný člen (smál se)
  • sémantické slovo = forma přiřazovaná určitému obsahu, pojmenování/nominace s minimální distinktivní platností (horolezec, vlajková loď, ach jo)

Atributy slova

  • ucelený význam (dáno konvencí)
  • přemístitelnost a oddělitelnost (ve větě)
  • ustálenost a reprodukovatelnost
  • arbitrárnost (srov. značková a popisná pojmenování)

Lexém

Abstrakce nad jednotlivými realizacemi v řeči

  • u ohebných slov zahrnuje celé paradigma (les, lesa, lesu..., kupovat, kupuju, kupoval jsem, budeš kupovat...)
  • jednoslovné – víceslovné (gramatické tvary, kolokace)
  • konkrétní realizace (token): lex
  • frazémy a idiomy

Vvýznam slova/lexému

Denotát - Věcné. kognitivní jádro významu (nezávislé na situaci). Formy označující stejný denotát jsou synonyma.

Referent - To, k čemu znak ukazuje (v dané situaci). Jednotlivý zástupce z třídy vymezené denotátem. Vlastní jména (propria) mají většinou oslabený vztah k denotátu a posílený vztah k referentu.

Lexikologie - Slovní zásoba

  • aktivní: cca 5–10 tisíc slov
  • pasivní: cca 40 tisíc slov
  • B. Hrabal: 47 tisíc slov
  • K. Čapek: 68 tisíc slov
  • korpus SYN2010: 785 tisíc (různých) lemmat, na 100 milionů textových slov (tokenů)

Heapsův zákon

V(N) = 47.08 x N^0.52

kde N je počet tokenů a V(N) je počet typů.

HAPAX = jednotka vyskytující se v text/korpusu právě jednou

Sémantické vztahy v lexikonu

Polysémie (mnohoznačnost)

  • jedné formě odpovídá více významů
  • významy spolu zpravidla souvisejí: ladit
  • jazyková ekonomie
  • kontext desambiguuje

Homonymie (stejnozvučnost)

  • jedné formě odpovídá více významů
  • významy spolu zpravidla nesouvisejí: kolej
  • homonymie je i na jiných rovinách (např. v morfologii, slovotvorbě, syntaxi)
  • homofona: stejný výslovnost výr – vír
  • homografa: stejný zápis proudit

Synonymie (souznačnost)

  • různé formy odpovídají stejnému významu
  • úplná synonymie neexistuje: medicína – lékařství (srov. kolokáty akutní, vnitřní, doktor)
  • Occamova břitva (Occam’s razor) – synonymie je pro jazyk nevýhodná

Opozitnost – synonymie s opačným znaménkem

  • antonymie – z popření jednoho členu nevyplývá nutně druhý: malý – velký
  • komplementarita – pokrývá celý obsah nadřazeného pojmu: živý – mrtvý
  • konverzivnost – protichůdnost pohledu na stejnou skutečnost: prodat – koupit
  • kontextová opozitnost – protikladný vztah daný kontextem: červené – bílé krvinky

Hyponymie/hyperonymie

  • vztah nadřazeného pojmu (hyperonyma) k podřazenému pojmu (hyponyma): květina – fialka
  • hyponyma k jednomu hyperonymu jsou kohyponyma: pěnkava, orel, kos
  • základní organizační princip lexikonu: genus proximum a differentia specifica

Další vztahy

Metafora posun významu slova (kombinace) vzniklý na kombinatorickém základě

  • na základě podobnosti: nebe (← člověk) pláče, jasný hlas (← světlo)

Metonymie posun významu na základě věcné souvislosti

  • významová soumeznost: škola (lidé v ní) na výletě, nesl si Čapka (jeho dílo/sochu) domů

Synekdocha posun na základě záměny části za celek

  • pars pro toto: nebe (hvězdy) se třpytí, byla tam hlava na hlavě (člověk vedle člověka)
  • totum pro parte: jel městskou hromadnou dopravou (metrem, tramvají)

Slovníky - Lexikon

Aspekty lexikonu podle různých přístupů

  • apletaiva × propria
  • onomaziologie (význam → forma) × semaziologie (forma → význam)
  • nespecifický × terminologický
  • synchronní × diachronní
  • pravidelné × anomální (frazeologie)

Přednáška 8 - Víceslovné lexikální jednotky

Principy spojování jednotek

Jdnotky ve slovníku

  • jednoslovné
  • víceslovné

Open-choice principle - Primární fukcí jazykových jednotek je vstupovat do kimbinace s jinými jednotkami.

Idiom principle - Žádné slovo se nespojuje se všemi ostatními (dokonce ani ne se všemi jednotkami slovního druhu, s kterým se běžně kombinuje). psát + dopis/knížku/báseň x *psát + vodu/rychlost/hydrant

Kolokabilita - schopnost jednotky kombinovat se s jinou jednotkou

  • má formálně-sémantickou povahu
  • nekompatibilita daná protikladností sémantických rysů: hranatý čtverec
  • nekompatibilita daná mimoběžností sémantických rysů: zelená zlost
  • Herfindahl-Hirschmanův index: HHI = Sum_i=1^N(p_i^2) kde p_i je pravděpodobnost i-tého kontextového typu vyjádřitelná jako podíl jeho absolutní frekvence na dané kontextové pozici celkové frekvence klíčového slova.

Promiskuita slova - Vysoká diverzita na bezprostředně předcházející pozici

  • Substantiva: mld, ha, kcal, kJ, odnož, hybrid...
  • Adjektiva: aj., oslavný...
  • Spojky: a, nebo, čili, aneb...

Kolokace

Smysluplné syntagma (spojení) minimálně dvou lexikálních jednotek, víceslovné pojmenování.

Typy

  • ustálené (systémové)
    • termínové: kyselina sírová, bezešvá trubka
    • anomální (idiomatické): vydat všanc, ležet ladem
    • propriální: Hradec Králové, Ústí nad Labem
  • neustálené (textové, parolové)
    • běžné: studená voda, největší hloupost
    • analytické: bude psát, přišel bych
    • metaforické (individuální): barvotisková melodie, pornografická kluzkost

Identifikace kolokací v krpusech

Tradiční způsoby: asociační míry

  • frekvence jednotek - f(x), f(y)
  • frekvence kombinace - f(xy)
  • velikost korpusu - N
  • pravděpodobnost/relativní frekvence – p(x) = f(x)/N

MI-score

MI = log_2(p(xy)/(p(x)×p(y)))

t-score

t = (f(xy)- (f(x)×f(y))/N)/(sqrt(f(xy)))

logDice

logDice = 14 + log_2((2×f(xy))/(f(x)+f(y)))

Minimum sensitivity

MS = min(f(xy)/f(x), f(xy)/f(y))

Koligace

  • specifický druh kolokace
  • namísto lexikálně-sémantických vztahů mezi jednotkami zohledňuje vztahy mezi lexikální jednotkou a gramatickou kategorií a/nebo textovou strukturou
  • většina základních číslovek označujících čísla větší než dvě tak např. vstupuje do k. se jmény v plurálu
  • vztahy mezi lexikálními jednotkami a relativní pozicí ve větě nebo v textu – začátky (a obdobně i konce) textů, odstavců a vět jsou obsazovány specifickými jednotkami (podřadící spojky, předložky, částice apod.)

Kontextový přístup

Kolokace můžeme chápat jako

  • samostatné (víceslovné) lexikální jednotky
  • typické kontexty jednotlivých lexikálních jednotek V obou připadech dochází jednak 1) k aktivaci vlivu kontextu a jedna 2) ke zdůraznění obvykle jednoho významu (významového rysu, funkce)

**Redefinace problému kolokací

Hledání kolokací závisí na identidikaci takového typického/ustáleného kontextu (textového okolí), který věrnědesambiguje/zjednoznačňuje na rovině významu.

Vymezení kontextu

kontext x co-text (vztah situačního a textového kontextu)

kontext textové okolí jednotky, ale také širší vlastnosti komunikačnís situace (participanti, spacio-temporální charakteristiky apod.)
co-text textové okolí

silná hypotéza Co-text je věrným zrcadlem (situačního) kontextu v tom smyslu, že všechny pro danou komunikační situaci relevantní kontextové vlastnosti jsou co-textem explicitně reflektovány (mají tedy nějaký textový korelát).
slabá hypotéza: Textový kontext (co-text) věrně reflektuje všechny vlastnosti jazykových jevů relevantní pro jejich užití.

Funkce kontextu

Jednotka a její kontext jsou ve vzájemném vztahu

  • kontext reflektuje vlastnosti jednotky ←→ jednotka vyžaduje určitý typ doplnění podle svých vlastností ⇒ jednotky s podobným kontextem mají podobné vlastnosti (např. kontextová klasifikace slovních druhů)
  • různé kontexty jedné jednotky odkazují k různým funkcím/významům ←→ podobné kontexty u jedné jednotky aktivují jeden význam/jednu funkci ⇒ Kontext zjednoznačňuje (desambiguuje).

Jak kontext desambiguuje?

  • každá jednotka je v úhrnu všech svých realizací množinou významů/funkcí
  • jednotka zasazená do kontextu část svých významů/funkcí ztrácí
  • extrém: monokolokabilní slova – pokrčit ???, tratoliště ???, pozměňovací ???, zdaňovací ??? apod.

Kontext zjednoznačňuje především tím, že snižuje variabilitu (velikost inventáře) okolních pozic.

  • V sousedství slova úhlavní může stát: nepřítel, rival...(v různých pádech a číslech)
  • V sousedství sekvence počest + úhlavní už následuje pouze tvar nepřítele.

Variabilita

absolutní

Čím je kontextová pozice vzdálenější, tím jsou omezení, která plynou z použití tohoto klíčového slova, ovlivňující výběr jejího obsazení, menší. Silové pole jednotky postupně slábne. Variabilita ovšem neroste donekonečna, nedosahuje ani maximální hodnoty.

Relativní variabilita kontextu (RCV)

Motivace a odvození

  • čím frekventovanější slovo, tím větší variabilita (znemožňuje porovnání mezi slovy různé frekvence)
  • počet slov na vzdálené pozici neroste donekonečna, osciluje kolem hodnoty náhodné
  • relativní variabilita (RCV) je procentuální podíl naměřené (absolutní) variability z variability, kterou očekáváme na vzdálené pozici

Proximita slov

Proximita (Prox):

Průměrná vzdálenost dvou slov (v počtu pozic) v rámci blízkého kontextu (L3–R3).
N.B.: Prox(A, B) = Prox(B, A)
Pokud se slova v blízkém kontextu vůbec nesetkávají, je proximita stanovana rovna nule.

Hondnoty proximity

0 absolutní minimum – jednotky se vůbec v blízkém kontextu nesetkávají (smysl + párátko) 1 "smysluplné" minimum – jednotky se setkávají (téměř) pouze v bezprostředním kontextu (smysl + šestý) 2 průměrná hodnota – jednotky se můžou vyskytovat rovnoměrně na všech pozicích blízkého kontextu (smysl + první ), nebo mezi nimi většinou je jiná jednotka (smysl + humor) 3 maximum – jednotky se v prům

Shrnutí

Proximita je

  • indikátorem zasažení kolokátu silovým polem jednotky
  • kvantifikací těsnosti spojení
  • ukazatelem syntagmatičnosti spojení
  • vymezuje jevy, které se významně podílejí na desambiguaci

Problémy

  • Proximita samotná není schopna odlišit případy typické (ustálené) od nahodilostí
  • Náhodná sekvence, která se znovu neopakuje, může mít Prox = 1: eminentní úředníček

Obligatornost

  • nutnost kvantifikovat ustálenost kombinace
  • doplněk k proximitě
  • ukazatel monogamnosti/promiskuity slov

Obligatornost = frekvence souvýskytu dvou jednotek v blízkém kontextu vztažená k celkové frekvenci jedné z nich:

Oblig(A, B) = f_q(AB)/f_q(A)(× 100 %)

Vzájemná oblogatornost

Vzájemná obligatornost, Oblig(A : B), je ukazatel podmíněnosti vzájemného souvýskytu slov A a B a je rovna vyšší hodnotě z obligatornosti jednotky A vzhledem k jednotce B a obligatornosti jednotky B vzhledem k jednotce A, tj.

Oblig(A : B) = max[oblig(A, B); Oblig(B, A)]

(Triviální variace na asociační míru minimum sensitivity.)

Vztah proximity a obligatornosti

Pokud pro vztah dvou jednotek A a B platí, že výskyt A je podmíněn přítomností B v blízkém kontextu, což znamená, že jejich vzájemná obligatornost nabývá vysokých hodnot, pak jejich proximita bude blízká 1.

"To, co se spolu vyskytovat musí, je (ve většině realizací) u sebe blízko."

Proximita slov a obligatornost kontextu

Co znamená, když se dvě jednotky v průměru vyskytují blízko u sebe?

  • proximita = těsnost souvýskytu, průměrná vzdálenost dvou jednotek
  • (vzájemná) obligatornost = monogamnost/promiskuita, míra vázanosti slova na druhé

Čtyři typy vztahů:

  • těsné monogamní – kolokace (přívlastkový + víno), spojení s "minikolokabilními" slovy (tratoliště + krev)
  • vzdálené monogamní – spíše raritní (mít + činění )
  • těsné promiskuitní – neustálená syntagmata (švýcarský + víno, např. + víno)
  • vzdálené promiskuitní – náhodné (nesouvisející) souvýskyty (pečovat + domů)

Frazeologie

Oblast anomálií v jazyce

  • Frazém kombinace prvků, z nichž alespoň jeden je z hlediska ostatních členem extrémně omezeného a uzavřeného paradigmatu
  • Idiom frazém z hlediska významového, specificky pak frazém, jehož význam není derivovatelný z významů komponentů

Komutační test – záměna jednoho členu za jiný prvek stejného paradigmatu: chytat lelky × *chytat vrabce, vlaštovky × *lapat, lovit lelky

  • na úrovni kombinace morfémů: najít, kazisvět, malomyslný
  • kombinace slov: nechat na holičkách, vzít do zaječích, jablko sváru, zlatý důl
  • propoziční frazémy: řemeslo má zlaté dno
  • přísloví: pozdě bycha honit
  • přirovnání: mít hlad jako vlk
  • binomiál: krev a mlíko, ze dne na den, mýrnix týrnix

Přednáška 9 - Text, styl a diskurz

Stylistika a textová lingvistika

Stylistika = studium variability jazyka v závislosti na typu situace

Styl

  • manifestuje se pouze v parole

  • jednotný ráz púrojevu daný vnějšími a vnitřními činiteli (integrační aspekt)

  • předpokladem pro vznik stylu je konkurence prostředklů (selekční aspekt): dítě konzumuje – přijímá potravu – jí – papá – žere

  • obecně – projev možnosti variace v komunikaci (na základě částečné synonymie, např. ty–vy)

  • základní škála: automatizace – aktualizace

  • situace zcela automatizované: vojenský jazyk, tělocvik, orientační značení

  • podléhá různým faktorům, mj.:

    • autor
    • čas (vzhledem k momentu interpretace)
    • téma
    • žánr

Text – diskurz

  • komplexnost, vnitřní členění a organizace, koherence, tématická a funkční jednota, uzavřenost
  • dialog = komplex textů, diskurz

Stylotvorné faktory a objektivní styly

Stylotvorné faktory mají vliv na výběr jazykových prostředků a způsoby jejich integrace do textu.

  • subjektivní – závisí na komunikantech
  • objektivní – podmínky a funkce komunikace, objektivně daná omezení komunikace

Objektivní faktory a styly

  • mluvený/psaný text ⇒ styl textů psaných a mluvených (připravených × nepřipravených)
  • ne/přítomnost adresáta
  • monolog/dialog
  • ne/oficiální situace
  • věcná/estetická komunikační funkce

Subjektivní faktory a styly - . Faktory a styly vztažené k autorskému subjektu

  • pohlaví
  • věk
  • vzdělání (všeobecné i odborné, zájmy)
  • příslušnost k ideologii
  • psychický typ a stav

Funkční styly - Zobecnělé komunikační funkce

  • styl umělecký (prozaický, dramatický, básnický)
  • styl konverzační (soukromý nebo veřejný)
  • styl epistolární (soukromý nebo veřejný)
  • styl odborný (vědecký, odborněpraktický, popularizační)
  • styl úřední (právně-administrativní, hospodářský)
  • styl reklamní (propagační, ideologický)
  • styl publicistický (zpravodajský, úvahový, interviewový)
  • styl esejistický, direktivní, orientační
  • ...

Stylometrie

Styl jako soubor přiznačných odchylek od stylově neutrálního pozadí (průměru)

  • četnost jednotek a jevů
  • clusterování textů (např. pomocí PCA)
  • otázky lexikální bohatosti
  • analýza klíčových slov
  • určování autorství
  • ...

Autorství

  • Autorství je jen jeden z atributů, které mají formativní vliv na podobu textu (vedle tématu a žánru)
  • Metody atribuce textu se vědomě snaží eliminovat jevy, které variují v závoslosti na tématu a žánru. Nejúčinnější postupy proto bývají pro stylometrické účely nepoužitelné (interpunkce, TTR) a jsou lingvisticky nezajímavé.

Analýza klíčových slov (keyword analysis)

Klíčové slovo = forma opakovaně se objevující v textu s vyšší frekvencí, než bychom očekávali na základě porovnání s neutrálním pozadím (korpusem)

Postup

  1. zjistit frekvenci slov ve zkoumaném textu
  2. zjistit frekvenci slov v referenčním korpusu
  3. porovnat statistickou významnost rozdílu relativních frekvencí (χ^2 nebo log-likelihood)
  4. zjistit míru odlišnosti (effect size)

Přednáška 10 - Stratifikace češtiny a její sociolingvistická situace

Stratifikace češtiny

Vrstvy češtiny

  • národní jazyk × jeho variety (útvary)
  • sociální hledisko – funkčně odlišené útvary (tzv. spisovná čeština, obecná čeština, hovorová čeština, slang, argot)
  • regionální hledisko – celonárodní jádro, dialekty, interdialekty
  • minoritní jazyky v ČR – němčina, vietnamština, romština...

Lingvistické přístupy k jazyku

Deskripce × preskripce: v praxi jsou vždy oba postoje zastoupeny, jde o jejich poměr.

Deskripce

  • snaha o popis stavu
  • empiričnost, indukce
  • minimální intervence

Preskripce

  • změna jazykového povědomí
  • introspekce, dedukce
  • intervencionalismus

Preskriptivismus v ČR: pocit oprávněnosti sankcí za jazykové chování, které je v rozporu s arbitrárně stanoveným normativem, ačkoli z hlediska cílů komunikace nemusí být deficitní.

Historie české jazykové situace

  • situace před Bílou horou (1620): čeština má široké spektrum užití
  • po Bílé hoře: vlivem exilu elit a germanizace veřejného života se čeština stahuje z oficiálních a vyšších žánrů
  • Národní obrození (1. pol. 19. st.): syndrom národního údělu – navazuje se na předbělohorskou tradici
  • purismus – proti germanizmům i proti novotvarům (historická čistota)
    1. léta 20. st.: puristé okolo časopisu Naše řeč × funkcionalismus PLK (Teorie jazykové kultury)

Teorie jazykové kultury

Pražská funcionalistická škola

  • program. dokument: Obecné zásady pro kulturu jazyka (1929)
  • v opozici vůči purismu: antigermanizmus, historická čistota, "dobrý autor"
  • akcent na soudobý jazyk, synchronní přístup
  • spisovná norma reálně existuje nezávisle na její kodifikaci × jazykověda má normu popisovat a zároveň stanovovat
  • normativní zásahy mají stabilizovat jazyk s ohledem na jeho současný stav, nemají prohlubovat rozdíl mezi jazykem hovorovým a knižním
  • kritéria kodifikace (explicitně formulována později): noremnost, funkčnost (adekvátnost) a systémovost
  • přetrvává představa superiority (a funkční univerzality) spisovného jazyka

Poválečná historie

  • po 2. sv. válce: sepětí TJK s oficiální doktrínou (marrismus, Stalinovy stati)
    1. léta – uvolnění: diskuse o obecné češtině (reakce na výzkum běžně mluveného jazyka)
  • normalizace: marxistatická jazykověda (revival), vznik a zánik hovorové češtiny
  • současnost (po r. 1990): názorové proudy konservativní × liberální

Kodifikace jazyka

  • záznam stavu jazyka, petrifikace
  • většinou má imperativní i indikativní charakter (podstatný je poměr těchto složek)
  • v našem prostředí je vnímána jako závazná × míra závaznosti se u různých popisů liší a u všech je nenulová
  • Pravidla českého pravopisu (1993/1994), Slovník spisovné češtiny (1994), mluvnice (?)
  • kodifikace zde: jakýkoli lingvistický popis, který je přístupný široké veřejnosti
  • otázka tedy není zda kodifikovat, ale jak

Spisovnost

Co to znamená, když prostředek je spisovný?

  • nominalismus a realismus v chápání pojmu spisovnost
  • realismus: založený na úzu
    • jazyk oficiálních situací
    • formální jazyk
    • psaný, literární jazyk
    • celonárodní jazyk
    • záměr mluvčího
  • nominalismus: založen na kodifikaci (spisovné = kodifikované)

Jazyková norma

  • intersubjektivní součást jazykového povědomí, korektiv produkce a percepce
  • zdrojem pro zjišťování normy můžou být:
    • deklarativní postoje k jazyku – to, co o jazyku říkáme v dotaznících
    • reálné postoje k jazyku – to, jak jazyk používáme, odráží i to, co si o něm myslíme
  • problematika imperativní kodifikace normy – nelze zároveň normu popisovat a stanovovat
  • na postojích založená norma může vytvářet normativ odlišný od úzu ⇒ živná půda pro preskripci

Intervence

Je třeba do jazyka (institucionálně) zasahovat?

  • intervence jako důsledek společenské objednávky –
    poradenství × legislativa
  • Jaké problémy v komunikaci vyvstávají?
  • Máme nástroje na jejich řešení?
  • Jazyk (ne)ustále upadá...
  • Zdůrazňovaná potřeba tříbení naznačuje, že paradoxně pouze spisovná varieta regulaci potřebuje.

Cíle intervence

Co je dnešní kodifikací normováno?

  • důvodem pro regulaci je snížení variability (ohled na posluchače)
  • největší variabilita je v oblasti významů × regulována je forma
  • kodifikace se zaměřuje na morfologii, pravopis, méně pak na výslovnost a lexikon; téměř vůbec ne na syntax
  • diskontinuita jazykové regulace – periodicita reforem

Adekvátnost intervence

Co je cílem současné jazykové intervence?

  • zvýšení stability jazyka – je potřeba?
  • kultivovanost projevů – je snad jazyk dnes nekultivovaný?
  • jaká je úspěšnost intervence, když kultura projevů „neustále“ klesá?
  • TJK: aby byl projev kultivovaný, nemusí být nutně spisovný (viz literární produkce od 60. let)
  • i když je projev spisovný, kultivovaný být nemusí

Celonárodnost

"Kdyby spisovné češtiny nebylo, přestali bychom si rozumět"

  • celonárodnost podle produkce a percepce
  • obecná čeština jako útvar aspirující na celonárodní platnost (B. Havránek už v 60. letech)
  • pokračující proces nivelizace nářečí (živé kontakty mezi mluvčími z různých regionů)
  • primárním cílem komunikantů je dorozumět se (tomu se podřizuje volba prostředků

Axiologické aspekty současné intervence

Spisovná čeština slouží vyšším komunikačním cílům

  • metafora oblečení na doma a do divadla
  • vyšší komunikační cíle mají lidé i v lingvisticky neregulovaných komunitách
  • intervenovat je stejně axiologické rozhodnutí jako neintervenovat
  • nezamýšlené důsledky intervence

Principy neintervenčního přístupu

Koncept minimální intervence (2008)

  • cílem je spontátnně ustavený řád jazykových a komunikačních zvyklostí
  • každý lingvistický výstup má nenulovou intervenční sílu ⇒ potenciální intervenci ze strany jazykovědy je třeba oslabovat pluralitou kodifikací
  • kodifikace by měly být striktně deskriptivní (založené na datech a objektivních kritériích hodnocení)
  • úspěšné uplatňování KMI se projevuje pluralitou popisů, mezi nimiž si mluvčí vybírají ten, který nejlíp odpovídá jejich preferencím
  • popis se zaměřuje na celý jazyk, nikoli jen na vybranou varietu

Nástin možného vývoje

"Možnosti, které (nás) čekají..."

  1. situace zůstane nezměněná (kodifikační proces a jazyková politika)
  2. situace se změní – z hlediska teorie je současná praxe neobhajitelná
  • směrem k silnější preskripci (návrat k purismu)
  • směrem k větší liberalizaci
    • v rámci kodifikace (dublety) – široké pásmo mezi spisovným a nespisovným
    • v rámci kodifikačního procesu (pluralitní deskripce)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment