Studaĵo de Sergio Pokrovskij

Enhavo

Problemo

Ĉi tiu studaĵo koncernas nur la alfabetajn skribojn iom proksimajn al la esperanta; mi nenion scias pri la ideogramoj de la Sud-Orienta Azio.

Verkante pri esperantigo de vortoj el naciaj lingvoj kaj diversaj skribosistemoj (ekz‑e francaj kaj germanaj), mi fojon post fojo bezonis la terminon grafemo; tamen ĝiaj difinoj en la aŭtoritataj fontoj esperantaj estis por miaj bezonoj absolute senutilaj, ili nenion aldonis al la komunlingva litero.

Ekz‑e NPIV difinas:

grafem/o Λ Baza elemento de la skribsistemo:

  • en Esperanto estas 28 grafemoj;
  • la literoj a, a, A, A reprezentas la saman grafemon «a».

La terminon kreis J. N. Bodueno (pole Jan Niecisław Baudouin de Courtenay, ruse Иван Александрович Бодуэн де Куртенэ) en sia verko pri la skribosistemo de la rusa lingvo1. La termino poste populariĝis kaj disvastiĝis, tiel ke nun ĝi aperas ankaŭ en teĥnikaj fakoj (ekz‑e en la difino de Unikodo).

Iom da semiotiko

Ĉiuj difinoj de grafemo karakterizas ĝin kiel elementon de skribosistemo. Skribosistemo estas traktebla kiel formala lingvo, io kion studas semiotiko. Semiotiko havas plurajn manierojn studi formalajn lingvojn, inter kiuj elstaras sintakso kaj semantiko.

Sintakso studas internan aranĝon de la lingvaj tekstoj senrilate al io ajn ekstera, interalie senrilate al ilia signifo. Tipa sintaksa demando estas «Ĉu jeno apartenas al la lingvo?». Oni ankaŭ povas demandi, ĉu konkretaj signoprezentoj aŭ vortoprezentoj egalas, ĉu ili estas aperoj de unu sama signo aŭ vorto. Lingvon oni povas koncepti kiel aron da ĉiuj tekstoj al ĝi apartenantaj.

Semantiko studas rilaton inter signanto kaj ties signato; do, estas du tavoloj, la aro da tekstoj, kaj la aro da valoroj. Ekz‑e la aro da grafemoj kaj la aro da fonemoj; skribaj signoĉenoj kaj la respondaj sonaj vortoj voĉlegataj.

La signifo de la nocio grafemo konsiderinde varias depende je tio, ĉu oni difinas la «skribosistemon» plate-sintakse aŭ profunde-semantike:

  1. Difino surfaca (plata): Sortimento da devige distingeblaj skribsignoj.
  2. Difino profunda (signifa, valorhava, volumena): La sama sortimento, plus la legoreguloj (la rilato inter la grafemoj kaj la fonemoj).

La grafemo plata

Evidente, Bodueno kreis la terminon grafemo laŭ la modelo

«Xemo : aloXo», precipe «fonemo : alofono»;
do, «grafemo : alografo».

Ripetante la fonologian rezonadon, oni povas pruvi, ke ‹b› kaj ‹d› estas malsamaj grafemoj, ĉar «bono» estas alia vorto ol «dono». Aliflanke, la malsamtiparaj ‹g›, ‹l› kaj respektive ‹g›, ‹l›, estas alografoj — ja «aglo» kaj «aglo» estas unu sama vorto.

En tia uzo la lingvoscienca «grafemo» estas sinonimo de la programista «signo» (angle character); la kontrasta termino estas «signobildo» (angle glyph, ruse-tradicie начертание2); la fonetika analogio estas do

fonemo : parolsono = {grafemo|signo} : signobildo

Ĉi-sube la terminojn grafemo (en ties plata, «sintaksa» signifo) kaj signo (en la signifo de la komputoscienca “character”) mi uzos sinonime.

Ortografio kaj kaligrafio

Alia maniero esprimi la diferencon inter signo (grafemo) kaj signobildo estas paroli pri ortografio (kiu temas pri la signoj) kaj kaligrafio (kiu temas pri signobildoj). Signo estas unuo teksta; signobildo estas unuo kaligrafia.

Grafemoj formas finian aron da klare distingataj elementoj; signobildoj estas kontinuumaj (ℝ², ℵ1), oni povas fari diversajn transformojn geometriajn, variante la formon, la oblikvecon, la dikecon ktp. (Tute analogie al la rilato inter la fonemoj kaj la parolsonoj.)

Kiam instruisto kontrolas diktaĵon3, li komparas la presitan tekston diktitan kun la manskribaĵo de lernanto. Tiuj du tekstoj povas havi neniom da komunaj signobildoj; sed ideale la signoj devas esti egalaj (kio ne signifas, ke ili estu identaj). Cetere, imageblas problemoj kaligrafiaj: la lernanto povas insisti, ke signobildo kiun la instruisto mislegis kiel «o» estas ne tute klare skribita «a»; sed malprobablas ke la lernanto kontestos, kiu signo estas konvena en la koncerna loko.

Similajn «kaligrafiajn» problemojn prezentas multaj tiparoj, kiuj nesufiĉe klare kontrastigas la literojn l, I, O kontraŭ la ciferoj 1, O.

Krom la ciferoj, ankaŭ la signoj interpunkciaj rolas en la diktaĵo, kaj estas traktendaj estkiel grafemoj. Tia estas ankaŭ la programista vidpunkto: la signoj interpunkciaj aperas en la normaj signaroj, komencante per la minimuma Askio.

Literoj

Alia leciono lernenda el la diktaĵa ekzemplo koncernas la usklecon. Kvankam historie la diferencigo de la uskloj estiĝis el kaligrafio, nun ilian uzon regulas ortografio. Troa uzo aŭ neuzo de majusklo en «zamenhofo» aŭ komence de frazo estas ortografia eraro; «esperanto» kaj «Esperanto», «revo» kaj «ReVo» estas malsamaj vortoj.

Ni jam vidis, ke NPIV rigardas «A» kaj «a» kiel alografojn. Nemalmultaj lingvistoj same opinias. Tian konfuzon evidente motivas la strebo izomorfigi la grafemaron kaj la fonemaron (ĉe la «semantika» difino de la grafemoj, kion ni ekzamenos poste). Tamen tiu simplisma koncepto rompas la logikon de paralela difino per «minimumaj paroj»; kaj krome, rezultas ke ortografio regulas uzon de alografoj, kio malakordas kun la koncepto ke la ortografio traktas la esencaĵojn (alivorte, afero ortografia iĝas afero kaligrafia).

Evidente, en komputado ni aliĝas al tiuj lingvistoj, kiuj vidas en «A» kaj «a» malsamajn grafemojn (en Askio 'A' = 65, 'a' = 97, ili do estas malsamaj signoj).

Tamen estas vera, ke la rilato inter «A» kaj «a» estas pli speciala, ol la rilato inter «a» kaj «b». En iuj pozicioj (frazkomence) «A» kaj «a» povas alterni; en iuj formoj (tutmajusklaj) ilia diferenco povas neŭtraliĝi. Alivorte, en Esperanto estas 56 grafemoj kiujn oni povas rigardi kiel 28 literojn. Literoj kaj grafemoj estas du malsamaj nocioj.

La apartigo de la literoj estas ŝuldata ne sole al la uskleco; ankaŭ por la skriboj senusklaj sencas apartigi la subklasojn «literoj»,
«ciferoj», «signoj interpunkciaj». Uskleco estas speciala, sed ne sola, apartaĵo de la literoj.

Limoj de la koncepto plata

Ĉe la plata koncepto de skribosistemo la difino de signoj kaj signobildoj estas afero apriora-konvencia. Por kelkaj skriboj, ekz‑e por la presitaj tekstoj en novlatina alfabeto, oni povus provi izoli signobildojn kiel koneksajn desegnaĵojn; tamen tiam oni devus vidi en i kaj j po du signobildojn: la malsupran bazon kaj la superan punkton. En Esperanto al tio aldoniĝas la literoj ĉ, ĝ, ĥ, ĵ, ŝ, ŭ – ankaŭ ili ne estas koneksaj. Ne estas koneksaj kelkaj signoj interpunkciaj: ! ? ; : …

Aliflanke, en manskribo oni ofte ligas najbarajn literojn de unu sama vorto, kaj kelkaj tiaj ligaĵoj penetris eĉ la presarton:
ae → æ, oe → œ, fi → fi (simile pri ff fl ffi ffl st …).

Kaj iujn kromsignojn oni skribas konekse al la baza signo: ç, ş, ą, ę, ł, ø, ħ …

Fakte en diversaj skribosistemoj sencas diversaj interpretoj. Por Esperanto konvenas rigardi ĉ kiel unu signon; same pri æ en IFA; sed en sciencaj notacioj tute konvenas rigardi la simbolojn x̅, y̅, z̅ kiel analizeblajn signokombinojn (ekz‑e «la konjugitoj de x, y, z»). Praktike oportunas (kvankam teorie eble riproĉindas) la fonetikista uzo de kromsignoj por marki molecon aŭ nazigon aŭ (mal)longecon aŭ akcentojn (kiel en la greka, hispana, itala).

La ĝusta klasado de la signobildoj kaj signoj dependas do je la interpreto; ĉe la plata traktado oni devas ĝin akcepti kiel eksteran decidon. En komputado tian decidon por ĉiu specifa skribosistemo oni esprimas per «lokaĵaro», pli ĝuste, per ties parto LC_COLLATE, priskribanta leksikografian ordon, propran al koncerna lingvo. Por usonano ŝ estas iel modifita s, do io klasenda inter la aperoj de s; por esperantisto ŝ estas tute aparta litero:

$ echo -e "sumo\nŝafo\nsako" | LC_COLLATE=en_US.UTF-8 sort
ŝafo
sako
sumo
$ echo -e "sumo\nŝafo\nsako" | LC_COLLATE=eo.UTF-8 sort
sako
sumo
ŝafo
$

Tial en principe plata signaro, kia ekz‑e estas Unikodo – signaro superlingva, kiu celas ĉiujn lingvojn ĝenerale, kaj sekve neniun specife – tian decidon oni fari ne povas. Sekve en Unikodo oni akceptas ambaŭ variantojn:

  • Oni akceptas la literojn ĉ, ĝ, ĥ, ĵ, ŝ, ŭ kiel simplajn signojn integrajn4 (kun la signonumeroj Ĉ=264, Ĝ=284, Ĥ=292, Ĵ=308, Ŝ=348, Ŭ=364, ĉ=265, ĝ=285, ĥ=293, ĵ=309, ŝ=349, ŭ=365).
  • Oni povas uzi la kombinojn de la baza litero (C, c, G, g, … U, u) kun aliĝema signo5 « ̂» (la signonumero 770=0x302) aŭ respektive « ̆» (la signonumero 774=0x306).

Tiuj du manieroj prezenti signon (= grafemon) estas ekvivalentaj en Unikodo, t.e. la koncernaj signoĉenoj devas esti same vidigataj, la aplikaj programoj devas same trakti ilin ĉe ordigo aŭ serĉo, kaj praktike ili devas esti interŝanĝeblaj.

Certagrade tia ekvivalento estas realigita en modernaj programoj, kiaj la retumiloj aŭ linuksaj konzoloj. Kp:


$ echo "ĉiuĵaŭde" | od -An -c
  304 211 i u 304 265 a 305 255 d e \n
$ echo "ĉiuĵaŭde" | od -An -c
  c 314 202 i u j 314 202 a u 314 206 d e \n
$

Espereble via legilo vidigas la ĉi-suprajn aperojn de "ĉiuĵaŭde" idente; tamen interne ili estas malsamaj: la unua uzas signojn integrajn (ekz‑e la okumaj bajtvaloroj 0304 kaj 0211 prezentas la simplan signokodon 265 en UTF-8); dum por la dua ni vidas 2 aperojn de la bajtvaloroj 0314 0202, respondaj al la signonumero 770 (aliĝema ĉapelo) kaj unu aperon de 0314 0206, respondan al la signonumero 774 (la bovlo de ŭ).

Atentindas, ke la ĉapelo ne estas simple metita super la signobildon de j; fakte, ties superpunkto estas forprenita, kaj la ĉapelo estas metita super la trunkon, tiel ke ni vidas la saman ĵ, kiel ĉe la prezento de la signo integra.

La grafemo legebla

La novlatina alfabeto estas fenomeno nenormala, ĉar ĝi estas komuna bazo de multaj skribosistemoj inter si malkoheraj; sed en normala situacio (kia estis interalie tiu de la latina alfabeto rilate al la lingvo latina) la skribosistemo havas interpreton de siaj signoj. La novlatinaj literoj akiras sencon nur kadre de specifa skribosistemo de specifa lingvo.

Plej evidente tia interpreto povas esti sona; ideale al ĉiu litero devas respondi unu, kaj nur unu, parolsono (pli ĝuste, fonemo). Esperanto tre proksimas al tiu idealo, kaj ni jam vidis, ke NPIV oferas la funkcian difinon de grafemo al izomorfeco kun la fonologia sistemo.

Tia izomorfisma koncepto iel povas funkcii por regula lingvo kiel Esperanto; sed ĝi plene fiaskas por la malsimplaj skribosistemoj, kiaj la angla aŭ la franca. Interalie, laŭ tia koncepto la francajn i kaj y oni probable devus trakti kiel alografojn, kio estus tute netradicia konkludo.

Pli prudenta koncepto estas allasi la ekziston de grafemoj samsonaj6.

Grafemoj plurliteraj

Ĉe la sonvalora interpreto de grafemoj ni nature devas rigardi la ĉapelitajn literojn de Esperanto kiel integrajn signojn, ne malpli integrajn, ol la signoj i kaj j. Alivorte, en

Eĥoŝanĝo ĉiuĵaŭde

estas 17 grafemoj (kun la spaceto). En la senĉapela varianto egale eblas skribi

E‹hh›o‹sh›an‹gh›o ‹ch›iu‹jh›‹au›de

Nu, se ‹ĝ› kaj ‹ŝ› estas grafemoj, tiam ankaŭ ‹gh› ‹sh› logike devas esti grafemoj. Tiom pli, ke la sonvaloro de ‹gh› estas ne /gh/ (malkiel en «flu‹g›‹h›aveno»), kaj la sonvaloro de ‹sh› ne estas /sh/ (malkiel en «bu‹s›‹h›altejo»). Necesas agnoski, ke en la surogata skribo fundamenta ‹g›, ‹gh›, ‹h›, ‹s›, ‹sh› estas apartaj grafemoj, respondaj al apartaj fonemoj /ɡ/, /ʤ/, /h/, /s/, /ʃ/.

Por eviti ambiguecon de la h-skribo oni rekomendas enŝovi streketon okaze de negrafema literkombino: flug-haveno ktp. Cetere, la skribo angla tiajn ambiguaĵojn ignoras: Holinshed [ˈhɒlɪnzhɛd] ktp.


Ekskurso pri la esperantaj grafemoj ‹aŭ› kaj ‹eŭ›

La Fundamento permesas anstataŭigi la ĉapelon ^ per h (ĉ = ch); sed la literon ŭ ĝi permesas anstataŭigi per la nura u. Tio povas iel funkcii en la literkombinoj kaj (autoro = aŭtoro, Europo =
Eŭropo); kaj ĝis nun en la vortoj oficialaj la literon ŭ ĉiam antaŭas ae (la sola escepto estas la liternomo ŭo). Tio signifas, ke praktike Zamenhofo pensis pri la aperoj de ŭ nur en la duliteraĵoj kaj , kiuj iĝus, respektive, grafemoj ‹au› kaj ‹eu› (kun kelkaj esceptoj, kiaj pra-ulo kaj poste-ulo, kompareblaj al flug-haveno). En tio mi vidas argumenton favoran al mia teorio8, ke ŭ ne signas apartan fonemon en Esperanto, ke ĝi estas nur parto de duliteraj grafemoj ‹aŭ› kaj ‹eŭ›, signantaj la diftongajn fonemojn /aŭ/ kaj /eŭ/. Tio signifas, ke la esperanta skribo ne estas strikte fonologia (unu litero, ŭ, signas nefoneman parolsonon; kaj du fonemojn, /aŭ/ kaj /eŭ/, reprezentas duliteraj grafemoj).

Kompleksaj grafemoj en aliaj lingvoj

Averaĝa lingvo havas pli ol 26 fonemojn, kaj la 26 literoj de la novlatina alfabeto ne sufiĉas por esprimi fonemaron de plimulto da latinalfabetaj lingvoj. Tial ili bezonas kompleksajn grafemojn, similajn al la surogatoj de la ĉapelitaj literoj de Esperanto.

Kompleksa grafemo estas literkombino kies sonvaloro ne egalas al kombino de la sonvaloroj de la literoj kiuj ĝin komponas: ekz‑e la germana sch /ʃ/, la franca eau /o/, la angla th, la pola cz /ʧ/ ktp.

Jen estas kelkaj anglaj duliteraj grafemoj, kiuj kompensas la mankon de konsonantaj literoj:

/θ/ = th; /ð/ = th; /ʃ/ = sh; /ʧ/ = ch; /ŋ/ = ng; /ʍ/ = wh

Estas trompo laŭdi la anglan skribon pro ties minimumismo, ke «ĝi uzas nur 26 literojn»; pli ĝusta karakterizo estas, ke ĝi uzas 144 grafemojn. (En komputilo ĉiuj datumoj estas prezentataj eĉ pli minimumisme, per la nuraj bitoj 0 kaj 1.)

Cetere, grafemo povas esprimi kombinojn de fonemoj; ekz‑e x en la angla sex, samkiel chs en la germana se‹chs›, esprimas la kombinon /ks/.

Reguloj grafemaj kaj ortografiaj

La angla lingvo havas proksimume 48 fonemojn (la nombro varias laŭ dialektoj kaj klasifikaj principoj); la angla alfabeto havas 26 literojn, kio malebligas uzi po unu literon por ĉiu fonemo; tial reale la angla skribosistemo uzas 144 grafemojn (26 unuliteraĵoj + 118 plurliteraĵoj); sekve, multaj fonemoj havas plurajn reprezentaĵojn. Ekz‑e /f/ = {f | ff | ph | gh} (fine, stuff, physics, enough).

L. V. Ŝĉerba, laŭ la maniero de Bodueno, distingis «regulojn grafemajn» (правила графики) kaj «regulojn ortografiajn»8. Por la germana skribo la unuaj indikas, ekz‑e, ke ‹aa› kaj ‹ah› ambaŭ signifas /a:/; kaj la duaj postulas, ke en la vorto Aal (angilo) aperu ‹aa›, dum en kahl (kalva) aperu ‹ah›. L. V. Ŝĉerba ilustras tion per ekzemplo (p. 149) pri la germana (eblus same fari pri la angla aŭ franca, sed ties skribsistemoj estas multe pli redundaj, kaj la ekzemploj estus ege pli ŝvelaj):

{Ess | Äss} {scheint | schaint} {jedoch | jehdoch | jeedoch}, dass {er | ehr} {seinen | sainen} {drei | drai} Kindern {seine | saine} {Kleinodienn | Klainohdienn | Klainoodienn}, dass Schwert, dass Horn unt {den | deen | dehn} Ring {zurückließ | zuhrückließ | zuurückließ | zurückliß}.

En la germana ortografio (kiu validis dum la vivo de Ŝĉerba) tio estis:

Es scheint jedoch, daß er seinen drei Kindern seine Kleinodien, das Schwert, das Horn und den Ring zuhrückließ. – Heine.

(La nuna ortografio en unu okazo akceptis la «naivan» skribon dass.)

En iuj vortoj reguloj ortografiaj povas kolizii kaj superregi regulojn grafemajn. Ekz‑e en la franca vorto monsieur /məsjø/
(sinjoro) la ortografio preskribas uzi la grafemon ‹on›, kies grafema sonvaloro normale ne estas /ə/; kelkaj el la konjugaciaj formoj de plimulto da francaj verboj finiĝas je kaduka -ent /ə/ (ils parlent, parlaient, parleraient, parlassent), kio egale estas atribuenda al ortografio. Kp la anglan gaol /ʤeɪl/ = jail ktp.

Ĉi-rilate Ŝĉerba parolas pri eventuala lingvo «sen ortografio», kies ĉiuj reguloj estas «grafemaj»; nu, Esperanto ja estas preskaŭ tia lingvo (preskaŭ tia, ĉar la uskleco kaj interpunkcio ja restas aferoj ortografiaj).

Trajteca skribo

Krom la grafemoj sonvaloraj ekzistas signoj kun alispecaj signifoj. Apartajn grupojn formas la signoj interpunkciaj, la ciferoj, la miensimboloj; tamen por ne tro devii disde la prononcaj kaj alfabetaj aferoj, mi nun parolos pri tiaj signokonstruaj skribelementoj, kiuj esprimas ecojn fonetikajn.

La historio de la supersignoj en la eŭropa tradicio komenciĝas per la malnovgrekaj akcentosignoj ` ´ ^ (~), kiuj markis ne fonemajn, sed suprasegmentajn ecojn, kaj sekve ne rolis en la alfabeta ordo. Ili markis apartan econ, havis klaran apartan signifon, kaj sekve konvenas rigardi ilin apartaj grafemoj.

Simile estas pri la klasika tremao, kies funkcio estis disigi literojn, kiujn oni erare povus kombini en unu grafemon: poeta = poëta ≠ pœta, p‹oe›ta; do, la klasika funkcio de tremao estas la sama, kiel tiu de la divida streketo en flug-haveno.

Tiu logiko plu validas por la hispana, kie la dekstra korno markas akcenton, kaj la tremao avertas pri malkombineblo.

Iom malpli simple estas en la ĉeĥa (kaj la slovaka, la hungara…): tie la dekstra korno markas longecon de vokalo: drahá /’draɦa:/ (kara) – dráha /’dra:ɦa/ (vojo). Fakte ĉi tie ‹á› kaj ‹a› signas malsamajn fonemojn; tamen la dekstra korno konsekvence markas unu saman fonetikan econ: ke la vokaloj ‹á›, ‹é›, ‹í›, ‹ó›, ‹ú›, ‹ý› estas longaj; do, egale al tio, kiel la signo « : » en IFA kombiniĝas en la respondaj fonemaj grafemoj /a:/, /ɛ:/, /i:/….

La skribosistemojn kies grafemojn oni konstruas el signeroj, markantaj fonetikajn ecojn, oni nomas trajtecaj (angle featural alphabet). La longecindikoj en la skriboj ĉeĥa, hungara, IFA estas trajtecaj.

Aliflanke, la esperantaj ĉapeloj de ĉ, ĝ, ĥ, ĵ, ŝ ne interpreteblas kiel ia ajn trajto fonetika; tial en Esperanto neniel sencas malkomponi tiujn grafemojn en la literon bazan kaj supersignon (tio jes sencas kiam temas pri tipografia dizajno; sed tio estas afero ekstera; same oni devas trakti la signobildojn de dbqp, kiuj havas unu saman formon diversmaniere turnitan; cetere, en la ŝava alfabeto tiaj turnoj havas signifon fonetikan, do tie ili estas trajtecaj).

La bovlon de la esperanta ŭ evidente inspiris trajteca supersigno, kiel tiu de la latinista skribo ínsŭla (kvankam en tiu latinista skribo ŭ estas plena silabofara vokalo, ne duonvokalo; la diftongojn latinistoj preferas signi per kuniga arko: a͡udio, esence kiel IFA-a a͜udio kaj nia ‹au›dio; tial la rusa й probable estas pli taŭga modelo). En Esperanto tia supersigno aperas nur en unu signobildo, kio apenaŭ sufiĉus por paroli pri sistemo; aliflanke, en la fundamenta h-skribo ŭ identiĝas kun u. Tio tamen eksplikeblas per la implicitaj grafemoj ‹aŭ›, ‹eŭ›.

Leksikografia ordo

Sekve de la dirita, la esperantaj grafemoj ĉapelitaj estas apartaj literoj, kaj tio influas la leksikografian ordon, kiel mi jam demonstris ĉi-supre; la ĉeĥa tradicio simile traktas siajn č, ř, š, ž. Tamen la dekstra korno apartajn literojn ne kreas, kiel mi eksplikis ĉi-supre (kaj ankoraŭ pli frape, la moliga hoketo de Ď, Ň, Ť, klare fonetika, kondutas simile al Á, do malkiel Č). Eĉ pli interese, la duliteraĵo ch (kiu en la ĉeĥa havas la sonvaloron de ĥ, do signas puran apartan fonemon, neredukteblan al sumo de la valoroj de c /ʦ/ kaj h /ɦ/) prezentas apartan grafemon, leksikografie lokitan inter h kaj i. Tial la interpretitaj grafemoj en la ĉeĥa ordo aranĝiĝas alie ol en la plata ordo sensenca (ekz‑e la usona):

t="čaj car egyptský cár echo carevič ej"
$ echo -e $t | tr ' ' '\n' | LC_COLLATE=cs_CZ.UTF-8 sort
car
cár
carevič
čaj
egyptský
echo
ej
$
$ echo -e $t | tr ' ' '\n' | LC_COLLATE=en_US.UTF-8 sort
čaj
car
cár
carevič
echo
egyptský
ej
$

Alfabeta loko de grafemoj

La diritan resumas la oficiala alfabeto ĉeĥa:

a b c č d e f g h ch i j k l m n o p q r ř s š t u v w x y z ž.

Krom la jam klarigitaj enesto de č ř š ž kaj foresto de á ň ktp, aparte atentindas la grafemo ch. Similajn grafemojn entenas la alfabeto hungara:

a=á, b, c, cs, d, dz, dzs, e=é, f, g, gy, h, …

Ĝis la jaro 1994ª similan sistemon havis la hispana, kun apartaj lokoj por la grafemoj ch kaj ll: credo < ‹ch›ispa < luz < ‹ll›ama. Tamen nun la hispanlingvanoj adoptis fremdan rigardon sur sian skribon; el la malnova tradicio tamen restas aparta loko por la litero ñ.

Tia grafema aranĝo de sia alfabeto apenaŭ eblus por la angla aŭ franca, ĉar la nombro de iliaj grafemoj estas tro granda – neniel komparebla kun la racia skribosistemo ĉeĥa.

Aldono

Difinoj el la Unikoda glosaro:

Abstract Character. A unit of information used for the organization, control, or representation of textual data.

Decomposable Character. A character that is equivalent to a sequence of one or more other characters, according to the decomposition mappings found in the Unicode Character Database … It may also be known as a precomposed character or a composite character.

Character.

  1. The smallest component of written language that has semantic value; refers to the abstract meaning and/or shape, rather than a specific shape (see also glyph), though in code tables some form of visual representation is essential for the reader’s understanding.
  2. Synonym for abstract character.
  3. The basic unit of encoding for the Unicode character encoding.
  4. The English name for the ideographic written elements of Chinese origin.

Grapheme.

  1. A minimally distinctive unit of writing in the context of a particular writing system. For example, ‹b› and ‹d› are distinct graphemes in English writing systems because there exist distinct words like big and dig. Conversely, a lowercase italiform letter a and a lowercase Roman letter a are not distinct graphemes because no word is distinguished on the basis of these two different forms.
  2. What a user thinks of as a character.

Notoj


1. И. А. Бодуэн де Куртенэ: Об отношении русского письма к русскому языку. СПб, 1912 (t.e. «Pri la rilato de rusa skribo al la rusa lingvo», Peterburgo, 1912).
Введение в языковедение. Петроград, 1917, §36, 40 («Enkonduko en lingvosciencon», Petrogrado 1917).
La terminon fonemo Bodueno kreis pli frue, ĉ. 1887 – vd en mia studaĵo «Duonvokaloj kaj diftongoj».

2. А.А. Зализняк: О понятии графемы. M. 2002.

3. Ekzemplo de A. A. Zaliznjak el la verko indikita ĉe (2).

4. signo integra: tiel mi tradukas la anglan precomposed character; kp la terminon integra cirkvito (cirkvito sintezita en monolita kristalo, kontraste al cirkvito muntita el apartaj pecoj).

5. aliĝema signo: angle combining character.

6. Pli «scienca» termino estus «homofonoj». Min ĉiam ĝenis la konfuza h de la grekdevena scienca prefikso homo-, tiom pli, ke eblas facile ĝin eviti per forigo de tiu konfuza h, kiu mutiĝis jam antaŭ jarmiloj, kaj malaperis en iuj nacilingvoj:
itale omonimo, omofono, omografo …
ruse-bulgare омоним, омофон, омограф …
novgreke: ομώνυμο, ομόφωνο, ομοιογράφο …
Mi estis tajponta grafemoj omofonaj – tamen juĝis ke la pli simpla grafemoj samsonaj estas ankoraŭ pli bona.

7. S. Pokrovskij: Duonvokaloj kaj diftongoj.

8. Л. В. Щерба: Теория русского письма. – В: Л. В. Щерба: Избранные работы по русскому языку. М. 1957.