Rovina (Unicode)
Rovina (anglicky plane ) v štandarde Unicode je spojitá skupina 65536 ( = 2 16 ) kódových bodov, ktoré sa líšia iba v najnižších 16 bitoch . Unicode predpokladá použitie najviac 17 rovín identifikovaných číslami 0 až 16 desiatkovo, ktoré zodpovedajú hodnotám 00–10 šestnástkovo prvých dvoch číslic v šesťcifernom zápise hodnoty kódového bodu ( U+ hh hhhh ). Prvá rovina (s číslom 0) sa nazýva základná viacjazyčná rovina, BMP ( anglicky Basic Multilingual Plane ), ďalšie roviny (1–16) sa nazývajú „doplnkové“ ( anglicky supplementary planes ), [1] alebo úsmevne „astrálne roviny“. Unicode verzia 8.0 definuje priradenie kódových bodov patriacich do piatich polrovín.
17 rovín môže pojať 1114112 kódových bodov. Toto čudne vyzerajúce číslo (ktoré nie je mocninou 2 ) je maximálnou hodnotou, ktorú možno zobraziť pomocou kódovania UTF-16 . [2] Predpokladá sa, že 1114112 kódových bodov bude stačiť, aj keby sa objavili doposiaľ neznáme písma s desiatkami tisíc znakov; Unicode Consortium vydalo vyhlásenie, že uvedený limit nebude nikdy zmenený. [3] Kódovanie UTF-8 bolo navrhnuté pre kódovanie až 2 31 kódových bodov (32768 rovín) pôvodného ISO/IEC 10646 kódy dĺžky 1 až 6 bytov; pre 17 rovín stačí postupnosti maximálnej dĺžky 4 byty . [4]
Roviny sú ďalej rozdelené na Unicode bloky, ktoré na rozdiel od rovín nemajú pevnú veľkosť. Unicode 5.0 definuje 262 blokov s veľkosťou od 16 kódových bodov (túto veľkosť má jedenásť blokov) po 65536 kódových bodov (túto veľkosť má Doplnková oblasť pre súkromné použitie A a Doplnková oblasť pre súkromné použitie B, ktoré zaberajú celú rovinu 15 a 16). Jednotlivé bloky boli predbežne vyhradené pre všetky známe súčasné aj historické písma [5] a pokrývajú 24 percent možného priestoru kódových bodov.
Počty priradených znakov
[upraviť | upraviť zdroj]Rovina | Pridelené kódové body [1] | Priradené znaky [2] |
---|---|---|
0 BMP | 65392 | 55181 |
1 SMP | 14000 | 11833 |
2 SIP | 53424 | 53386 |
3 TIP | 16672 | 799 |
14 SSP | 368 | 337 |
15 PUA-A | 65536 | |
16 PUA-B | 65536 | |
Celkom | 264256 | 120737 |
Základná viacjazyčná rovina
[upraviť | upraviť zdroj]Základná viacjazyčná rovina, BMP (anglicky Basic Multilingual Plane ) je prvá rovina Unicode (rovina číslo 0) ktorá obsahuje znaky pre takmer všetky moderné jazyky a veľký počet symbolov . Primárnym cieľom BMP je unifikácia predchádzajúcich znakových sád a znakov pre písanie.
Prvé bloky sú predurčené pre písma používajúce latinku, ďalšie pre ostatné európske a ázijské písma. Väčšina priradených kódových bodov v BMP slúži na kódovanie čínštiny, japončiny a kórejčiny ( CJK ).
Oblasti vyšších ( U+D800–U+DBFF ) a nižších ( U+DC00–U+DFFF ) náhradných hodnôt ( anglicky High a Low Surrogate ) sú rezervované pre kódovanie znakov mimo BMP pomocou tzv. náhradných dvojíc 16 bitových kódov pozostávajúcich z jednej vyššej a jednej nižšej náhradnej hodnoty. Unicode znaky nikdy neboli ani nebudú z tohto rozsahu priradené samostatným kódovým bodom.
Blokom Unicode bolo v BMP pridelených už 65392 zo 65536 kódových bodov, pričom v nepridelených rozsahoch zostáva iba 144 kódových bodov (64 kódových bodov v rozsahu 0860 až 089F, 64 kódových bodov v rozsahu 1C80 až 1CBF a 12 kódových bodov.
BMP 8.0 obsahuje v Unicode celkom 160 blokov.
Doplnková viacjazyčná rovina
[upraviť | upraviť zdroj]
Doplnková viacjazyčná rovina, SMP ( anglicky Supplementary Multilingual Plane ) má číslo 1; obsahuje historické písma ako napríklad Lineárne písmo B, Egyptské hieroglyfy a klinové písmo, ďalej historické a moderné hudobné notácie, matematické alfanumerické symboly, Emoji a iné sady piktografov, reformované pravopisy ako Shavian a Deseret a herné symboly pre hracie karty, Mahjong a domino .
V Unicode 8.0 je v SMP definovaných 93 blokov.
Doplnková ideografická rovina
[upraviť | upraviť zdroj]Doplnková ideografická rovina, SIP ( anglicky Supplementary Ideographic Plane ) je rovina číslo 2; ktorá je určená pre CJK Ideografy, väčšinou CJK zjednotené ideografy, ktoré neboli obsiahnuté v starších štandardoch znakových kódov.
V Unicode 8.0 SIP obsahuje nasledujúcich 5 blokov:
- CJK zjednotené ideografy - rozšírenie B (20000–2A6DF)
- CJK zjednotené ideografy - rozšírenie C (2A700–2B73F)
- CJK zjednotené ideografy - rozšírenie D (2B740–2B81F)
- CJK zjednotené ideografy - rozšírenie E (2B820-2CEAF)
- CJK kompatibilné ideografy - doplnok (2F800–2FA1F); nezjednotené
Nepriradené roviny
[upraviť | upraviť zdroj]Roviny 3 až 13: týmto rovinám zatiaľ neboli priradené žiadne znaky. Rovina 3 je predbežne pomenovaná Terciárna ideografická rovina, TIP (anglicky Tertiary Ideographic Plane), ale v Unicode verzie 8.0 v nej nie sú priradené žiadne znaky.[6] Je rezervovaná pre symboly z písiem používaných v nápisoch na vešteckých kostiach, nápisoch na bronze, v malom pečatnom písme, prídavné jednotné ideografy CJK a ďalšie historické ideografické písma.[7]
Vzhľadom na nízky počet doposiaľ nepriradených písiem sa ani neočakáva, že by v dohľadnej dobe boli všetky tieto roviny použité, aj keď počet možných symbolov, ktoré by sa mohli objaviť mimo kontextu písiem, môže byť obrovský. V súčasnosti je 11 zo 17 rovín nepoužitých.
Doplnková rovina na špeciálne účely
[upraviť | upraviť zdroj]Doplnková rovina na špeciálne účely, SSP ( anglicky Supplementary Special-purpose Plane ) je rovina číslo 14 ( E šestnástkovo ) a aktuálne obsahuje negrafické znaky. Prvý blok obsahuje znaky pre jazykové menovky určené na identifikáciu jazyka, ak jazyk nemôže byť indikovaný pomocou iných protokolov (napríklad atribútom xml:lang v XML ); tieto kódy sa neodporúčajú. Ďalší blok obsahuje selektory pre výber variant rôznych glyfov pre určitý znak, pokiaľ variant nemožno určiť z kontextu.
V Unicode 8.0 SSP obsahuje nasledujúce 2 bloky:
- Tags (E0000-E007F)
- Selektory variant - doplnok (E0100–E01EF)
Oblasti na súkromné použitie
[upraviť | upraviť zdroj]Doplnková oblasť pre súkromné použitie-A a Doplnková oblasť pre súkromné použitie-B ( anglicky Supplementray Private Use Area-A and B) sú roviny 15 a 16; tieto roviny sú voľné pre priradenie znakov inými inštitúciami ako je Medzinárodná organizácia pre normalizáciu a Unicode Consortium . Vo fontoch môžu byť použité pre glyfy neobsiahnuté v Unicode, napríklad pre zliatky (ligatúry), stavebné bloky iných glyfov alebo pre glyfy, ktoré zatiaľ súčasťou Unicode nie sú. Tieto znaky budú mať obmedzenú interoperabilitu; softvér a fonty podporujúce Unicode pravdepodobne nebude podporovať priradenie znakov iných výrobcov.
Referencie
[upraviť | upraviť zdroj]Tento článok je čiastočný alebo úplný preklad článku Plane (Unicode) na anglickej Wikipédii.
- ↑ Unicode Consortium Glossary—Supplementary Planes
- ↑ Hodnota najvyšších štyroch bitov (wwww) v náhradnom páre je o jednotku menšia ako číslo Unicode roviny, tj. Unicode rovina = wwww + 1. Najvyššia hodnota, ktorú wwww môže reprezentovať je 1111binárne = Fšestnástkovo = 15desiatkovo. Rovina (15 + 1)=16 je preto najvyššia rovina, ktorú môžeme reprezentovať pomocou náhradných párov. Vďaka tomu možno náhradným párom reprezentovať kódový bod najviac 10 FFFFhex. Viď Tabuľka 3.5 „UTF-16 Bit Distribution“ v štandarde Unicode http://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
- ↑ . Dostupné online.
- ↑ Viď Tabuľka 3.6 „UTF-8 Bit Distribution“ v štandarde Unicode http://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
- ↑ Unicode roadmaps
- ↑ Unicode Data [online]. . Dostupné online.
- ↑ TIP Roadmap