Kompjuters, Teknoloġija informatika
Encoding "Unicode": karattri standard kodifikazzjoni
Kull utent tal-Internet f'attentat biex twaqqaf wieħed jew l-oħra tal-funzjoni tiegħu mill-anqas darba raw fuq l-iskrin bil-miktub b'ittri Latini il-kelma "Unicode." X'inhu dan, inti ser jitgħallmu mill-qari dan l-artikolu.
definizzjoni
Encoding "Unicode" - standard kodifikazzjoni tal-karattri. Kien propost mill-organizzazzjoni mhux għall-profitt Unicode Inc fl-1991. L-istandard hija mfassla biex iġibu flimkien l-akbar numru possibbli ta 'tipi differenti ta' karattri f'dokument. Page, li ġie stabbilit fuq il-bażi tiegħu, jista 'jkun fihom ittri u karattri minn lingwi differenti (minn Russa lejn Koreani) u sinjali matematiċi. F'dan il-każ, kollha tal-karattri fit-sett ta 'karattri huma murija mingħajr problemi.
Ir-raġunijiet għall-ħolqien ta '
Ladarba fuq żmien, ħafna qabel l-apparenza ta 'sistema waħda "Unicode" kodifikazzjoni hija magħżula fuq dawn il-preferenzi tal-awtur tad-dokument. Għal din ir-raġuni, ħafna drabi biex jaqra dokument, kien meħtieġ li jintużaw tabelli differenti. Xi kultant huwa meħtieġ li jsir diversi drabi, li tikkomplika ħafna l-ħajja tal-utent medju. Kif diġà ssemma, is-soluzzjoni għal din il-problema fl-1991 kien mistieden Unicode Inc organizzazzjoni mhux għall-profitt li joffru tip ġdid ta 'kodifikazzjoni tal-karattri. Li kienet iddisinjata biex jikkombinaw skaduti u varjetà ta 'standards. "Unicode" - kodifikazzjoni li ozvolila jiksbu l-inkonċepibbli fil-ħin: biex joħolqu għodda li tappoġġja numru kbir ta 'karattri. Ir-riżultat qabżet l-aspettattivi ħafna - kien hemm dokumenti simultanjament fihom kemm bl-Ingliż u t-test Russu, il-Latin, u espressjonijiet matematiċi.
Iżda l-ħolqien ta 'kodifikazzjoni unifikata preċeduta mill-ħtieġa li jiġu riżolti numru ta' problemi li nqalgħu minħabba l-varjetà kbira ta 'standards li diġà jeżistu dak iż-żmien. L-aktar komuni minnhom:
- kitba Elvish, jew "gibberish";
- -limitazzjonijiet tal-sett ta 'karattri;
- problema jittrasformaw kodićijiet;
- duplikazzjoni tat-tipa.
excursus storiku Żgħar
Immaġina li l-80-tarzna. Computer hardware ma jkunx hekk komuni u għandha forma differenti mil-lum. Filwaqt li kull OS huwa uniku u raffinati bżonnijiet speċifiċi kull enthusiast s. Ħtieġa għall-iskambju ta 'informazzjoni tiġi mibdula għal kollox tinħadem mill-ġdid addizzjonali. Tipprova taqra dokument li toħloq is-sistema operattiva oħra, ħafna drabi juri sett stramba ta 'karattri, u l-logħba tibda bil-kodifikazzjoni. Dan mhux dejjem tagħmel dan malajr, u xi kultant dokument neċessarju Kapaċi li tiftaħ fi żmien sitt xhur, u anke wara. Nies li spiss jiskambjaw informazzjoni, joħolqu għalihom infushom tabella ta 'konverżjoni. U mbagħad jaħdmu fuqhom jiżvela dettall interessanti: il-ħtieġa li jinħolqu minnhom f'żewġ direzzjonijiet, "mill tiegħi fil tiegħek" quddiem u lura. Jagħmlu inverżjoni banali magna computing ma tistax, għal dan fil-kolonna tal-lemin tas-sors, u ix-xellug - ir-riżultat, iżda mhux bil-maqlub. Jekk tara l-ħtieġa li jintużaw xi karattri speċjali fid-dokument, dawn kellhom jiġu miżjuda l-ewwel, u mbagħad ieħor, u biex tispjega lill-imsieħeb dak li għandu bżonn jagħmlu biex dawn il-karattri ma jsirux "gibberish." U ejja ma ninsewx li għal kull kodifikazzjoni kellhom jiżviluppaw jew jimplimentaw fonts tagħhom stess, li wasslu għall-ħolqien ta 'numru kbir ta' duplikati fil-OS.
Immaġina wkoll li l-fonts fuq il-paġna, inti se tara 10 biċċiet ta identika Times New Roman ma 'nota żgħira: għal UTF-8, UTF-16, ANSI, UCS-2. Issa inti tifhem li l-iżvilupp ta 'standards universali kien imperattiv?
"Il-missirijiet fundaturi tal-ħallieqa ta '"
L-oriġini tal-ħolqien ta 'Unicode li jinsabu fl-1987 meta Joe Becker minn Xerox, flimkien ma' Lee Collins u Mark Davis mill-Apple bdiet riċerka fil-qasam tal-ħolqien prattika ta 'sett ta' karattri universali. F'Awwissu 1988, Dzho Bekker ppubblikat abbozz ta 'proposta għall-ħolqien ta' sistema ta 16-bit multi-lingwali kodifikazzjoni internazzjonali.
Ftit xhur wara grupp ta 'ħidma Unicode ġiet estiża biex tinkludi Ken Whistler u Mike Kernegana minn RLG, Glenn RAYT ta Sun Microsystems u speċjalisti oħra diversi, li jippermetti t-tlestija tal-ħidma dwar il-formazzjoni preliminari ta' standard kodifikazzjoni komuni.
deskrizzjoni ġenerali
Il Unicode bbażata fuq il-kunċett tas-simbolu. Taħt din id-definizzjoni tirreferi għal fenomenu astratt li teżisti fil forma partikolari ta 'kitba u realizzati permezz ta' grapheme ( "ritratti" tagħhom). Kull karattru huwa mogħti fil- "Unicode" kodiċi uniku li jappartjenu għal standard unità partikolari. Eż grapheme B hija wkoll alfabett Ingliż u Russu, iżda tikkorrispondi għall-Unicode 2 karattri differenti. Huma suġġetti għall-konverżjoni għall zghar, t. E., Kull wieħed li jiddeskrivi d-database ewlenin, sett ta 'proprjetajiet u l-isem sħiħ.
Benefiċċji ta 'Unicode
Minn kontemporanji oħra kodifikazzjoni "Unicode" Hemm stokk tremend ta 'sinjali għall-karattri "encryption". Il-fatt li l-predeċessuri tiegħu kellhom 8 bits, li huwa appoġġjat minn 28 karattri, iżda d-disinn il-ġdid kien diġà 216 karattri, li kien pass ta 'ġgant' il quddiem. Dan jikkodifikaw ippermetta kważi l-alfabeti eżistenti u komuni.
Bil-miġja ta ' "Unicode" m'għadx għandek bżonn tuża tabella ta' konverżjoni: bħala standard uniku hija biss ixejjen il-ħtieġa għalihom. Bl-istess mod, huma jkunu mgħaddsa fis oblivion, u "gibberish" - standard wieħed magħmul minnhom impossibbli, kif ukoll regola l-ħtieġa li jinħoloq fonts duplikat.
iżvilupp ta 'Unicode
Naturalment, il-progress mhuwiex fis-seħħ, u peress li l-ewwel preżentazzjoni għaddiet għal 25 sena. Madankollu, charset "Unicode" persistentement jżomm pożizzjoni tagħha fid-dinja. F'ħafna modi dan sar possibbli grazzi għall-fatt li sar faċli biex jimplimentaw u infirex, qed iżviluppaturi ta 'proprjetarju (imħallas) u miftuħ source software rikonoxxuta.
Ma għandniex nemmnu li llum naraw l-istess kodiċi "Unicode" bħala l-kwart ta 'seklu ilu. Fil-mument, huwa kellu jiġi mibdul ma verżjoni 5.h.h, u n-numru ta 'simboli kodifikati żdied għal 231. Fuq il-possibbiltà li jintuża marġni akbar marki irrifjuta li għadu jinżamm l-appoġġ għall Unicode-16 (kodifikazzjoni, fejn l-ammont massimu ta' għadd limitat tagħhom 216). Mill-bidu tagħha u sa verżjoni 2.0.0 "L-Istandard Unicode" żied l-għadd ta 'karattri li jinkludu kważi 2 darbiet. opportunitajiet u t-tkabbir kontinwu fis-snin li ġejjin. Għal verżjoni 4.0.0 li diġà hemm bżonn li jiżdied l-istandard innifsu, u li kien sar. Bħala riżultat, "Unicode" sabet il-forma li nafuh illum.
X'iktar huwa Unicode?
Minbarra l-kbira, kontinwament aġġornati man-numru ta 'karattri, "Unicode" -Encoding informazzjoni test ieħor huwa karatteristika utli. Dan huwa l-normalizzazzjoni hekk imsejħa. Pjuttost milli iscroll permezz tal-karattru dokument kollu billi karattru, u tissostitwixxi l-ikoni tat-tabella korrispondenza, tuża waħda mill-algoritmi normalizzazzjoni eżistenti. X'inhu dan?
Minflok ħela tar-riżorsi tal-kompjuter fuq kontroll regolari tal-istess natura, li jistgħu jkunu simili fl alfabeti differenti, li jużaw algoritmu speċjali. Huwa jippermettilek li tagħmel simboli simili tabella separata kolonna Lookup u japplikaw diġà magħhom, mhux fuq u aktar mill-ġdid sabiex terġa tiġi ċċekkjata d-data kollha.
Tali algoritmi huma żviluppati u implimentati erbgħa. Kull konverżjoni ssir bl prinċipju strettament definit, differenti mill-ieħor, hekk li ssejjaħ kull wieħed minnhom mhuwiex l-aktar effiċjenti possibbli. Kull mfassla għall-bżonnijiet speċifiċi, ġiet inkorporat u użat b'suċċess.
istandard tixrid
Fil-25 sena ta 'storja kodifikazzjoni tagħha "Unicode" Irċevejt probabbilment l-aktar mifruxa fid-dinja. Taħt dan l-istandard huma aġġustati bħala programmi u web-paġni. Il-wisa 'applikazzjoni jistgħu jindikaw li Unicode issa użati minn aktar minn 60% tar-riżorsi tal-Internet.
Issa, inti taf, meta l-istandard "Unicode" deher. Dak li hi, inti wkoll taf u jkunu jistgħu japprezzaw is-sinifikat sħiħ tal-invenzjoni, magħmula minn grupp ta 'esperti Unicode Inc Aktar minn 25 sena ilu.
Similar articles
Trending Now