OrdenagailuakProgramazioa

UTF-8 - karaktere kodetze

Unicode ia existitzen den karaktere onartzen. Unicode karaktere-kodeketa forma onena UTF-8 kodeketa da. ASCII bateragarritasun, erresistentzia onartzen ditu datuak, eraginkortasuna eta prozesatzeko erraztasuna desitxuratzea da. Baina lehen behar da lehenengo.

programazioan inprimakia

Ordenagailuak funtzionatu objektu bakarra bezala zenbakiak abstraktu matematiko, baita biltegiratze unitateak konbinazio eta manipulazio finko tamainako datuak - byte eta 32-bit hitzak. Encoding arau hori hartu behar da kontuan denean nola aurkeztea zehazteko karaktere kopurua.

sistema informatikoak ere, osokoak, memoria 8 bit (1 byte), 16 edo 32 bit zelulak gordetzen. Formulario bakoitzak Unicode kodeketa bat, zein memoria zelulak sekuentzia sinbolo jakin bati dagokion zenbaki oso bat da definitzen. estandarra hiru Unicode karaktere kodeketa 8, 16 eta 32-bit bloke forma desberdinak dira. Ondorioz, UTF-8, UTF-16 eta UTF-32 bezala ezagutzen. Izena UTF for Unicode Eraldaketa Formatu dago. Hiru kodetzean bitarteko formak bakoitzak berdinak ordezkaritza Unicode karaktere hainbat aplikazioetan abantailak ditu.

Datuak enkriptatze Unicode estandarra karaktere guztiak irudikatzeko erabil daiteke. Horrela, guztiz irtenbide bateragarriak dira arrazoi ezberdinen arabera, kode forma ezberdinak erabiliz. kodetze bakoitzak ahal argian egon beste biak edozein bihurtuta datuak galdu gabe.

nenalozheniya printzipio

forma Unicode kodeketa bakoitzak ez gainjartzea partziala ikusirik garatu. Adibidez, Windows-932 bat edo bi kode byte pertsonaiak osatzen. Sekuentzia luzera lehen byte araberakoa da, beraz, liderra byte bi byte eta byte bakar disjuntu serie balioak. Hala ere, byte bakar baten balioa eta byte sekuentzia amaierako datoz daitezke. Hau adibidez, esan nahi du pertsonaia bilaketa D (kodea: 44), hori aurkitu ahal izango bi byte pertsonaia "D" sekuentzia bigarren zatia sartu nahigabe hura sartuz (kodea 84 44). jakiteko zein sekuentzia zuzena, programaren aurreko byte kontuan hartu behar.

Egoera zaila da, eta liderra amaierako byte partida bada. Horrek esan ahal izateko anbiguotasuna kentzeko testua edo kode sekuentzia berezia hasieran iritsi aurretik alderantzizko bilaketa bat izango da. Hau ez da bakarrik eraginkorra da, baina ez da posible akatsik babestuta, testu osoa byte oker bat bakarrik ditu irakurtezina bihurtu zenetik.

Formatu bihurtze Unicode arazo hau saihesten du liderra, amaierako balioa, eta biltegiratze-unitate bakar bat ez dauden informazio bera delako. Honek bermatzen Unicode guztiek bilatzen eta konparatzeko, inoiz emaitzak okerrak direla eta karaktere zati desberdinak kasualitatea emanez. Izan ere, programazioan forma horiek behatzeko printzipio nenalozheniya, bereizten beste East Asian multi-byte kodeketak from.

nonintersection alderdi bat Unicode kodeketak da pertsonaia bakoitzak argi eta garbi definitu mugatik dauka. Hau beharrezkoa da aurreko sinboloak kopuru mugagabea eskaneatu kanporatzea. Ezaugarri honek batzuetan izeneko auto-clocking kodeketa. kodea unitateen Distortion pertsonaia bat bakarrik distortsio bat aurkeztuko dute, eta inguruko pertsonaiak oraindik oso-osorik. 8-bit formatuan bihurtzeko ere, erakuslea byte, 10xxxxxx hasita (kodea bitarrean) puntu ikurra hasieran bat eta hiru alderantzizko trantsizio behar da aurkitu bada.

koherentzia

Unicode Partzuergoa 3 kodeketak forma guztiak erabat onartzen du. Garrantzitsua da UTF-8 Unicode, bihurtzeko formatu guztiak bezala aurka - berdin baliozko Unicode karaktere-kodeketa estandarra isla forma.

Byte-orientazio

UTF-32 karaktere irudikatzeko 32 bit-eko kodea unitatea, Unicode kode bat dator beharko du. UTF-16 - bi 16-bit unitate bat. UTF-8 A erabiltzen du 4 byte da.

UTF-8 kodeketa diseinatuta dago byte bideratutako ASCII oinarritutako sistemak bateragarriak izan. Dagoen softwarea eta informazio teknologia praktikan denbora luzez gehienak pertsonaiak ordezkaritza bermea byte sekuentzia batean. protokoloak anitza konstantzia araberakoa ASCII kodeketa eta erabiltzen du, bai kontrol bereziak pertsonaiak saihesten du. modu sinple bat egoeretan Unicode ahal egokitzeko, 8-bit kodeketa erabiliko Unicode karaktere, edozein baliokide ASCII karaktere edo kontrol pertsonaia bat ordezkari da. Horretarako, eta UTF-8 kodeketa da.

luzera aldakorreko

UTF-8 - luzera aldakorreko programazioan, 8-bit biltegiratze unitateak osatua, goiko bit bertan adieraziko zein zati den banakako byte bakoitza sekuentzia dagokio. kodea sekuentzia lehen elementua emandako balio-sorta bat, beste - hurrengoan da. Hau disjointness kodeketa ematen du.

ASCII

UTF-8 kodeketa guztiz onartzen da ASCII kode (0x00-0x7F). Horrek esan nahi Unicode karaktereak U + 0000-U + 007F byte bakar 0x00-0x7F UTF-8 bihurtu dira eta, beraz, bihurtu ASCII indistinguishable. Gainera, anbiguotasuna saihesteko, balioa 0x00-0x7F ez erabili gehiago byte Unicode karaktere irudikapen bakar batean. kodetzeko ikurrak neideograficheskih beste ASCII baino bi byte sekuentzia bat erabiliz. Ikurrak bitartekoa U + 0800-U + FFFF hiru byte adierazten dira, eta U + FFFF baino gehiagorekin kode osagarriak lau byte behar.

aplikazio-eremuan

UTF-8 kodeketa normalean ematen da HTML protokoloa lehentasuna, eta antzekoak.

XML UTF-8 kodeketa laguntza osoa lehen estandarra bihurtu da. Arauak erakundeek ere gomendatzen da. Laguntzarako arazoa URL helbide hori da ASCII-karaktere ezberdina, pronto denean partzuergo W3C eta IETF ingeniaritza taldeko guztien kodetze buruzko akordio batetara iritsi URL helbideak UTF-8 soilik.

ASCII bateragarria software berriaren trantsizioa errazten. With UTF-8 lanik testu editoreak, JEdit, Emacs, BBEdit, Eclipse, eta "Notepad" Windows sistema eragilearen barne. Ez dago beste kodeketa Unicode forma ezin esaterako tresnaren laguntza bat harro.

Abantaila programazioan dago osatuta dagoela byte sekuentzia bat. UTF-8 kate batekin erraza da C eta beste programazio hizkuntzetan lan egiteko. Hau kodeketa forma bakarra da, ordena ez du etiketarik behar byte BOM edo kodeketa XML deklarazio bat.

Auto-sinkronizazioa

8-bit ikurrak egunero erabiltzen tratamenduaren aldean beste multi-byte pertsonaia multzo ingurune batean, UTF-8 abantaila hauek ditu:

  • Lehenengo byte kodea sekuentzia bere luzera buruzko informazioa du. Hau zuzeneko bilaketa eraginkortasuna handitzen.
  • Sinplifikatu ikurra hasieran aurkitzeko hasierako byte balio-sorta finko bat mugatuta dago eta.
  • Ez dago elkargunean byte balioak.

Alderatu onurak

UTF-8 kodeketa trinkoa da. Baina East Asian pertsonaiak kodetzeko erabiliko (Txinako, Japoniako, Korean, seinaleak erabiliz txinatar idazkera) erabilitako 3-byte sekuentziak. Era UTF-8 kodeketa beste prozesatzeko abiadura programazioan forma apalagoa da. A binary sailkatzeko lerroak emaitza bera bitarraren Unicode sailkatzeko gisa ekoizten.

karaktere-kodeketa eskema

karaktere-kodeketa eskema kodeketa ikurrak forma eta byte bakar kokapena kodea unitateen metodoa osatzen dute. kodeketa eskema Unicode estandarra hasierako byte ordena marka (BOM, Byte ordena marka) erabilera ematen duen zehazteko.

Noiz UTF-8 Ezaugarri etiketan BOM da mugatzen soilik erreferentzia programazioan forma erabiltzea da. the endian UTF-8 zehazteko arazoak izan, bere kodeketa unitate tamaina byte bat. BOM erabiliz kodetze forma horretarako da ez beharrezkoa ezta gomendatzen. BOM daiteke testuan gertatzen kodetzeko byte ordena marka edo sinadura erabilita UTF-8 kodeketan batetik bihurtu. 3 byte EF BB 16 16 BF 16 sekuentzia bat da.

Nola UTF-8 kodeketa ezartzeko

The HTML kodeketa UTF-8 kode hau instalatzen da:

burua

Meta http-equiv = "Content-Type" content = "text / html; charset = utf-8" ˃

PHP UTF-8 kodeketa irteera mailan balio error ezartzeko ondoren goiburua () funtzioak fitxategia hasieran erabiliz ezartzen da:

˂? Php

error_reporting (-1);

goiburua ( "Content-Type: text / html; charset = utf-8 ');

To MySQL datu base bat UTF-8 kodeketa ezartzen da konektatu:

˂? Php

mysql_set_charset ( 'utf8');

CSS-fitxategia kodeketa UTF-8 karaktere honela zehazten da:

@charset "utf-8";

Noiz gordetzeko aukera mota guztietako fitxategiak aukeratu UTF-8 kodeketa BOM gabe, bestela gunean ez du funtzionatzen. Horretarako DreamWeave behar du menuko "Aldaketak Izenburua / Encoding - - Page Ezaugarriak" hautatzeko kodeketa aldatzeko UTF-8. Ondorengoa orria berritu arabera, kendu from "Connect Unicode sinadura (BOM)» marka eta aldaketak aplikatzeko. orri batean edo datu base batean edozein testu sartu zen bada kodetze beste modu bat da, beharrezkoa da berriro sartu edo berriro kodetzen. Noiz adierazpen erregular batekin lan egiten baduzu, ziurtatu aldatzailea erabili u.

halaber, UTF-8 kodeketa fitxategia gorde dezakezu "Notepad" Windows-en ere. menu elementua hautatu ondoren "Fitxategia - Gorde honela ..." beharrezkoa kodeketa forma instalatu eta UTF-8 fitxategia gorde.

testu editore Notepad a ++, ezarri UTF-8 baino beste badu, menu elementua bidez In "UTF-8 bihurtu BOM gabe» izaera aldatu eta UTF-8 gorde.

ez alternatiba ez da

globalizazioa, non mugak politiko eta linguistiko ezabatu diren testuinguruan, pertsonaia multzo tokiko ezaugarriak izango, erabilera gutxi dira. Unicode lokalizazioak guztiak onartzen duen batek karaktere bakar bat da. UTF-8 A - Unicode behar bezala ezartzeko, hau da, adibide bat:

  • tresnak, ASCII kodeketa bateragarritasuna barne sorta zabala onartzen da;
  • distortsio datuen aurrean erresistentzia da;
  • sinple eta tratamendua eraginkorra;
  • plataforma independentea da.

UTF-8 debate zer forma kodeketa edo karaktere baten ingurukoa da hobea etorrerak, zentzugabeak bihurtzen da.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 eu.birmiss.com. Theme powered by WordPress.