கணினிகள், நிரலாக்க
யுடிஎஃப் 8 - எழுத்துருக் குறியீட்டின்
யுனிகோட் கிட்டத்தட்ட அனைத்து இருக்கும் வரியுரு ஆதரிக்கிறது. யுனிகோட் பண்புருக்கள் என்கோடிங் சிறந்த வடிவம் UTF-8 குறியாக்கத்த்தைக் உள்ளது. இது தரவு, திறன் மற்றும் செயலாக்க எளிதாக விலகல் ஆஸ்கி உடையதாக, எதிர்ப்பு ஆதரிக்கிறது. முதல் ஆனால் முதல் விஷயங்கள்.
குறியீட்டு வடிவம்
பைட் மற்றும் 32-பிட் வார்த்தைகளில் - கணனிகள் சுருக்க கணிதவியல் பொருள்கூறுகள் மட்டும் போன்ற எண்கள், அத்துடன் சேமிப்பு அலகுகள் சேர்க்கைகள் மற்றும் கையாளும் மாறா அளவிலான தரவு இயங்குகின்றன. முன்வைக்க எப்படி நிர்ணயிக்கும் போது குறியீட்டு முறை நிலையான கணக்கில் எடுக்க வேண்டும் எழுத்துகளின் எண்ணிக்கை.
கணினிகளில், முழு 8 பிட்கள் (1 பைட்), 16 அல்லது 32 பிட்கள் நினைவாக செல்கள் சேமிக்கப்படும். ஒவ்வொரு வடிவம் நினைவக செல்கள் வரிசை ஒரு குறிப்பிட்ட சின்னமாக தொடர்புடைய ஒரு முழு இது ஒரு யூனிகோட் கூட்டமைப்பு வரையறுக்கிறது. தரநிலையில் யுனிகோட் எழுத்துக்கள் 8, 16 மற்றும் 32-பிட் தொகுதிகள் குறியீட்டு மூன்று வெவ்வேறு வடிவங்கள் உள்ளன. அதற்கேற்றாற்போல,, UTF-8, யுடிஎஃப் -16 மற்றும் யுடிஎஃப் 32 எனப்படுகின்றன. பெயர், UTF யுனிகோட் மாற்றம் ஃபார்மட் நிற்கிறது. என்கோடிங் வழிமுறையாக மூன்று வடிவங்களை ஒவ்வொரு சம பிரதிநிதித்துவம் யூனிகோட் எழுத்து பல்வேறு பயன்பாடுகளில் நன்மைகள் உள்ளன உள்ளது.
தரவு குறியாக்க யூனிக்கோட் ஸ்டாண்டர்டில் அனைத்து எழுத்துக்கள் பிரதிநிதித்துவம் பயன்படுத்த முடியும். இவ்வாறு, அவர்கள் அதற்குத் தீர்வு காணும் முயற்சியில் முழுமையாக ஏற்றதாக காரணங்கள் பல்வேறு, குறியீட்டு பல்வேறு வடிவங்களில் பயன்படுத்துவதற்கான ஆபத்து உள்ளது. ஒவ்வொரு குறியீட்டு தெளிவாக தரவு இழப்பு இல்லாமல் மற்ற இரண்டு எந்த மாற்றப்படலாம்.
nenalozheniya கொள்கை
வடிவங்கள் யூனிகோட் கூட்டமைப்பு ஒவ்வொரு அல்லாத பகுதி ஒன்றுடன் பார்வையில் உருவாக்கப்பட்டது. உதாரணமாக, விண்டோஸ் 932 குறியீடு ஒன்று அல்லது இரண்டு பைட்டுகள் எழுத்துக்கள் உருவாக்குகிறது. வரிசை நீளம் முதல் பைட் பொறுத்தது, எனவே இரண்டு பைட் மற்றும் ஒற்றை பைட் பொதுவற்ற தொடர் முன்னணி பைட் மதிப்புகள். எனினும், ஒரு ஒற்றை பைட் மதிப்பு மற்றும் முன்னிலை பைட் வரிசை இணைந்து இருக்கலாம். இந்த பாத்திரம் தேடல் டி (குறியீடு 44) அது தவறுதலாக இரண்டு பைட் பாத்திரம் "D" வரிசை இரண்டாவது பகுதியை நோக்கி நுழையும் காணலாம் என்று (குறியீடு 84 44) உதாரணமாக அர்த்தம். சரியாக இயங்கும் ஒரு வரிசை கண்டுபிடிக்க, திட்டத்தை முந்தைய பைட்டுகள் கணக்கில் எடுக்க வேண்டும்.
நிலைமை என்றால் முன்பான மற்றும் பின்பான பைட்டுகள் போட்டியில், சிக்கலானதாக இருக்கிறது. புரிந்து கொள்ளாத தன்மையை நீக்க பொருட்டு உரை அல்லது தனிப்பட்ட குறியீடு தொடர்வரிசையின் ஆரம்பம் அடையும் முன் ஒரு ரிவர்ஸ் லுக்அப் இருக்கும் என்று அர்த்தம். இந்த மட்டும் பயனின்றி இருக்கிறது என்பதுடன் ஆனால் முழு உரை மட்டுமே ஒரு தவறான பைட் படிக்க நிலையமாக மாறியுள்ளது சாத்தியம் தவறுகளில் இருந்து பாதுகாக்கப்படவில்லை உள்ளது.
ஏனெனில் முன்னணி, பின் மதிப்பு மற்றும் சேமிப்பு ஒரு ஒற்றை அலகு அதே தகவலை இல்லை வடிவில் மாற்றியமைத்து யுனிகோட் இந்த பிரச்சினையை தவிர்க்கிறது. இந்த ஒருபோதும் காரணமாக பாத்திரம் குறியீடு பல்வேறு பாகங்களின் தற்செயல் பிழையான முடிவுகளை கொடுத்து தேடி ஒப்பீடு, அனைத்து யுனிகோட் உறுதி செய்கிறது. குறியீட்டு இந்த வகையான கொள்கை nenalozheniya கண்காணிக்க என்ற உண்மையை, மற்ற கிழக்கு ஆசிய பல பைட் குறியீட்டு முறைகள் இருந்து அவர்களை வேறுபடுத்தி.
nonintersection மற்றொரு அம்சம் யுனிகோட் குறியீட்டு முறைகள் ஒவ்வொரு பாத்திரத்திற்கும் ஒரு தெளிவாக வரையறுக்கப்பட்ட எல்லை இருக்கிறது. இந்த முந்தைய குறியீடுகளான காலவரையற்ற எண் ஸ்கேன் அவசியத்தை நீக்குகின்றது. இந்த வசதி சிலவேளைகளில் சுய அளவிடல் குறியீட்டு அழைக்கப்படுகிறது. குறியீடு அலகுகள் விலகல் வெறும் ஒற்றை எழுத்தை மட்டுமே ஒரு விலகல் அறிமுகப்படுத்த சாத்தியமுள்ளது மற்றும் சுற்றியுள்ள எழுத்துக்கள் இன்னும் அப்படியே உள்ளன. 8-பிட் வடிவம் மனமாற்றத்தின், பைட், 10xxxxxx தொடங்கி (பைனரி குறியீடு இல்) சுட்டிக்காட்டி மதிப்பெண்கள்ன்னங்கள் தொடக்கத்தில் ஒன்று முதல் மூன்று தலைகீழ் மாற்றங்கள் தேவைப்படுகிறது கண்டுபிடிக்க என்றால்.
நிலைத்தன்மையும்
யுனிகோட் கூட்டமைப்பு முழுமையாக குறியீட்டு முறைகள் அனைத்து 3 வடிவங்களில் ஆதரிக்கிறது. யுனிகோட் எழுத்து குறியீட்டு தரத்தின் சீறும் சமமானதாக வடிவங்கள் - இது UTF-8 மற்றும் யுனிகோட், அனைத்து மாற்றம் வடிவங்களாக எதிர்க்கும் அளிக்கக் கூடாது என்பது முக்கியம்.
பைட்-நோக்குநிலை
யுடிஎஃப் 32 எழுத்துகள் பிரதிநிதித்துவம் யுனிகோட் குறியீட்டுடன் ஒத்திருக்கும் ஒரு 32-பிட் குறியீடு அலகு, வேண்டும். யுடிஎஃப் -16 - இரண்டு 16-நுண்ம அலகுகள் ஒன் செய்துள்ளீர்கள். ஒரு, UTF-8 4 பைட்டுகள் வரை பயன்படுத்துகிறது.
UTF-8 குறியாக்கத்த்தைக் பைட் சார்ந்த ஆஸ்கி சார்ந்த அமைப்புகள் உடையதாக இருக்க வடிவமைக்கப்பட்டுள்ளது. நீண்ட காலமாக இருக்கும் மென்பொருள் மற்றும் தகவல் தொழில்நுட்பம் நடைமுறையில் பெரும்பாலான பைட்டுகள் ஒரு காட்சியில் எழுத்துக்கள் பிரதிநிதித்துவம் நம்பியிருந்தனர். பல நெறிமுறைகள் ஒரே சீரான பொறுத்தது ஆஸ்கி குறியீட்டு பயன்படுத்தியதாகவும் ஒன்று சிறப்பு கட்டுப்பாட்டு பண்புருக்களுள் தவிர்க்கிறது. ஒரு எளிய வழி யுனிகோட் எழுத்துக்கள், எந்த சமமான ASCII எழுத்துகளின் அல்லது ஒரு கட்டுப்பாட்டுக் பாத்திரம் குறிக்கும் 8-பிட் கோடிங் பயன்படுத்தி, சூழ்நிலைகளில் யுனிகோட் செய்யலாம் ஏற்ப. இந்த முடிவுக்கு, அது UTF-8 குறியாக்கத்த்தைக் உள்ளது.
மாறி நீளம்
யுடிஎஃப் 8 - மாறி நீளம் குறியீட்டு 8-பிட் சேமிப்பு அலகுகள் கொண்ட, மேல் பிட்கள் எந்தப் பகுதியில் ஒவ்வொரு தனிப்பட்ட பைட் தொடர்கள் மட்டுமே இது சொந்தமானது குறிப்பிடுகின்றன. குறியீடு வரிசை முதல் உறுப்பு ஒதுக்கப்பட்டது மதிப்புகளில் ஒன்று வரம்பில், மற்றொரு - அடுத்த உள்ளது. இந்த disjointness குறியீட்டு வழங்குகிறது.
ஆஸ்கி
UTF-8 குறியாக்கத்த்தைக் முழுமையாக ஆதரிக்கப்படுகிறது ASCII குறியீடுகள் (0x00-0x7F). இந்த யுனிகோட் எழுத்துக்கள் U + 0000-U + 007F ஒற்றை பைட் 0x00-0x7F, UTF-8 மாற்றப்படுகிறது இதனால் ஆஸ்கி இருந்து பிரித்தறிய ஆக என்பதே இதன் அர்த்தமாகும். மேலும், தெளிவின்மை தவிர்க்க, மதிப்பு இனி யுனிகோட் எழுத்துக்கள் ஒரு ஒற்றை பைட் பிரதிநிதித்துவம் பயன்படுத்தப்படாத 0x00-0x7F. சின்னங்கள் இரண்டு பைட்டுகள் ஒரு தொடர் மூலம், ஆஸ்கி தவிர வேறு neideograficheskih குறியீடாக்கத்துக்குப். சின்னங்கள் வரை U + 0800-U + FFFF மூன்று பைட்களைத் குறிப்பிடப்படுகின்றன, மற்றும் U + FFFF விட கூடுதல் குறியீடுகளையும் நான்கு பைட்டுகள் தேவைப்படுகிறது.
விண்ணப்ப கோளம்
UTF-8 குறியாக்கத்த்தைக் வழக்கமாக, HTML நெறிமுறையில் முன்னுரிமை, மற்றும் போன்ற உள்ளது.
எக்ஸ்எம்எல் UTF-8 குறியாக்கத்த்தைக் முழு ஆதரவுடன் முதல் தரமான மாறிவிட்டது. தரநிலை அமைப்புகள் இது பரிந்துரைக்கிறோம். ஆஸ்கி-எழுத்துக்கள் வேறுபட்டது அந்த URL முகவரியில் ஆதரவு பிரச்சனை, கூட்டு W3C, மற்றும் ஐஇடிஎஃப் பொறியியல் குழு அனைத்து கோடிங் பற்றி ஒரு ஒப்பந்தத்துக்கு வந்தபோது தீர்க்கப்பட்டது URL ஐ முகவரிகள் பிரத்தியேகமாக, UTF-8.
ஆஸ்கி உடன் இணக்கம் புதிய மென்பொருள் மாற்றம் வசதி. யுடிஎஃப் 8 JEdit, இமேக்ஸ், BBEdit, எக்ளிப்ஸ், மற்றும் "Notepad இல்" விண்டோஸ் இயங்கு உட்பட பெரும்பாலான உரை ஆசிரியர்கள், வேலை உடன். குறியீட்டு யுனிகோட் வேறு எந்த வடிவம் கருவி போன்ற ஆதாரப்பகுதியின் பெருமை முடியாது.
நன்மை குறியீட்டு அது பைட்டுகள் வரிசை என்று. உடன், UTF-8 சரம் சி மற்றும் பிற நிரலாக்க மொழிகளில் வேலை எளிதானது. இந்தக் குறியாக்க மட்டுமே வடிவமாகும், ஆர்டர் லேபிள்கள் தேவையில்லை BOM அல்லது XML இல் ஒரு குறியாக்கம் அறிவிப்பு பைட்கள்.
சுய ஒத்திசைவு
மற்ற பல பைட் எழுத்து தொகுப்புகள் ஒப்பிடுகையில் செயலாக்கம் 8-பிட் குறியீடுகளை பயன்படுத்தும் சூழலில் UTF-8 பின்வரும் நன்மைகள் உள்ளன:
- முதல் பைட் குறியீடு வரிசை அதன் நீளம் பற்றிய தகவல்களைக் கொண்டுள்ளது. இந்த நேரடி தேடல் திறனை அதிகரிக்கச் செய்கிறது.
- ஆரம்ப பைட் மதிப்புகள் ஒரு நிலையான வரம்பில் வரையறுக்கப்பட்டுள்ளது போன்ற சின்னமாக தொடக்கத்தில் கண்டுபிடித்து எளிய.
- சந்திப்புப்பாதை பைட் மதிப்புகள்.
நன்மைகள் ஒப்பிடு
UTF-8 குறியாக்கத்த்தைக் சிறிய உள்ளது. ஆனால் கிழக்கு ஆசிய எழுத்துகள் குறியீடுயாக்குவதற்கான பயன்படுத்தப்படும் போது (சீன, ஜப்பனீஸ், கொரிய, அறிகுறிகள் பயன்படுத்தி சீன எழுத்து) 3-பைட் தொடர்கள் பயன்படுத்தப்படும். மேலும் UTF-8 குறியாக்கத்த்தைக் செயலாக்க வேகம் குறியீட்டு மற்ற வகைப்பட்ட மட்டமாக உள்ளது. ஒரு பைனரி வரிசைப்படுத்த வரிகளை பைனரி யுனிகோட் வரிசையாக்கம் அதே முடிவைக்.
பாத்திரம் குறியாக்க திட்டத்தைப்
பாத்திரம் குறியாக்க திட்டத்தைப் குறியீட்டு சின்னங்கள் வடிவம் மற்றும் ஒற்றை பைட் இடம் குறியீடு அலகுகள் முறை கொண்டுள்ளது. குறியாக்க திட்டத்தைப் யுனிகோட் தரத்தில் ஆரம்ப பைட் வரிசை குறி (BOM, பைட் ஆர்டர் குறி) பயன்பாடு வழங்குகிறது தீர்மானிப்பதற்கும்.
யுடிஎஃப் 8 அம்சம் குறியில் BOM குறியீட்டு வடிவங்களின் பயன்படுத்த மட்டுமே குறிப்பு வரம்புபட்டுள்ளது போது. அதன் குறியீட்டு அலகு அளவு ஒரு பைட் ஆகும் என எண்டியன், UTF-8 தீர்மானிப்பதில் சிக்கல்கள், வேண்டும். குறியீடாக்கத்தின் இந்தப் படிவத்திற்கான BOM பயன்படுத்தி தேவையான அல்லது பரிந்துரைக்கப்படுகிறது அல்ல. BOM உரை ஏற்படும், UTF-8 குறியீட்டு பைட் வரிசை குறி அல்லது கையொப்பம் பயன்படுத்தி மற்ற codings இருந்து மாற்றப்பட வேண்டிய இருக்கலாம். 3 பைட்டுகள் ஈ.எஃப் பிபி 16 16 பி 16 வரிசை ஆகும்.
யுடிஎஃப் 8 குறியீட்டு முறையை அமைக்க எப்படி
குறியீட்டு, HTML , UTF-8 பின்வரும் குறியீடு மூலம் நிறுவப்படும்:
தலை
Meta http-equiv = "உள்ளடக்க வகை" உள்ளடக்கம் = "உரை / html; எழுத்துருப்பெயர் = UTF-8" ˃
PHP இல் UTF-8 குறியாக்கத்த்தைக் வெளியீடு நிலை மதிப்பு பிழை அமைக்க பிறகு கோப்பை ஆரம்பத்தில் தலைப்பு () செயல்பாடு பயன்படுத்தி அமைக்கப்படுகிறது:
˂? PHP
error_reporting (-1);
தலைப்பு ( "உள்ளடக்க வகை: உரை / html; எழுத்துருப்பெயர் = UTF-8 ');
ஒரு MySQL தரவுத்தள UTF-8 குறியாக்கத்த்தைக் என்பதற்கு அமைக்கப்படுகிறது இணைய:
˂? PHP
mysql_set_charset ( 'UTF8');
CSS கோப்பு குறியீட்டு பின்வருமாறு யுடிஎஃப் 8 எழுத்துக்கள் குறிப்பிட்ட உள்ளது:
@charset "UTF-8";
நீங்கள் சேமிக்கும் போது அனைத்து வகையான கோப்புகளை, BOM இல்லாமல் UTF-8 குறியாக்கத்த்தைக் தேர்வு இல்லையெனில் தளத்தில் இயங்காது. யுடிஎஃப் 8 குறியீட்டு மாற்ற DreamWeave இதைச் செய்யவும் மெனு உருப்படி "தலைப்பு / என்கோடிங் - - பக்கம் பண்புகள் மாற்றங்கள்" தேர்ந்தெடுக்க வேண்டும். பக்கம் ஏற்ற தொடர்ந்து, "கனெக்ட் யுனிகோட் கையொப்பம் (BOM)» இருந்து காசோலை குறியை அகற்றமுடியும் மற்றும் மாற்றங்கள் பொருந்தும். ஒரு பக்கத்தில் அல்லது தரவுத்தளத்தில் எந்த உரை குறியீட்டு மற்றொரு வடிவம் அறிமுகப்படுத்தப்பட்டது என்றால், அது மீண்டும் நுழைய அல்லது மீண்டும் குறியீடாக்கத்துக்குப் அவசியம். நீங்கள் வழக்கமான வெளிப்பாடுகள் வேலை போது, மாற்றியிடுகைகள் u பயன்படுத்த உறுதி செய்யவும்.
நீங்கள் விண்டோஸ் "Notepad இல்" UTF-8 குறியீடாக்கலில் கோப்பு சேமிக்க முடியும். மெனு உருப்படி தேர்வு செய்த பின்னர் "கோப்பு - இப்படி சேமி ..." குறியீட்டு தேவையான வடிவம் நிறுவ மற்றும் யுடிஎஃப் 8 கோப்பை சேமிக்க.
மெனு உருப்படி வழியாக UTF-8 தவிர வேறு அமைக்க என்றால் ஒரு உரை ஆசிரியர் Notepad இல் ++ இல் "BOM இல்லாமல், UTF-8 மாற்று» பாத்திரம் மாற்ற மற்றும் யுடிஎஃப் 8 காப்பாற்ற.
எந்த மாற்று உள்ளது
அங்கு அரசியல் மற்றும் மொழியியல் எல்லைகளை அழிக்கப்பட்டதால் உலகமயமாக்கல், சூழலில், உள்ளூர் பண்புகள் என்று வரியுரு, சிறிய பிரயோஜனமும் இல்லை. யுனிகோட் அனைத்து localizations ஆதரிக்கும் ஒரு ஒற்றை எழுத்துக்குறித் தொகுதி. ஒரு யுடிஎஃப் 8 - இது யுனிகோட் சரியாக செயல்படுத்த, ஒரு உதாரணம்:
- அது ஆஸ்கி குறியீட்டு உடையதாக உள்ளிட்ட கருவிகளின், ஒரு பரவலான ஆதரிக்கிறது;
- அது விலகல் தரவு எதிர்ப்பு;
- எளிய மற்றும் சிகிச்சையளிப்பதில் பயனுள்ளதாக;
- மேடையில் வெவ்வேறானவை.
குறியீட்டு அல்லது பண்புருக்கள் என்ன வடிவம் பற்றி நல்லது, UTF-8 விவாதம் வருகையுடன், அது அர்த்தமற்ற ஆகிறது.
Similar articles
Trending Now