કોમ્પ્યુટર્સ, પ્રોગ્રામિંગ
UTF-8 - અક્ષર એન્કોડિંગ
યુનિકોડ લગભગ તમામ વર્તમાન અક્ષર સમૂહો આપે છે. યુનિકોડ અક્ષર સમૂહ એન્કોડિંગ શ્રેષ્ઠ ફોર્મ UTF-8 એન્કોડિંગ છે. તે માહિતી, કાર્યક્ષમતા અને પ્રક્રિયા સરળતા વિકૃતિ માટે ASCII સાથે સુસંગતતા, પ્રતિકાર આપે છે. પરંતુ પ્રથમ પ્રથમ વસ્તુઓ છે.
કોડિંગ ફોર્મ
બાઇટ અને 32-બીટ શબ્દો - કોમ્પ્યુટર્સ માત્ર કારણ કે નંબરો અમૂર્ત ગાણિતિક પદાર્થો, તેમજ સંગ્રહ એકમો સંયોજનો અને સંભાળવા નિશ્ચિત કદના માહિતી ધરાવે છે. જ્યારે નક્કી કેવી રીતે પ્રસ્તુત કરવા માટે એન્કોડિંગ ધોરણ આને ધ્યાનમાં જ જોઈએ અક્ષરોની સંખ્યા.
કોમ્પ્યુટર વ્યવસ્થામાં, પૂર્ણાંકો 8 બીટ્સ (1 બાઇટ), 16 અથવા 32 બિટ્સની મેમરી સેલ્સનો સંગ્રહિત. દરેક ફોર્મ યુનિકોડ એન્કોડિંગ, જે મેમરી સેલ્સનો ક્રમ પૂર્ણાંક ચોક્કસ પ્રતીક અનુરૂપ છે વ્યાખ્યાયિત કરે છે. સ્ટાન્ડર્ડ યુનિકોડ અક્ષરો 8, 16 અને 32-બીટ બ્લોક્સ કોડિંગ ત્રણ વિવિધ સ્વરૂપો છે. તદનુસાર, તેઓ UTF-8, UTF-16 અને UTF-32 તરીકે ઓળખાય છે. નામ UTF યુનિકોડ ટ્રાન્સફોર્મેશન ફોર્મેટ માટે વપરાય છે. એન્કોડિંગ અર્થ ત્રણ સ્વરૂપો દરેક સમાન પ્રતિનિધિત્વ યુનિકોડ અક્ષર વિવિધ કાર્યક્રમો માં લાભ ધરાવે છે.
ડેટા એન્ક્રિપ્શન યુનિકોડ સ્ટાન્ડર્ડમાં બધા અક્ષરો પ્રતિનિધિત્વ કરવા માટે ઉપયોગ કરી શકો છો. આમ, તેઓ વિવિધ કારણો માટે સંપૂર્ણ ઉકેલની સુસંગત છે, કોડિંગ વિવિધ સ્વરૂપો ઉપયોગ કરે છે. દરેક કોડિંગ unambiguously માહિતી નુકશાન વિના અન્ય બે કોઈપણ રૂપાંતરિત કરી શકાય છે.
nenalozheniya સિદ્ધાંત
સ્વરૂપો યુનિકોડ એન્કોડિંગ દરેક બિન આંશિક સામ્યતા જોતાં વિકસાવી છે. ઉદાહરણ તરીકે, વિન્ડોઝ 932 કોડ એક કે બે બાઇટ્સની અક્ષરો બનાવે છે. ક્રમ લંબાઈ પ્રથમ બાઇટ પર આધાર રાખે છે, જેથી બે બાઈટ અને સિંગલ બાઇટ છૂટાં શ્રેણીબદ્ધ અગ્રણી બાઇટ મૂલ્યો ધરાવે છે. જોકે, એક બાઇટ કિંમત અને પાછળનો બાઇટ ક્રમ સંબંધ ધરાવે છે. આ ઉદાહરણ માટે અર્થ એ થાય કે પાત્ર શોધ ડી (કોડ 44) તે ભૂલથી બે બાઇટ અક્ષર "ડી" ક્રમનો બીજો ભાગ કે દાખલ શોધી શકો છો (કોડ 84 44). શોધવા માટે જે ક્રમ યોગ્ય છે, કાર્યક્રમ અગાઉના બાઇટ્સ ધ્યાનમાં લેવા જોઈએ.
પરિસ્થિતિ જટિલ, જો આગળની અને પાછળની બાઇટ્સ મેચ છે. આનો અર્થ એ કે સંદિગ્ધતા દૂર કરવા માટે ટેક્સ્ટ અથવા અનન્ય કોડ ક્રમ શરૂઆત પહોંચતા પહેલા રિવર્સ લૂકઅપ હશે. આ માત્ર બિનકાર્યક્ષમ છે, પરંતુ શક્ય ભૂલો સામે રક્ષણ નથી, કેમકે સંપૂર્ણ લખાણ માત્ર એક ખોટું બાઇટ વાંચવાયોગ્ય બની ગયું છે.
ફોર્મેટ રૂપાંતર યુનિકોડ આ સમસ્યા કરવાનું ટાળે છે કારણ કે અગ્રણી, પાછળ મૂલ્ય અને સંગ્રહ એક એકમ જ માહિતી નથી. આ શોધ અને સરખામણી ક્યારેય પાત્ર કોડ વિવિધ ભાગો સંયોગ કારણે ભૂલભરેલું પરિણામો આપવા માટે છે કે જે બધી યુનિકોડ સુનિશ્ચિત કરે છે. હકીકત એ છે કે કોડિંગ આ પ્રકારના સિદ્ધાંત nenalozheniya અવલોકન, તેમને અન્ય પૂર્વ એશિયાઇ મલ્ટી-બાઇટ એન્કોડીંગ્સ થી અલગ તારવે છે.
nonintersection અન્ય પાસું યુનિકોડ એન્કોડીંગ્સ દરેક પાત્રને સ્પષ્ટ રીતે વ્યાખ્યાયિત સરહદ ધરાવે છે. આ અગાઉના પ્રતીકો અનિશ્ચિત નંબર સ્કેન કરવાની જરૂર પડતી નથી. આ લક્ષણ ક્યારેક સ્વ clocking એન્કોડિંગ કહેવામાં આવે છે. કોડ એકમો ડિસ્ટોર્શન માત્ર એક અક્ષર એક વિકૃતિ રજૂ કરશે અને આસપાસના અક્ષરો હજુ અકબંધ છે. 8-બીટ બંધારણમાં રૂપાંતર માં, બાઇટ, 10xxxxxx સાથે શરૂ (દ્વિસંગી કોડ) માટે પોઇન્ટર પોઈન્ટ શોધવા માટે જો પ્રતીક શરૂઆત એક થી ત્રણ રિવર્સ સંક્રમણો માટે જરૂરી છે.
સુસંગતતા
યુનિકોડ કોન્સોર્ટિયમ સંપૂર્ણપણે એન્કોડીંગ્સ તમામ 3 સ્વરૂપો આપે છે. યુનિકોડ અક્ષરો એન્કોડિંગ પ્રમાણભૂત સ્વરૂપ ની સમાન માન્ય સ્વરૂપો - તે UTF-8 અને યુનિકોડ, બધા રૂપાંતર ફોર્મેટ્સ કારણ કે વિરોધ કરવા માટે મહત્વપૂર્ણ છે.
બાઈટ અભિગમ
UTF-32 અક્ષરો પ્રતિનિધિત્વ કરવા માટે 32-બીટ કોડ એકમ, કે જે યુનિકોડ કોડ સાથે એકરુપ જરૂર પડશે. યુટીએફ -16 - બે 16-બિટ એકમો છે. એક UTF-8 4 બાઇટ્સ સુધી ઉપયોગ કરે છે.
UTF-8 એન્કોડિંગ બાઇટ લક્ષી ASCII આધારિત સિસ્ટમો સાથે સુસંગત કરવા માટે રચાયેલ છે. વર્તમાન સોફ્ટવેર અને લાંબા સમય માટે માહિતી ટેકનોલોજી પ્રથા મોટા ભાગના બાઇટ્સ એક ક્રમ અક્ષરો પ્રતિનિધિત્વ પર આધારિત હતી. મલ્ટીપલ પ્રોટોકોલની સ્થિરતા પર આધાર રાખે છે ASCII સંકેતો અને ઉલ્લેખિત પસંદીદા લોકૅલ ખાસ નિયંત્રણ અક્ષરો જવાનું ટાળે છે. એક સરળ માર્ગ, પરિસ્થિતિ યુનિકોડ કરી શકો છો સ્વીકારવાનું યુનિકોડ અક્ષરો, કોઇ સમકક્ષ ASCII અક્ષર અથવા નિયંત્રણ પાત્ર પ્રતિનિધિત્વ કરવા માટે 8-બીટ કોડિંગ ઉપયોગ કરે છે. આ અંત માટે, અને તે UTF-8 એન્કોડિંગ છે.
ચલ લંબાઈ
UTF-8 - ચલ લંબાઈ કોડિંગ 8-બીટ સંગ્રહ એકમો સમાવેશ, અપર બીટ્સ જે સૂચવે છે કે જે દરેક વ્યક્તિગત બાઇટ ક્રમ ભાગ સાથે જોડાયેલું છે. કોડ અનુક્રમમાં પ્રથમ તત્વ માટે ફાળવવામાં કિંમતો એક શ્રેણી, અન્ય - આગામી છે. આ disjointness એન્કોડિંગ પૂરું પાડે છે.
ASCII
UTF-8 એન્કોડિંગ સંપૂર્ણપણે આધારભૂત છે ASCII કોડ્સ (0x00-0x7F). આનો અર્થ એ કે યુનિકોડ અક્ષરો U + 0000-U + 007F એક બાઇટ 0x00-0x7F UTF-8 માં રૂપાંતરિત કરવામાં આવે છે અને આમ ASCII માંથી અસ્પષ્ટતા બની જાય છે. વધુમાં, સંદિગ્ધતા ટાળવા માટે, કિંમત વધુ કોઇ યુનિકોડ અક્ષરો એક બાઇટ પ્રતિનિધિત્વ ઉપયોગ ન 0x00-0x7F. બેવડી પ્રતીકો ASCII સિવાયના neideograficheskih, બે બાઇટ્સ એક ક્રમ ઉપયોગ કરે છે. સિમ્બોલ્સ લઇને U + 0800-U + ffff ત્રણ બાઇટ્સ દ્વારા રજૂ થાય છે, અને U + ffff કરતાં વધુ સાથે વધારાની કોડ ચાર બાઇટ્સ જરૂર છે.
અરજી વલયની
UTF-8 એન્કોડિંગ સામાન્ય એચટીએમએલ પ્રોટોકોલ માં પસંદગી આપવામાં આવે છે, અને જેમ.
XML UTF-8 એન્કોડિંગ માટે સંપૂર્ણ આધાર સાથે પ્રથમ ધોરણ બની ગયું છે. ધોરણો સંસ્થાઓ પણ તે ભલામણ કરીએ છીએ. URL સરનામું કે ASCII અક્ષરો અલગ છે સપોર્ટ સમસ્યા ઉકેલાઈ ત્યારે કોન્સોર્ટિયમ W3C અને આઈઈટીએફ એન્જિનિયરિંગ જૂથ તમામ કોડિંગ પર કરાર આવ્યો હતો URL સરનામાં UTF-8 માં જ.
ASCII સાથે સુસંગતતા નવી સોફ્ટવેર સંક્રમણ કરે છે. UTF-8 jEdit, Emacs, BBEdit, એક્લિપ્સ, અને "નોટપેડ" Windows ઓપરેટીંગ સિસ્ટમ સહિત, મોટા ભાગના લખાણ સંપાદકો કાર્યો સાથે. એન્કોડિંગ યુનિકોડ અન્ય કોઇ ફોર્મ સાધન આવા આધાર પર ગર્વ કરી શકો છો.
લાભ કોડિંગ કે તે બાઇટ્સ અનુક્રમ થાય છે. UTF-8 શબ્દમાળા સાથે સી અને અન્ય પ્રોગ્રામિંગ લેંગ્વેજનું માં કામ કરવા માટે સરળ છે. આ એન્કોડિંગ માત્ર સ્વરૂપ છે, ક્રમમાં લેબલ્સ જરૂર નથી BOM અથવા XML માં એન્કોડિંગ ઘોષણા બાઇટ્સ.
સ્વ સિંક્રનાઇઝેશન
પર્યાવરણમાં અન્ય મલ્ટી-બાઇટ અક્ષર સમૂહો સાથે સરખામણી પ્રક્રિયા 8-બીટ પ્રતીકો ઉપયોગ કરતી, UTF-8, નીચેની ફાયદાઓ ધરાવે છેઃ
- પ્રથમ બાઇટ કોડના ક્રમ તેની લંબાઈ વિશે જાણકારી સમાવે છે. આ સીધી શોધ કાર્યક્ષમતા વધે છે.
- પ્રતીક શરૂઆત શોધવા કારણ કે શરૂ બાઇટ મૂલ્યોની નિયત શ્રેણી મર્યાદિત છે સરળીકૃત.
- કોઈ છેદનબિંદુ બાઇટ મૂલ્યો ધરાવે છે.
લાભો સરખામણી
UTF-8 એન્કોડિંગ કોમ્પેક્ટ છે. પરંતુ, જ્યારે પૂર્વ એશિયાના અક્ષરો એન્કોડ કરવા માટે વપરાય (ચિની, જાપાનીઝ, કોરિયન, ચિની ચિહ્નો મદદથી લેખન) 3-બાઇટ સિક્વન્સ ઉપયોગ થાય છે. પણ UTF-8 એન્કોડિંગ પ્રોસેસિંગ ઝડપ કોડિંગ અન્ય સ્વરૂપો માટે હલકી ગુણવત્તાવાળા છે. એક દ્વિસંગી સૉર્ટ લીટીઓ દ્વિસંગી યુનિકોડ સૉર્ટ જેવા જ પરિણામ ઉત્પન્ન કરે છે.
અક્ષર એન્કોડિંગ યોજના
અક્ષર એન્કોડિંગ યોજના એન્કોડિંગ પ્રતીકો ફોર્મ અને સિંગલ બાઇટ સ્થાન કોડ એકમો માટે પદ્ધતિ સમાવેશ થાય છે. એન્કોડિંગ યોજના યુનિકોડ સ્ટાન્ડર્ડમાં પ્રારંભિક બાઇટ ક્રમ માર્ક સુધીની (BOM, બાઇટ ક્રમ માર્ક) નો ઉપયોગ પૂરો પાડે છે તે નક્કી કરો.
UTF-8 લક્ષણ ટેગમાં BOM કોડિંગ સ્વરૂપો ઉપયોગ માત્ર સંદર્ભ દ્વારા મર્યાદિત હોય છે, ત્યારે. કારણ કે તેનું એન્કોડિંગ એકમ કદ એક બાઇટ છે endian UTF-8 નક્કી સમસ્યાઓ હોય છે. કોડિંગ આ ફોર્મ માટે BOM મદદથી જરૂરી ન આગ્રહણીય ન કરવામાં આવે છે. BOM લખાણમાં થઇ શકે UTF-8 એન્કોડિંગ માટે બાઇટ ક્રમ માર્ક અથવા સહી ઉપયોગ કરીને અન્ય codings રૂપાંતરિત કરી શકાય છે. 3 બાઇટ્સ ઇએફ બીબી 16 16 BF 16 એક ક્રમ છે.
UTF-8 એન્કોડિંગ કેવી રીતે સેટ કરવી
એચટીએમએલ કોડિંગ UTF-8 નીચે આપેલ કોડ સાથે સ્થાપિત થયેલ છે:
વડા
મેટા HTTP-equiv = "સામગ્રી-પ્રકાર" સામગ્રી = "text / html; charset = UTF-8" ˃
PHP માં UTF-8 એન્કોડિંગ આઉટપુટ લેવલ કિંમત ભૂલ સેટિંગ પછી ફાઈલ શરૂઆતમાં હેડર () ફંક્શનનો ઉપયોગ કરીને સેટ છે:
˂? Php
error_reporting (-1);
હેડર ( "સામગ્રી-પ્રકાર: text / html; charset = UTF-8 ');
એક માયએસક્યુએલ ડેટાબેઝ UTF-8 એન્કોડિંગ સેટ છે કનેક્ટ કરો:
˂? Php
mysql_set_charset ( 'UTF8');
સીએસએસ ફાઇલ એન્કોડિંગ નીચે પ્રમાણે UTF-8 અક્ષરો સ્પષ્ટ છે:
@charset "UTF-8";
જ્યારે પણ તમે સાચવો તમામ પ્રકારના ફાઇલો પસંદ BOM વગર UTF-8 એન્કોડિંગ અન્યથા આ સાઇટ કામ કરશે નહિં. UTF-8 એન્કોડિંગ બદલવા માટે DreamWeave આ કરવા માટે મેનુ આઇટમ "- - પૃષ્ઠ ગુણધર્મો શીર્ષક / એન્કોડિંગ ફેરફાર" પસંદ કરવાની જરૂર છે. પૃષ્ઠને ફરીથી લોડ કરવું દ્વારા અનુસરવામાં, માંથી "કનેક્ટ યુનિકોડ સહી સુધીની (BOM)» ચેક માર્ક દૂર કરો અને ફેરફારો લાગુ પડે છે. એક પૃષ્ઠ પર અથવા ડેટાબેઝ કોઈપણ લખાણ કોડિંગ અન્ય સ્વરૂપ રજૂ કરવામાં આવ્યું હતું, તો તે ફરીથી દાખલ કરો અથવા પુન: બેવડી માટે જરૂરી છે. જ્યારે તમે નિયમિત અભિવ્યક્તિઓ સાથે કામ કરે છે, સંશોધક u ઉપયોગ કરવાની ખાતરી કરો.
તમે પણ એ Windows ના "નોટપેડ" માં UTF-8 એન્કોડિંગ ફાઇલ સાચવી શકો છો. મેનુ આઇટમ પસંદ કર્યા પછી - એન્કોડિંગ જરૂરી ફોર્મ સ્થાપિત અને UTF-8 ફાઇલ સેવ કરવા માટે "ફાઇલ તરીકે સાચવો ...".
લખાણ સંપાદક નોટપેડ ++ જો કે UTF-8 કરતાં અન્ય સેટ મેનૂ આઇટમ મારફતે માં "BOM વગર UTF-8 માં રૂપાંતરિત કરો» પાત્ર બદલો અને UTF-8 માં સાચવો.
ત્યાં કોઈ વૈકલ્પિક છે
વૈશ્વિકીકરણ, જ્યાં રાજકીય અને ભાષાકીય હદના ભૂંસી આવે સંદર્ભમાં, અક્ષર સમૂહો છે કે સ્થાનિક લાક્ષણિકતાઓ, ઉપયોગ ખૂબ ઓછો કરતું હોય છે. યુનિકોડ એક જ અક્ષર સમૂહ છે કે જે બધી સ્થાનિક આધાર છે. એક UTF-8 - યુનિકોડ યોગ્ય અમલીકરણ છે, જે એક ઉદાહરણ:
- તે ASCII સંકેતો સાથે સુસંગતતા સહિત સાધનો, વિશાળ શ્રેણી આપે છે;
- તે વિકૃતિ માહિતી માટે પ્રતિરોધક છે;
- સરળ અને સારવાર અસરકારક;
- પ્લેટફોર્મ સ્વતંત્ર છે.
UTF-8 ચર્ચા એન્કોડિંગ અથવા અક્ષર સમૂહ શું સ્વરૂપ વિશે સારી છે આગમન સાથે, તે અર્થહીન બની જાય છે.
Similar articles
Trending Now