HTML UTF-8 Referentie

HTML UTF-8 Referentie variabele lengte karakter encodering voorHTML Unicode (UTF-8) Referentie

Het Unicode Consortium

Het Unicode Consortium ontwikkelt de Unicode-standaard. Hun doel is om de bestaande tekensets te vervangen door de standaard Unicode Transformation Format (UTF).

De Unicode-standaard is uitgegroeid tot een succes en wordt uitgevoerd in HTML, XML, Java, JavaScript, E-mail, ASP, PHP, etc. De Unicode-standaard wordt ook ondersteund in veel besturingssystemen en alle moderne browsers.

De Unicode tekensets

Unicode kunnen worden uitgevoerd door verschillende karakter sets. De meest gebruikte coderingen UTF-8 en UTF-16:

Een teken in UTF8 kan 1 tot 4 bytes lang. UTF-8 kan elk personage in de Unicode-standaard te vertegenwoordigen. UTF-8 is backwards compatible met ASCII. UTF-8 is de geprefereerde codering voor e-mail en webpagina’s


16-bits Unicode Transformation Format een variabele lengte codering voor Unicode tekens, kan coderen voor het gehele repertoire Unicode. UTF-16 wordt gebruikt in grote besturingssystemen en omgevingen, zoals Microsoft Windows, Java en .NET.

Tip: De eerste 128 tekens van Unicode (waarvan één-op-één corresponderen ASCII) gecodeerd met één octet met dezelfde binaire waarde als ASCII, waardoor geldige ASCII tekst valide UTF-8-gecodeerd Unicode ook.

HTML 4 ondersteunt UTF-8. HTML 5 ondersteunt zowel UTF-8 en UTF-16!

De HTML5 standaard: Unicode UTF-8

Omdat het karakter sets in ISO-8859 in omvang beperkt was, en niet compatibel in meertalige omgevingen, het Unicode Consortium ontwikkelde de Unicode-standaard.

De Unicode-standaard covers (bijna) alle tekens, leestekens en symbolen in de wereld.

Unicode maakt verwerking, opslag en transport van de tekst onafhankelijk van platform en taal.

De standaard tekencodering in HTML-5 is UTF-8.

Als een HTML5 webpagina maakt gebruik van een andere tekenset dan UTF-8, dient te worden vermeld in de lt; metagt; tag, zoals:

Voorbeeld

Het verschil tussen Unicode en UTF-8

Unicode is een karakterset. UTF-8 is codering .

Unicode is een lijst van personages met unieke decimale getallen (code punten). A = 65, B = 66, C = 67.

Deze lijst met decimale getallen vertegenwoordigen de string "Hallo": 104 101 108 108 111

Codering is hoe deze getallen worden omgezet in binaire getallen worden opgeslagen in een computer:

UTF-8-codering zal opslaan "Hallo" als dit (binair): 01.101.000 01.100.101 01.101.100 01.101.100 01.101.111

codering vertaalt getallen in binaire. tekensets vertaalt tekens cijfers.

HTML5 UTF-8 Character Codes

Hieronder is een lijst van enkele van de UTF-8 karakterset ondersteund door HTML5-codes:

Bron: www.w3schools.com

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

5 × vijf =