Enligt In­ter­na­tio­nel­la te­leu­ni­o­nen (ITU) använder mer än tre miljarder människor internet, och allt fler gör det på sitt modersmål. Denna för­änd­ring beror delvis på in­fö­ran­det av in­ter­na­tio­nel­la domännamn 2003. Vi förklarar hur IDN-domäner fungerar.

Vad är ett in­ter­na­tio­na­li­se­rat domännamn (IDN)?

IETF (Internet Engi­ne­e­ring Task Force) de­fi­ni­e­rar IDN som domännamn som in­ne­hål­ler spe­ci­al­tec­ken som inte ingår i det latinska alfabetet, till exempel omljud eller tecken från andra alfabet. Do­män­namns­sy­ste­met (DNS), som ansvarar för att översätta URL:er till IP-adresser, kan dock inte tolka dessa domännamn. DNS baseras på den be­grän­sa­de stan­dard­tec­ken­sat­sen ASCII.

För att göra IDN be­grip­li­ga för DNS och andra in­ter­net­pro­to­koll skapades 2003 in­ter­netstan­dar­den In­ter­na­tio­na­li­sing Domain Names in Ap­pli­ca­tions (IDNA). Denna standard de­fi­ni­e­rar en stan­dar­di­se­rad över­sätt­ning från Unicode till ASCII, vilket möjliggör an­vänd­ning av icke-ASCII-tecken i domännamn.

Hur fungerar IDNA?

En stor del av in­ter­ne­tin­fra­struk­tu­ren stöder endast ASCII-tec­ken­snit­tet. För att sä­ker­stäl­la att in­ter­na­tio­nel­la domännamn kan bearbetas översätts varje IDN som finns till­gäng­ligt i Unicode till en ACE-sträng, som baseras på ASCII. Därefter visas URL:er med tecken med accenter eller omljud. Servern fort­sät­ter däremot att bearbeta adres­ser­na som ASCII-kom­pa­tib­la. Denna procedur spe­ci­fi­ce­ras i in­ter­netstan­dar­den IDNA2003 och i re­vi­de­ring­en IDNA2008, som godkändes 2010. Över­sätt­ning­en från Unicode till ASCII sker på kli­ent­si­dan (i webb­lä­sa­ren, e-post­pro­gram­met etc.) och baseras på en stan­dar­di­se­rad kod­nings­pro­cess som kallas Punycode.

Punycode

Den RFC 3492-stan­dar­di­se­ra­de Punycode ut­veck­la­des för att tydligt visa Unicode-tec­ken­sträng­ar som ASCII-symboler utan kva­li­tets­för­lust. Alla icke-ASCII-tecken tas bort från do­män­nam­net, kodas och separeras med ett bin­de­streck. Denna kodse­kvens in­ne­hål­ler in­for­ma­tion om Unicode-symbolen i fråga samt dess position i do­män­nam­net. Dessutom märks varje ACE-sträng som skapas på detta sätt med prefixet xn–. Detta klargör för läsaren att tecken­se­kven­sen är ett IDN som har kodats enligt IDNA- och Punycode-stan­dar­der­na. Se vår artikel om Punycode för en de­tal­je­rad för­kla­ring av kod­nings­pro­ces­sen samt några exempel.

Tips

Med en online-IDN-do­män­kon­ver­te­ra­re kan du kon­ver­te­ra IDN till mot­sva­ran­de ACE-strängar med hjälp av Punycode.

Skill­na­der mellan IDNA2003 och IDNA2008

I det ur­sprung­li­ga för­fa­ran­det från 2003 nor­ma­li­se­ra­des in­ter­na­tio­na­li­se­ra­de URL:er före Punycode-kodning med hjälp av nameprep-metoden. Denna metod ändrade versaler till gemener, tog bort kon­troll­tec­ken och överförde lik­vär­di­ga tecken till en enhetlig form. Nameprep togs bort från denna process när IDNA2008 infördes. Nu spe­ci­fi­ce­rar IDNA ingen nor­ma­li­se­ring. Istället re­kom­men­de­rar den en algoritm som omvandlar versaler till gemener.

Denna an­pass­ning till­go­do­ser även användare i den tysk­språ­ki­ga världen, eftersom Unicode-tecknet ”ß”, som är vanligt i Tyskland, ur­sprung­li­gen de­fi­ni­e­ra­des som mot­sva­ran­de ”ss” enligt IDNA2003. Domäner som www.fußball-ergebnisse.de nor­ma­li­se­ra­des därför au­to­ma­tiskt till www.fussball-ergebnisse.de i namprep-processen. Detta är inte längre fallet sedan IDNA2008 trädde i kraft. Sedan 2010 tolkas ”ß” korrekt som ”latinsk liten bokstav skarpt s” och kan re­gi­stre­ras som en del av en IDN-domän.

Dessutom stöds inte längre cirka 8 000 tecken som var möjliga i domännamn enligt IDNA2003 enligt IDNA2008. Fyra tecken, däribland ”ß”, tolkas an­norlun­da sedan stan­dar­den re­vi­de­ra­des. För en de­tal­je­rad be­skriv­ning av skill­na­der­na mellan IDNA2003 och IDNA2008, se Unicode Technical Standard #46. Följande tabell sam­man­fat­tar de vik­ti­gas­te skill­na­der­na:

IDNA2003 IDNA2008
Nam­ne­pre­pa­re­rings­pro­ce­dur krävs Ingen nor­ma­li­se­ring spe­ci­fi­ce­rad
Gäller för Unicode 3.2 Giltigt för Unicode-versioner från 5.2 och framåt
Strikt regler för höger-till-vänster-tec­ken­snitt Tydligare regler för höger-till-vänster-tec­ken­snitt
Versaler och gemener betraktas som separata tecken Versaler kon­ver­te­ras till gemener
Många symboler är förbjudna, t.ex. grafiska symboler som inte tillhör något alfabet, samt vissa skil­je­tec­ken
”Om­mapp­ning” har tagits bort från vissa Unicode-tecken, eftersom detta kan leda till ore­gel­bun­den­he­ter

Vilka problem finns det med IDN?

Vid det här laget bör alla vanliga in­ter­net­pro­gram kunna förstå IDN. Ibland uppstår dock problem med in­ter­na­tio­na­li­se­ra­de domännamn eftersom över­gång­en från IDNA2003 till IDNA2008 ännu inte har ge­nom­förts kon­se­kvent. Ett exempel som är pro­ble­ma­tiskt för tyska är den olika tolk­ning­en av ”ß”. Eftersom IDNA2003 ob­li­ga­to­riskt kon­ver­te­rar ”ß” till ”ss” är speciella ß-domäner som kan re­gi­stre­ras enligt IDNA2008 ofta inte sökbara för system som kon­ver­te­rar enligt den föråld­ra­de stan­dar­den. Istället dirigeras an­vän­dar­na till mot­sva­ran­de domän som in­ne­hål­ler ”ss”. Detta problem kan kringgås genom att webb­platso­pe­ra­tö­rer re­gi­stre­rar båda va­ri­an­ter­na och omdi­ri­ge­rar den andra domänen till den pri­o­ri­te­ra­de stav­ning­en med hjälp av en do­mänomdi­ri­ge­ring.

Gå till huvudmeny