Html unicode: HTML Unicode Issue: How to display special characters

_ ` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~
Latin-1 Supplement
  ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ­ ® ¯ ° ± ² ³ ´ µ ¶ · ¸ ¹ º » ¼ ½ ¾ ¿ À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß à á â ã ä å æ ç è é ê ë ì í î ï ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ
Latin Extended-A
Ā ā Ă ă Ą ą Ć ć Ĉ ĉ Ċ ċ Č č Ď ď Đ đ Ē ē Ĕ ĕ Ė ė Ę ę Ě ě Ĝ ĝ Ğ ğ Ġ ġ Ģ ģ Ĥ ĥ Ħ ħ Ĩ ĩ Ī ī Ĭ ĭ Į į İ ı IJ ij Ĵ ĵ Ķ ķ ĸ Ĺ ĺ Ļ ļ Ľ ľ Ŀ ŀ Ł ł Ń ń Ņ ņ Ň ň ʼn Ŋ ŋ Ō ō Ŏ ŏ Ő ő Œ œ Ŕ ŕ Ŗ ŗ Ř ř Ś ś Ŝ ŝ Ş ş Š š Ţ ţ Ť ť Ŧ ŧ Ũ ũ Ū ū Ŭ ŭ Ů ů Ű ű Ų ų Ŵ ŵ Ŷ ŷ Ÿ Ź ź Ż ż Ž ž ſ
Latin Extended-B
ƀ Ɓ Ƃ ƃ Ƅ ƅ Ɔ Ƈ ƈ Ɖ Ɗ Ƌ ƌ ƍ Ǝ Ə Ɛ Ƒ ƒ Ɠ Ɣ ƕ Ɩ Ɨ Ƙ ƙ ƚ ƛ Ɯ Ɲ ƞ Ɵ Ơ ơ Ƣ ƣ Ƥ ƥ Ʀ Ƨ ƨ Ʃ ƪ ƫ Ƭ ƭ Ʈ Ư ư Ʊ Ʋ Ƴ ƴ Ƶ ƶ Ʒ Ƹ ƹ ƺ ƻ Ƽ ƽ ƾ ƿ ǀ ǁ ǂ ǃ DŽ Dž dž LJ Lj lj NJ Nj nj Ǎ ǎ Ǐ ǐ Ǒ ǒ Ǔ ǔ Ǖ ǖ Ǘ ǘ Ǚ ǚ Ǜ ǜ ǝ Ǟ ǟ Ǡ ǡ Ǣ ǣ Ǥ ǥ Ǧ ǧ Ǩ ǩ Ǫ ǫ Ǭ ǭ Ǯ ǯ ǰ DZ Dz dz Ǵ ǵ Ǻ ǻ Ǽ ǽ Ǿ ǿ Ȁ ȁ Ȃ ȃ …
IPA Extensions
ɐ ɑ ɒ ɓ ɔ ɕ ɖ ɗ ɘ ə ɚ ɛ ɜ ɝ ɞ ɟ ɠ ɡ ɢ ɣ ɤ ɥ ɦ ɧ ɨ ɩ ɪ ɫ ɬ ɭ ɮ ɯ ɰ ɱ ɲ ɳ ɴ ɵ ɶ ɷ ɸ ɹ ɺ ɻ ɼ ɽ ɾ ɿ ʀ ʁ ʂ ʃ ʄ ʅ ʆ ʇ ʈ ʉ ʊ ʋ ʌ ʍ ʎ ʏ ʐ ʑ ʒ ʓ ʔ ʕ ʖ ʗ ʘ ʙ ʚ ʛ ʜ ʝ ʞ ʟ ʠ ʡ ʢ ʣ ʤ ʥ ʦ ʧ ʨ
Spacing Modifier Letters
ʰ ʱ ʲ ʳ ʴ ʵ ʶ ʷ ʸ ʹ ʺ ʻ ʼ ʽ ʾ ʿ ˀ ˁ ˂ ˃ ˄ ˅ ˆ ˇ ˈ ˉ ˊ ˋ ˌ ˍ ˎ ˏ ː ˑ ˒ ˓ ˔ ˕ ˖ ˗ ˘ ˙ ˚ ˛ ˜ ˝ ˞ ˠ ˡ ˢ ˣ ˤ ˥ ˦ ˧ ˨ ˩
Combining Diacritical Marks
̀ ́ ̂ ̃ ̄ ̅ ̆ ̇ ̈ ̉ ̊ ̋ ̌ ̍ ̎ ̏ ̐ ̑ ̒ ̓ ̔ ̕ ̖ ̗ ̘ ̙ ̚ ̛ ̜ ̝ ̞ ̟ ̠ ̡ ̢ ̣ ̤ ̥ ̦ ̧ ̨ ̩ ̪ ̫ ̬ ̭ ̮ ̯ ̰ ̱ ̲ ̳ ̴ ̵ ̶ ̷ ̸ ̹ ̺ ̻ ̼ ̽ ̾ ̿ ̀ ́ ͂ ̓ ̈́ ͅ ͠ ͡
Greek
ʹ ͵ ͺ ; ΄ ΅ Ά · Έ Ή Ί Ό Ύ Ώ ΐ Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω Ϊ Ϋ ά έ ή ί ΰ α β γ δ ε ζ η θ ι κ λ μ ν ξ ο π ρ ς σ τ υ φ χ ψ ω ϊ ϋ ό ύ ώ ϐ ϑ ϒ ϓ ϔ ϕ ϖ Ϛ Ϝ Ϟ Ϡ Ϣ ϣ Ϥ ϥ Ϧ ϧ Ϩ ϩ Ϫ ϫ Ϭ ϭ Ϯ ϯ ϰ ϱ ϲ ϳ
Cyrillic
Ё Ђ Ѓ Є Ѕ І Ї Ј Љ Њ Ћ Ќ Ў Џ А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я а б в г д е ж з и й к л м н о п р с т у ф х ц ч ш щ ъ ы ь э ю я ё ђ ѓ є ѕ і ї ј љ њ ћ ќ ў џ Ѡ ѡ Ѣ ѣ Ѥ ѥ Ѧ ѧ Ѩ ѩ Ѫ ѫ Ѭ ѭ Ѯ ѯ Ѱ ѱ Ѳ ѳ Ѵ ѵ Ѷ ѷ Ѹ ѹ Ѻ ѻ Ѽ ѽ Ѿ ѿ Ҁ ҁ ҂ ҃ .
..
Armenian
Ա Բ Գ Դ Ե Զ Է Ը Թ Ժ Ի Լ Խ Ծ Կ Հ Ձ Ղ Ճ Մ Յ Ն Շ Ո Չ Պ Ջ Ռ Ս Վ Տ Ր Ց Ւ Փ Ք Օ Ֆ ՙ ՚ ՛ ՜ ՝ ՞ ՟ ա բ գ դ ե զ է ը թ ժ ի լ խ ծ կ հ ձ ղ ճ մ յ ն շ ո չ պ ջ ռ ս վ տ ր ց ւ փ ք օ ֆ և ։
Hebrew
֑ ֒ ֓ ֔ ֕ ֖ ֗ ֘ ֙ ֚ ֛ ֜ ֝ ֞ ֟ ֠ ֡ ֣ ֤ ֥ ֦ ֧ ֨ ֩ ֪ ֫ ֬ ֭ ֮ ֯ ְ ֱ ֲ ֳ ִ ֵ ֶ ַ ָ ֹ ֻ ּ ֽ ־ ֿ ׀ ׁ ׂ ׃ ׄ א ב ג ד ה ו ז ח ט י ך כ ל ם מ ן נ ס ע ף פ ץ צ ק ר ש ת װ ױ ײ ׳ ״
Arabic
، ؛ ؟ ء آ أ ؤ إ ئ ا ب ة ت ث ج ح خ د ذ ر ز س ش ص ض ط ظ ع غ ـ ف ق ك ل م ن ه و ى ي ً ٌ ٍ َ ُ ِ ّ ْ ٠ ١ ٢ ٣ ٤ ٥ ٦ ٧ ٨ ٩ ٪ ٫ ٬ ٭ ٰ ٱ ٲ ٳ ٴ ٵ ٶ ٷ ٸ ٹ ٺ ٻ ټ ٽ پ ٿ ڀ ځ ڂ ڃ ڄ څ چ ڇ ڈ ډ ڊ ڋ ڌ ڍ ڎ ڏ ڐ ڑ ڒ ړ ڔ ڕ ږ ڗ ژ ڙ ښ ڛ ڜ ڝ ڞ ڟ ڠ ڡ ڢ ڣ ڤ ڥ ڦ ڧ ڨ ک ڪ ګ ڬ ڭ ڮ گ ڰ ڱ …
Devanagari
ँ ं ः अ आ इ ई उ ऊ ऋ ऌ ऍ ऎ ए ऐ ऑ ऒ ओ औ क ख ग घ ङ च छ ज झ ञ ट ठ ड ढ ण त थ द ध न ऩ प फ ब भ म य र ऱ ल ळ ऴ व श ष स ह ़ ऽ ा ि ी ु ू ृ ॄ ॅ ॆ े ै ॉ ॊ ो ौ ् ॐ ॑ ॒ ॓ ॔ क़ ख़ ग़ ज़ ड़ ढ़ फ़ य़ ॠ ॡ ॢ ॣ । ॥ ० १ २ ३ ४ ५ ६ ७ ८ ९ ॰
Bengali
ঁ ং ঃ অ আ ই ঈ উ ঊ ঋ ঌ এ ঐ ও ঔ ক খ গ ঘ ঙ চ ছ জ ঝ ঞ ট ঠ ড ঢ ণ ত থ দ ধ ন প ফ ব ভ ম য র ল শ ষ স হ ় া ি ী ু ূ ৃ ৄ ে ৈ ো ৌ ্ ৗ ড় ঢ় য় ৠ ৡ ৢ ৣ ০ ১ ২ ৩ ৪ ৫ ৬ ৭ ৮ ৯ ৰ ৱ ৲ ৳ ৴ ৵ ৶ ৷ ৸ ৹ ৺
Gurmukhi
ਂ ਅ ਆ ਇ ਈ ਉ ਊ ਏ ਐ ਓ ਔ ਕ ਖ ਗ ਘ ਙ ਚ ਛ ਜ ਝ ਞ ਟ ਠ ਡ ਢ ਣ ਤ ਥ ਦ ਧ ਨ ਪ ਫ ਬ ਭ ਮ ਯ ਰ ਲ ਲ਼ ਵ ਸ਼ ਸ ਹ ਼ ਾ ਿ ੀ ੁ ੂ ੇ ੈ ੋ ੌ ੍ ਖ਼ ਗ਼ ਜ਼ ੜ ਫ਼ ੦ ੧ ੨ ੩ ੪ ੫ ੬ ੭ ੮ ੯ ੰ ੱ ੲ ੳ ੴ
Gujarati
ઁ ં ઃ અ આ ઇ ઈ ઉ ઊ ઋ ઍ એ ઐ ઑ ઓ ઔ ક ખ ગ ઘ ઙ ચ છ જ ઝ ઞ ટ ઠ ડ ઢ ણ ત થ દ ધ ન પ ફ બ ભ મ ય ર લ ળ વ શ ષ સ હ ઼ ઽ ા િ ી ુ ૂ ૃ ૄ ૅ ે ૈ ૉ ો ૌ ્ ૐ ૠ ૦ ૧ ૨ ૩ ૪ ૫ ૬ ૭ ૮ ૯
Oriya
ଁ ଂ ଃ ଅ ଆ ଇ ଈ ଉ ଊ ଋ ଌ ଏ ଐ ଓ ଔ କ ଖ ଗ ଘ ଙ ଚ ଛ ଜ ଝ ଞ ଟ ଠ ଡ ଢ ଣ ତ ଥ ଦ ଧ ନ ପ ଫ ବ ଭ ମ ଯ ର ଲ ଳ ଶ ଷ ସ ହ ଼ ଽ ା ି ୀ ୁ ୂ ୃ େ ୈ ୋ ୌ ୍ ୖ ୗ ଡ଼ ଢ଼ ୟ ୠ ୡ ୦ ୧ ୨ ୩ ୪ ୫ ୬ ୭ ୮ ୯ ୰
Tamil
ஂ ஃ அ ஆ இ ஈ உ ஊ எ ஏ ஐ ஒ ஓ ஔ க ங ச ஜ ஞ ட ண த ந ன ப ம ய ர ற ல ள ழ வ ஷ ஸ ஹ ா ி ீ ு ூ ெ ே ை ொ ோ ௌ ் ௗ ௧ ௨ ௩ ௪ ௫ ௬ ௭ ௮ ௯ ௰ ௱ ௲
Telugu
ఁ ం ః అ ఆ ఇ ఈ ఉ ఊ ఋ ఌ ఎ ఏ ఐ ఒ ఓ ఔ క ఖ గ ఘ ఙ చ ఛ జ ఝ ఞ ట ఠ డ ఢ ణ త థ ద ధ న ప ఫ బ భ మ య ర ఱ ల ళ వ శ ష స హ ా ి ీ ు ూ ృ ౄ ె ే ై ొ ో ౌ ్ ౕ ౖ ౠ ౡ ౦ ౧ ౨ ౩ ౪ ౫ ౬ ౭ ౮ ౯
Kannada
ಂ ಃ ಅ ಆ ಇ ಈ ಉ ಊ ಋ ಌ ಎ ಏ ಐ ಒ ಓ ಔ ಕ ಖ ಗ ಘ ಙ ಚ ಛ ಜ ಝ ಞ ಟ ಠ ಡ ಢ ಣ ತ ಥ ದ ಧ ನ ಪ ಫ ಬ ಭ ಮ ಯ ರ ಱ ಲ ಳ ವ ಶ ಷ ಸ ಹ ಾ ಿ ೀ ು ೂ ೃ ೄ ೆ ೇ ೈ ೊ ೋ ೌ ್ ೕ ೖ ೞ ೠ ೡ ೦ ೧ ೨ ೩ ೪ ೫ ೬ ೭ ೮ ೯
Malayalam
ം ഃ അ ആ ഇ ഈ ഉ ഊ ഋ ഌ എ ഏ ഐ ഒ ഓ ഔ ക ഖ ഗ ഘ ങ ച ഛ ജ ഝ ഞ ട ഠ ഡ ഢ ണ ത ഥ ദ ധ ന പ ഫ ബ ഭ മ യ ര റ ല ള ഴ വ ശ ഷ സ ഹ ാ ി ീ ു ൂ ൃ െ േ ൈ ൊ ോ ൌ ് ൗ ൠ ൡ ൦ ൧ ൨ ൩ ൪ ൫ ൬ ൭ ൮ ൯
Thai
ก ข ฃ ค ฅ ฆ ง จ ฉ ช ซ ฌ ญ ฎ ฏ ฐ ฑ ฒ ณ ด ต ถ ท ธ น บ ป ผ ฝ พ ฟ ภ ม ย ร ฤ ล ฦ ว ศ ษ ส ห ฬ อ ฮ ฯ ะ ั า ำ ิ ี ึ ื ุ ู ฺ ฿ เ แ โ ใ ไ ๅ ๆ ็ ่ ้ ๊ ๋ ์ ํ ๎ ๏ ๐ ๑ ๒ ๓ ๔ ๕ ๖ ๗ ๘ ๙ ๚ ๛
Lao
ກ ຂ ຄ ງ ຈ ຊ ຍ ດ ຕ ຖ ທ ນ ບ ປ ຜ ຝ ພ ຟ ມ ຢ ຣ ລ ວ ສ ຫ ອ ຮ ຯ ະ ັ າ ຳ ິ ີ ຶ ື ຸ ູ ົ ຼ ຽ ເ ແ ໂ ໃ ໄ ໆ ່ ້ ໊ ໋ ໌ ໍ ໐ ໑ ໒ ໓ ໔ ໕ ໖ ໗ ໘ ໙ ໜ ໝ
Tibetan
ༀ ༁ ༂ ༃ ༄ ༅ ༆ ༇ ༈ ༉ ༊ ་ ༌ ། ༎ ༏ ༐ ༑ ༒ ༓ ༔ ༕ ༖ ༗ ༘ ༙ ༚ ༛ ༜ ༝ ༞ ༟ ༠ ༡ ༢ ༣ ༤ ༥ ༦ ༧ ༨ ༩ ༪ ༫ ༬ ༭ ༮ ༯ ༰ ༱ ༲ ༳ ༴ ༵ ༶ ༷ ༸ ༹ ༺ ༻ ༼ ༽ ༾ ༿ ཀ ཁ ག གྷ ང ཅ ཆ ཇ ཉ ཊ ཋ ཌ ཌྷ ཎ ཏ ཐ ད དྷ ན པ ཕ བ བྷ མ ཙ ཚ ཛ ཛྷ ཝ ཞ ཟ འ ཡ ར ལ ཤ ཥ ས ཧ ཨ ཀྵ ཱ ི ཱི ུ ཱུ ྲྀ ཷ ླྀ ཹ ེ ཻ ོ ཽ ཾ ཿ ྀ ཱྀ ྂ ྃ ྄ ྅ ྆ ྇ .
..
Georgian
Ⴀ Ⴁ Ⴂ Ⴃ Ⴄ Ⴅ Ⴆ Ⴇ Ⴈ Ⴉ Ⴊ Ⴋ Ⴌ Ⴍ Ⴎ Ⴏ Ⴐ Ⴑ Ⴒ Ⴓ Ⴔ Ⴕ Ⴖ Ⴗ Ⴘ Ⴙ Ⴚ Ⴛ Ⴜ Ⴝ Ⴞ Ⴟ Ⴠ Ⴡ Ⴢ Ⴣ Ⴤ Ⴥ ა ბ გ დ ე ვ ზ თ ი კ ლ მ ნ ო პ ჟ რ ს ტ უ ფ ქ ღ ყ შ ჩ ც ძ წ ჭ ხ ჯ ჰ ჱ ჲ ჳ ჴ ჵ ჶ ჻
Hangul Jamo
ᄀ ᄁ ᄂ ᄃ ᄄ ᄅ ᄆ ᄇ ᄈ ᄉ ᄊ ᄋ ᄌ ᄍ ᄎ ᄏ ᄐ ᄑ ᄒ ᄓ ᄔ ᄕ ᄖ ᄗ ᄘ ᄙ ᄚ ᄛ ᄜ ᄝ ᄞ ᄟ ᄠ ᄡ ᄢ ᄣ ᄤ ᄥ ᄦ ᄧ ᄨ ᄩ ᄪ ᄫ ᄬ ᄭ ᄮ ᄯ ᄰ ᄱ ᄲ ᄳ ᄴ ᄵ ᄶ ᄷ ᄸ ᄹ ᄺ ᄻ ᄼ ᄽ ᄾ ᄿ ᅀ ᅁ ᅂ ᅃ ᅄ ᅅ ᅆ ᅇ ᅈ ᅉ ᅊ ᅋ ᅌ ᅍ ᅎ ᅏ ᅐ ᅑ ᅒ ᅓ ᅔ ᅕ ᅖ ᅗ ᅘ ᅙ ᅟ ᅠ ᅡ ᅢ ᅣ ᅤ ᅥ ᅦ ᅧ ᅨ ᅩ ᅪ ᅫ ᅬ ᅭ ᅮ ᅯ ᅰ ᅱ ᅲ ᅳ ᅴ ᅵ ᅶ ᅷ ᅸ ᅹ ᅺ ᅻ ᅼ ᅽ ᅾ ᅿ ᆀ ᆁ ᆂ ᆃ ᆄ …
Latin Extended Additional
Ḁ ḁ Ḃ ḃ Ḅ ḅ Ḇ ḇ Ḉ ḉ Ḋ ḋ Ḍ ḍ Ḏ ḏ Ḑ ḑ Ḓ ḓ Ḕ ḕ Ḗ ḗ Ḙ ḙ Ḛ ḛ Ḝ ḝ Ḟ ḟ Ḡ ḡ Ḣ ḣ Ḥ ḥ Ḧ ḧ Ḩ ḩ Ḫ ḫ Ḭ ḭ Ḯ ḯ Ḱ ḱ Ḳ ḳ Ḵ ḵ Ḷ ḷ Ḹ ḹ Ḻ ḻ Ḽ ḽ Ḿ ḿ Ṁ ṁ Ṃ ṃ Ṅ ṅ Ṇ ṇ Ṉ ṉ Ṋ ṋ Ṍ ṍ Ṏ ṏ Ṑ ṑ Ṓ ṓ Ṕ ṕ Ṗ ṗ Ṙ ṙ Ṛ ṛ Ṝ ṝ Ṟ ṟ Ṡ ṡ Ṣ ṣ Ṥ ṥ Ṧ ṧ Ṩ ṩ Ṫ ṫ Ṭ ṭ Ṯ ṯ Ṱ ṱ Ṳ ṳ Ṵ ṵ Ṷ ṷ Ṹ ṹ Ṻ ṻ Ṽ ṽ Ṿ ṿ …
Greek Extended
ἀ ἁ ἂ ἃ ἄ ἅ ἆ ἇ Ἀ Ἁ Ἂ Ἃ Ἄ Ἅ Ἆ Ἇ ἐ ἑ ἒ ἓ ἔ ἕ Ἐ Ἑ Ἒ Ἓ Ἔ Ἕ ἠ ἡ ἢ ἣ ἤ ἥ ἦ ἧ Ἠ Ἡ Ἢ Ἣ Ἤ Ἥ Ἦ Ἧ ἰ ἱ ἲ ἳ ἴ ἵ ἶ ἷ Ἰ Ἱ Ἲ Ἳ Ἴ Ἵ Ἶ Ἷ ὀ ὁ ὂ ὃ ὄ ὅ Ὀ Ὁ Ὂ Ὃ Ὄ Ὅ ὐ ὑ ὒ ὓ ὔ ὕ ὖ ὗ Ὑ Ὓ Ὕ Ὗ ὠ ὡ ὢ ὣ ὤ ὥ ὦ ὧ Ὠ Ὡ Ὢ Ὣ Ὤ Ὥ Ὦ Ὧ ὰ ά ὲ έ ὴ ή ὶ ί ὸ ό ὺ ύ ὼ ώ ᾀ ᾁ ᾂ ᾃ ᾄ ᾅ ᾆ ᾇ ᾈ ᾉ ᾊ ᾋ ᾌ ᾍ .
..
General Punctuation
                      ​ ‌ ‍ ‎ ‏ ‐ ‑ ‒ – — ― ‖ ‗ ‘ ’ ‚ ‛ “ ” „ ‟ † ‡ • ‣ ․ ‥ … ‧ 
 
 ‪ ‫ ‬ ‭ ‮ ‰ ‱ ′ ″ ‴ ‵ ‶ ‷ ‸ ‹ › ※ ‼ ‽ ‾ ‿ ⁀ ⁁ ⁂ ⁃ ⁄ ⁅ ⁆      
Superscripts and Subscripts
⁰ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ⁺ ⁻ ⁼ ⁽ ⁾ ⁿ ₀ ₁ ₂ ₃ ₄ ₅ ₆ ₇ ₈ ₉ ₊ ₋ ₌ ₍ ₎
Currency Symbols
₠ ₡ ₢ ₣ ₤ ₥ ₦ ₧ ₨ ₩ ₪ ₫
Combining Marks for Symbols
⃐ ⃑ ⃒ ⃓ ⃔ ⃕ ⃖ ⃗ ⃘ ⃙ ⃚ ⃛ ⃜ ⃝ ⃞ ⃟ ⃠ ⃡
Letterlike Symbols
℀ ℁ ℂ ℃ ℄ ℅ ℆ ℇ ℈ ℉ ℊ ℋ ℌ ℍ ℎ ℏ ℐ ℑ ℒ ℓ ℔ ℕ № ℗ ℘ ℙ ℚ ℛ ℜ ℝ ℞ ℟ ℠ ℡ ™ ℣ ℤ ℥ Ω ℧ ℨ ℩ K Å ℬ ℭ ℮ ℯ ℰ ℱ Ⅎ ℳ ℴ ℵ ℶ ℷ ℸ
Number Forms
⅓ ⅔ ⅕ ⅖ ⅗ ⅘ ⅙ ⅚ ⅛ ⅜ ⅝ ⅞ ⅟ Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ Ⅺ Ⅻ Ⅼ Ⅽ Ⅾ Ⅿ ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ ⅹ ⅺ ⅻ ⅼ ⅽ ⅾ ⅿ ↀ ↁ ↂ
Arrows
← ↑ → ↓ ↔ ↕ ↖ ↗ ↘ ↙ ↚ ↛ ↜ ↝ ↞ ↟ ↠ ↡ ↢ ↣ ↤ ↥ ↦ ↧ ↨ ↩ ↪ ↫ ↬ ↭ ↮ ↯ ↰ ↱ ↲ ↳ ↴ ↵ ↶ ↷ ↸ ↹ ↺ ↻ ↼ ↽ ↾ ↿ ⇀ ⇁ ⇂ ⇃ ⇄ ⇅ ⇆ ⇇ ⇈ ⇉ ⇊ ⇋ ⇌ ⇍ ⇎ ⇏ ⇐ ⇑ ⇒ ⇓ ⇔ ⇕ ⇖ ⇗ ⇘ ⇙ ⇚ ⇛ ⇜ ⇝ ⇞ ⇟ ⇠ ⇡ ⇢ ⇣ ⇤ ⇥ ⇦ ⇧ ⇨ ⇩ ⇪
Mathematical Operators
∀ ∁ ∂ ∃ ∄ ∅ ∆ ∇ ∈ ∉ ∊ ∋ ∌ ∍ ∎ ∏ ∐ ∑ − ∓ ∔ ∕ ∖ ∗ ∘ ∙ √ ∛ ∜ ∝ ∞ ∟ ∠ ∡ ∢ ∣ ∤ ∥ ∦ ∧ ∨ ∩ ∪ ∫ ∬ ∭ ∮ ∯ ∰ ∱ ∲ ∳ ∴ ∵ ∶ ∷ ∸ ∹ ∺ ∻ ∼ ∽ ∾ ∿ ≀ ≁ ≂ ≃ ≄ ≅ ≆ ≇ ≈ ≉ ≊ ≋ ≌ ≍ ≎ ≏ ≐ ≑ ≒ ≓ ≔ ≕ ≖ ≗ ≘ ≙ ≚ ≛ ≜ ≝ ≞ ≟ ≠ ≡ ≢ ≣ ≤ ≥ ≦ ≧ ≨ ≩ ≪ ≫ ≬ ≭ ≮ ≯ ≰ ≱ ≲ ≳ ≴ ≵ ≶ ≷ ≸ ≹ ≺ ≻ ≼ ≽ ≾ ≿ . ..
Miscellaneous Technical
⌀ ⌂ ⌃ ⌄ ⌅ ⌆ ⌇ ⌈ ⌉ ⌊ ⌋ ⌌ ⌍ ⌎ ⌏ ⌐ ⌑ ⌒ ⌓ ⌔ ⌕ ⌖ ⌗ ⌘ ⌙ ⌚ ⌛ ⌜ ⌝ ⌞ ⌟ ⌠ ⌡ ⌢ ⌣ ⌤ ⌥ ⌦ ⌧ ⌨ 〈 〉 ⌫ ⌬ ⌭ ⌮ ⌯ ⌰ ⌱ ⌲ ⌳ ⌴ ⌵ ⌶ ⌷ ⌸ ⌹ ⌺ ⌻ ⌼ ⌽ ⌾ ⌿ ⍀ ⍁ ⍂ ⍃ ⍄ ⍅ ⍆ ⍇ ⍈ ⍉ ⍊ ⍋ ⍌ ⍍ ⍎ ⍏ ⍐ ⍑ ⍒ ⍓ ⍔ ⍕ ⍖ ⍗ ⍘ ⍙ ⍚ ⍛ ⍜ ⍝ ⍞ ⍟ ⍠ ⍡ ⍢ ⍣ ⍤ ⍥ ⍦ ⍧ ⍨ ⍩ ⍪ ⍫ ⍬ ⍭ ⍮ ⍯ ⍰ ⍱ ⍲ ⍳ ⍴ ⍵ ⍶ ⍷ ⍸ ⍹ ⍺
Control Pictures
␀ ␁ ␂ ␃ ␄ ␅ ␆ ␇ ␈ ␉ ␊ ␋ ␌ ␍ ␎ ␏ ␐ ␑ ␒ ␓ ␔ ␕ ␖ ␗ ␘ ␙ ␚ ␛ ␜ ␝ ␞ ␟ ␠ ␡ ␢ ␣ ␤
Optical Character Recognition
⑀ ⑁ ⑂ ⑃ ⑄ ⑅ ⑆ ⑇ ⑈ ⑉ ⑊
Enclosed Alphanumerics
① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ⑪ ⑫ ⑬ ⑭ ⑮ ⑯ ⑰ ⑱ ⑲ ⑳ ⑴ ⑵ ⑶ ⑷ ⑸ ⑹ ⑺ ⑻ ⑼ ⑽ ⑾ ⑿ ⒀ ⒁ ⒂ ⒃ ⒄ ⒅ ⒆ ⒇ ⒈ ⒉ ⒊ ⒋ ⒌ ⒍ ⒎ ⒏ ⒐ ⒑ ⒒ ⒓ ⒔ ⒕ ⒖ ⒗ ⒘ ⒙ ⒚ ⒛ ⒜ ⒝ ⒞ ⒟ ⒠ ⒡ ⒢ ⒣ ⒤ ⒥ ⒦ ⒧ ⒨ ⒩ ⒪ ⒫ ⒬ ⒭ ⒮ ⒯ ⒰ ⒱ ⒲ ⒳ ⒴ ⒵ Ⓐ Ⓑ Ⓒ Ⓓ Ⓔ Ⓕ Ⓖ Ⓗ Ⓘ Ⓙ Ⓚ Ⓛ Ⓜ Ⓝ Ⓞ Ⓟ Ⓠ Ⓡ Ⓢ Ⓣ Ⓤ Ⓥ Ⓦ Ⓧ Ⓨ Ⓩ ⓐ ⓑ ⓒ ⓓ ⓔ ⓕ ⓖ ⓗ ⓘ ⓙ ⓚ ⓛ ⓜ ⓝ ⓞ ⓟ …
Box Drawing
─ ━ │ ┃ ┄ ┅ ┆ ┇ ┈ ┉ ┊ ┋ ┌ ┍ ┎ ┏ ┐ ┑ ┒ ┓ └ ┕ ┖ ┗ ┘ ┙ ┚ ┛ ├ ┝ ┞ ┟ ┠ ┡ ┢ ┣ ┤ ┥ ┦ ┧ ┨ ┩ ┪ ┫ ┬ ┭ ┮ ┯ ┰ ┱ ┲ ┳ ┴ ┵ ┶ ┷ ┸ ┹ ┺ ┻ ┼ ┽ ┾ ┿ ╀ ╁ ╂ ╃ ╄ ╅ ╆ ╇ ╈ ╉ ╊ ╋ ╌ ╍ ╎ ╏ ═ ║ ╒ ╓ ╔ ╕ ╖ ╗ ╘ ╙ ╚ ╛ ╜ ╝ ╞ ╟ ╠ ╡ ╢ ╣ ╤ ╥ ╦ ╧ ╨ ╩ ╪ ╫ ╬ ╭ ╮ ╯ ╰ ╱ ╲ ╳ ╴ ╵ ╶ ╷ ╸ ╹ ╺ ╻ ╼ ╽ ╾ ╿
Block Elements
▀ ▁ ▂ ▃ ▄ ▅ ▆ ▇ █ ▉ ▊ ▋ ▌ ▍ ▎ ▏ ▐ ░ ▒ ▓ ▔ ▕
Geometric Shapes
■ □ ▢ ▣ ▤ ▥ ▦ ▧ ▨ ▩ ▪ ▫ ▬ ▭ ▮ ▯ ▰ ▱ ▲ △ ▴ ▵ ▶ ▷ ▸ ▹ ► ▻ ▼ ▽ ▾ ▿ ◀ ◁ ◂ ◃ ◄ ◅ ◆ ◇ ◈ ◉ ◊ ○ ◌ ◍ ◎ ● ◐ ◑ ◒ ◓ ◔ ◕ ◖ ◗ ◘ ◙ ◚ ◛ ◜ ◝ ◞ ◟ ◠ ◡ ◢ ◣ ◤ ◥ ◦ ◧ ◨ ◩ ◪ ◫ ◬ ◭ ◮ ◯
Miscellaneous Symbols
☀ ☁ ☂ ☃ ☄ ★ ☆ ☇ ☈ ☉ ☊ ☋ ☌ ☍ ☎ ☏ ☐ ☑ ☒ ☓ ☚ ☛ ☜ ☝ ☞ ☟ ☠ ☡ ☢ ☣ ☤ ☥ ☦ ☧ ☨ ☩ ☪ ☫ ☬ ☭ ☮ ☯ ☰ ☱ ☲ ☳ ☴ ☵ ☶ ☷ ☸ ☹ ☺ ☻ ☼ ☽ ☾ ☿ ♀ ♁ ♂ ♃ ♄ ♅ ♆ ♇ ♈ ♉ ♊ ♋ ♌ ♍ ♎ ♏ ♐ ♑ ♒ ♓ ♔ ♕ ♖ ♗ ♘ ♙ ♚ ♛ ♜ ♝ ♞ ♟ ♠ ♡ ♢ ♣ ♤ ♥ ♦ ♧ ♨ ♩ ♪ ♫ ♬ ♭ ♮ ♯
Dingbats
✁ ✂ ✃ ✄ ✆ ✇ ✈ ✉ ✌ ✍ ✎ ✏ ✐ ✑ ✒ ✓ ✔ ✕ ✖ ✗ ✘ ✙ ✚ ✛ ✜ ✝ ✞ ✟ ✠ ✡ ✢ ✣ ✤ ✥ ✦ ✧ ✩ ✪ ✫ ✬ ✭ ✮ ✯ ✰ ✱ ✲ ✳ ✴ ✵ ✶ ✷ ✸ ✹ ✺ ✻ ✼ ✽ ✾ ✿ ❀ ❁ ❂ ❃ ❄ ❅ ❆ ❇ ❈ ❉ ❊ ❋ ❍ ❏ ❐ ❑ ❒ ❖ ❘ ❙ ❚ ❛ ❜ ❝ ❞ ❡ ❢ ❣ ❤ ❥ ❦ ❧ ❶ ❷ ❸ ❹ ❺ ❻ ❼ ❽ ❾ ❿ ➀ ➁ ➂ ➃ ➄ ➅ ➆ ➇ ➈ ➉ ➊ ➋ ➌ ➍ ➎ ➏ ➐ ➑ ➒ ➓ ➔ ➘ ➙ ➚ ➛ ➜ ➝ . ..
CJK Symbols and Punctuation
  、 。 〃 〄 々 〆 〇 〈 〉 《 》 「 」 『 』 【 】 〒 〓 〔 〕 〖 〗 〘 〙 〚 〛 〜 〝 〞 〟 〠 〡 〢 〣 〤 〥 〦 〧 〨 〩 〪 〫 〬 〭 〮 〯 〰 〱 〲 〳 〴 〵 〶 〷 〿
Hiragana
ぁ あ ぃ い ぅ う ぇ え ぉ お か が き ぎ く ぐ け げ こ ご さ ざ し じ す ず せ ぜ そ ぞ た だ ち ぢ っ つ づ て で と ど な に ぬ ね の は ば ぱ ひ び ぴ ふ ぶ ぷ へ べ ぺ ほ ぼ ぽ ま み む め も ゃ や ゅ ゆ ょ よ ら り る れ ろ ゎ わ ゐ ゑ を ん ゔ ゙ ゚ ゛ ゜ ゝ ゞ
Katakana
ァ ア ィ イ ゥ ウ ェ エ ォ オ カ ガ キ ギ ク グ ケ ゲ コ ゴ サ ザ シ ジ ス ズ セ ゼ ソ ゾ タ ダ チ ヂ ッ ツ ヅ テ デ ト ド ナ ニ ヌ ネ ノ ハ バ パ ヒ ビ ピ フ ブ プ ヘ ベ ペ ホ ボ ポ マ ミ ム メ モ ャ ヤ ュ ユ ョ ヨ ラ リ ル レ ロ ヮ ワ ヰ ヱ ヲ ン ヴ ヵ ヶ ヷ ヸ ヹ ヺ ・ ー ヽ ヾ
Bopomofo
ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ ㄪ ㄫ ㄬ
Hangul Compatibility Jamo
ㄱ ㄲ ㄳ ㄴ ㄵ ㄶ ㄷ ㄸ ㄹ ㄺ ㄻ ㄼ ㄽ ㄾ ㄿ ㅀ ㅁ ㅂ ㅃ ㅄ ㅅ ㅆ ㅇ ㅈ ㅉ ㅊ ㅋ ㅌ ㅍ ㅎ ㅏ ㅐ ㅑ ㅒ ㅓ ㅔ ㅕ ㅖ ㅗ ㅘ ㅙ ㅚ ㅛ ㅜ ㅝ ㅞ ㅟ ㅠ ㅡ ㅢ ㅣ ㅤ ㅥ ㅦ ㅧ ㅨ ㅩ ㅪ ㅫ ㅬ ㅭ ㅮ ㅯ ㅰ ㅱ ㅲ ㅳ ㅴ ㅵ ㅶ ㅷ ㅸ ㅹ ㅺ ㅻ ㅼ ㅽ ㅾ ㅿ ㆀ ㆁ ㆂ ㆃ ㆄ ㆅ ㆆ ㆇ ㆈ ㆉ ㆊ ㆋ ㆌ ㆍ ㆎ
Kanbun
㆐ ㆑ ㆒ ㆓ ㆔ ㆕ ㆖ ㆗ ㆘ ㆙ ㆚ ㆛ ㆜ ㆝ ㆞ ㆟
Enclosed CJK Letters and Months
㈀ ㈁ ㈂ ㈃ ㈄ ㈅ ㈆ ㈇ ㈈ ㈉ ㈊ ㈋ ㈌ ㈍ ㈎ ㈏ ㈐ ㈑ ㈒ ㈓ ㈔ ㈕ ㈖ ㈗ ㈘ ㈙ ㈚ ㈛ ㈜ ㈠ ㈡ ㈢ ㈣ ㈤ ㈥ ㈦ ㈧ ㈨ ㈩ ㈪ ㈫ ㈬ ㈭ ㈮ ㈯ ㈰ ㈱ ㈲ ㈳ ㈴ ㈵ ㈶ ㈷ ㈸ ㈹ ㈺ ㈻ ㈼ ㈽ ㈾ ㈿ ㉀ ㉁ ㉂ ㉃ ㉠ ㉡ ㉢ ㉣ ㉤ ㉥ ㉦ ㉧ ㉨ ㉩ ㉪ ㉫ ㉬ ㉭ ㉮ ㉯ ㉰ ㉱ ㉲ ㉳ ㉴ ㉵ ㉶ ㉷ ㉸ ㉹ ㉺ ㉻ ㉿ ㊀ ㊁ ㊂ ㊃ ㊄ ㊅ ㊆ ㊇ ㊈ ㊉ ㊊ ㊋ ㊌ ㊍ ㊎ ㊏ ㊐ ㊑ ㊒ ㊓ ㊔ ㊕ ㊖ ㊗ ㊘ ㊙ ㊚ ㊛ ㊜ ㊝ ㊞ ㊟ ㊠ ㊡ .
..
CJK Compatibility
㌀ ㌁ ㌂ ㌃ ㌄ ㌅ ㌆ ㌇ ㌈ ㌉ ㌊ ㌋ ㌌ ㌍ ㌎ ㌏ ㌐ ㌑ ㌒ ㌓ ㌔ ㌕ ㌖ ㌗ ㌘ ㌙ ㌚ ㌛ ㌜ ㌝ ㌞ ㌟ ㌠ ㌡ ㌢ ㌣ ㌤ ㌥ ㌦ ㌧ ㌨ ㌩ ㌪ ㌫ ㌬ ㌭ ㌮ ㌯ ㌰ ㌱ ㌲ ㌳ ㌴ ㌵ ㌶ ㌷ ㌸ ㌹ ㌺ ㌻ ㌼ ㌽ ㌾ ㌿ ㍀ ㍁ ㍂ ㍃ ㍄ ㍅ ㍆ ㍇ ㍈ ㍉ ㍊ ㍋ ㍌ ㍍ ㍎ ㍏ ㍐ ㍑ ㍒ ㍓ ㍔ ㍕ ㍖ ㍗ ㍘ ㍙ ㍚ ㍛ ㍜ ㍝ ㍞ ㍟ ㍠ ㍡ ㍢ ㍣ ㍤ ㍥ ㍦ ㍧ ㍨ ㍩ ㍪ ㍫ ㍬ ㍭ ㍮ ㍯ ㍰ ㍱ ㍲ ㍳ ㍴ ㍵ ㍶ ㍻ ㍼ ㍽ ㍾ ㍿ ㎀ ㎁ ㎂ ㎃ …
CJK Unified Ideographs
一 丁 丂 七 丄 丅 丆 万 丈 三 上 下 丌 不 与 丏 丐 丑 丒 专 且 丕 世 丗 丘 丙 业 丛 东 丝 丞 丟 丠 両 丢 丣 两 严 並 丧 丨 丩 个 丫 丬 中 丮 丯 丰 丱 串 丳 临 丵 丶 丷 丸 丹 为 主 丼 丽 举 丿 乀 乁 乂 乃 乄 久 乆 乇 么 义 乊 之 乌 乍 乎 乏 乐 乑 乒 乓 乔 乕 乖 乗 乘 乙 乚 乛 乜 九 乞 也 习 乡 乢 乣 乤 乥 书 乧 乨 乩 乪 乫 乬 乭 乮 乯 买 乱 乲 乳 乴 乵 乶 乷 乸 乹 乺 乻 乼 乽 乾 乿 …
Hangul Syllables
가 각 갂 갃 간 갅 갆 갇 갈 갉 갊 갋 갌 갍 갎 갏 감 갑 값 갓 갔 강 갖 갗 갘 같 갚 갛 개 객 갞 갟 갠 갡 갢 갣 갤 갥 갦 갧 갨 갩 갪 갫 갬 갭 갮 갯 갰 갱 갲 갳 갴 갵 갶 갷 갸 갹 갺 갻 갼 갽 갾 갿 걀 걁 걂 걃 걄 걅 걆 걇 걈 걉 걊 걋 걌 걍 걎 걏 걐 걑 걒 걓 걔 걕 걖 걗 걘 걙 걚 걛 걜 걝 걞 걟 걠 걡 걢 걣 걤 걥 걦 걧 걨 걩 걪 걫 걬 걭 걮 걯 거 걱 걲 걳 건 걵 걶 걷 걸 걹 걺 걻 걼 걽 걾 걿 …
Private Use
                                                                                                                                . ..
CJK Compatibility Ideographs
豈 更 車 賈 滑 串 句 龜 龜 契 金 喇 奈 懶 癩 羅 蘿 螺 裸 邏 樂 洛 烙 珞 落 酪 駱 亂 卵 欄 爛 蘭 鸞 嵐 濫 藍 襤 拉 臘 蠟 廊 朗 浪 狼 郎 來 冷 勞 擄 櫓 爐 盧 老 蘆 虜 路 露 魯 鷺 碌 祿 綠 菉 錄 鹿 論 壟 弄 籠 聾 牢 磊 賂 雷 壘 屢 樓 淚 漏 累 縷 陋 勒 肋 凜 凌 稜 綾 菱 陵 讀 拏 樂 諾 丹 寧 怒 率 異 北 磻 便 復 不 泌 數 索 參 塞 省 葉 說 殺 辰 沈 拾 若 掠 略 亮 兩 凉 梁 糧 良 諒 量 勵 …
Alphabetic Presentation Forms
ff fi fl ffi ffl ſt st ﬓ ﬔ ﬕ ﬖ ﬗ ﬞ ײַ ﬠ ﬡ ﬢ ﬣ ﬤ ﬥ ﬦ ﬧ ﬨ ﬩ שׁ שׂ שּׁ שּׂ אַ אָ אּ בּ גּ דּ הּ וּ זּ טּ יּ ךּ כּ לּ מּ נּ סּ ףּ פּ צּ קּ רּ שּ תּ וֹ בֿ כֿ פֿ ﭏ
Arabic Presentation Forms-A
ﭐ ﭑ ﭒ ﭓ ﭔ ﭕ ﭖ ﭗ ﭘ ﭙ ﭚ ﭛ ﭜ ﭝ ﭞ ﭟ ﭠ ﭡ ﭢ ﭣ ﭤ ﭥ ﭦ ﭧ ﭨ ﭩ ﭪ ﭫ ﭬ ﭭ ﭮ ﭯ ﭰ ﭱ ﭲ ﭳ ﭴ ﭵ ﭶ ﭷ ﭸ ﭹ ﭺ ﭻ ﭼ ﭽ ﭾ ﭿ ﮀ ﮁ ﮂ ﮃ ﮄ ﮅ ﮆ ﮇ ﮈ ﮉ ﮊ ﮋ ﮌ ﮍ ﮎ ﮏ ﮐ ﮑ ﮒ ﮓ ﮔ ﮕ ﮖ ﮗ ﮘ ﮙ ﮚ ﮛ ﮜ ﮝ ﮞ ﮟ ﮠ ﮡ ﮢ ﮣ ﮤ ﮥ ﮦ ﮧ ﮨ ﮩ ﮪ ﮫ ﮬ ﮭ ﮮ ﮯ ﮰ ﮱ ﯓ ﯔ ﯕ ﯖ ﯗ ﯘ ﯙ ﯚ ﯛ ﯜ ﯝ ﯞ ﯟ ﯠ ﯡ ﯢ ﯣ ﯤ ﯥ ﯦ ﯧ ﯨ ﯩ ﯪ ﯫ ﯬ ﯭ ﯮ ﯯ ﯰ …
Combining Half Marks
︠ ︡ ︢ ︣
CJK Compatibility Forms
︰ ︱ ︲ ︳ ︴ ︵ ︶ ︷ ︸ ︹ ︺ ︻ ︼ ︽ ︾ ︿ ﹀ ﹁ ﹂ ﹃ ﹄ ﹉ ﹊ ﹋ ﹌ ﹍ ﹎ ﹏
Small Form Variants
﹐ ﹑ ﹒ ﹔ ﹕ ﹖ ﹗ ﹘ ﹙ ﹚ ﹛ ﹜ ﹝ ﹞ ﹟ ﹠ ﹡ ﹢ ﹣ ﹤ ﹥ ﹦ ﹨ ﹩ ﹪ ﹫
Arabic Presentation Forms-B
ﹰ ﹱ ﹲ ﹴ ﹶ ﹷ ﹸ ﹹ ﹺ ﹻ ﹼ ﹽ ﹾ ﹿ ﺀ ﺁ ﺂ ﺃ ﺄ ﺅ ﺆ ﺇ ﺈ ﺉ ﺊ ﺋ ﺌ ﺍ ﺎ ﺏ ﺐ ﺑ ﺒ ﺓ ﺔ ﺕ ﺖ ﺗ ﺘ ﺙ ﺚ ﺛ ﺜ ﺝ ﺞ ﺟ ﺠ ﺡ ﺢ ﺣ ﺤ ﺥ ﺦ ﺧ ﺨ ﺩ ﺪ ﺫ ﺬ ﺭ ﺮ ﺯ ﺰ ﺱ ﺲ ﺳ ﺴ ﺵ ﺶ ﺷ ﺸ ﺹ ﺺ ﺻ ﺼ ﺽ ﺾ ﺿ ﻀ ﻁ ﻂ ﻃ ﻄ ﻅ ﻆ ﻇ ﻈ ﻉ ﻊ ﻋ ﻌ ﻍ ﻎ ﻏ ﻐ ﻑ ﻒ ﻓ ﻔ ﻕ ﻖ ﻗ ﻘ ﻙ ﻚ ﻛ ﻜ ﻝ ﻞ ﻟ ﻠ ﻡ ﻢ ﻣ ﻤ ﻥ ﻦ ﻧ ﻨ ﻩ ﻪ ﻫ ﻬ ﻭ ﻮ ﻯ ﻰ ﻱ . ..
Halfwidth and Fullwidth Forms
! " # $ % & ' ( ) * + , - . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ? @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _ ` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~ 。 「 」 、 ・ ヲ ァ ィ ゥ ェ ォ ャ ュ ョ ッ ー ア イ ウ エ オ カ キ ク ケ コ サ シ ス セ ソ タ チ ツ …
Specials

Specials

HTML UTF-8 Справочное руководство

w3big.com

Latest web development tutorials

Предыдущая: HTML ISO-8859-1 Справочное руководство

Далее: HTML ссылка символ сущность по эксплуатации

Консорциум Unicode (Консорциум Unicode)

Консорциум Unicode (Консорциум Unicode) разработал стандарт Unicode (стандарт Unicode). Их цель состоит в том, чтобы использовать стандартный формат Unicode преобразования (т.е. UTF, расшифровывается как Unicode Transformation Format), чтобы заменить существующие наборы символов.

Стандарт Unicode является успешной инициативой, в HTML, XML, Java, JavaScript, электронная почта, ASP, PHP достигнуты. стандарт Unicode также многие операционные системы и все современные браузеры поддержки.

Unicode альянс с ведущими организациями по разработке стандартов, которые имеют ISO, W3C и ECMA.


Набор символов Unicode

Unicode, могут быть реализованы с помощью различных наборов символов. Наиболее часто используемый кодировка UTF-8 и UTF-16:

字符集 描述
UTF-8 UTF8 中的字符可以是 1 到 4 字节长。UTF-8 可以代表 Unicode 标准中的任何字符。UTF-8 向后兼容 ASCII。UTF-8 是电子邮件和网页的首选编码。
UTF-16 16 位 Unicode 转换格式是一种可变长度的 Unicode 字符编码,能够编码整个 Unicode 指令表。UTF-16 主要用于操作系统和环境,如 Microsoft Windows、Java 和 .NET。

Совет: Unicode первые 128 символов (ASCII-однозначное соответствие) использовать значение ASCII того же двоичного октета кодируется таким образом, что действительный текст ASCII UTF-8 кодировке также проводит эффективным.

Совет: Все HTML 4 процессоры поддерживают UTF-8, все HTML 5 и процессоры XML поддержка UTF-8 и UTF-16!


стандарты HTML5: Unicode UTF-8

Поскольку набор символов размер ISO-8859 ограничена и не совместимы в многоязычной среде, консорциум Unicode разработал стандарт Unicode.

стандартные обложки Unicode (почти) все символы, знаки и символы.

Unicode позволяет обработку, хранение и транспортировку текста, а также независимый от платформы язык.

HTML-5 в кодировке символов по умолчанию является UTF-8.

Вот некоторая поддержка HTML5 набор UTF-8 символов:

字符集 十进制 十六进制
C0 控制与基本的 Latin(C0 Controls and Basic Latin) 0-127 0000-007F
C1 控制与 Latin-1 的补充(C1 Controls and Latin-1 Supplement) 128-255 0080-00FF
Latin 扩展 A(Latin Extended-A) 256-383 0100-017F
Latin 扩展 B(Latin Extended-B) 384-591 0180-024F

Если HTML5 страница использует UTF-8 символов отличается от, вам нужно указать в теге <META> следующим образом:

примеров

<meta charset=»ISO-8859-1″>

Предыдущая: HTML ISO-8859-1 Справочное руководство

Далее: HTML ссылка символ сущность по эксплуатации


w3big. com | HTML курс | Web курс | Web Tutorial

Условия использования Unicode

 

Общую политику конфиденциальности, регулирующую доступ к этому сайту, см. в Политика конфиденциальности Юникод.

  1. Юникод Copyright
    1. Copyright © 1991-2023 Unicode, Inc. Все права защищены.
  2. Определения
    Файлы данных Unicode («ФАЙЛЫ ДАННЫХ») включают все файлы данных в каталогах:
    https://www.unicode.org/Public/
    https://www.unicode.org/reports/
    https://www.unicode.org/ivd/data/
    Файлы данных Unicode не включают таблицы кодов в формате PDF в каталоге:
    https://www.unicode.org/Public/
    Программное обеспечение Unicode («ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ») включает любой исходный код, опубликованный в стандарте Unicode. 
    или любой исходный код или скомпилированный код в каталогах:
    https://www.unicode.org/Public/ПРОГРАММЫ/
    https://www.unicode.org/Public/cldr/
    http://site.icu-project.org/download/
     
  3. Условия использования
    1. Некоторые документы и файлы на этом веб-сайте содержат легенду указывая, что «Изменение разрешено». Любой человек настоящим разрешается безвозмездно изменять такие документы и файлы для создания производных работ, соответствующих Unicode® Стандартный, в соответствии с положениями и условиями, изложенными в настоящем документе.
    2. Настоящим любому лицу разрешается безвозмездно просматривать, использовать, воспроизводить и распространять все документы и файлы в соответствии с Условиями здесь.
    3. Дополнительные спецификации прав и ограничений, касающихся по использованию файлов данных Unicode и ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ можно найти в Файлы данных Unicode и лицензия на программное обеспечение.
    4. Каждая версия стандарта Unicode имеет дополнительные спецификации прав и ограничений использования. Для книги выпуски (Unicode 5.0 и более ранние версии) находятся на обороте принадлежащий титульная страница.
    5. Онлайн-таблицы кодов Unicode PDF имеют определенные ограничения. Эти ограничения включены в качестве первая страница каждой таблицы кодов PDF.
    6. На все остальные файлы, включая онлайн-документацию по базовой спецификации Unicode 6.0 и более поздних версий, распространяются настоящие Общие условия использования.
    7. Лицензия не предоставляется для «зеркала» веб-сайта Unicode, на котором за доступ к «зеркальному» сайту взимается плата.
    8. Внесение изменений в этот документ запрещено. Все копии этого документа должны быть дословными.
  4. Легенда об ограничении прав
    1. Любой технический данные или программное обеспечение, лицензия на которое предоставлена ​​Соединенным Штатам Америка, ее агентства и / или инструменты в соответствии с этим Соглашение является коммерческими техническими данными или коммерческим компьютером программное обеспечение, разработанное исключительно на частные средства, как это определено в FAR 2. 101 или DFARS 252.227-7014 (19 июня95), если применимо. Для технические данные, использование, копирование или раскрытие правительством подлежит ограничениям, изложенным в DFARS 202.227-7015 Технические данные, коммерческие данные и изделия (ноябрь 1995 г.) и настоящее Соглашение. Для программного обеспечения в соответствии с FAR 12-212 или DFARS 227-7202, в зависимости от обстоятельств, использование, копирование или раскрытие На правительство распространяются ограничения, изложенные в настоящем Соглашение.
  5. Гарантии и отказ от ответственности
    1. Эта публикация и/или веб-сайт могут содержать технические или типографские ошибки или другие неточности. Изменения периодически дополняется информация здесь; эти изменения будут включаться в новые издания публикации и/или Веб-сайт. Unicode, Inc. может вносить улучшения и/или изменения в продукт(ы) и/или программа(ы), описанные в данной публикации и/или веб-сайт в любое время.
    2. Если этот файл был приобретен на магнитном или оптическом носителе от Unicode, Inc. единственное и исключительное средство правовой защиты от любых претензий будет заменен дефектный носитель в течение девяноста (90) дней оригинальной покупки.
    3. , ЗА ИСКЛЮЧЕНИЕМ РАЗДЕЛА E.2, НАСТОЯЩЕЙ ПУБЛИКАЦИИ И/ИЛИ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ПРЕДОСТАВЛЯЕТСЯ «КАК ЕСТЬ» БЕЗ КАКИХ-ЛИБО ГАРАНТИЙ ЯВНО ВЫРАЖЕННЫЕ, ПОДРАЗУМЕВАЕМЫЕ ИЛИ ПРЕДУСМОТРЕННЫЕ ЗАКОНОМ, ВКЛЮЧАЯ, НО НЕ ОГРАНИЧИВАЯСЬ, ЛЮБЫЕ ГАРАНТИИ КОММЕРЧЕСКОЙ ПРИГОДНОСТИ, ПРИГОДНОСТИ ДЛЯ КОНКРЕТНОГО ЦЕЛЬ ИЛИ НЕНАРУШЕНИЕ ПРАВ. UNICODE, INC. И ЕЕ ЛИЦЕНЗИАРЫ ПРИНИМАЮТ НИКАКОЙ ОТВЕТСТВЕННОСТИ ЗА ОШИБКИ ИЛИ УПУЩЕНИЯ В ЭТОЙ ПУБЛИКАЦИИ И/ИЛИ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ИЛИ ДРУГИЕ ДОКУМЕНТЫ, НА КОТОРЫЕ ДАЕТСЯ ССЫЛКА ИЛИ ССЫЛКИ НА ЭТУ ПУБЛИКАЦИЯ ИЛИ НА ВЕБ-САЙТ UNICODE.
  6. Отказ от возмещения ущерба
    1. Ни при каких обстоятельствах Unicode, Inc. или ее лицензиары несут ответственность за любые особые, случайные, косвенные или косвенные убытки любого рода или любые убытки независимо от того, была ли Unicode, Inc. уведомлена о возможности ущерба, включая, помимо прочего, ущерб, возникший в результате следующее: потеря использования, данных или прибыли в связи с использование, изменение или распространение этой информации или ее производные.
  7. Товарные знаки и логотипы
    1. Словесный товарный знак Unicode и логотип Unicode являются товарными знаками Unicode, Inc. «The Unicode Consortium» и «Unicode, Inc.». являются торговыми наименованиями Unicode, Inc. Использование информации и материалов, размещенных на этом веб-сайте, свидетельствует о том, что вы признаете исключительные права Unicode, Inc. во всем мире на словесный знак Unicode, логотип Unicode и торговые наименования Unicode.
    2. Политика Консорциума Unicode в отношении наименования и использования товарных знаков («Политика в отношении товарных знаков») включена в настоящий документ посредством ссылки, и вы соглашаетесь соблюдать положения Политики в отношении товарных знаков, которые могут время от времени изменяться по единоличному усмотрению Unicode, Inc.
    3. Все упомянутые здесь товарные знаки третьих лиц являются собственностью их соответствующих владельцев.
  8. Разное
    1. Юрисдикция и место проведения . Этот веб-сайт управляется с место в штате Калифорния, Соединенные Штаты Америки. Unicode, Inc. не делает никаких заявлений о том, что материалы подходит для использования в других местах. Если вы получите доступ к этому веб-сайт из других мест, вы несете ответственность за соблюдение с местными законами. Настоящее Соглашение, любое использование данного веб-сайта и любые претензии и убытки, возникшие в результате использования этого веб-сайта, регулируются исключительно законами штата Калифорния без учета любые принципы, которые применяли бы законы другой юрисдикция. Пользователь соглашается с тем, что любые споры относительно этого сайта разрешается исключительно в судах, расположенных в г. Санта округ Клара, Калифорния. Пользователь соглашается с указанными судами личной юрисдикции и соглашаетесь отказаться от любого права на передачу спор на любой другой форум.
    2. Модификация Unicode, Inc. Unicode, Inc. имеет право изменить настоящее Соглашение в любое время, разместив его на этом веб-сайте. Пользователь не может переуступать какую-либо часть настоящего Соглашения без Предварительное письменное согласие Unicode, Inc.
    3. Налоги. Пользователь соглашается платить любые налоги, вытекающие из доступ к этому веб-сайту или использование содержащейся здесь информации, за исключением для тех, кто основан на чистой прибыли Unicode.
    4. Делимость . Если какое-либо положение этого Соглашение признано недействительным или не имеющим законной силы, остальные положения настоящего Соглашения остаются в силе.
    5. Полное соглашение . Настоящее Соглашение представляет собой Полное соглашение между сторонами.

Учебное пособие по регулярным выражениям. Символы и свойства Unicode

Unicode — это набор символов, предназначенный для определения всех символов и глифов всех человеческих языков, живых и мертвых. Поскольку требуется все больше и больше программного обеспечения для поддержки нескольких языков или даже просто любого языка , Unicode в последние годы сильно набирает популярность. Использование разных наборов символов для разных языков просто слишком громоздко для программистов и пользователей.

К сожалению, Unicode предъявляет свои требования и подводные камни, когда дело доходит до регулярных выражений. Из разновидностей регулярных выражений, обсуждаемых в этом руководстве, Java, XML и .NET используют механизмы регулярных выражений на основе Unicode. Perl поддерживает Unicode, начиная с версии 5.6. PCRE может быть дополнительно скомпилирован с поддержкой Unicode. Обратите внимание, что PCRE гораздо менее гибок в отношении токенов \p, несмотря на его название «Perl-совместимый». Предварительные функции PHP, основанные на PCRE, поддерживают Unicode, если к регулярному выражению добавляется параметр /u. Ruby поддерживает escape-последовательности и свойства Unicode в регулярных выражениях, начиная с версии 1.9.. XRegExp обеспечивает поддержку свойств Unicode для JavaScript.

Механизм регулярных выражений RegexBuddy полностью основан на Unicode, начиная с версии 2.0.0. RegexBuddy 1.x.x вообще не поддерживал Unicode. PowerGREP использует тот же механизм регулярных выражений Unicode, начиная с версии 3.0.0. Более ранние версии преобразовывали файлы Unicode в ANSI перед сборкой с помощью 8-битного (т. ..$ соответствует à.

Кодовая точка Unicode U+0300 (ударение) представляет собой , объединяющий знак . За любой кодовой точкой, не являющейся объединяющей меткой, может следовать любое количество объединяющих меток. Эта последовательность, как и U+0061 U+0300 выше, отображается на экране как одна графема .

К сожалению, à также можно закодировать с помощью одной кодовой точки Unicode U+00E0 (a с серьезным ударением). Причина этой двойственности заключается в том, что многие исторические наборы символов кодируют «а с серьезным ударением» как один символ. Разработчики Unicode подумали, что было бы полезно иметь сопоставление один к одному с популярными устаревшими наборами символов в дополнение к способу Unicode для разделения знаков и базовых букв (что делает возможными произвольные комбинации, не поддерживаемые устаревшими наборами символов).

Как сопоставить одиночную графему Unicode

Сопоставить одиночную графему, закодированную как одну кодовую точку или как несколько кодовых точек с использованием комбинированных меток, легко в Perl, PCRE, PHP, Boost, Ruby 2. 0, Java 9 , и приложения Just Great Software: просто используйте \X. Вы можете рассматривать \X как версию точки в Unicode. Однако есть одно отличие: \X всегда соответствует символам разрыва строки, тогда как точка не соответствует символам разрыва строки, если только вы не включите режим сопоставления точки с новой строкой.

В .NET, Java 8 и более ранних версиях и Ruby 1.9 вы можете использовать \P{M}\p{M}*+ или (?>\P{M}\p{M}*) в качестве достаточно близкой замены . Чтобы сопоставить любое количество графем, используйте (?>\P{M}\p{M}*)+ вместо \X+.

Сопоставление определенной кодовой точки

Чтобы сопоставить определенную кодовую точку Unicode, используйте \uFFFF, где FFFF — шестнадцатеричное число кодовой точки, которую вы хотите сопоставить. Вы всегда должны указывать 4 шестнадцатеричных цифры. \u00E0 соответствует à, но только при кодировании одной кодовой точкой U+00E0.

Perl, PCRE, Boost и std::regex не поддерживают синтаксис \uFFFF. Вместо этого они используют \x{FFFF}. Вы можете опустить ведущие нули в шестнадцатеричном числе между фигурными скобками. Поскольку \x сам по себе не является допустимым токеном регулярного выражения, \x{1234} никогда нельзя спутать с совпадением \x 1234 раза. Он всегда соответствует кодовой точке Unicode U+1234. \x{1234}{5678} попытается сопоставить кодовую точку U+1234 ровно 5678 раз.

В Java маркер регулярного выражения \uFFFF соответствует только указанной кодовой точке, даже если вы включили каноническую эквивалентность. Однако тот же синтаксис \uFFFF также используется для вставки символов Unicode в литеральные строки в исходном коде Java. Pattern.compile(«\u00E0») будет соответствовать кодировке à как с одной кодовой точкой, так и с двойной кодовой точкой, а Pattern.compile(«\\u00E0») соответствует только версии с одной кодовой точкой. Помните, что при написании регулярного выражения в виде строкового литерала Java необходимо экранировать обратную косую черту. Первый код Java компилирует регулярное выражение à, а второй компилирует \u00E0. В зависимости от того, что вы делаете, разница может быть значительной.

JavaScript, который не поддерживает Unicode через свой класс RegExp, поддерживает \uFFFF для сопоставления одной кодовой точки Unicode как часть синтаксиса строки.

Схема XML и XPath не имеют маркера регулярного выражения для сопоставления кодовых точек Unicode. Однако вы можете легко использовать объекты XML, такие как ￿ для вставки литеральных кодовых точек в ваше регулярное выражение.

Категории Unicode

Помимо усложнений, Unicode также предоставляет новые возможности. Во-первых, каждый символ Unicode принадлежит к определенной категории. Вы можете сопоставить одиночный символ, принадлежащий к категории «буква», с помощью \p{L}. Вы можете сопоставить один символ , а не , относящийся к этой категории с \P{L}.

Опять же, «символ» на самом деле означает «кодовую точку Unicode». \p{L} соответствует одной кодовой точке в категории «буква». Если ваша входная строка имеет кодировку à U+0061 U+0300, она соответствует a без акцента. Если ввод à закодирован как U+00E0, он соответствует à с акцентом. Причина в том, что обе кодовые точки U+0061 (а) и U+00E0 (а) относятся к категории «буква», а U+0300 — к категории «знак».

Теперь вы должны понять, почему \P{M}\p{M}*+ является эквивалентом \X. \P{M} соответствует кодовой точке, которая не является объединяющей меткой, а \p{M}*+ соответствует нулю или более кодовым точкам, которые являются объединяющими метками. Чтобы сопоставить букву, включая любые диакритические знаки, используйте \p{L}\p{M}*+. Это последнее регулярное выражение всегда будет соответствовать à, независимо от того, как оно закодировано. Притяжательный квантификатор гарантирует, что поиск с возвратом не приведет к тому, что \P{M}\p{M}*+ будет соответствовать не-метке без следующих за ней комбинированных меток, чего \X никогда бы не сделал.

PCRE, PHP и .NET чувствительны к регистру, когда проверяют часть между фигурными скобками токена \p. \p{Zs} будет соответствовать любому символу пробела, а \p{zs} выдаст ошибку. Все другие механизмы регулярных выражений, описанные в этом руководстве, будут соответствовать пробелу в обоих случаях, игнорируя регистр категории между фигурными скобками. Тем не менее, я рекомендую вам использовать ту же комбинацию прописных и строчных букв, что и я в списке свойств ниже. Это заставит ваши регулярные выражения работать со всеми механизмами регулярных выражений Unicode.

В дополнение к стандартной нотации, \p{L}, Java, Perl, PCRE, JGsoft Engine и XRegExp 3 позволяют использовать сокращение \pL. Сокращение работает только с однобуквенными свойствами Unicode. \pLl — это , а не эквивалент \p{Ll}. Это эквивалент \p{L}l, который соответствует Al или àl или любой букве Unicode, за которой следует литерал l.

Perl, XRegExp и движок JGsoft также поддерживают длинную запись \p{Letter}. Вы можете найти полный список всех свойств Unicode ниже. Вы можете опустить символы подчеркивания или вместо них использовать дефисы или пробелы.

  • \p{L} или \p{Letter}: любая буква любого языка.
    • \p{Ll} или \p{Lowercase_Letter}: строчная буква, имеющая вариант в верхнем регистре.
    • \p{Lu} или \p{Uppercase_Letter}: прописная буква, у которой есть вариант строчной.
    • \p{Lt} или \p{Titlecase_Letter}: буква, которая появляется в начале слова, когда только первая буква слова заглавная.
    • \p{L&} или \p{Cased_Letter}: буква, которая существует в строчных и прописных вариантах (комбинация Ll, Lu и Lt).
    • \p{Lm} или \p{Modifier_Letter}: специальный символ, который используется как буква.
    • \p{Lo} или \p{Other_Letter}: буква или идеограмма, не имеющая строчных и прописных вариантов.
  • \p{M} или \p{Mark}: символ, предназначенный для комбинирования с другим символом (например, акценты, умляуты, закрывающие прямоугольники и т. д.).
    • \p{Mn} или \p{Non_Spacing_Mark}: символ, предназначенный для объединения с другим символом, не занимая лишнего места (например, акценты, умлауты и т. д.).
    • \p{Mc} или \p{Spacing_Combining_Mark}: символ, предназначенный для объединения с другим символом, занимающим дополнительное место (знаки гласных во многих восточных языках).
    • \p{Me} или \p{Enclosing_Mark}: символ, заключающий в себе символ, с которым он сочетается (круг, квадрат, колпачок и т. д.).
  • \p{Z} или \p{Separator}: любой пробел или невидимый разделитель.
    • \p{Zs} или \p{Space_Separator}: символ пробела, который невидим, но занимает место.
    • \p{Zl} или \p{Line_Separator}: символ-разделитель строк U+2028.
    • \p{Zp} или \p{Paragraph_Separator}: символ-разделитель абзаца U+2029.
  • \p{S} или \p{Symbol}: математические символы, знаки валюты, дингбаты, символы для рисования прямоугольников и т. д.
    • \p{Sm} или \p{Math_Symbol}: любой математический символ.
    • \p{Sc} или \p{Currency_Symbol}: любой знак валюты.
    • \p{Sk} или \p{Modifier_Symbol}: объединяющий символ (отметка) как отдельный полный символ.
    • \p{So} или \p{Other_Symbol}: различные символы, не являющиеся математическими символами, знаками валюты или комбинациями символов.
  • \p{N} или \p{Число}: любой числовой символ в любом сценарии.
    • \p{Nd} или \p{Decimal_Digit_Number}: цифра от нуля до девяти в любом алфавите, кроме идеографического.
    • \p{Nl} или \p{Letter_Number}: число, похожее на букву, например, римская цифра.
    • \p{No} или \p{Other_Number}: надстрочная или подстрочная цифра или число, не являющееся цифрой 0–9(исключая числа из идеографического письма).
  • \p{P} или \p{Punctuation}: любой знак пунктуации.
    • \p{Pd} или \p{Dash_Punctuation}: любой вид дефиса или тире.
    • \p{Ps} или \p{Open_Punctuation}: любая открывающая скобка.
    • \p{Pe} или \p{Close_Punctuation}: любая закрывающая скобка.
    • \p{Pi} или \p{Initial_Punctuation}: любая открывающая кавычка.
    • \p{Pf} или \p{Final_Punctuation}: любая закрывающая кавычка.
    • \p{Pc} или \p{Connector_Punctuation}: знак препинания, например, символ подчеркивания, соединяющий слова.
    • \p{Po} или \p{Other_Punctuation}: любой знак пунктуации, кроме тире, квадратных скобок, кавычек или соединителей.
  • \p{C} или \p{Other}: невидимые управляющие символы и неиспользуемые кодовые точки.
    • \p{Cc} или \p{Control}: управляющий символ ASCII или Latin-1: 0x00–0x1F и 0x7F–0x9F.
    • \p{Cf} или \p{Format}: невидимый индикатор форматирования.
    • \p{Co} или \p{Private_Use}: любая кодовая точка, зарезервированная для частного использования.
    • \p{Cs} или \p{Surrogate}: половина суррогатной пары в кодировке UTF-16.
    • \p{Cn} или \p{Unassigned}: любая кодовая точка, которой не назначен ни один символ.

Скрипты Unicode

Стандарт Unicode помещает каждую назначенную кодовую точку (символ) в один скрипт. Сценарий — это группа кодовых точек, используемых определенной системой письма человека. Некоторые сценарии, такие как тайский, соответствуют одному человеческому языку. Другие сценарии, такие как латиница, охватывают несколько языков.

Некоторые языки состоят из нескольких алфавитов. Японского письма Unicode не существует. Вместо этого Unicode предлагает хирагану, катакану, хань и латиницу, из которых обычно состоят японские документы.

Специальный сценарий — это Общий сценарий. Этот сценарий содержит всевозможные символы, которые являются общими для широкого круга сценариев. Он включает в себя всевозможные знаки препинания, пробелы и прочие символы.

Все назначенные кодовые точки Unicode (соответствующие \P{Cn}) являются частью ровно одного сценария Unicode. Все неназначенные кодовые точки Unicode (соответствующие \p{Cn}) вообще не являются частью какого-либо сценария Unicode.

Движок JGsoft, Perl, PCRE, PHP, Ruby 1.9, Delphi и XRegExp могут сопоставлять сценарии Unicode. Вот список:

  1. \p{Общий}
  2. \p{Арабский}
  3. \p{Армянский}
  4. \p{Бенгальский}
  5. \p{Бопомофо}
  6. 9 \p{024} p{Buhid}
  7. \p{Canadian_Aboriginal}
  8. \p{Cherokee}
  9. \p{Cyrillic}
  10. \p{Devanagari}
  11. \p{Ethiopic}
  12. \p{G {греческое}
  13. \p{Гуджарати}
  14. \p{Гурмукхи}
  15. \p{Хань}
  16. \p{Хангыль}
  17. \p{Хануно}
  18. \p{Иврит}
  19. \p{Ирагана}
  20. }
  21. \p{Унаследованный}
  22. \p{Каннада}
  23. \p{Катакана}
  24. \p{Кхмерский}
  25. \p{Лаосский}
  26. \p{Латинский}
  27. 902Limbu \p{Малайялам}
  28. \p{Монгольский}
  29. \p{Мьянма}
  30. \p{Огам}
  31. \p{Ория}
  32. \p{Рунический}
  33. \p{сингальский}
  34. \p{сирийский}
  35. \p{тагальский}
  36. \p{тагбанва}
  37. \p{тайле}
  38. \p{тамильский}
  39. 9001u9gu
  40. \p{Thaana}
  41. \p{Thai}
  42. \p{Tibetan}
  43. \p{Yi}

Perl и версия JGsoft позволяют использовать \p{IsLatin} вместо \p{Latin }. Синтаксис «Is» полезен для различения скриптов и блоков, как описано в следующем разделе. PCRE, PHP и XRegExp не поддерживают префикс «Is».

В Java 7 добавлена ​​поддержка сценариев Unicode. В отличие от других разновидностей, для Java 7 требуется префикс «Is».

Блоки Unicode

Стандарт Unicode делит карту символов Unicode на разные блоки или диапазоны кодовых точек. Каждый блок используется для определения символов определенного шрифта, такого как «тибетский», или принадлежащих к определенной группе, такой как «Шаблоны Брайля». Большинство блоков содержат неназначенные кодовые точки, зарезервированные для будущего расширения стандарта Unicode.

Обратите внимание, что блоки Unicode не на 100% соответствуют сценариям. Существенное различие между блоками и сценариями заключается в том, что блок представляет собой единый непрерывный диапазон кодовых точек, как указано ниже. Сценарии состоят из символов, взятых со всей карты символов Unicode. Блоки могут включать неназначенные кодовые точки (т. е. кодовые точки, соответствующие \p{Cn}). Сценарии никогда не включают неназначенные кодовые точки. Как правило, если вы не уверены, использовать ли сценарий Unicode или блок Unicode, используйте сценарий.

Например, блок Валюта не включает символы доллара и иены. Вместо этого они находятся в блоках Basic_Latin и Latin-1_Supplement, хотя оба являются символами валюты, а символ иены не является латинским символом. Это связано с историческими причинами, поскольку стандарт ASCII включает знак доллара, а стандарт ISO-8859 включает знак иены. Вы не должны слепо использовать какие-либо из перечисленных ниже блоков на основе их названий. Вместо этого посмотрите на диапазоны символов, которым они действительно соответствуют. В этом может помочь такой инструмент, как RegexBuddy. Свойство Unicode \p{Sc} или \p{Currency_Symbol} будет лучшим выбором, чем блок Unicode \p{InCurrency_Symbols} при попытке найти все символы валюты.

  1. \p{InLatin_Latin}: U+0000–U+007F
  2. \p{InLatin-1_Supplement}: U+0080–U+00FF
  3. \p{InLatin_Extended-A}: U+0100–U+017F
  4. \p{InLatin_Extended-B}: U+0180–U+024F
  5. \p{InIPA_Extensions}: U+0250–U+02AF
  6. \p{InSpacing_Modifier_Letters}: U+02B0–U+02FF
  7. 9 p{InCombining_Diacritical_Marks}: U+0300–U+036F
  8. \p{InGreek_and_Coptic}: U+0370–U+03FF
  9. \p{InCyrillic}: U+0400–U+04FF
  10. \p{InCyrillic_Supplementary}: U + 0500–U + 052F
  11. \p{на армянском}: U+0530–U+058F
  12. \p{на иврите}: U+0590–U+05FF
  13. \p{на арабском}: U+0600–U+06FF
  14. \p{ InSyriac}: U+0700–U+074F
  15. \p{InThaana}: U+0780–U+07BF
  16. \p{InDevanagari}: U+0900–U+097F
  17. \p{InBengali}: U+ 0980–U+09FF
  18. \p{ИнГурмухи}: U+0A00–U+0A7F
  19. \p{ИнГуджарати}: U+0A80–U+0AFF
  20. \p{ИнОрия}: U+0B00–U+0B7F
  21. \p{InTamil}: U+0B80–U+0BFF
  22. \p{InTelugu}: U+0C00–U+0C7F
  23. \p{InKannada}: U+0C80–U+0CFF
  24. \p{InMalayalam}: U+0D00–U+0D7F
  25. \p{InSinhala}: U+0D80–U+0DFF
  26. \p{ Тайский}: U+0E00–U+0E7F
  27. \p{InLao}: U+0E80–U+0EFF
  28. \p{InTibetan}: U+0F00–U+0FFF
  29. \p{InLao}: U+ 1000–U+109F
  30. \p{InGeorgian}: U+10A0–U+10FF
  31. \p{InHangul_Jamo}: U+1100–U+11FF
  32. \p{InEthiopic}: U+1200–U+137F
  33. \p{InCherokee}: U+13A0–U+13FF
  34. \p{InUnified_Canadian_Aboriginal_Syllabics}: U+1400–U+167F
  35. \p{InOgham}: U+1680–U+169F
  36. \p{InRunic}: U+16A0–U+16FF
  37. \p{InTagalog}: U+1700–U+171F
  38. \p{ InHanunoo}: U+1720–U+173F
  39. \p{InBuhid}: U+1740–U+175F
  40. \p{InTagbanwa}: U+1760–U+177F
  41. \p{InKhmer}: U+ 1780–U+17FF
  42. \p{InMongolian}: U+1800–U+18AF
  43. \p{InLimbu}: U+1900–U+194F
  44. \p{InTai_Le}: U+1950–U+197F
  45. \p{InKhmer_Symbols}: U+19E0–U+19FF
  46. \p{InPhonetic_Extensions}: U+1D00–U+1D7F
  47. \p{InLatin_Extended_Additional}: U+1E00–U+1EFF
  48. \p{InGreek_Extended}: U+1F00–U+1FFF
  49. \p{InGeneral_Punctuation}: U+2000–U+206F
  50. \p{ InSuperscripts_and_Subscripts}: U+2070–U+209F
  51. \p{InCurrency_Symbols}: U+20A0–U+20CF
  52. \p{InCombining_Diacritical_Marks_for_Symbols}: U+20D0–U+20FF \InCurrency_Symbols
  53. 9001like 2100–U+214F
  54. \p{InNumber_Forms}: U+2150–U+218F
  55. \p{InArrows}: U+2190–U+21FF
  56. \p{InMathematical_Operators}: U+2200–U+22FF
  57. \p{InMiscellaneous_Technical}: U+2300–U+23FF
  58. \p{InControl_Pictures}: U+2400–U+243F
  59. \p{InOptical_Char }: U+2440–U+245F
  60. \p{InEnclosed_Alphanumerics}: U+2460–U+24FF
  61. \p{InBox_Drawing}: U+2500–U+257F
  62. \p{InBlock_Elements}: U+2580 –U+259F
  63. \p{InGeometric_Shapes}: U+25A0–U+25FF
  64. \p{InMiscellaneous_Symbols}: U+2600–U+26FF
  65. \p{InDingbats}: U+2700–U+27BF
  66. \p{InMiscellaneous_Mathematical_Symbols-A}: U+27C0–U+27EF
  67. \p{InSupplemental_Arrows-A}: U+27F0–U+27FF
  68. \ p{InBraille_Patterns}: U+2800–U+28FF
  69. \p{InSupplemental_Arrows-B}: U+2900–U+297F
  70. \p{InMiscellaneous_Mathematical_Symbols-B}: U+2980–U+29FF
  71. \p {InSupplemental_Mathematical_Operators}: U+2A00–U+2AFF
  72. \p{InMiscellaneous_Symbols_and_Arrows}: U+2B00–U+2BFF
  73. \p{InCJK_Radicals_Supplement}: U+2E80–U+2EFF
  74. \p{InKangxi_Radicals}: U+2F00–U+2FDF
  75. \p{InIdeographic_Description_Characters}: U+2FF0–U+2FFF
  76. \p{InCJK_Symbols_and_Punctuation}: U+3000–U+304F 900 InHiragana}: U+3040–U+309F
  77. \p{InKatakana}: U+30A0–U+30FF
  78. \p{InBopomofo}: U+3100–U+312F
  79. \p{InHangul_Compatibility_Jamo}: U+ 3130–U+318F
  80. \p{InKanbun}: U+3190–U+319F
  81. \p{InBopomofo_Extended}: U+31A0–U+31BF
  82. \p{InKatakana_Phonetic_Extensions}: U+31F0–U+31FF
  83. \p{InEnclosed_CJK_Letters_and_Months}: U+3200–U+32FF
  84. \p{InCJK_Compatibility}: U+3300–U+33FF
  85. \p{InCJK_Unified_Ideographs_Extension_A}: U+4F90 0{DB1400–U+3400–U InYijing_Hexagram_Symbols}: U+4DC0–U+4DFF
  86. \p{InCJK_Unified_Ideographs}: U+4E00–U+9FFF
  87. \p{InYi_Syllables}: U+A000–U+A48F
  88. \p{InYi_Radical: U+A000–U+A48F
  89. \p{InYi_Radical A490–U+A4CF
  90. \p{InHangul_Syllables}: U+AC00–U+D7AF
  91. \p{InHigh_Surrogates}: U+D800–U+DB7F
  92. \p{InHigh_Private_Use_Surrogates}: U+DB80–U+DBFF
  93. \p{InLow_Surrogates}: U+DC00–U+DFFF
  94. \p{InPrivate_Use_Area}: U+E000–U+F8FF
  95. 9 InCJK_Compatibility_Ideographs}: U+F900–U+FAFF
  96. \p{InAlphabetic_Presentation_Forms}: U+FB00–U+FB4F
  97. \p{InArabic_Presentation_Forms-A}: U+FB50–U+FDFF
  98. \pInArabic_Presentation_Forms-A}: U+FB50–U+FDFF
  99. \pInAlphabetic_Presentation_Forms: U+FE00–U+FE0F
  100. \p{InCombining_Half_Marks}: U+FE20–U+FE2F
  101. \p{InCJK_Compatibility_Forms}: U+FE30–U+FE4F
  102. \p{InSmall_Form_Variants}: U+FE50–U+FE6F
  103. \p{InArabic_Presentation_Forms-B}: U+FE70–U+FEFF
  104. \p{InHalfwidth_and_Fullwidth_Forms}: U+FF00–U+2FF4EF 900 \p{InHalfwidth_and_Fullwidth_Forms}: U+FF00–U+2FF4EF 900 p{InSpecials}: U+FFF0–U+FFFF

Не все механизмы регулярных выражений Unicode используют один и тот же синтаксис для сопоставления блоков Unicode. Java, Ruby 2.0 и XRegExp используют синтаксис \p{InBlock}, как указано выше. Вместо этого .NET и XML используют \p{IsBlock}. Perl и разновидность JGsoft поддерживают обе нотации. Я рекомендую вам использовать нотацию «In», если ваш механизм регулярных выражений поддерживает ее. «In» можно использовать только для блоков Unicode, а «Is» также можно использовать для свойств и скриптов Unicode, в зависимости от используемой разновидности регулярного выражения. Используя «In», очевидно, что вы сопоставляете блок, а не свойство или скрипт с таким же названием.

В .NET и XML необходимо опустить символы подчеркивания, но оставить дефисы в именах блоков. Например. Используйте \p{IsLatinExtended-A} вместо \p{InLatin_Extended-A}. В Java вы должны опускать дефисы. .NET и XML также сравнивают имена с учетом регистра, в то время как Perl, Ruby и разновидность JGsoft сравнивают их без учета регистра. Java 4 чувствительна к регистру. Java 5 и более поздние версии чувствительны к регистру для префикса «Is», но не для самих имен блоков.

Фактические имена блоков одинаковы во всех механизмах регулярных выражений. Имена блоков определены в стандарте Unicode. PCRE и PHP не поддерживают блоки Unicode, хотя они поддерживают сценарии Unicode.

Вам нужно беспокоиться о разных кодировках?

Хотя вы всегда должны помнить о ловушках, связанных с различными способами кодирования акцентированных символов, вам не всегда нужно о них беспокоиться. Если вы знаете, что ваша входная строка и ваше регулярное выражение используют один и тот же стиль, вам вообще не о чем беспокоиться. Этот процесс называется нормализацией Unicode . Все языки программирования с собственной поддержкой Unicode, такие как Java, C# и VB.NET, имеют библиотечные процедуры для нормализации строк. Если вы нормализуете тему и регулярное выражение перед попыткой сопоставления, несоответствий не будет.

Если вы используете Java, вы можете передать флаг CANON_EQ в качестве второго параметра в Pattern.compile(). Это говорит обработчику регулярных выражений Java считать канонически эквивалентных символов идентичными. Регулярное выражение à, закодированное как U+00E0, соответствует à, закодированное как U+0061 U+0300, и наоборот. Ни один из других механизмов регулярных выражений в настоящее время не поддерживает каноническую эквивалентность при сопоставлении.

Если вы нажмете клавишу à на клавиатуре, все известные мне текстовые процессоры вставят в файл кодовую точку U+00E0. Поэтому, если вы работаете с текстом, который вы набрали сами, любое регулярное выражение, которое вы наберете сами, будет соответствовать точно так же.

Наконец, если вы используете PowerGREP для поиска в текстовых файлах, закодированных с использованием традиционной кодовой страницы Windows (часто называемой «ANSI») или кодовой страницы ISO-8859, PowerGREP всегда использует замену «один к одному». Поскольку все кодовые страницы Windows или ISO-8859 кодируют символы с диакритическими знаками как одну кодовую точку, почти все программное обеспечение использует одну кодовую точку Unicode для каждого символа при преобразовании файла в Unicode.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *