เข้ารหัสตัวอักษรในอดีต

ในอดีตคนไทยที่เขียนเว็บเพจ
จะใช้ charset เป็น tis-620
หรือ windows-874 หรือ iso-8859-11
ส่วนแฟ้มเว็บเพจ
มีการเข้ารหัสแบบ ansi
คือ 1 ตัวอักษร = 1 ไบท์

ปัจจุบันการเข้ารหัสตัวอักษร
จะใช้ utf-8 ซึ่งรองรับได้เกือบทุกภาษา
และเครื่องมือต่าง ๆ ก็ใช้ utf-8
แต่ตัวอักษรที่ไม่ใช่ภาษาอังกฤษ
จะใช้พื้นที่ในการเขียนเว็บเพจ
หรือการเก็บข้อมูลมากกว่า 1 byte
เช่น ก จะใช้พื้นที่ 3 byte
เปลี่ยนจาก A1 ฐาน 16 ในตาราง ascii
เป็น E0B881 ฐาน 16 ใน UTF-8

เว็บเพจเดิม
ใช้ windows-874 และเข้ารหัสแบบ ansi
แต่เครื่องบริการกำหนด default
ให้ charset เป็น utf-8
ทำให้ต้องกลับไปแก้ไขเว็บเพจทั้งหมด
เนื่องจากพัฒนาเว็บเพจเป็นแบบ static
ทำให้ต้องตามกลับไปแก้ไขทุกแฟ้ม

ถ้าระบบใดพัฒนาเป็นแบบ dynamic
มีการแยก header ให้ include เข้าไป
ก็จะแก้ไขได้โดยง่าย

ซึ่งข้อดีข้อเสียของ
ทั้ง dynamic และ static ก็ต่างกันไป
เช่นเดียวกับระบบรวมศูนย์
และกระจายศูนย์ ที่อยู่ระบบใด
ก็จะเห็นข้อดีของระบบอื่น
และต้องการเปลี่ยนแปลงอยู่เสมอ

https://thaiall.com/fonts/[:])
Font
ปรับปรุง charset

การสั่งแสดงตัวอักษร ก ใน CP874 บน Webpage

มีโอกาสนั่งคุยกับนักศึกษา
เรื่องตัวเลข ฐานสิบ ฐานสิบหก และตาราง ASCII
พบตาราง Character Set ของคนไทย คือ Windows-874 หรือ TIS-620
หากจะแสดงเว็บเพจภาษาไทย
มักใช้ <meta http-equiv=”content-type” content=”text/html;charset=windows-874″ />
หรือ <meta charset=”tis-620″ />
แล้วสั่งแสดงตัวอักษร ก ด้วย &#3585; หรือพิมพ์ตรง ๆ ก็ได้
หากใช้ตัวเลข ก็แสดงว่า 3585 คือ ก
ซึ่งเป็นเลขสำหรับตัวอักษรภาษาไทยตัวแรก ในระบบ Unicode
แล้วพบว่าไม่สามารถแสดงด้วย &#161; หรือ &#xA1;
เพราะ Browser ไม่ได้รองรับ
อักษรพิเศษอื่น ๆ ที่ชวนมอง และมี Entity Name

อาทิ
&amp; = Ampersand
# = Number sign
# = Hashtag sign
# = Sharp sign

 

โฮมเพจที่น่าสนใจ
http://www.w3schools.com/charsets/ref_utf_symbols.asp
http://www.rakjung.com/facebook-no163.html
http://www.thailibrary.in.th/2014/02/13/char-set/
https://en.wikipedia.org/wiki/Code_page