加拿大华人论坛 美国华人新闻关于中文编码GB,GBK,Unicode的介绍,大家可以了解了



在加拿大


关于中文编码GB,GBK,Unicode的介绍,大家可以了解了解汉字编码系统  为进行信息交换,各汉字使用地区都制订了一系列汉字字符集标准。  国标码(“国标”是中华人民共和国国家标准的简称)在中国大陆使用。GB2312收录6763个汉字,GBK收录20912个汉字,最新的GB18030收录27533个汉字。  BIG5码。收录13053个汉字。在台湾和香港使用的一字节或两字节编码。  Unicode并不被中国政府很好的接受。中国政府要求在中国大陆出售的软件必须支持GB 18030编码。  在国际通信化和软件设计领域,CJK编码收集了汉语、日语、韩语中的汉字集。  关于Unicode  由于各国国家标准字集所收的汉字字数、常用字的差异,虽然象中国两岸GB/BIG5字集常用字基本类似,转换后阅读并不成问题,但是这种编码转换的混乱关系,对文字交流始终是一种障碍。因此相关国家的标准化组织和文字工作者经过共同努力,终于在93年完成了包含中日韩(CJK)汉字的Unicode 汉字标准ISO 10646.1。 Unicode是完全双字节表示的多国文字编码体系,编码空间0x0000-0xFFFF。 ISO 10646.1汉字标准使用编码0x4E00-9FA5,共包含20902个汉字。其中:大陆(S)提出的汉字17124个,台湾(T)提出的汉字17258个; S与T的并集,即中国(C)提出的汉字为20158个。日本(J)提出的汉字为12157个,中国未提出的690个(Ja); 韩国(K)提出的汉字为7477个,其中中国未提出的90个(Ka); Ja与Ka并集共744字。 支持Unicode编码的相关电脑系统软件,如Unix, Win95已有推出,但是由于Unicode的ASCII码是用双字节编码(即一般电脑系统中的单字节ASCII码前加 0x00),同时其汉字编码与各国的现有编码也不兼容,造成现有的软件和数据不能直接使用,所以目前完全使用Unicode软件系统的用户并不多,大多数只将它此作为一个国际语言编码标准来使用。汉字简介  汉字,是记录汉语的文字系统,并仍然或曾经在日语和朝鲜语、越南语中使用。汉字是世界上最古老的文字之一,拥有4500年以上的历史。狭义地说,它是汉族的文字;广义地言,它是汉字文化圈共同的文字。  汉字是承载文化的重要工具,目前留有大量用汉字书写的典籍。不同的方言都使用汉字作为共同书写体系,因而汉字在历史上对中华文明的传播起到了重要作用,并成为东南亚文化圈形成的内在纽带。在汉字发展过程中,留下了大量诗词、对联等文化,并形成了独特的汉字书法艺术。  一个汉字一般具有多种含义,也具有很强的组词能力,且很多汉字可独立成词。这导致了汉字极高的“使用效率”,2000左右常用字即可覆盖98%以上的书面表达方式。加之汉字表意文字的特性,汉字的阅读效率很高。汉字具备比字母文字更高的信息密度,因此,平均起来,同样内容的中文表达比其他任何字母语言的文字都短。  目前的汉字体系分为繁体字和简体字,前者用于台湾、香港、澳门和北美的华人圈中,后者用于中国大陆和新加坡以及东南亚的华人社区。通常说来,两种汉字书写系统虽然有差异,常用汉字的个体差异不到25%。  由于汉字书写复杂,“汉字落后论”的说法存在了很长时间,认为汉字是教育及信息化瓶颈,并有“汉字拉丁化”甚至废除汉字的推动行为。现在一般认为汉字也有突出优点,初始学习难度虽大,但掌握常用字后不存在类似海量英文单词的继续学习问题,且其表意特性也能充分调动人脑的学习能力。在计算机输入问题基本解决后,“汉字落后论”及“汉字拉丁化”已实际上逐渐被大多数人抛弃。  目前汉字系统已经基本稳定,但汉字的规范化、生僻字的自然消亡仍在继续进行。汉语简介  世界主要语言之一。属汉藏语系,是这个语系里最主要的语言。除了中国大陆和台湾省以外,汉语还分布在新加坡、马来西亚等地。以汉语为母语的人大约有 9.4亿。汉语是联合国的工作语言之一。  汉语的标准语是近几百年来以北方官话为基础逐渐形成的。它的标准音是北京音。汉语的标准语在中国大陆称为普通话,在台湾称为国语,在新加坡、马来西亚称为华语。  语音  汉语的音节可以分析成声母、韵母、声调3部分。打头的音是声母,其余的部分是韵母,声调是整个音节的音高。把声调也看成音节的组成部分,是因为汉语的声调是辨义的。例如“汤、糖、躺、烫”4个字的声母都是[tang],韵母都是[ang](方括弧里是国际音标,表格里的国际音标省去括弧),只是因为声调不同,意义就不一样,在语言里分别代表 4个不同的语素(最小的有意义的语言单位),在书面上写成 4个不同的字。  1918年由当时的教育部颁布的国语注音字母是利用汉字字形制定的一套拼音字母。这套字母把主要元音与韵尾合在一起用一个符号表示(例如:ㄠ=[au],ㄢ=[an]),体现了传统的声母韵母两分的精神。注音字母广泛流传,影响很大。台湾省一直沿用至今。  1958年公布的汉语拼音方案采用拉丁字母(表2北京话声母、表3北京话韵母)。自1978年开始,中国人名地名一律改用汉语拼音字母拼写,取代了威妥玛式等各种旧拼法。  语法  汉语的语素绝大部分是单音节的(手│洗│民│失)。语素和语素可以组合成词(马+路→马路│开+关→开关)。有的语素本身就是词(手、洗),有的语素本身不是词,只能跟别的语素一起组成复合词(民→人民│失→丧失)。现代汉语里双音节词占的比重最大。大部分双音词都是按照上面提到的复合方式造成的。  文字  从目前我们能看到的最早的成批的文字资料──商代甲骨文字算起,汉字已有3000年的历史。由于甲骨文字已经是相当成熟的文字体系,我们可以推断汉字的发生一定远在3000年以前。汉字的发展可以划分为两个大阶段。从甲骨文字到小篆是一个阶段;从秦汉时代的隶书以下是另一个阶段。前者属于古文字的范畴,后者属于近代文字的范畴。大体说来,从隶书到今天使用的现代汉字形体上没有太大的变化。  从汉字跟汉语的关系看,汉字是一种语素文字。从汉字本身的构造看,汉字是由表意、表音的偏旁(形旁、声旁)和既不表意也不表音的记号组成的文字体系。  汉字起源于图画。在汉字产生的早期阶段,象形字的字形跟它所代表的语素的意义直接发生联系。虽然每个字也都有自己固定的读音,但是字形本身不是表音的符号,跟拼音文字的字母的性质不同。象形字的读音是它所代表的语素转嫁给它的。随着字形的演变,象形字变得越来越不象形。结果是字形跟它所代表的语素在意义上也失去了原有的联系。这个时候,字形本身既不表音,也不表义,变成了抽象的记号。如果汉语里所有的语素都是由这种既不表音也不表义的记号代表的,那么汉字可以说是一种纯记号文字。不过事实并非如此。汉字有独体字与合体字的区别。只有独体字才是纯粹的记号文字。合体字是由独体字组合造成的。从构造上说,合体字比独体字高一个层次。因为组成合体字的独体字本身虽然也是记号,可是当它作为合体字的组成成分时,它是以有音有义的“字”的身份参加的。合体字可以分成以下3类:  ①形声字。形声字由表示意义的形旁和表示读音的声旁两部分组成。拿构造最简单的形声字来说,形旁和声旁都是由独体字充当的。作为形声字的组成部分,这些独体字都是有音有义的字。不过形旁只取其义,不取其音,例如“鸠”字的偏旁“鸟”;声旁则只取其音,不取其义,例如“鸠”字的偏旁“九”。由于字义和字音的演变,有些形声字的形旁或声旁现在已失去了表意或表音的功能。例如“球”本来是一种玉的名称,所以以“玉”为形旁。现在“球”字不再指玉,这个形旁就没有作用了。再如“海”字本来以“每”为声旁。由于字音的变化,现在“海”和“每”的读音相去甚远,声旁“每”也就不起作用了。有的时候,形旁和声旁都丧失了原来的功能,例如“给、等、短”。这一类字已经不能再作为形声字看待了。  形声字和非形声字之间并没有明确的界限。造字之初,形声字和它的声旁的读音本来就不一定密合。发展到现代汉字,出入就更大了。有人拿7500多个现代合体汉字进行统计。就普通话读音来说,合体字跟声旁完全同音(声母、韵母、声调全同)的不到 5%。声母、韵母相同而声调不同的约占10%。只有韵母一项相同的约占20%。如果我们只把前两类看作形声字,那么形声字大概只占通行汉字的15%。如果把以上三类全看作形声字,形声字大概会占通行汉字35%的样子。要是把标准再放宽或者完全根据来历确定形声字,那么通行汉字中形声字的百分比还要高得多。  ②合体会意字。古人说“止戈为武”,“人言为信”。对于“武”、“信”两个字来说,这种解释是错误的。不过汉字体系里确实有按照这种方式造成的字,例如“不正为歪”,“不好为孬”。这一类字的特点是会合偏旁的字义来表现整个合体字的意义。这种字为数很少,只有个别的例子。  以上两类合体字里的偏旁有的有表意作用,有的有表音作用。下边一类的情形不同。 ③合体记号字。这一类合体字的偏旁既不表意,也不表音。这主要有两种情形。一是由于字音和字义的变化,原来的声旁和形旁已经不再表音、表意了。例如上文举过的“给、等、 短”一类字。 另一种情形可以举“章”字为例。 按照汉代许慎《说文解字》的分析,“章”字从“音”从“十”。可是现在一般人说“立早章” (以区别于“弓长张”)的时候,是把它分析成“立”和“早”两部分。其实从古文字看,“章”本来是一个独体象形字,跟“音、十、立、早”都没有关系。  汉字用来记录汉语已经有3000年以上的历史,一直沿用到今天,没有中断过。在如此长的历史时期里,汉字不仅为人们的现实生活服务,而且记录下极其丰富的文化资料;甚至跨越国界,被日本、朝鲜、越南等邻国借去记录非汉语语言。  另一方面,长期以来也不断有人批评汉字的缺点,主要是说汉字难认、难写、难于机械化(印刷排版、打字等)。因此在扫盲、儿童识字教育、文化传播等方面,都不如拼音文字效率高。  跟拼音文字比较起来,汉字有它的短处,但是也有它的长处。汉字最大的长处就是能够超越空间和时间的限制。古今汉语字音的差别很大。但由于2000年来字形相当稳定,没有太大变化,字义的变化比较小,所以先秦两汉的古书今天一般人还能部分看懂。如果古书是用拼音文字写的,现代人就根本无法理解了。有些方言语音差别也很大,彼此不能交谈,可是写成汉字,就能互相了解,道理也是一样的。  50年代开始进行简化汉字的工作。1986年重新公布的《简化字总表》规定了2200多个简化汉字(包括用简化偏旁类推的字)。这项工作目前已告一段落,今后在一个时期内将保持稳定,不继续简化。因为不断简化会破坏文字的稳定性,而且简化一批字以后,原来的繁体字并不能废除。结果是汉字的总数有增无减,反而加重了学习和使用的人的负担。  关于文字拼音化问题,长期以来一直有争论。从理论上说,任何自然语言都可以用拼音文字记录。但是由于汉语方言分歧,在推广普通话的工作没有取得广泛、切实的成效以前,改用拼音文字会给方言区的人带来很大的困难。此外,由于汉字历史悠久,大量的文献都是用汉字记录的。一旦改弦易辙,势必在文献的广泛利用上造成一定困难,在社会心理和民族感情上也可能引起波动。  方言  中国幅员辽阔,人口众多,方言情况复杂。下边把汉语方言粗分为官话和非官话两大类来说明。官话分布在长江以北地区和长江南岸九江与镇江之间沿江地带以及湖北、四川、云南、贵州4省,包括北方官话、江淮官话、西南官话几个方言区。官话区域的面积占全国3/4,人口占全国2/3。官话方言内部的一致程度比较高。从哈尔滨到昆明,相距3000公里,两地的人通话没有多大困难。非官话方言主要分布在中国东南部,包括吴方言(江苏南部,浙江大部)、赣方言(江西大部)、湘方言(湖南大部,广西壮族自治区北部)、粤方言(广东大部,广西壮族自治区东南部)、闽方言(福建,台湾,广东的潮州、汕头、海南地区)、客家方言(广东省东部和北部,福建西部,江西南部,台湾)。非官话区域比官话区域面积小,可是方言差别大,彼此一般不能通话,甚至在同一个方言区内部(例如浙南吴方言与苏南吴方言之间、福州话和厦门话之间),交谈都有困难。  书面语和口语  书面语和口语的差别一直相当大。在“五四”时期白话文运动以前,书面语和口语的区别实际上是古今语的区别。以唐宋时代为例,当时人口里说的是白话。笔下写的是文言,即以先秦诸子和《左传》、《史记》等广泛传诵的名篇为范本的古文文体。这种情形往上大概可以推到两汉时期。往下一直延续到20世纪初叶。孙中山1925年立的遗嘱就还是用文言写的。不过2000 年来作为书面语的文言本身也在变化。仿古终归难以乱真,后世人模仿古语不可能不受当时口语的影响。有人指出韩愈的文章里就有明显的不合先秦语法的地方。清代桐城派古文家模仿先秦文和唐宋古文家的文章,结果当然更为驳杂。清末梁启超用一种浅显的文言文写政论文章。由于通俗易懂,风行一时,为报章杂志所广泛采用。目前台湾、香港以及海外中文报刊多数仍旧沿用这种文体。介绍的还可以,但还有一些没有说到。unicode是一个计划包括所有文字字符的编码,而且早期好像还和ISO体系有一些矛盾(记得不是很清楚了)。还有就是Unicode好像就是UTF-16,为了计算机上好处理,就有了UTF-8(好像是一种变字节编码,最多好像有4字节的字符)。现在主要的linux发行版好像默认都是UTF-8。楼主,这个后面的部分似乎有点偏题了。哈哈。不过读完之后受益良多。跑题了…………GBK/GB2312/GB18030/UTF8在计算机中的根本区别在哪里没有说有些地方说的不太准确。很多人都认同,GB 18030,和UTF-8一样,其实是Unicode的一种编码方式。只不过UTf-8的目的是在兼容ASCII的基础上编码Unicode,而GB 18030是在兼容GB2312和GBK的基础上编码Unicode。所以根本谈不上啥中国不接受Unicode。更不要说还有GB 13000这样的标准了。这篇文章详细介绍了unicode,iso10646,utf-8等的关系和不同。http://www.linuxfans.org/nuke/module...=view&sid=1749后面有点离题了,没看。谢谢,已经不错了

  ·中文新闻 工党政府赋予工会“巨大的权力”
·中文新闻 莉莉·詹姆斯 (Lily James) 凌晨 4 点被发现与身价 65 亿英镑的 Air

美国华人新闻-加拿大

富坚义博开通推特

华人网摘要:经漫画家村田雄介和集英社确认,该账号为富坚本人。 图源:twitter 5月23日,推上出现了一个ID为富坚义博的新账号,简介上写着这是一个报告原稿进度的“官方()”并发布了一 ...

美国华人新闻-加拿大

日本议员提议立法禁止AV

华人网摘要:日本立宪民主党众议员堤かなめ在25日众议院内阁委员会上表示,立宪民主党将 "禁止涉及性行为的色情制品 "为目标制定法律。 日本立宪民主党众议员堤かなめ在25日众议院内阁 ...

美国华人新闻-加拿大

师村妙石的创新篆刻作品

华人网摘要:师村妙石,日本著名艺术家、篆刻家、书法家,一直致力于中日友好活动和文化交流,长期专攻中国传统篆刻技法。师村妙石先生曾223次访问中国进行书法研究和文化交流(截至 ...

日本,每年一次全民体检
美国华人新闻-加拿大

日本,每年一次全民体检

华人网关注我,带你看看普通人的日本生活。我家附近每隔两三百米就有一块告示板,类似于国内“居委会”或者“社区”的通知,平时大事小情都能在这里看到。前几天看到了有免费筛查宫 ...

美国华人新闻-加拿大

师村妙石的编著书影

华人网摘要:师村妙石,日本著名艺术家、篆刻家、书法家,一直致力于中日友好活动和文化交流,长期专攻中国传统篆刻技法。师村妙石先生曾223次访问中国进行书法研究和文化交流(截至 ...