印刷新闻 印刷技术 印刷展会 印刷词典 院校社团 印刷企业 印刷杂志 电子书库

PDF档案格式中文嵌入现况与问题探讨——台湾学生论文(6.2)

台湾中国文化大学印刷传播学系 林威宇 更新日期:2003-05-23


伍、亚洲字型嵌入现况


一、字型编码说明:

亚洲字型要嵌入PDF档案,比英文字型的嵌入需要更多的软体,以及更复杂的技术。在此之前我们必须说明亚洲字型以及英文型的差异点,以及其在不同平台上的差异点。在亚太地区,虽然都有使用汉字,但每个国家或地区所使用的内码都不相同,兹就各地区的编码介绍如下 

(一)台湾地区

1.Big 5:俗称大五码

2.Big 5 plus:Big 5扩编码

3.CNS11643:中文标准交换码 

(二)中国大陆

1.GB2312-80:通称国标码 

2.GBK :汉字内码扩展规范 

(叁)日本 

1.Shift JIS 

2.EUC-JIS 

(四)韩国 

1.KSC 5601 

(五)其他:


二、编码原则:

1.文字之选择及字体悉依”国字标准字体表”为基准

2.以2个位元组(byte)为中文码编码单位,并以16进位制之文数字表示之

3.符合CNS 5205及CNS7654之通信定则

4.依字之使用频率而编排於各不同的字面 

5.每字面按先笔划後部首的排列顺序来编订字码 


叁、CID 字型与TrueType字型,PostScript字型的关系:

CID是取自於Character ID的缩写,此字元辨识码的功用在於帮助检索及取用字元,大量改进了其使用效能,此种方法最适合用於庞大的字体集如东方双位元文字-中文、日文、韩文等。Acrobat并非一定需要使用CID字型,亦可以使用TrueType字型,但在使用TrueType字型时若在印表机驱动程式字型选项中若选择将字型传送为Type 1时,则嵌入於PDF中的中文字无法再做增字的动作,而选择将字型传送为Type 42时,则嵌入於PDF中的中文字可修改增减(修改时系统中需有相同的字型)。中文PostScript字型目前尚无法适用於PDF档案格式。

内嵌字型的最大优点便在解决文件产生者与输出者之间字型不同或对应错误的问题,现在PS流程是用字码对应,且必须是同一家字型公司的同一系列版本才可对应,字型内嵌可将此问题一劳永逸的解决。


四、Acrobat Reader 能显示包含 CJK 文字的 PDF 档案的方式:

要显示 CJK 文字,有两种方式。一是在建立 PDF 档案时,作者可以嵌入所有文件中使用到的字体,包含 CJK 字体,只要字体可以被嵌入就行。任何语言版本的 Acrobat Reader 都可以用嵌入的 CJK 字体来显示 PDF 档案。但是因为嵌入字体的 PDF 档案可能会占太多空间,所以作者可能在建立档案时选择不嵌入文件中使用的所有字体,这是第二种方式;如果在这种情况下,Acrobat 或 Acrobat Reader 的使用者若要查看该 PDF 档案,就必须使用正确的亚洲文字字体集。


五、目前亚洲字体集中所包含的字体:

目前有四个亚洲字体集 (繁体中文、简体中文、日文与韩文)中,每个都包括有 serif 与 sans-serif 字体。 而 PDF 档案中嵌入的亚洲字体的类型,在Windows 平台上可嵌入 TrueType 字体,而在 Macintosh 与 Windows 平台上可以嵌入 CID 格式的 Adobe PostScript 字体。较旧的 OCF 格式的 PostScript 字体不能嵌入,此外,文件中的字体必须容许嵌入。 <注叁>

嵌入字体使PDF档案大小改变的因素取决於文件所包含的字体数量及字元多少。大体而言,一般文件中每嵌入一个 C、J 或 K 字体,PDF 档案的大小就会增加 2 MB 到 3 MB 。 Macintosh 版 Acrobat 1.0 中的「MakeCID 」可将 TrueType 字体与较旧的 OCF 格式的 PostScript 字体转换成「Width-Only」(仅具宽度资讯) 的 CID 字体。这些 CID 字体仅包含 TrueType 或 OCF 字体中使用的罗马字元的宽度资讯,Distiller 在建立参考原始 TrueType 或 OCF 字体的 PDF 档案时,需要用到这种字形。如需更多资讯,请参阅「MakeCID」公用程式资料夹中的文件。如需在罗马语言的作业系统中建立包含 CJK 文字的 PDF 档案,仅具宽度资讯的 CID 字体就可派上用场。 对於在罗马语言的系统上建立包含 CJK 文字的 PDF来说,Acrobat 中的 PDF Writer是不能在罗马语言的作业系统上建立包含 CJK 文字的 PDF 档案的。然而,如果 Distiller 可以使用它所要制作的 PostScript 档案中所参考的字体,那麽 Distiller 就能建立含有 CJK 文字的 PDF 档案。如果 PostScript 档案含有嵌入的 TrueType 字体,您就可以在任何平台上制作此 PostScript 档。此外,针对目前 Adobe Type Library 中的所有 CJK 字体,以及 Macintosh 或 Windows 系统中常见的 TrueType 字体,Distiller 都附有「Width-Only」的 CID 字体。有了这些字体资讯,Distiller 将可以在任何平台上均可成功制作 PostScript 档案。此外,如果制作的 PostScript 档案中有其他的字体需要转换,还可以用「MakeCID」公用程式建立仅具宽度资讯的 CID 字体。 

陆、中文繁体字嵌入现况以及其所面临的问题

目前来说,支援中文PDF档案字型内嵌的字集在Mac上只有文鼎的CID ATM字型;在PC上有文鼎的CID PostScript字型,以目前面临的问题来说,第一就是档案大小,第二就是目前在网路上使用的USER并未普遍在个人PC上安装相关的浏览软体。特别是亚洲字型,除了浏览软体外,还必须加装亚洲文字字集方可开启嵌入亚洲字型的PDF档案。此外在印刷业上尚未能使用PDF档输出的做法。


柒、未来解决方案

PDF档案是一种非常具有发展潜力的档案格式,举凡各种格式的图文档案,皆可转成PDF档,未来无论是Microsoft系列的软体、Corel系列、Adobe系列,都将支援PDF档案格式的产生、修改、编辑以及输出。但就目前来说,除了Adobe Acrobat系列有完整的功能以外,其他软体的功能都还尚未健全,而且其他相关应用软体的种类太过繁杂,有待相关的软体开发公司开发出更具整合性的应用软体。 而档案大小的问题,只有两个方法,治标的方法为将PDF以更高的比例压缩,以利传输;而治本的方法还是必须一方面开发更宽频的网路;一方面使之更普及,以利大量的资料在网路上传输。


捌、结论

PDF档案格式并非Acrobat特有的档案格式,例如华康的DynaDoc档案格式亦为可携式文件的一种,其大致上的特性与Acrobat的PDF档案格式相近,只是功能上有些许的出入。但基本上的目的、用途、产生方式以及浏览方式是非常相近的。

PDF档案尚有相当大的研发以及应用空间,例如在电子报方面,就是一个非常好的PDF档案应用实例,因为一般的电子报大多只有大量的文字,缺少图片以及活泼的版面,使得阅读者在浏览电子资讯时,会觉得面对满版僵硬的文字,而降低阅读的意愿;如果能将电子报编排成一般报纸的版面,以PDF档的格式表现在读者面前,如此有了活泼的版面以及图片,一定会增加使用者阅读的意愿;另外,PDF档第二层的超连结功能亦可让使用者从头条标题上直接连结,将页面导引到报纸的内文中,而省去了逐页浏览的时间。当然了,这部分的构想还得等使用者习惯於以Acrobat Reader阅读档案,以及各种问题解决後,才能进入实验及应用阶段,这将是另一个网路出版的新出路。


玖、附注 

【注一】Acrobat4.0电子文件新世纪P59~60 

【注二】图片取自文鼎公司网站 

【注叁】针对目前可支援Distiller作嵌入的文鼎字型来说,只要为合法的原版字型,文鼎就允许使用者嵌入。 

【注四】使用Distiller将字形嵌入之文字,因失去文字特性,故无法做搜寻及复制。

 


名词解释 


(一)PostScript:
PostScript为美国Adobe(http://www.adobe.com)公司於1985年所发表的文件描述技术, Adobe并利用这个技术, 创造着名合乎PostScript技术的字型, 并从而改变正个印刷工业. PostScript可以精确的描述平面绘制任何文字及图形. 现今PostScript的技术已经非常普遍的使用在印刷领域, 包括萤幕显示(Display), 雷射印表机(Laser Printer), 输出机(Imagesetter), 数位印刷机(Digital Printing)..等等输出设备. 而与PostScript技术搭配最重要的是PostScript字型, 使用者可以透过PostScript技术调整抹些参数, 而改变字型的大小, 阴影/立体/空心/粗细等特殊效果. 由於PostScript在印刷方面卓越表现, 目前世界上主要的文献几乎多是以PostScript的形式出现. Adobe1997年4月发表了更进步的PostScript 3 强调增进品质及彩色能力及网际网路列印功能. 


(二)TrueType:
TrueType字型格式为美国Apple及Microsoft所共同制定. 最先使用於Apple的Macintosh系列及Microsoft Windows 3.1, 而目前Apple的OS 8.0及Microsoft Windows 95/NT也都使用TrueType作为字型格式 基本上TrueType和PostScript一样, 都是使用贝兹曲线(Bezier Curve)来描述的外框字. 字型可以作任意尺寸的放大缩小, 或作其他属性的变化.不过由於Apple及Microsoft的作业系统都直接支援此字型格式. 所以并不需要如PostScript一样, 外挂(Adobe)Type Manager之类的程式. 


(叁)ATM:
ATM(Adobe Type Manager)的功用在於管理Type 1字型的使用,ATM会自动将Type 1外框字点阵化以用於萤幕显示或印表机列印,若所欲列印的印表机为PostScript印表机,则ATM会将字型下载至印表机,由印表机做点阵化外框字。而欲列印的印表机为一般非PostScript印表机时,则ATM会自动将Type 1外框字型点阵化再传送至印表机。 


(四)CID:
CID是取自於Character ID的缩写,此字元辨识码的功用在於帮助检索及取用字元,大量改进了其使用效能,此种方法最适合用於庞大的字体集如东方双位元文字-中文、日文、韩文等。 


(五)Unicode编码:
(Unicode编码)即为ISO 10646国际编码标准,完全符合Microsoft Office 2000及Windows 2000之字型编码规格,在单一作业系统下即可输入多国文字,使跨国文件的制作变得很轻松

1.Unicode :

Big 5:为目前在台湾普遍所使用的业界标准,Big 5码包括第一字面5401个汉字,第二字面7652个汉字及440个符号,目前支援Big 5的软硬体包含Windows
95/NT,Apple OS,倚天中文系统,点阵印表机,喷墨印表机,雷射印表机,等等软硬体设备都支持此内码,但由於台湾的特殊环境,所以并非只使用Big 5码为唯一的内码,其他尚包括如金资码,财税码,电信码,海关码,IBM 5550码,户政码,IBM主机码,公会码(TCA),王安码,等等,都分别使用於各种应用领域。 

2.Big 5 Plus:

虽然Big 5字集为台湾最普遍使用的字集,但由於Big 5所定义的字集只有13053个汉字,并无法满足,专业使用者的需要,尤其是政府部门,更无法满足现阶段文件交换的需要,所以在”财团法人中文电脑推广基金会”的主持下完成对Big 5码的扩编,详细资料可参考”财团法人中文电脑推广基金会”网站(http://www/cmex,org,tw),包括缘由,码本,…等等相关资讯。

3..CNS11643 中文标准交换码:

CNS11643 中文标准交换码,一般简称 CNS 码或 CNS11643 ,因中央标准局公布及修订之先後而有二个版本,一般称为 CNS11643-1986 版(1986公告版)及 CNS11643-1992 版(1992年修订版),此二个版本之差异仅在於其所编定之字数不同。75 年公告之 CNS11643定义 11.051个汉字,81 年修订版扩编为48,027 个汉字。 75 年公告之 CNS11643 名称为「通用汉字标准交换码」,於 81 年扩充後修订 CNS11643 名称为「中文标准交换码」。两个电脑系统要交换资料时,以两方皆认可之码传输,此称为交换码,交换码之设计须符合国际标准。因此一般在电脑内部处理时使用内码,而在传输时,再转换为标准交换码。

4.GB2312-80:

GB2312-80为中国大陆最为普遍使用的内码,不论在电脑作业系统如Apple Machitosh或Microsoft中文Windows简体版,都是以GB2312-80为内码,至於其他周边装置,如印表机,软体,标签印字机,及其他各种软硬体也都是以GB2312-80为内码,即使中文Windows 95虽以GBK为内码,但仍与GB2312-80相容 GB2312-80共规范了6763个汉字及682个符号,内容主要也都是简体化过的汉字,与Gb2312-80相对应的为GB12345-90,基本上GB12345-90仍保留原来繁体字的样子,但码序与GB2312-80相同,另外增加了100多个多对一的汉字 

5.GBK:汉字内码扩展规范,简称GBK,Chinese Internal Code Specification GBK工作小组於1995年10月成立,并於1995年12月完成GBK规范,基本上采用了原来GB2312-80所有的汉字及码位,并涵盖了原Unicode中所有的汉字20901.总共收录了883个符号,21003个汉字及提供了1894个造字码位 

由於GBK的编码,在与GB2312-80的部分采用了GB-2312完全相同的码序与字样,所以市面上所有的合乎GB2312-80的文件,档案及程式都可以在合乎GBK规范的系统上正常运行,目前Microsoft简体版中文Windows 95就是以GBK为内码,又由於GBK同时也涵盖了Unicode所有CJK汉字,所以也可以和Unicode做一一对应, Unicode(http://www,Unicode,com) :(Universal Multiple Octet Coded Character Set) 国际标准组织於1984年4月成立IOS/IEC JTC1/SC2/WG2工作组,针对各国文字,符号进行统一性编码,1991年美国跨国公司成立Unicode Consortium,并於1991年10月与WG2达成协议,采用同一编码字集,目前Unicode是采用16 bit之编码架构,其字集内容与ISO 10646之BMP(Basic Multilingual Plane)相同,Unicode (Unicode Consortium)并於1992年6月通过DIS(Draft International Standard),目前版本为Unicode v1.0於1996年公布,内容包含符号6811.汉字20901.韩文拼音11171.造字区6400,保留20249共65534个码位。

 


参考资料 

1.Publishing & Production

2.http://www.agfahome.com.tw/ (台湾Agfa首页)

3.http://www.adobe.com (Adobe公司首页)

4.http://www.arphic.com.tw/ (文鼎公司首页)

5.http://www.dynalab.com.tw/ (华康公司赏页)

6.Acrobat 4.0电子文件新世纪