欢迎来到连鹏的博客

怀念过去,铭记今天,憧憬未来;希望做一个时代的记录者,有价值的媒体人;无论寂寞无奈、贫困潦倒、飞蛾扑火也在所不惜;希望以年轻一代的眼光来描述加拿大的历史、文化、政治及记录中国移民和留学生在枫叶之国的心酸和努力。QQ:76365,MSN:lianpeng126#hotmail.com

2008年8月7日星期四

书籍网路化 市场垄断令人担忧


把世界上所有的书数位化放到网路上,是否该由唯一一家公司负责呢?长串名单中的世界级图书馆和书籍出版商对于这个问题似乎都不在意。2004年,这些图书馆和出版商同意和网路巨人Google合作,进行书籍数位化工作。

微软退出 助长垄断

然而,许多观察家对于Google书籍搜寻,以及人类历史集体思考的结晶,未来将如何被取得,表达出强烈的关切。上个月,这些不安与焦虑终于在微软宣布退出Google对手──非营利组织《网路资料库》主导的书籍扫描计划后,浮出台面。大约有75万本书籍和8千万篇期刊文章,过去被微软扫描过,现在都已从微软的伺服器中移除;但还是有许多扫描文本仍然在其他地方可以被搜寻到,其中包括网路资料库维护的伺服器在内,就有大约44万本书还可以在线上被搜寻到。

《网路资料库》执行主任布鲁斯特.卡勒表示,这种突如其来的转变显示了,倘若数位计划依赖的是一个以营利为主的企业,这种关系有多不可靠。同样的,他认 为,如果Google要关闭它的线上书籍资料库,或是对于进入这个资料库设下许多限制,其实是没有什么东西有能力阻止它的。

与多间图书馆合作

某些观察家指出,上网看书变得愈来愈重要,携带式电子书阅读器如亚马逊网路书店的Kindle愈来愈普遍,有愈来愈多人期望在线上找到他们所要的每一本书。

网路资料库计划在今年年底前每天扫描一千本书,卡勒说,这项计划有专款的计划也包括了国会图书馆的书籍在内。《网路资料库》目前正在寻找新的伙伴,好让这项计划持续到2009年或更久之后。Google和超过廿多个图书馆合作,包括了哈佛大学、史丹佛大学、牛津大学和普林斯顿大学等校的图书馆,另外还有纽约公立图书馆。Google图书搜寻部门的工程经理杰安.欧望特表示,Google利用相当于图书馆贵宾卡的东西,将书籍借出、扫描后毫发无损地归还给图书馆,也就是说数位化的过程不需要图书馆任何花费。

提供强大搜寻功能

截至目前为止,Google在利用书本内页内容赚钱方面,没有展现多大的企图心。虽然有些透过出版商购买电子资料的列印稿广告和连结已经出现。让使用者在Google内部天地进行搜寻的做法,似乎是其长期目标。1923年之前出版的书籍已经没有版权问题,可以免费扫描、下载或列印。Google从出版商那里取得一本新书有多少部分可以呈现出来的许可。尽管这些书籍只有“断简残篇”可以被看到,整个文本还是可以被搜寻,好协助读者判断里面承载的资讯是否是他们想要的。Google管理工作另一个备受争议的部分涉及到数位化的品质。书籍经过被称为光学特征辨识(OCR)的扫描程序后,将每一页转变成内文每个字都可以被电脑阅读的数位档案,因此这本书才可以被搜寻。

欧瓦特先生,电脑程式与OCR在处理新书上表现不俗,但是碰上颜色泛黄、印刷黯淡的旧书,或是出现涂鸭时会出现问题,Google最终产品“并非百分之百”的准确。“Google做的是非常粗糙的工作,他们的OCR非常不准确,影像品质非常差。” 纽约州维克特的Kirtas科技总裁洛提非.贝尔克希尔说,这家科技公司以全世界将书籍转换为数位档案形式的领先者自居,“我们在里面发现了脏脏的文件,还有不完整的内页。”他推测Google目前已经数位化的文件中的大部分,会在未来某天为了得到可接受的品质全数重新扫描。

贝尔克希尔先生连络了和微软合作的图书馆,并表示它们同意让Kirtas接手尚未完成的部分。Google的欧瓦特先生为自己的计划辩护,他说:“我们当然确信我们提供这个世界一份极佳的服务。我们将所有的内容数位化,只要法律允许了,我们就会开放这份资料库。”

Google为己辩护

欧瓦特说:“Google都会将一份数位复本交还给其合作伙伴,我们不是唯一拥有数位版本的人。”他表示,由于Google和图书馆之间的契约并不存在,图书馆当然也可以找其他人扫描他们的收藏。维吉尼亚大学文化历史暨媒体学者外亚那山说:“假设我们认为一个健康、多元以及容易取得的资讯体对于科学、政治、创造和文学是不可或缺的,那么我们真的必须说,“我们真的希望让这家公司过滤我们接触的资讯吗?”

没有评论:

搜索此博客