您现在的位置:首页>学术资料检索
活动新闻
学术天地
生活常识
生涯规划
文献信息检索基本知识
发布时间: 2014-05-29 12:00:00  文章来源:  浏览

一、  信息检索的概念
    信息检索(Information Retrieval)全称为“信息存储与检索”(Information Storage and Retrieval),其概念有广义和狭义之分。广义上认为,信息检索包括文献信息的存储和检索两个方面,即一个完整的信息检索系统由信息存储子系统和信息检索子系统两部分组成。
信息存储子系统:首先对一定数量的信息进行筛选,把能够描述文献信息的外部特征和内部特征进行加工、整理,使之有序化,形成信息特征标识集合,然后将之存储在某种载体上,编制成为检索工具或建立一个数据库。
信息检索子系统:根据信息用户的特定需求,对用户需求进行主题分析,利用一定的检索方法和检索技术,对存储子系统中的特征标识进行比对,把需要的文献线索或知识信息从系统中查找出来的过程,即信息检索。这就是通常人们所说的信息检索过程,也就是狭义上的信息检索。

二、 信息检索的类型
    信息检索可以按不同的划分标准划分为不同的类型。

(一)、  根据检索内容划分
    根据检索信息内容不同可划分为文献信息检索、事实信息检索和数据信息检索。
    1、文献信息检索(document retrieval):是以文献(包括目录、索引、文摘等二次文献或全文)为检索对象,查找有关文献的出处和收藏处等信息,都属于文献信息检索范畴。传统的文献信息检索一般包括两个步骤,先通过检索题录型检索工具获得文献出处等线索,然后据此查找文献原文。随着全文检索数据库和超文本检索系统的出现,检索用户可以直接从全文数据库或超文本检索系统当中获取文献原文。
    2、事实信息检索(fact retrieval):是以某一客观事实为检索对象,查找某一事实现状,以及发生的时间、地点和过程的信息检索。例如查找词语的解释、机构信息、人物的生平介绍、历史事实等信息,它能得到某一问题的具体解答。
    3、数据检索(data retrieval):是以某一具体数据为查找目的,从存储有大量数据、图表的检索工具或数据库当中获取数值型信息的一种检索类型。例如查找统计数据、市场行情、科学技术参数等相关数据,检索的结果是某一特定的数据。
文献信息检索一般是以提供线索的指示型检索工具为对象,比如利用相关目录、索引、文摘检索,是一种相关性检索,系统一般不直接解答信息用户提出的问题本身,只提供一些与它相关的文献。检索结果是不确定性的。事实信息检索和数据信息检索是是以提供具体信息的参考型检索工具为检索对象,比如利用相关年鉴、百科全书、手册、字辞典、机构名录等工具,直接提供信息用户所需要的确切的事实或数据,它是一种确定性检索。

(二)、根据检索手段划分
    根据检索手段不同可划分为手工检索和计算机检索。

1、手工检索:是以印刷型的检索工具为检索对象,利用人工手翻、大脑判断来进行查询。这是原始的信息检索模式。随着科学技术的发展,特别是新型信息存储载体的出现和计算机技术以及网络通讯技术的发展,手工检索逐渐向计算机检索方向发展。
    手工检索的特点:
(1)检索过程灵活。手工检索过程通过检索者手查、眼看、思考、比较、选择等步骤来完成,在检索过程中检索者可以边查边考虑,看提问标识和文献标识是否一致,如不符可以及时改变检索策略,因此,手工检索过程非常灵活。
(2)检索结果准确。手工检索如果准备充分、策略得当,就能较为准确地命中检索结果,最终提供明确的文献线索或确切的知识内容,如数据、定义、公式、结论等。
(3)检索不易查全。由于手工检索文献的标引深度较低,检索点较少,使得文献不容易被检索出来,检索的全面性就较难得到保证。另外,手工检索结果与检索者的检索策略和对检索工具的熟悉程度也有很大关系,如果检索者选择的检索策略不当,信息也很难查全。
(4)检索速度不快。手工检索是通过人手翻阅检索工具书来检索,其速度比机器检索慢得多,尤其在检索较复杂的课题时,更是费时费力,效率不高。

2、计算机检索:是以数字存储为基础,通过计算机设备、网络设备、通信设备以及数据库查询相关信息的检索类型。目前计算机检索包括光盘检索、联机检索和网络检索等几种形式。它的特点是检索速度快,检索途径多,信息存储量大,检索效果好,是当前信息检索手段的发展趋势。
相对于手工检索来说,计算机检索具有以下特点:
(1)检索速度快。由于计算机的运算速度快,其存贮介质的存贮信息量大,能够提高检索文献信息的检索速度,节约读者的检索时间,提高检索效率。因此,计算机检索特别适合检索大规模课题的文献信息。
(2)检索途径多。一般来说,计算机检索除具有手工检索中采用的途径外,还能满足多途径交叉检索的需要,这对于综合性课题的检索其优势尤为突出。计算机检索不仅能够提供分类、主题、作者等检索文献信息各种途径外,而且还能提供如题名、关键词、机构、中英文摘要、全文等检索途径。
(3)数据更新周期短。利用计算机检索的文献信息更新周期短,一般镜像数据库多为每月更新一次,网络联机数据库则每天更新一次。
(4)检索突破时间、空间限制。随着计算机技术、通讯技术和高密度存贮技术三位一体的发展与应用,使得计算机检索具备了实效性、完整性、广泛性和准确性的特点。由于计算机的运算速度高和数据库存贮量大,特别是对于计算机国际联机检索来讲,能在短时间内检索世界范围内的有关文献信息。打破了时间和空间以及本地资源量、用户量的限制,可以在任何时间、任何地方,通过网络检索共享服务器上的数据库。
(5)检索学科专业范围广。目前网络信息检索软件功能日益强大,随着跨库检索平台的推出,检索功能很强,信息资源的学科覆盖范围都比较广泛。比如北京清华CNKI(中国知识网)不仅包含了经济、政治、法律、文史哲、教育、社会科学综合等,而且还涵盖了医药、卫生、农业、电子技术、信息科学、数理科学等。同时检索的文献类型还包括期刊论文、学位论文、会议论文等,为用户节省很多的时间、精力。
(6)检索方便灵活。可以用逻辑通配符将多个检索词组配起来进行检索,还可以进行模糊检索或组合检索。并对检索结果可以有选择性的打印、存盘或通过Email传递检索结果,在线直接订购原文。
(7)原版全文显示效果好。利用计算机检索文献信息,无论是光盘数据库还是网络数据库,其检索到的文献信息都是原版全文显示,且显示效果良好。
  但是,计算机检索也存在一些缺点:
(1)检索费用高。上机检索费用高,一般科研课题需几百元,省级科研课题需上千元,国家级科研课题则需几千元,甚至上万元。
(2)对操作者要求高。利用计算机检索文献信息的读者,必须掌握一定的计算机知识,能熟练地运用计算机,了解计算机检索文献信息的检索界面,掌握检索策略。不仅如此,同时还应具备相应的图书馆学方面的知识,对主题、关键词、机构、全文、题名等一般的检索概念和检索途径要有所了解和掌握。
(3)检索的信息不一定能同需求相“匹配”。在计算机文献信息检索过程中,计算机不具备人脑的思维能力,因此,检索提问标识一经输入检索系统,便无法结合系统检索的具体情况不断明确用户的信息需求和修改用户的检索提问标识。同时,在计算机信息检索系统中,检索提问与文献特征标识的组配完全是一种字面组配,即计算机将两种“标识”完全作为“字符串”来进行类比运算。因此,必须要求检索提问标识在形式上与文献特征标识保持一致才能“匹配”。这种字面上的组配,使检索出的文献记录只在字面上与检索提问标识在保持一致,而在内容上或概念上就不一定符合用户的信息需求。

三、信息检索的发展趋势
    随着计算机技术、通讯技术和信息存储技术的飞速发展,手工检索靠“手翻、眼看、大脑判断”的检索方式已难以全面适应当今信息的发展。因而,信息检索由手工检索过渡到了计算机检索。 计算机检索是指人们根据特定的信息需求!利用计算机从相关的机读数据库中识别并获取所需信息的过程。计算机检索主要经历了脱机检索即批处理检索、联机检索、光盘检索和网络检索四个阶段。计算机检索的成功应用,为我们快速、高效、准确、全面、方便地获得所需信息,提供了先进的手段。
进入 20 世纪90 年代以后,互联网的发展风起云涌,人类社会的信息化、网络化进程也大大加快。与之相适应,信息检索的主流平台也迅速转移到以 WWW 为核心的网络应用环境中,信息检索步入网络化时期。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的 Web 内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师、学生及其他各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。信息检索智能化成为网络环境下信息检索的发展趋势。

1、网络检索简单化
    网络检索简单化是普及网络化的必经之路,随着计算机高科技的不断发展,现在一般用户很少应用复杂的检索,而大多只是用输入两个检索词的方式来进行检索。 因而,网络检索工具界面更加傻瓜化,使用户学习和进行信息检索更加容易。 例如随着网络搜索引擎的发展,有些搜索引擎提供了分类导引式的网络资源指南,甚至将它置于比较醒目的位置;有些搜索引擎则可让用户将检索范围限制在其索引或数据库的某个子集中,而有可能产生最直接相关的检索结果等等。用户还可以很容易地进行网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体检索欣赏、动态连接、数据挖掘和信息推拉等操作,方便、及时、准确地获得所需信息。
2、网络检索多样化
    网络检索多样化表现在网上检索工具多样化,网上检索信息多样化。现行的网上检索工具功能较单一,但随着高科技的不断发展,网上检索工具的功能应向多元化发展:网上检索工具不仅能检索文献信息,而且还能检索新闻、天气、股票、地图、交通运输时刻表、站点评论等。分析历史数据的变化趋势,预测未来发展方向,在数据处理中发现事物的发展规律,为科研、教学、生活提供科学依据。检索语言向多国化、多语种发展。目前,我们在网上检索时,就可直接使用汉语,这就使得很多人不受语言限制而能轻松上网了。网上检索信息形态多样化体现在多媒体信息检索将会变得越来越普遍。可以轻松地在网上检索文本、声音、图像、动画、电影信息。
网络检索多样化还表现为书目情报信息系统应该具有多方面的功能,包括导向功能、评价功能和文化积累等功能。从网络检索工具的实际作用看,它们已经能进行一定程度的评价、导向,有知识过滤的作用,有一定的信息资源控制功能。其次,网络文化也如同传统文化一样需要保存。网络将再造人类文明已是不容争辩保存有价值的网络文化是书目情报信息系统的责任,因此开发网络检索工具的回溯检索功能是非常必要的。
3、网络检索智能化
    智能检索是信息检索领域的发展趋势,网络信息检索也顺应了这一潮流的发展。许多网络检索工具重视开发实现基于自然语言的检索形式,检索者可将自己的检索提问以所习惯的短语,词组,甚至句子等自然语言的形式输人,智能化的检索软件将能够进行自动分析,而后形成检索策略进行检索。用户只需告诉网络检索工具想要查找什么,而无需考虑繁琐的检索规则、句法等等,使检索过程变得轻松、随意。近年来还有被称为智能搜索引擎(intelligent search engine)的网络检索工具出现,较有代表性的如FSA、Eloise和FAQ Finder,它是通过模拟传统检索服务中的咨询来获取有关的检索数据,即依据用户的需求,从可以获得的网络资源中检索出对用户最有价值的信息随着网络用户对检索的精度,检索效率要求的不断提高,网络检索软件开发更重视开发检索工具在检索功能及检索服务上的智能化程度。
4、网络检索可视化
    网络检索的可视化是指将数据库中的不可见的语义关系用图像形式可视化显示并表达用户检索过程。可视化信息是以二维或三维的空间形式展现的。例如,复旦大学图书馆在其主页(
http://www.library.fudan.edu.cn) 推出的可视化图书查询系统,可点击某一层、某一架的藏书,直接看到图书的外形。
目前,可视化已应用在气象、地理、企业、经济、文献检索等方面。虽然还未普及,但随着计算机技术以及计算机语言的进一步发展,可视化信息检索技术将会得到飞速发展。
5、网络检索个性化
    网络检索个性化是指网络站点提供内容的特色化、服务的个性化。网络站点提供内容的特色化是指信息资源系统更加注重突出信息的专业性、特色性。例如,收录某一领域信息的网站,如Stock Site(
http://www.stocksite.com)专门提供股市分析文章、股票分析工具、公司研究文章、与商业金融有关的新闻等。检索网站越来越致力于深化其服务内容,加强其信息组织、信息加工水平,提供更多经加工、编辑、评价、筛选的信息,以更深层次的信息内容提供来吸引广大用户。
随着检索工具个性化(personalization)功能的不断强化,用户可以用自己喜欢的方式来检索信息,并能在一定程度上改变显示结果的格式,不但可预先选择自己的信息源,而且能对检索结果进行阶段限定,提高检索质量。还有一种新型的、面向某个学科专业领域或某类专题信息检索的专业性搜索引擎或称垂直性门户网站(vertical portals)的网络检索工具正在走向用户。
目前支持个性化信息服务所需的支撑技术已经基本成熟,如Web数据库技术、数据推送技术、网页动态生成技术和智能代理技术。可以预见,将来网络的个性化功能将得到进一步加强。用户可以预先选择自己的信息源,向自己感兴趣的、值得自己信赖的信息源提问,索取特定类型的信息,用户还可以在一定程度上改变检索结果显示的格式,比如各个服务网站推送给用户的Mylibrary服务功能。

第二节  信息检索工具

一、检索工具的定义及其特点
    检索工具就是汇集原始文献各种特征信息,按特定的方法加以编排和组织,专供人们查找相关信息的工具,包括印刷型检索工具和数据库。
检索工具是经过一系列的判断、选择、标引、加工、分类、组织等处理形成的,它具有存储和检索两方面的基本职能,存储的广泛、全面和检索的迅速、准确是对文献检索工具的基本要求。
文献检索工具是一种特定类型的出版物,它有别于普通图书。虽然它具备可读性,但它不是供人们进行系统阅读的。它的主要特点为:首先,检索工具是大量文献的特征信息集合,普通图书的知识密集度远不如检索工具高;其次,一部完善的检索工具的编制必须采用科学的存储、简易的查检方法,还必须保证文献内容准确、观点正确,使检索工具具有高效率的查考性。所以说文献检索工具是在一次文献即原始文献的基础上加工而成的二次文献或三次文献。

二、检索工具的类型
    在不同的历史时期,由于科学技术的不断发展,同时为了满足不同信息用户的各种不同的信息需求,产生了各式各样的文献检索工具。根据不同的划分标准、不同的功用等,可以将检索工具分为不同的类型。

1、按检索手段来划分,检索工具可分为:
(1)手工检索工具。手工检索工具就是传统的印刷型检索工具,主要分有检索期刊和各种类型的参考工具书。检索期刊是按照一定发行周期固定出版,一般在每期上均有期索引,年底发行年度索引或多年累计索引。比如:《中国学术会议论文通报》、美国《工程索引》(Engineering Index)月刊本及年刊本等等,与计算机检索工具相比,它具有查询方便,阅读方便等优势,但印刷型检索工具提供的检索途径少、查询费时、不能实现资源共享等缺点,现在逐步被计算机检索工具所取代。参考工具书是一种特定类型的图书,它广泛收集某一范围相关资料,按照特定编排方式加以整理,是检索文献信息的重要工具。比如《中国大百科全书》、《中国统计年鉴》等等。
 (2)计算机检索工具。计算机检索工具主要是指利用二进制代码存储文献信息的检索工具,现在各类型检索数据库都属于计算机检索工具。计算机检索工具可以实现一次输入,多次输出,建立各种索引相当方便、快捷;同时它具有检索速度快、检索途径多、检索效果好、能实现资源共享等优势,目前已经得到广大信息检索人员的认同。

2、按出版形式划分,检索工具可分为:
(1)期刊式检索工具。就是按照期刊发行规律出版发行的一种文献检索工具。
(2)书本式检索工具。主要是指参考工具书和一些馆藏目录及联合目录等。
(3)卡片式检索工具。它是以每张卡片记录一条文献信息的外部特征和内部特征,然后将所有卡片的某个特征信息(比如作者姓名)按照一定的编排顺序(比如字顺)加以排序,形成一套套检索工具。
(4)缩微式检索工具。主要包括缩微胶卷和缩微平片两种类型检索工具。缩微型检索工具是采用缩微照相技术对印刷型检索工具进行拍照处理,然后存储在胶卷和平片等存储介质上。它的有点是能大大缩小文献体积、在一定的温度、湿度条件下保存时间比印刷型检索工具长,但其检索阅读不方便。
(5)磁带式检索工具。磁带式检索工具是指把相关文献信息通过相应技术存储在磁带等磁性介质上而形成的检索工具。

3、按检索工具的使用功用划分,检索工具可分为:
   (1)提供文献线索的指示型检索工具。
    目录,有的也称书目。是以独立的出版物为著录对象,对文献的外部特征的揭示和报道,对文献的描述比较简单,只记录文献的外部特征比如书名、篇名、作者、出版事项、载体形态、源流及收藏情况等信息。目录的种类很多,在检索工具中主要有国家书目、专题文献目录、馆藏目录、联合目录等形式。
    索引。是将出版物中具有检索意义的外部特征或内部特征信息,比如文献篇名、作者、地名、关键词、主题、分类号等代码信息,按照一定的编排顺序加以整理组织起来的检索工具。索引与目录不同,他们的主要区别是:目录所著录的是一个完整的出版物单位,如图书、期刊、会议论文集、科技报告等;而索引所著录的是一个完全独立的出版物中的某一部分。如期刊索引所著录的是期刊中的论文,而期刊目录著录的是一种独立的期刊。索引比目录揭示文献的信息更深入、细致。但两者用途各不相同。值得注意的是有一些检索工具的名称是“索引”,但其实不是索引类型检索工具,比如《全国报刊索引》和美国《工程索引》等,前一种是目录,而后一种是文摘型检索工具。
    文摘。通常我们所讲的文摘是指对一份文献或某一文献单元的内容所做的简略、准确的描述,不包含对原文的补充、解释或评论。用户利用文摘可以在较少的时间内掌握信息的内容概要,还可以根据文摘指示的出处检索信息。所以说文摘既提供信息线索,还提供信息的内容摘要,是信息检索的最佳途径。
文摘根据其使用的目的和用途不同,一般可分为报道性文摘、指示性文摘和评论性文摘三种。
报道性文摘(Informative Abstracts),它是对原文内容的浓缩,基本上能反映原文的技术内容,信息量大,参考价值高。其内容详细具体,主要向用户报道原文中的基本内容、观点、方法、数据以及研究结果或结论,一般文摘字数在300字以上。所以这类文摘对于那些不懂原文文种及难以获取文献原文的科技人员来说,使用更加方便、有效。
指示性文摘(Indicative Abstracts),这类文摘一般只对原文的主题范围、目的和方法概略地指示给用户,也称简介性文摘。它以检索者对文献内容不产生误解为原则,不涉及或很少涉及文献的具体数据及结论。故指示性文摘篇幅不长,一般在100字到300字左右。
评论性文摘(Critical Abstracts),这类文摘一般除了介绍文献的基本内容以外,还会插入文摘员的个人看法或分析。评论性文摘质量的高低在很大程度上取决于文摘员本身的专业素质的高低,所以这种类型的文摘实际上并不多见,只有比如美国的《数学评论》、《应用力学评论》和前苏联的《力学文摘》等少数检索工具采用评论性文摘。
   (2)提供具体信息的参考型检索工具。
     这一类型检索工具能直接回答用户的疑难问题,用户一旦在相关工具书中得到需要信息,就无需再去查找别的工具。它们主要是满足用户事实型和数据型信息检索需要,通常使用的检索工具有:
    ①  字、词典:字典、词典是汇集字词、短语和词素,按照一定的编撰目的进行释义、并按一定顺序编排以供人们查考的检索工具。语文字、词典是从语文知识的角度提供字词的拼写、读音、含义、用法及音节划分等知识,有的还提供派生词、词源、同义反义词、缩略语、方言俚语等相关知识。
不同的字、词典,在定义、拼写、含义(包括俚语、方言、术语)、读音、用法、词源、构造知识等方面都有不同的处理,在使用前应仔细地审查和鉴别。任何词典都有自己的特点和一定的适应范围。用户选择时应根据自己的需求加以判断。
  
    ② 引语工具书:引语书是一种特殊功能的辞典或索引,广泛汇集名言佳句,并指明出处。“引语”的含义广泛,包括名人、名言、语录、格言、谚语等。引语书的作用就是查明某一特定格言、名言的出处,识别某一引语或核实某一用语,供寻章觅句、采摘词藻之用,以启发人们的用字遣词,丰富谈吐和写作。
使用引语工具书时,有几点要注意:首先查阅当代人物的语录难度较大,一般宜采用报刊索引或新闻摘要提供的线索再查找原文。其次,国外出版的引语书不加选择地汇集各种观点的资料,兼收并蓄,选择时要作分析。第三,要检查引语本身是否准确无误,出处记录是否完备,是否详细注明作者、书名、卷次、页码。对某些古典用语,还要求引用的版本具有权威性。最后,是否具有多种检索途径,即引语是否便于使用。  
    ③ 年鉴:它是一种汇集有关各国概况、人物、事件、经济、文化、生活等资料,提供详尽的事实、数据和统计数字,反映社会发展动向及科学文化进步的年度出版物。这种工具资料密集,信息丰富,是百科知识的重要来源。
    使用年鉴应注意以下两点:第一,年鉴内容所反映的时间一般是封面页年代的上一年。因此使用一部年鉴之前,首先要弄清内容的实际时间。第二,大多数综合性年鉴的资料编排缺乏严格的逻辑次序,因此要依靠这些年鉴的索引。它是引导读者迅速地查找所需资料的捷径。
    ④ 百科全书:它是汇集人类已有知识、加以整理和概述,并提供学习和检索的工具书。百科全书涉及各个领域,其内容之丰富、规模之宏大、检索功能之完备是任何其他著述所不及的,所以它同时具备教科书和工具书的基本功能。知识全面、内容精炼、使用方便是百科全书的主要特点。
    ⑤ 手册:它是汇集某一学科或某一主题需要经常查考的资料、供读者随时翻检的工具书。手册的别称很多,有指南、便览、大全、必备、须知、入门等多种名称。
手册按所收录的学科范围,可以分为综合性手册和专业性手册。综合性手册或提供各学科专业的基本知识和资料,或提供日常生活中的常识性知识;专业性手册则提供某一学科或某一专题方面的知识。
    ⑥ 名录:在学习研究、生产经营及日常生活中经常碰见各种关于名称及其基本状况的问题需要解决,有一种检索工具就是针对这类问题设计的,这就是名录。名录主要包括人名录、地名录、机构名录、产品名录等。不同类型的名录均是我们与社会各界人士建立联系,加强往来,沟通信息,寻找客户,洞悉行业信息、开拓贸易渠道的桥梁,是查询这类信息最快速、准确、全面、直接的工具。
    ⑦ 表谱:表谱包括年表、历表和其他专门性表谱。年表汇集历史年代和历史大事资料,是按照重要的历史事件发生年代的顺序编撰成表,又称“大事表”。历表汇集不同的年月日资料,是用来换算不同历法的年月日的工具。其他专门性表谱汇集人物生平及历代职官、地理沿革等资料,它是以时间为线索揭示事物发展的辅助性历史科学工具。
    ⑧ 图录:图录是通过若干图像汇集起来并配有一定文字说明来反映事物特征和发展情况的工具,内容直观、形象,类型包括地图、历史图谱、文物图录、人物图录、艺术图录、科技图录谱等。图录又称“图册”、“图谱”、“图集”、“图鉴”等。

4、按文献收录范围来划分,检索工具可分为:
    综合型检索工具。这类检索工具是指它收录的文献学科范围非常广泛,涉及多学科,收录的文献类型及语种也比较多。比如美国的《工程索引(EI)》和《科学引文索引(SCI)》、日本的《科学技术文献速报》、英国的《科学文摘(SA)》以及俄罗斯的《文摘杂志》等检索工具都属于综合型检索工具。
单一型检索工具。这类工具收录文献的学科范围可以涉及多学科,但收录的文献类型比较单一,仅限于或是学位论文,或是会议论文,或是专利等等。比如英国的《世界专利索引(WPI)》、美国的《世界会议(WM)》和《政府报告通报及其索引(GRA&I)》等都属于单一型检索工具。
专业型检索工具。这类检索工具只收录某一专业领域的文献,文献类型可以多样。比如美国的《化学文摘(CA)》、《数学评论(MR)》、《金属文摘(MA)》等都属于专业型检索工具。

三、检索工具的结构
    文献检索工具的结构是指其内容安排的框架层次,也就是说检索工具的基本组成部分。各类型的检索工具或参考工具书虽然功能不同、形式多样,但一般来说,他们的基本结构大体是一致的,主要由编撰说明(或称使用指南)、正文部分、辅助索引部分及附表(或附录)四部分组成。

1、编撰说明
    一般检索工具的正文前面部分都属于编撰说明,包括序、跋、凡例以及缩略语表等,但并不是每个检索工具都包括上面几个部分。
    序,也称序言、绪言、前言等;跋,也称后记,分别在检索工具的前面和最后部分,有的是编著者自己编写,主要是说明编写宗旨和过程、编写体例、使用对象、收录年限以及作者情况等;有的是别人编写,主要是介绍和评论该书内容的文字。
凡例也称使用说明,它是检索工具编著者对使用者提供的检索指导,是编撰说明部分的重要内容。其内容往往是通过条目选例、直观视图和文字注解等方式,详细地说明检索工具的编排体系和使用方法。所以检索者在使用检索工具之前应当要认真仔细地阅读凡例,准确掌握检索工具的使用方法。
缩略语表包括缩略词和略语两种形式的缩略。检索工具是高密度的信息源,编制者在编写检索工具的过程中为了节省篇幅或采用日常生活中人们比较熟悉的词语缩写来代替一些规范的正式用词而使用缩略词。这种方式在外文检索工具中是非常普遍的,凡是大量使用了缩略语的检索工具,用户如不事先了解或对照查阅缩略词表,往往是得不到满意的检索效果的。

2、正文部分
    正文部分是检索工具的主体部分,是检索查阅的具体对象。它是由一系列按照一定规则排列(分类、主题、编号等)的文献基本信息集合组成。在检索工具中占据绝大部分的篇幅。

3、辅助索引
    辅助索引位于检索工具的正文部分后面,有的检索工具的索引还单独成册编制。辅助索引为了提供多种文献线索而编制的索引,作为一种完善的检索工具,它就必须根据用户的不同检索需求,为用户提供不同的检索途径。索引是以正文部分为基础编制的,通过索引,能使用户迅速准确地查到所需信息,所以它也是检索工具的重要组成部分。检索工具一般有期索引、季度索引、年度索引和多年累计索引,每种索引又有主题索引、分类索引、作者索引、来源索引等。

4、附表
    附表是检索工具内容的必要补充,主要包括附在正文内容后面,与正文有关的参考资料。有的如语种对照表、馆藏目录、参考书目、补遗、勘误等是直接附在检索工具正文后面;有的如分类表、主题词表等,它们一般是单独成册的,作为检索工具中分类检索、主题检索必备的辅助工具,它们的作用是显而易见的。

第三节  文献信息检索语言

一、信息检索语言的概念与功能
    检索语言(Retrieval Language),又称为标引语言、索引语言、文献检索语言、信息存储与检索语言等,它是用于描述信息系统中信息的内部特征(如主题、分类)和外部特征(如题名、作者等)及表达信息用户需求提问的一种专门语言。对信息处理人员而言,它是表达文献主题内容、形成文献标识并赖以组织文献的依据;对检索人员而言,它是表达课题检索要求,借以同检索系统中已经存储的文献标识进行比较进而获得所需文献的依据。因此,检索语言是信息处理人员和检索人员共同遵守的语言(检索语言是一种人工语言)。
目前世界上有两千种左右的信息检索语言。如《中国图书馆图书分类法》、《汉语主题词表》、《Subject Headings for Engineering》、《INSPEC Thesaurus》等,都属信息检索语言。
检索语言在信息检索起着极其重要的作用,是沟通信息存储和检索的桥梁,它具有以下四个方面的功能:
1、对文献信息内容(及某些外表特征)加以标引,能够把信息的内容特征和外部特征规范化地揭示出来;
2、对内容相同及相关的信息加以集中或揭示其相关性,保证信息的集中化;
3、对大量信息加以系统化或组织化,揭示文献信息特征不是检索语言的真正目的,主要是能够把相关信息按照一定的关系有序组织起来,而且还要完善地组织信息,使其具有系统性,便于检索人员检索;
4、便于将标引用语和检索用语进行相符性比较,信息检索语言是一种规范化的人工语言,它要保证事物与概念的一一对应,这样才能保证同一事物的检索用语和标引用语的一致性,确保得到比较高的查准率。

二、检索语言的组成要素
    信息检索语言是根据信息检索的需要而创制的人工语言,任何一种信息检索语言,都是表达一系列概括文献信息内容的概念及其相关关系的概念标识系统。因此,它们全都是建立在概念逻辑基础上的,概念逻辑和知识分类是信息检索语言的基础。
检索语言由两个方面的基本要素组成:
1、有一定数量的基本词汇或专用符号系统。
2、有一套专用语法规则来表达由各种复杂概念所构成的概念标识系统。
    基本词汇或专用符号是指收录在分类表、主题词表、代码表中的全部标识,一个标识(分类号、主题词、代码)就是它的一个词语,而分类表、主题词表和代码表就是它的词典。词汇是自然语言中经过规范化处理的一系列的名词或名词性词组,符号系统是一套赋予特定含义的字母或代码系统。
语法规则是指如何创造和运用那些标识来正确表达信息内容和信息需求的,以有效地实现信息检索的一整套规则,它分为词法和句法两部分。词法规则是指如何表达信息的规则,是如何准确、简明地揭示信息特征形成信息标识的原则和依据,主要用于分类表、主题词表和代码表的编制过程。句法规则是指如何利用信息标识来组织信息,使之成为一个有机的整体,即把各种形式、各种内容的信息,按照某种特征组织成一个有序的体系,便于人们查找的一套组织原则,主要用于信息标引和信息检索过程。

三、检索语言的类型
    检索语言按照不同的划分标准可分为不同类型。

    (一)根据检索词的规范程度,检索语言可分为人工语言和自然语言。
1、人工语言。人工语言就是对检索语言的概念加以控制和规范,即把检索语言中各种同义词、多义词、同形异义词等进行规范化处理,使每个检索词只能表达一个概念。例如,分类体系语言中的分类款目、标题词语言中的标题词都属于人工规范语言。
2、自然语言。自然语言是与人工语言相对应的一个概念,就是对检索语言中的同义词、多义词等不加处理,取其自然状态,因此称自然语言。例如,单元词和关键词就属于这一类。
自然语言的应用是当今信息检索领域的一种重要发展趋势。当然,自然语言的应用应以计算机检索为前提,否则,自然语言检索将难以实现。自然语言在信息检索中大体分为无标引方式、自动标引方式和人工标引方式三种。无标引方式包括文本关键词匹配检索、单字检索。自动标引方式包括自动抽词标引、自动赋词标引、自动赋分类号、自动聚类、人机结合抽词标引。人工标引方式包括自由标引、自由词补充标引。上述各种自然语言在信息检索中应用的方式,都可借助于后控制词表来弥补其缺点。后控制词表具有信息检索语言的性质,但比信息检索语言的分类表、词表灵活。此外,还有一种以自然语言作为入口词的方法,通过编制自然语言与信息检索语言对应表进行换词检索。此种方式与自动赋词标引的不同点在于,自然语言仅用于检索过程的用户接口程序中,而在文献内容标引时在系统内部采用的还是信息检索语言。
作为信息检索系统的语言保证,自然语言与信息检索语言各有优缺点。自然语言由于适用于现代的网络信息检索,无需标引,文献处理成本较低,检索时无需对照词表选词,因此,越来越受到某些领域专家的赞同。而信息检索语言由于比较严谨、适应范围广、检索效率高而受到信息界人士的认可。自然语言是否会取代信息检索语言呢?对于这个问题,国内外学者也有不同的观点,甚至有学者提出“信息检索已进入了自然语言时代”。这个观点是否正确,将留待历史去检验。就自然语言几十年的发展来看,至少在相当长的一个时期内,是不可能全面取代信息检索语言的。自然语言或信息检索语言的未来将是自然语言的信息检索语言化或信息检索语言的自然语言化。

    (二)按照文献标识组配的先后分为先组式检索语言和后组式检索语言。
使用检索语言和使用自然语言一样,当表达简单概念时,只需用单词即可;当表达复杂的概念时,则需要用词组或若干词、词组构成的短语。检索语言有两种方式提供表达文献信息内容和检索课题概念所需的词组或短语,因而形成了两类检索语言。
1、先组式语言。这是一类将表达各个概括文献信息内容或检索课题的复杂概念所需的词组或短语,与表达简单概念的单词一样,在检索语言的词典(分类表、主题词表、代码表)中基本列出的检索语言。也就是说,在标引文献信息之前,就已将需要用到的词组或短语 (标识的组合)组配好了。目前所用的大多数分类语言是先组式分类语言,如《中国图书馆图书分类法》等。主题语言中的标题语言也是先组式语言,如《美国国会图书馆标题表》等。先组式语言一般只能以先组方式在检索系统中使用。
2、后组式语言。这类语言仅提供表达文献信息内容和检索课题概念所需的基本标识包括单词或部分词组,当需要表达文献信息内容和检索课题的复杂概念时,可根据需要,依据一定的规则,用若干个表达简单概念的基本标识来组合(组配)表达相应的复杂概念。由于它是在使用检索语言的时候才进行标识组配,因而被称为后组式语言。后组式分类语言使用得不多。叙词语言是后组式的主题语言,如我国的《汉语主题词表》。
后组式语言在检索系统中有两种使用方式:
(1)在检索系统中将表达特定文献信息内容的几个标识组配好,构成一个完整的复杂标识。因而检索者根据课题可能要用检索语言的几个标识,并组配在一起进行检索。这种检索系统用的是后组式语言,但却是先组式检索系统。
(2)检索系统并不将表达特定文献信息内容的几个标识在形式上组配起来,而是分散在各处,检索时才与检索者所用的若干个标识分别匹配。这种系统才称为后组式检索系统。计算机检索系统一般都是后组式检索系统,手工检索系统则多为先组式检索系统。

(三)信息检索语言按其结构原理,可分为分类检索语言、主题检索语言和代码检索语言三大类。
1、分类检索语言
分类中所谓的“类”是指具有共同属性事物的集合。一类事物除了具有共同属性外,还有许多不同的属性,可进行多次划分。一个概念经过一次划分后形成的一系列知识概念就是种概念,又称子位或下位类,被划分的类称为上位类,也即属概念;由一个上位类区分出来的一组下位类,互称为同位类,也即并列概念。一个概念每划分一次,就产生许多类目。逐级划分,就产生许多不同等级的类目。这些类目层层隶属,形成一个严格有序的知识门类体系。连续划分形成一系列具有从属关系的类目,称为类系。如“法律”→“经济法”→“财政法”→“税收法”→“所得税法”就是一个类系。
所谓的文献分类是按照文献中所含知识信息的学科属性对文献进行区分,再根据文献的知识信息内容之间的内在联系组成科学的分类体系。其目的是将同一学科或学科门类的文献集中在一起,便于用户从学科的角度进行检索和利用。
分类法的具体表现形式是分类表。分类表是由一系列分类号集合而成。分类号是文献知识信息概念的具体标识符,其字符有文字型(罗马字母、希腊字母、汉字等)、数码型(阿拉伯数码、罗马数码)和上述两种集合而成的混合型。它能反映事物概念的派生、隶属、平行等关系。便于检索者对知识信息的全面了解、“触类旁通”,随时放宽或缩小检索的范围,提高检索效率。
分类检索语言是以学科体系为基础,将各种概念按学科性质进行分类和系统排列,利用规范化的人工符号(如字母、数字和语词)代表这些类目,由分类表、类号和类名而组成的一个完整体系。其特点是集中体现学科的系统性,反映事物的从属、派生关系,便于从学科门类进行族性检索。其基本结构是按知识门类的逻辑次序,从点到面,从一般到具体,从低级到高级,从简单到复杂层层划分,逐级展开各个类别。分类检索语言是通过分类表来体现的。一部完整的分类表由编制说明、大纲、简表、详表、辅助表、索引、附录等构成。
一部分类法实质上是一套概念标识系统。体系分类法是一种直接体现知识分类的等级制概念标识系统,是通过对概括文献信息内容及某些外表特征的概念进行逻辑各类(划分与概括)和系统排列而构成的。其主要特点是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从学科分类检索文献信息的途径。从分类角度查阅文献,应使用体系分类表。
国内比较典型的分类法有:《中国图书馆分类法》(简称“中图法”)、《中国科学院图书馆图书分类法》(简称“科图法”)、《中国人民大学图书分类法》(简称“人大法”)。
国外常用的分类法有:《杜威十进制分类法》( Dewey Decimal Classification and Related Index,简称 DDC)、《国际十进制分类法》(Universal Decimal Classification,简称 UDC)、《国际专利分类表》(International Patent Classification,简称 IPC)。
目前,我国通用的主要分类法是《中国图书馆分类法》和《中国科学院图书馆图书分类法》。下面就以分类检索语言中的《中图法》(第四版)为例进行介绍。
(1)《中国图书馆分类法》
《中国图书馆分类法》(简称“中图法”)由北京图书馆组织全国力量编辑,1975年出版第1版,1982年出版第2版,1990年出版第3版,1999年出版第4版,改名为《中国图书馆分类法》,是我国图书馆和情报单位普遍使用的一部综合性分类法。它是由5个基本部类、22个大类、6个总论复分表、30多个专类复分表、4万余条类目组成的一个完善的分类体系,广泛用于各类型图书馆。它主要由下面三部分组成:
① 编制说明
主要介绍分类法的编制过程,所依据的编制原则、部类及大类的设置和次序的理由,对各种分类问题的处理方法、标记方法、使用方法等。《中图法》的类目标识采用字母与数字混合制标记符号与层累制、顺序制标记制度,即类号采用汉语拼音字母与阿拉伯数字的混合号码,用一个字母代表一个大类,以字母的顺序反映大类的序列,在字母后用数字表示大类下面类目的划分,数字的设置尽可能代表类的级位,并基本上遵从层累制的原则。保持个别大类类目体系结构调整与完善,增加与补充新学科、新事物主题概念。可以让使用者对分类表有一个初步的全面的认识。
② 类目表
类目表是分类法的主体,它决定分类号的含义,是选用分类号表达文献信息内容和检索课题的主要依据。《中图法》的类目表就是由基本大类、简表、详表和复分表组成。
基本大类是分类法中的第一级类目,是对一定学科领域的基本划分。《中图法》共有 22个基本大类。五个基本部类及22个大类如下:
马克思主义、列宁主义、毛泽东思想……
    A  马克思主义、列宁主义、毛泽东思想
哲学……
   B  哲学
社会科学……
   C  社会科学总论
   D  政治、法律
   E  军事
   F  经济
   G  文化、科学、教育、体育
   H  语言、文字
   I  文学
   J  艺术
  K  历史、地理
  自然科学……
      N  自然科学总论
      O  数理科学和化学
      P  天文学、地球科学
      Q  生物科学
      R  医药、卫生
      S  农业科学
      T  工业技术
      U  交通运输
      V  航天、航空
      X  环境科学
   综合性图书……
      Z  综合性图书

简表,又称基本类目表,是分别对每个基本大类,依据它的某些属性,作若干次逐一划分后得出的类目表,起承上启下的作用。分类表由于其详表 (正文)的类目很多,在线性排列的情况下,不易掌握整个分类表的内容,在查表时可以从简表入手,由简表再转查详表,不致迷失方向。简表也可供简略分类之用,简表可以列出第一、二、三级类目。
详表,又称主表,是分类表的正文,由简表进一步逐级展开划分而成。主表由类目、分类号和类目注释三部分组成。
类目是分类法的“语词”,它限定着所表达的事物概念的内涵和外延。分类号是类目的代号,是分类标识的具体形式。它简明、易于排列,有时还反映类目的层次。分类号可以用一种号码 (如数字或字母)组成,也可由两种符号混合组成。分类号的构造方法可分为:层累制,即分类号的位数与类目级别基本上相对应,一位号码表示一级类目,两位号码表示二级类目,如此类推;顺序制,分类号是按类目的先后顺序 (不是等级)从小到大安排;混合制,混合采用前两种方法构成分类号。
类目注释,是说明类目的含义、范围、使用规则等事项,以便正确理解和使用该类目的文字。