上一主题: 配置 Crawler 曲面组件用户 ID下一主题: 配置 SharePoint 爬网程序


Crawler 曲面组件的 XML 配置文件

crawler_surface_config.xml 文件包含以下 XML 部分。

<objects>

指定对象的相关信息以及 Crawler 曲面组件为对象提供的属性。objects 部分描述了为爬网程序提供的每个对象类型的详细信息页的布局。此部分不控制对各个记录的选择方式。<objects> 部分中包含一组 登录信息 部分。

每个对象在一个 登录信息 部分中进行定义。为这些对象提供了以下形式的默认规范:

KD

指定知识文档。

chg

指定变更单。

iss

指定投诉。

in

指定突发事件。

pr

指定问题。

cr

指定请求。

XML 文件包含下列用于在 CA SDM 中创建详细信息页的 <head> 部分的部分:

<name>

指定所提供的对象的 Majic 对象名称。

<note>

指定放置对象简短描述的位置。此元素仅用于文档记录。Crawler 曲面组件将忽略此元素。

<last_mod_dt>

指定用于存储上次修改日期和时间的属性名称。向搜索引擎爬网程序提供此时间戳,以便搜索引擎能够确定记录是否已被更新。许多爬网程序会在执行增量爬网时使用该时间戳。更新的时间戳表示,自上次对记录执行爬网操作后记录已发生更改。如果记录自上次被爬网后未更新,搜索引擎爬网程序将跳过爬网操作。

<title>

指定用于详细信息页标题的属性。搜索引擎使用此元素作为在搜索结果中返回的文档的标题。此元素条目将在详细信息页的 <head> 中生成 HTML <title> 标记。对于知识文档,此标题默认为知识文档的标题。对于突发事件、问题、请求、变更单和投诉,将使用摘要作为标题。

<meta_data>

指定一个或多个以元数据形式提供的属性。元数据允许搜索引擎在其索引中存储额外的文档特征。将不直接搜索元数据,而是将其用于筛选搜索结果。此部分将在详细信息页的 <head> 中生成 HTML <meta> 标记。

<meta_data> 部分中的每个条目都包含一个或多个 <property> 条目。每个 <property> 元素包括一个 <name> 元素和一个 <content> 元素。

<name>

指定元数据属性的名称。

<content>

指定将用作元数据值的对象的属性。

一个 <property> 的一对 <name> 和 <content> 元素将生成一个 HTML <meta> 标记。默认情况下,搜索引擎爬网程序使用下列二个元数据属性:

Description

指定搜索引擎用于存储文档简短摘要的元数据属性。

Author

指定文档的作者。

默认情况下,也将为每个对象配置 CASDMTENANT 元数据属性。此属性是特定于 CA SDM 的元数据属性。如果为 CA SDM 配置了多方租用,Crawler 曲面组件将使用该属性向搜索引擎爬网程序提供对象的承租人名称。之后,在联合搜索期间,将基于该元数据属性筛选从搜索引擎返回的结果。

XML 文件包含以下用于在 CA SDM 中创建详细信息页的 <body> 部分的部分:

<additional_attributes_to_index>

指示 Crawler 曲面组件所提供的对象中的一组属性。可使用逗号和空格分隔多个条目。例如,PROBLEM, RESOLUTION, SD_ASSET_ID.name。

<activity_logs>

指示由 Crawler 曲面组件通过活动日志为具有活动日志的对象提供的信息。<activity_logs> 部分包含 登录信息、<select_criteria>、<rel_attr> 和 <attributes> 元素。

登录信息

指定其中包含对象的活动日志条目的对象名称。例如,对于

  • 事件、问题和请求,活动日志对象是 alg
  • 变更单,活动日志对象是 chgalg
  • 投诉,活动日志对象是 issalg
  • 知识文档,活动日志对象是 O_COMMENTS
<select_criteria>

允许您筛选所提供的活动日志对象。此元素可减少频繁出现的词,对于提高搜索结果相关性来说很重要。例如,chgalg 的 <select_criteria> 包含以下 Magic Where 子句:

"type IN ('ST', 'UPD_RISK', 'CB', 'RS', 'LOG', 'TR', 'ESC' ,'NF', 'UPD_SCHED')"

此条件仅包括允许用户输入注释的活动日志条目,并清除具有固定文本(如 Initial 或 Attach Document)的活动日志条目。

<rel_attr>

指定活动日志条目与其父对象的关联方式。<rel_attr> 子段包含 <parent_obj_attr> 和 <join_attr> 元素。

<parent_obj_attr>

指示其中包含指向父对象的 SREL(或外键指针)的活动日志属性。例如,change_id 是 chgalg 的属性。

<join_attr>

指示存储在 <parent_obj_attr> 中的父对象的关系属性 (Rel Attr)。例如,chgalg 的 <join_attr> 是 id。可以通过使用以下命令验证这些值:

bop_sinfo -df chgalg

可以通过使用 bop_sinfo -df chgalg 命令验证这两个值。输出内容中必须显示 change_id 的值是 SREL -> chg.id,ISS 是 SREL -> iss.persistent_id

<attachments>

此子段允许您向搜索引擎爬网程序提供附件,以便可以将它们的内容与父对象一起建立索引。<attachments> 部分仅对具有附件的对象可用。

附件由 Crawler 曲面组件以特殊方式处理。Crawler 曲面组件不会将每个附件的内容都发送给爬网程序,而是提供一个超链接,爬网程序可使用该超链接从 CA SDM 下载附件。之后在联合搜索期间,如果搜索结果中包含附件,则单击该超链接会将用户转至父对象,而不是直接转至附件。

<attachments> 部分包含 登录信息、<rel_attr>、<attmnt_id> 和 <is_parent_updated> 元素。

登录信息

此元素指定用于将附件链接到其父对象的 Majic 对象。

<rel_attr>

此子段的工作方式与其在活动日志中的工作方式相同。指定父对象与此对象(用于将父对象链接到附件)的关联方式。

<attmnt_id>

此元素指定此链接对象(指向附件)的属性。

<is_parent_updated>

指定如何向 Crawler 曲面组件提供对象的上次修改日期。对于知识文档 (KD) 等对象,在添加附件时,不会更新知识文档的上次修改日期。当搜索引擎执行增量爬网时,上次修改日期很重要。

<configuration_items>

用于含有配置项列表的对象。此部分包含 登录信息、<rel_attr> 和 <attributes> 元素。

登录信息

工作方式与其在活动日志和附件中的工作方式相同。

<rel_attr>

工作方式与其在活动日志和附件中的工作方式相同。

<attributes>

此元素的工作方式与其在附件中的工作方式相同。

<multi-farm_datasets>

跟在 <objects> 部分后面的是 <multi-farm_datasets> 部分。当 <objects> 部分定义可由 Crawler 曲面组件提供的 CA SDM 对象和属性时,<multi-farm_datasets> 将指定记录的选择方式。<multi-farm_datasets> 部分中包含一组 <farm> 部分。

<farm>

每个 <farm> 部分将控制向一个爬网程序提供的 CA SDM 信息。当配置爬网程序时,将在 URL 中指定 <farm> 部分。只会向爬网程序提供已在 <farm> 部分中指定的信息。每个 <farm> 部分中包含 <name>、<data_sets> 和 <sdm_user> 元素。<name>。

注意:此值区分大小写。

<data_sets>

指定所提供的对象及其对应记录的选择方式。此子段包含一个或多个 登录信息 元素。每个 object 元素中包含一个 <name> 和一个 <select_criteria> 元素。

<name>

引用在 <objects> 部分中定义的 登录信息。

<select_criteria>

此元素指定用于选择对象记录的 Majic。

<sdm_user>

此元素指定在访问该场时必须使用的 CA SDM 用户 ID。用户 ID 必须具有 Access Type=crawler 和 Role=crawler 设置。

sdm_domsrvr_name

对于海量的索引数据,将对象管理器专用于 Crawler 曲面组件。默认值为 domsrvr。

sharepoint_properties_file

此值是默认情况下在以下 CA SDM 目录中提供的 SharePoint 属性文件的名称:

NX_ROOT\CATALINA_BASE_FS\lib

为多方租用配置 CA SDM 时,包含由联合搜索和 Crawler 曲面组件使用的配置参数。

注意:如果为多方租用配置了 CA SDM,请更新此文件中的 sharepoint_version 参数以反映您的 SharePoint 版本。

<list_form_number_of_records_per_object>

此参数用于配置 Crawler 曲面组件在对象的列表页面上显示的超链接数。

<send_wait_timeout>

此值控制 Crawler 曲面组件在超时之前等待来自对象管理器的响应的秒数。