上一主题: wsptbl 对象下一主题: 表和对象交叉引用


Crawler 曲面组件的 XML 配置文件

crawler_surface_config.xml 文件包含以下 XML 部分。

<objects>

指定对象的相关信息以及 Crawler 曲面组件为对象提供的属性。objects 部分描述了为爬网程序提供的每个对象类型的详细信息页的布局。此部分不控制对各个记录的选择方式。<objects> 部分中包含一组 登录信息 部分。

每个对象在一个 登录信息 部分中进行定义。为这些对象提供了以下形式的默认规范:

KD

指示知识文档。

chg

指示变更单。

iss

指示投诉。

in

指示突发事件。

pr

指示问题。

cr

指示请求。

注意:有关对象定义的详细信息,请参阅《技术参考指南》。

XML 文件包含下列用于在 CA SDM 中创建详细信息页的 <head> 部分的部分:

<name>

指示所提供的对象的 Majic 对象名称。

<note>

指示对象的简短描述。此元素仅用于文档记录。Crawler 曲面组件将忽略此元素。

<last_mod_dt>

指示用于存储上次修改日期和时间的属性名称。向搜索引擎爬网程序提供此时间戳,以便搜索引擎能够确定记录是否已被更新。许多爬网程序会在执行增量爬网时使用该时间戳。更新的时间戳表示,自上次对记录执行爬网操作后记录已发生更改。如果记录自上次被爬网后未更新,搜索引擎爬网程序将跳过爬网操作。

<title>

指示用于详细信息页标题的属性。搜索引擎使用此元素作为在搜索结果中返回的文档的标题。此元素条目将在详细信息页的 <head> 中生成 HTML <title> 标记。对于知识文档,此标题默认为知识文档的标题。对于突发事件、问题、请求、变更单和投诉,将使用摘要作为标题。

<meta_data>

指示一个或多个以元数据形式提供的属性。元数据允许搜索引擎在其索引中存储额外的文档特征。将不直接搜索元数据,而是将其用于筛选搜索结果。此部分将在详细信息页的 <head> 中生成 HTML <meta> 标记。

<meta_data> 部分中的每个条目都包含一个或多个 <property> 条目。每个 <property> 元素包括一个 <name> 元素和一个 <content> 元素。

<name>

指示元数据属性的名称。

<content>

指示将用作元数据值的对象的属性。

一个 <property> 的一对 <name> 和 <content> 元素将生成一个 HTML <meta> 标记。默认情况下,搜索引擎爬网程序使用下列二个元数据属性:

Description

指示搜索引擎用于存储文档简短摘要的元数据属性。

Author

指示文档的作者。

默认情况下,也将为每个对象配置 CASDMTENANT 元数据属性。此属性是特定于 CA SDM 的元数据属性。如果为 CA SDM 配置了多方租用,Crawler 曲面组件将使用该属性向搜索引擎爬网程序提供对象的承租人名称。之后,在联合搜索期间,将基于该元数据属性筛选从搜索引擎返回的结果。只会将没有 CASDMTENANT 元数据属性的结果,或者其 CASDMTENANT 元数据属性与其联系人记录的用户的“承租人”字段匹配的结果返回给用户。如果为 CA SDM 配置了多方租用,Crawler 曲面组件将提供 CASDMTENANT 元数据属性。

XML 文件包含以下用于在 CA SDM 中创建详细信息页的 <body> 部分的部分:

<additional_attributes_to_index>

指示 Crawler 曲面组件所提供的对象中的一组属性。可使用逗号和空格分隔多个条目。例如,PROBLEM, RESOLUTION, SD_ASSET_ID.name。

<activity_logs>

指示由 Crawler 曲面组件通过活动日志为具有活动日志的对象提供的信息。<activity_logs> 部分包含 登录信息、<select_criteria>、<rel_attr> 和 <attributes> 元素。

登录信息

指定其中包含对象的活动日志条目的对象名称。例如,对于

  • 事件、问题和请求,活动日志对象是 alg
  • 变更单,活动日志对象是 chgalg
  • 投诉,活动日志对象是 issalg
  • 知识文档,活动日志对象是 O_COMMENTS
<select_criteria>

允许您筛选所提供的活动日志对象。此元素可减少频繁出现的词,对于提高搜索结果相关性来说很重要。例如,chgalg 的 <select_criteria> 包含以下 Magic Where 子句:

"type IN ('ST', 'UPD_RISK', 'CB', 'RS', 'LOG', 'TR', 'ESC' ,'NF', 'UPD_SCHED')"

此条件仅包括允许用户输入注释的活动日志条目,并清除具有固定文本(如 Initial 或 Attach Document)的活动日志条目。

<rel_attr>

指定活动日志条目与其父对象的关联方式。<rel_attr> 子段包含 <parent_obj_attr> 和 <join_attr> 元素。

<parent_obj_attr>

指示其中包含指向父对象的 SREL(或外键指针)的活动日志属性。例如,change_id 是 chgalg 的属性。

<join_attr>

指示存储在 <parent_obj_attr> 中的父对象的关系属性 (Rel Attr)。例如,chgalg 的 <join_attr> 是 id。可以通过使用以下命令验证这些值:

bop_sinfo -df chgalg

可以通过使用 bop_sinfo -df chgalg 命令验证这两个值。输出内容中必须显示 change_id 的值是 SREL -> chg.id,ISS 是 SREL -> iss.persistent_id

<attachments>

此子段允许您向搜索引擎爬网程序提供附件,以便可以将它们的内容与父对象一起建立索引。<attachments> 部分仅对具有附件的对象可用。

附件由 Crawler 曲面组件以特殊方式处理。Crawler 曲面组件不会将每个附件的内容都发送给爬网程序,而是提供一个超链接,爬网程序可使用该超链接从 CA SDM 下载附件。之后在联合搜索期间,如果搜索结果中包含附件,则单击该超链接会将用户转至父对象,而不是直接转至附件。

<attachments> 部分包含 登录信息、<rel_attr>、<attmnt_id> 和 <is_parent_updated> 元素。

登录信息

此元素指定用于将附件链接到其父对象的 Majic 对象。

<rel_attr>

此子段的工作方式与其在活动日志中的工作方式相同。它将指定父对象与此对象(用于将父对象链接到附件)的关联方式。

<attmnt_id>

此元素指定此链接对象(指向附件)的属性。

<is_parent_updated>

这是一个特殊标志,用于指示 Crawler 曲面组件如何提供对象的上次修改日期。对于知识文档 (KD) 等对象,在添加附件时,不会更新知识文档的上次修改日期。当搜索引擎执行增量爬网时,上次修改日期很重要。通常,如果爬网程序发现某个对象自上次操作以来未更新,将跳过该对象,并且不会通过重建索引来更新其索引。当为 <is_parent_updated> 指定“No”时,Crawler 曲面组件将检查所有附件的上次修改日期。如果它发现任何晚于父对象的日期,则在提供父对象时,它将使用较晚的日期。这通常会导致搜索引擎为对象重建索引,并在重建索引期间包括新附件。

<configuration_items>

此部分用于含有配置项列表的对象。此部分包含 登录信息、<rel_attr> 和 <attributes> 元素。

登录信息

工作方式与其在活动日志和附件中的工作方式相同。

<rel_attr>

工作方式与其在活动日志和附件中的工作方式相同。

<attributes>

此元素的工作方式与其在附件中的工作方式相同。

<multi-farm_datasets>

跟在 <objects> 部分后面的是 <multi-farm_datasets> 部分。当 <objects> 部分定义可由 Crawler 曲面组件提供的 CA SDM 对象和属性时,<multi-farm_datasets> 将指定要提供的对象及其对应记录的选择方式。<multi-farm_datasets> 部分中包含一组 <farm> 部分。

<farm>

每个 <farm> 部分将控制向一个爬网程序提供的 CA SDM 信息。当配置爬网程序时,将在 URL 中指定 <farm> 部分。只会向爬网程序提供已在 <farm> 部分中指定的信息。每个 <farm> 部分中包含 <name>、<data_sets> 和 <sdm_user> 元素。<name>

此元素指定 <farm> 部分的名称。此名称在用于配置爬网程序的 URL 中指定。此值区分大小写。

<data_sets>

此子段指定将提供的对象及其对应记录的选择方式。此子段包含一个或多个 登录信息 元素。每个 object 元素中包含一个 <name> 和一个 <select_criteria> 元素。

<name>

此元素将引用已在 <objects> 部分中定义的 登录信息。

<select_criteria>

此元素指定用于选择对象记录的 Majic where 子句。

<sdm_user>

此元素指定在访问该场时必须使用的 CA SDM 用户 ID。 此用户 ID 必须具有 Access Type=crawler 和 Role=crawler 设置。