关于 IFilter (Office SharePoint Server 2007)
对于所爬网的每个文件中包含的内容,必须先去除其格式设置,然后才能将其添加到内容索引中。文件的格式设置取决于创建该文件的应用程序。例如,在 Microsoft Office Word 2007 中创建的文档的格式不同于在 Microsoft Office PowerPoint 2007 中创建的幻灯片的格式。Microsoft Office SharePoint Server 2007 索引引擎使用 IFilter 从已爬网项中提取的内容中移除嵌入的格式设置。
下表根据索引服务器上是否安装了 IFilter 以及搜索管理的“管理文件类型”页中是否列出了文件类型,概述了索引系统的行为。
是否安装了 IFilter? | “管理文件类型”列表上是否列出了文件类型? | 结果 |
---|---|---|
是 |
是 |
对文件中的内容及其属性编制索引。 |
否 |
是 |
对文件中的内容不编制索引,但对其属性编制索引。 |
否 |
否 |
不对文件中的内容或其属性编制索引。 |
IFilter 和文件类型
每个 IFilter 必须与它所能筛选的文件的类型关联。文件的类型由三个字母或四个字母的文件扩展名来标识。您可以在“管理文件类型”页中查看 Office SharePoint Server 2007 为其安装了 IFilter 的文件类型的列表。您可以从共享服务提供程序 (SSP) 的管理页中打开此页。如果想要对其进行爬网的文件类型没有 IFilter,则 Office SharePoint Server 2007 中的内容索引只能包括文件的属性,不能包括文件的内容。如果要对默认情况下未安装 IFilter 的内容编制索引,则一定要为该文件类型安装并注册 IFilter。
下表列出了“管理文件类型”页中的默认设置。这包括默认情况下 IFilter 支持但未启用的文件类型。此外,“管理文件类型”列表中列出的某些文件类型默认情况下没有 IFilter 支持。有关如何更新“管理文件类型”列表的信息,请参阅指定要进行爬网的文件类型 (Office SharePoint Server 2007)。
文件扩展名 | 默认的 IFilter 支持 | 默认的文件类型包含 |
---|---|---|
ascx |
是 |
是 |
asm |
是 |
否 |
asp |
是 |
是 |
aspx |
是 |
是 |
bat |
是 |
否 |
c |
是 |
否 |
cmd |
是 |
否 |
cpp |
是 |
否 |
css |
是 |
否 |
cxx |
是 |
否 |
def |
是 |
否 |
dic |
是 |
否 |
doc |
是 |
是 |
docm |
是 |
是 |
docx |
是 |
是 |
dot |
是 |
是 |
eml |
是 |
是 |
exch |
否 |
是 |
h |
是 |
否 |
hhc |
是 |
否 |
hht |
是 |
否 |
hpp |
是 |
否 |
hta |
是 |
否 |
htm |
是 |
是 |
html |
是 |
是 |
htw |
是 |
否 |
htx |
是 |
否 |
jhtml |
否 |
是 |
jsp |
否 |
是 |
lnk |
是 |
否 |
mht |
是 |
是 |
mhtml |
是 |
是 |
mpx |
是 |
否 |
msg |
是 |
是 |
mspx |
否 |
是 |
nsf |
否 |
是 |
odc |
是 |
是 |
one |
否 |
否 |
php |
否 |
是 |
pot |
是 |
否 |
pps |
是 |
否 |
ppt |
是 |
是 |
pptm |
是 |
是 |
pptx |
是 |
是 |
pub |
是 |
是 |
stm |
是 |
否 |
tif |
是 |
是 |
tiff |
否 |
是 |
trf |
是 |
否 |
txt |
是 |
是 |
url |
否 |
是 |
vdx |
否 |
是 |
vsd |
否 |
是 |
vss |
否 |
是 |
vst |
否 |
是 |
vsx |
否 |
是 |
vtx |
否 |
是 |
xlb |
是 |
否 |
xlc |
是 |
否 |
xls |
是 |
是 |
xlsm |
是 |
是 |
xlxs |
是 |
是 |
xlt |
是 |
否 |
xml |
是 |
是 |
备注
能够使 Office SharePoint Server 2007 对 Adobe 可移植文档格式 (PDF) 编制索引的 IFilter 由 Adobe 提供。有关如何安装和配置这些 IFilter 的详细信息,请参阅在 SharePoint Portal Server 2003 或 SharePoint Server 2007 中搜索门户网站时没有为搜索结果中列出的 Adobe PDF 文档显示图标 (https://go.microsoft.com/fwlink/?linkid=144596&clcid=0x804)。
Microsoft Filter Pack
Microsoft 提供了一个筛选器包,其中包含一组 IFilter,这组 IFilter 是对随 Office SharePoint Server 2007 一起自动安装的 IFilter 的补充。Microsoft Filter Pack 将安装并注册适用于以下文件格式的 IFilter:.docx, .docm, .pptx, .pptm, .xlsx, .xlsm, .xlsb, .zip, .one, .vdx, .vsd, .vss, .vst, .vdx, .vsx 和 .vtx。
有关详细信息,请参阅安装 Microsoft Filter Pack (Office SharePoint Server 2007)。
自定义筛选器
如果一定要对某种文件类型的文档进行爬网,但随 Office SharePoint Server 2007 一起提供的 IFilter 或 Microsoft Filter Pack 中包含的 IFilter 不支持该文件类型,则您必须在索引服务器上安装合适的 IFilter。请向创建该应用程序的公司咨询,了解该应用程序是否具有适用于 Microsoft 搜索产品的 IFilter。如果应用程序是在自己的组织内创建的,则创建或维护该应用程序的软件开发人员可以为该应用程序创建 IFilter。有关详细信息,请参阅欢迎使用 Microsoft Search Server 2008(该链接可能指向英文页面) (https://go.microsoft.com/fwlink/?linkid=141179&clcid=0x804)(该链接可能指向英文页面)。
安装 IFilter 之后,您还必须向操作系统注册该 IFilter,并将该 IFilter 与它能够处理的文件的类型关联。安装和注册步骤因 IFilter 而异。有关详细信息,请阅读 IFilter 的文档。
另请参见
概念
IFilter 和协议处理程序 (Office SharePoint Server 2007)
安装 Microsoft Filter Pack (Office SharePoint Server 2007)
关于协议处理程序 (Office SharePoint Server 2007)