Share via


Configuración del procesamiento opcional de elementos

Última modificación: martes, 16 de agosto de 2011

Hace referencia a: SharePoint Server 2010

En este artículo
Personalización de optionalprocessing.xml
Formato de archivo para optionalprocessing.xml
Extracción de propiedades
Conversión de documentos
Filtrado de contenido ofensivo

Se aplica a: Microsoft FAST Search Server 2010 for SharePoint
Las fases opcionales del procesamiento de elementos representan el procesamiento de componentes que se pueden activar o desactivar en la canalización del procesamiento de elementos de Microsoft FAST Search Server 2010 for SharePoint e incluyen la extracción de propiedades, la asignación de datos, el procesamiento lingüístico y el filtrado de contenido.

En este tema se describe cómo actualizar el archivo de configuración para las fases de procesamiento de elementos opcionales de la canalización, de la siguiente forma:

Personalización de optionalprocessing.xml

La habilitación o la deshabilitación de las fases de procesamiento de elementos opcionales se realizan en el archivo de configuración optionalprocessing.xml.

Este archivo de configuración se lee cada vez que se restablecen, inician o reinician los procesadores de elementos. El archivo debe contener el nombre y el estado de activación de cada fase opcional. De forma predeterminada, todas las fases de procesamiento opcionales están desactivadas.

Para modificar este archivo de configuración, debe ser miembro del grupo local FASTSearchAdministrators en el nodo de administración de FAST Search Server 2010 for SharePoint.

Nota

Puede habilitar o deshabilitar las fases de procesamiento de elementos opcionales con el archivo optionalprocessing.xml, pero no puede usarlo para agregar nuevas fases a la canalización. Para obtener información acerca de cómo crear una fase, vea Integración de un componente de procesamiento de elementos externo.

Use un editor de texto o el editor XML para modificar este archivo.

Para cambiar el archivo optionalprocessing.xml

  1. En el nodo de administración de FAST Search Server 2010 for SharePoint, edite %FASTSEARCH%\etc\config_data\DocumentProcessor\OptionalProcessing.xml.

  2. En el nodo de administración de FAST Search Server 2010 for SharePoint, ejecute el siguiente comando.

    %FASTSEARCH%\bin\psctrl reset

    Esto restablecerá todos los procesadores de elementos que se estén ejecutando en el sistema.

Formato de archivo para optionalprocessing.xml

El archivo de configuración optionalprocessing.xml tiene la siguiente sintaxis.

<optionalprocessing>
  <processor name="personnameextraction" active="yes|no" />
  <processor name="XMLMapper" active="yes|no" />
  <processor name="OffensiveContentFilter" active="yes|no" />
  <processor name="FFDDumper" active="yes|no" />
  <processor name="wholewordsextractor1" active="yes|no" />
  <processor name="wholewordsextractor2" active="yes|no" />
  <processor name="wholewordsextractor3" active="yes|no" />
  <processor name="wordpartextractor1" active="yes|no" />
  <processor name="wordpartextractor2" active="yes|no" />
  <processor name="SearchExportConverter" active="yes|no" />
</optionalprocessing>

Nota

No debe agregar ni quitar entradas en el archivo. Solo cambie el valor del atributo active para los elementos processor individuales.

En la tabla 1 se describen las fases de procesamiento de elementos opcionales.

Tabla 1. Fases de procesamiento de elementos opcionales

Nombre de la fase opcional

Descripción

personnameextraction

Permite la extracción de la propiedad de nombre de persona integrada. Para obtener información, vea Extracción de propiedades.

XMLMapper

Permite la asignación de contenido XML mediante el uso de la asignación personalizada de elementos XML a propiedades rastreadas. Para obtener información, vea Procesamiento de elementos XML personalizados.

OffensiveContentFilter

Habilita el filtrado de contenido ofensivo integrado. Esta característica quita los elementos que contienen contenido pornográfico. Para obtener información, vea Filtrado de contenido ofensivo.

FFDDumper

Especifica la fase de depuración avanzada de la canalización del procesamiento. Normalmente, no tiene que habilitar esta fase.

Solo debe usarse durante las pruebas, ya que tiene gran impacto en la tasa de alimentación y puede llenar rápidamente el disco duro local (%FASTSEARCH\data\ffd\).

wholewordsextractor1, wholewordsextractor2, wholewordsextractor3

Especifica las tres fases del extractor de propiedades de palabras completas coincidentes disponibles. Para obtener información, vea Creación de un extractor de propiedades personalizado.

wordpartextractor1, wordpartextractor2

Especifica las dos fases del extractor de propiedades de partes de palabras coincidentes disponibles. Para obtener información, vea Creación de un extractor de propiedades personalizado.

SearchExportConverter

Habilita la conversión de formatos de documento adicionales. Para obtener información, vea Conversión de documentos.

Nota

En lugar de habilitar o deshabilitar esta característica directamente en el archivo de configuración optionalprocessing.xml, siga el procedimiento descrito en el tema sobre la habilitación del paquete de filtros avanzados (FAST Search Server 2010 for SharePoint) en Microsoft TechNet.

En el siguiente ejemplo se muestra cómo habilitar la generación de una propiedad personnames rastreada que contenga los nombres de las personas extraídos del contenido procesado. Para habilitar la etapa, cambie el valor del atributo active a yes.

<optionalprocessing>
    <processor name="personnameextraction" active="yes"/>
</optionalprocessing>

En el siguiente ejemplo se muestra cómo habilitar la asignación de contenido XML a propiedades rastreadas.

<optionalprocessing>
    <processor name="XMLMapper" active="yes"/>
</optionalprocessing>

Nota

La fase de procesamiento XMLMapper requiere un archivo de configuración adicional para la asignación XML. Para obtener información, vea Procesamiento de elementos XML personalizados.

Extracción de propiedades

La extracción de propiedades es un proceso que extrae información del contenido de texto visible de un elemento y la almacena como propiedades rastreadas adicionales para el documento.

Hay tres fases de extracción de propiedades integradas en la canalización del procesamiento de elementos de FAST Search Server 2010 for SharePoint y hacen lo siguiente:

  • El extractor de nombres de persona extrae nombres de personas, según un diccionario genérico. De forma predeterminada, esta fase está deshabilitada, ya que FAST Search Server 2010 for SharePoint incluye otras características relacionadas con la extracción de nombres de persona (propiedad de autor y la característica de búsqueda de personas). Si desea extraer nombres que no son específicos de su compañía u organización, puede habilitar la fase en optionalprocessing.xml.

  • El extractor de ubicaciones extrae nombres de ubicaciones geográficas, según un diccionario genérico. Esta fase está siempre habilitada. Si esta extracción de propiedad no es relevante para la aplicación, no es necesario asignar la propiedad rastreada resultante a una propiedad administrada en el índice.

  • El extractor de compañías extrae nombres de compañías, según un diccionario genérico. Esta fase está siempre habilitada. Si esta propiedad no es relevante para la aplicación, no es necesario asignar la propiedad rastreada resultante a una propiedad administrada en el índice.

Las fases de extracción de propiedades integradas admiten los siguientes idiomas:

  • Árabe

  • Neerlandés

  • Inglés

  • Francés

  • Alemán

  • Italiano

  • Japonés

  • Noruego

  • Portugués

  • Ruso

  • Español

Puede modificar los extractores de propiedades integradas agregando listas de inclusión y exclusión. Para obtener información, vea el tema sobre la administración de la extracción de propiedades (FAST Search Server 2010 for SharePoint) en Microsoft TechNet.

También puede agregar extractores de propiedades personalizados a la canalización. Para ello, habilite una o más fases de procesamiento de elementos personalizados de marcadoras de posición en optionalprocessing.xml y cree diccionarios asociados. Para obtener información, vea Creación de un extractor de propiedades personalizado.

Conversión de documentos

La fase de procesamiento denominada SearchExportConverter controla el paquete de filtros avanzados de FAST Search Server 2010 for SharePoint. Esta característica permite extraer texto y metadatos de varios cientos de formatos de archivo y complementar los formatos de documentos compatibles con el paquete de filtros estándar. De forma predeterminada, el paquete de filtros avanzados está deshabilitado.

Nota

En lugar de habilitar o deshabilitar esta característica directamente en el archivo de configuración optionalprocessing.xml, siga el procedimiento descrito en el tema sobre la habilitación del paquete de filtros avanzados (FAST Search Server 2010 for SharePoint) en Microsoft TechNet.

También puede implementar componentes IFilter personalizados desarrollados para formatos de archivo específico. Esto se controla mediante el archivo de configuración user_converter_rules.xml. Para obtener información, vea Configuración de FAST Search Server for SharePoint para usar un IFilter de terceros.

Filtrado de contenido ofensivo

El filtrado de contenido ofensivo de FAST Search Server 2010 for SharePoint se implementa como una fase de procesamiento de elementos independiente. El contenido de los elementos que se ejecuta mediante el filtro se compara con los términos predefinidos de los diccionarios. El resultado del filtro es una puntuación general que indica la posibilidad de que un elemento sea pornográfico. La puntuación del contenido ofensivo del elemento se escribe en la propiedad rastreada OCF::Score. Cualquier elemento que supere el umbral de puntuación de 30 se eliminará de la indización.

El filtro de contenido ofensivo del FAST Search Server 2010 for SharePoint usa palabras o expresiones de una palabra o de varias palabras como base para el filtrado.

De forma predeterminada, el filtro de contenido ofensivo no está habilitado. Se habilita mediante el uso de la clave de activación OffensiveContentFilter en optionalprocessing.xml, como se muestra en el siguiente ejemplo.

<optionalprocessing>
      <processor name="OffensiveContentFilter" active="yes"/>
</optionalprocessing>

Nota

El filtro de contenido ofensivo no usa información del sitio y no considera la información visual (imágenes). La funcionalidad se limita a las páginas que contienen texto ofensivo. En este tipo de páginas, proporciona una tasa de identificación muy alta.

Puede habilitar el filtrado de contenido ofensivo para los siguientes idiomas:

  • Árabe

  • Chino

  • Checo

  • Inglés

  • Finés

  • Francés

  • Alemán

  • Hindi

  • Italiano

  • Japonés

  • Coreano

  • Lituano

  • Noruego

  • Ruso

  • Español

  • Sueco

  • Turco

El filtro de contenido ofensivo examina los elementos title, body y ocfcontribution de las propiedades rastreadas. Los rastreadores no establecen la última propiedad, pero se puede usar para examinar contenido adicional.

Los elementos que se consideran pornográficos se quitan durante el procesamiento y se proporciona información apropiada al conector de indización.

Vea también

Conceptos

Creación de un extractor de propiedades personalizado

Procesamiento de elementos XML personalizados

Configuración de FAST Search Server for SharePoint para usar un IFilter de terceros

Integración de un componente de procesamiento de elementos externo