Compartir a través de


Creación de un extractor de propiedades personalizado

Última modificación: jueves, 23 de junio de 2011

Hace referencia a: SharePoint Server 2010

Se aplica a: Microsoft FAST Search Server 2010 for SharePoint
Un extractor de propiedades permite extraer automáticamente entidades o conceptos del contenido de texto visible de un elemento y asignarlos a una propiedad administrada. A su vez, estas propiedades se pueden usar para restringir las consultas mediante filtros de propiedades o como opciones de refinamiento de consultas.

En este artículo se describe cómo crear un extractor de propiedades personalizado, según se indica a continuación:

Tipos de extractor de propiedades

Puede definir dos tipos de extractores de propiedades: basados en coincidencias exactas o en coincidencias parciales.

Extractores de propiedades de coincidencia exacta

Estos extractores de propiedades son adecuados para establecer coincidencias de cadenas en todos los idiomas, excepto los idiomas del este asiático (coreano, chino, japonés y tailandés).

Las entradas en el diccionario personalizado pueden ser palabras individuales o una cadena de palabras. La búsqueda de cadenas coincidentes se realiza después de una tokenización básica, que reemplaza los caracteres separadores presentes en el texto (por ejemplo, comas, signo de puntuación, dos puntos y guiones) por espacios en blanco. Tras la tokenización básica, los extractores deben buscar una coincidencia exacta para la cadena.

Nota

En el establecimiento de coincidencias se distingue mayúsculas de minúsculas.

Puede definir hasta tres extractores personalizados de propiedades de coincidencia exacta en la canalización de procesamiento de elementos. Se usa una de las fases de procesamiento de elementos predefinidas denominadas wholewordsextractor1, wholewordsextractor2 y wholewordsextractor3.

Extractores de propiedades de coincidencia parcial

Estos extractores de propiedades son adecuados para establecer coincidencias de cadenas en todos los documentos en idiomas del este asiático (coreano, chino, japonés o tailandés), ya que las palabras de estos idiomas no están separadas por espacios.

También puede usar este extractor de propiedades para casos específicos en los que se necesitan coincidencias de subcadenas, por ejemplo, para buscar una secuencia de ADN dentro de secuencias más largas. En este caso, el diccionario personalizado contendría las secuencias de ADN interesantes, por ejemplo, "AAAGTCTGAC", y buscará como coincidencia un documento que contenga la secuencia "ATATGAATGGAAAGTCTGACTGATATCTGG".

Nota

En el establecimiento de coincidencias se distingue mayúsculas de minúsculas.

Puede definir hasta dos extractores personalizados de propiedades de coincidencia parcial en la canalización de procesamiento de elementos. Se usa una de las fases de procesamiento de elementos predefinidas denominadas wordpartsextractor1 y wordpartsextractor2.

Elementos con contenido en idiomas del este asiático y otros idiomas

Si la entrada del diccionario personalizado debe buscar coincidencias en cadenas de documentos rodeadas por palabras en un idioma del este asiático, se debe usar un buscador de coincidencias parciales.

Esto se debe a que las palabras en otros idiomas en un documento en idioma chino o japonés no siempre están separadas de los caracteres de chino o japonés por un espacio.

Creación de un diccionario de extracción de propiedades personalizado

El diccionario personalizado define las palabras que se van a buscar en los elementos indizados y cuáles se van a indizar en la propiedad administrada asociada. Para obtener información acerca de la sintaxis del archivo XML, vea Esquema de diccionario lingüístico. El diccionario personalizado debe tener el mismo formato indicado en el ejemplo siguiente. Cada entrada debe tener una clave y un valor. El diccionario personalizado debe guardarse en formato UTF-8 sin marca BOM (Byte Order Mark). Puede tener una entrada sin valor. En ese caso, no se extraerán entidades para dicha clave.

La clave es la cadena que debe estar presente en el elemento. La búsqueda de coincidencias con la clave distingue mayúsculas de minúsculas. Para que el extractor no distinga entre mayúsculas y minúsculas, agregue todas las variaciones de mayúsculas y minúsculas al diccionario.

Nota

Una clave no debe contener apóstrofos; de contenerlos, nunca se encontrará una coincidencia para el término.

El valor es la cadena que se extraerá en la propiedad rastreada asociada.

Nota

Asegúrese de que no existen espacios ni líneas nuevas después de la etiqueta dictionary de cierre, o el diccionario generará un error.

En el ejemplo siguiente se define un diccionario de extracción de propiedades que extrae términos relacionados con la terminología vinícola. Para que el extractor no distinga mayúsculas de minúsculas, el ejemplo incluye las variaciones de mayúsculas y minúsculas relevantes para los términos.

<dictionary>
  <entry key="Wine" value="wine" />
  <entry key="wine" value="wine" />
  <entry key="red wine" value="red wine" />
  <entry key="Red wine" value="red wine" />
  <entry key="white wine" value="white wine" />
  <entry key="White wine" value="white wine" />
  <entry key="Chardonnay" value="chardonnay" />
  <entry key="chardonnay" value="chardonnay" />
</dictionary>

El extractor de propiedades asociado extraerá estos términos relacionados con el ámbito vinícola a la propiedad rastreada asociada a la fase de extracción de propiedades personalizada. La búsqueda de coincidencias controlará el uso de mayúsculas y minúsculas en los términos y normalizará el uso de mayúsculas y minúsculas en la propiedad rastreada resultante.

Encontrará plantillas para los diccionarios de extracción de propiedades en la carpeta de almacén de recursos en el servidor de administración. Las plantillas se encuentran en la siguiente carpeta de archivos: %FASTSEARCH%\components\resourcestore\dictionaries\matching\

Nota importanteImportante

Si hay un error en el formato del diccionario, se le informará al respecto solo cuando especifique un elemento, y no cuando cargue el diccionario en el almacén de recursos. El registro de procesamiento del elemento contendrá un error que indica que no se puede compilar el archivo wholewords_extraction1.xml porque hay un error en el autómata (formato de diccionario compilado).

Configuración de la fase de procesamiento del elemento de extracción de propiedades personalizada

Debe habilitar la fase de extracción de propiedades personalizada predefinida que se va a usar.

Para configurar la fase de procesamiento del elemento

  1. En el nodo de administración de FAST Search Server 2010 for SharePoint, edite %FASTSEARCH%\etc\config_data\DocumentProcessor\OptionalProcessing.xml. Cambie la definición de fase de propiedades del elemento personalizada correspondiente modificando el valor de active a yes. Para obtener más información, vea Personalización de optionalprocessing.xml.

  2. En el servidor de administración, en el símbolo del sistema de Windows PowerShell, escriba el siguiente comando:

    psctrl reset

    Este comando restablecerá todos los procesadores de elementos que se estén ejecutando en el sistema.

  3. Cargue el diccionario de extracción de propiedades personalizado en el almacén de recursos de FAST Search Server 2010 for SharePoint mediante el comando Add-FASTSearchResource de Windows PowerShell.

    En el siguiente ejemplo de código, el nombre del archivo de diccionario editado es c:\temp\wine_dictionary.xml y va a actualizar la fase de extractor de propiedades personalizado denominada wholewordsextractor1.

    Add-FASTSearchResource -FilePath c:\temp\wine_dictionary.xml -Path dictionaries\matching\wholewords_extraction1.xml
    

    FilePath especifica la ruta de acceso al archivo de definición del extractor de propiedades personalizado. Path especifica la ruta de acceso relativa al diccionario en el almacén de recursos. El nombre de archivo que se use dependerá del extractor que desee configurar. En la tabla 1 se muestra la relación entre los extractores de propiedades disponibles y el nombre de archivo en el almacén de recursos.

    Tabla 1. Relación entre el nombre del extractor y el nombre de archivo en el almacén de recursos

    Nombre del extractor

    Nombre del archivo en el almacén de recursos (Path)

    wholewords1

    wholewords_extraction1.xml

    wholewords2

    wholewords_extraction2.xml

    wholewords3

    wholewords_extraction3.xml

    wordparts1

    wordparts_extraction1.xml

    wordparts2

    wordparts_extraction2.xml

    Para obtener información sobre los comandos del almacén de recursos, vea el tema sobre los cmdlets de administración en Microsoft TechNet.

Creación de la asignación de propiedad administrada

Para usar los datos extraídos en consultas o refinamiento de consultas, debe asignar la propiedad rastreada extraída a una propiedad administrada dentro del esquema de índice.

Cada fase de extracción de propiedades personalizada tiene una propiedad rastreada asociada denominada wholewords1, wholewords2, wholewords3, wordparts1 y wordparts2. Los siguientes comandos de Windows PowerShell crean una propiedad administrada denominada wineterms y asignan la propiedad rastreada llamada wholewords1 a la nueva propiedad administrada.

$cp = Get-FASTSearchMetadataCrawledProperty -Name wholewords1
$mp = New-FASTSearchMetadataManagedProperty -Name wineterms –type 1
$mp.StemmingEnabled=0
$mp.RefinementEnabled=1
$mp.Update()
New-FASTSearchMetadataCrawledPropertyMapping -ManagedProperty $mp -CrawledProperty $cp

El tipo de la propiedad administrada se establece en 1, lo que indica que tendrá el tipo de datos string.

El comando $mp.StemmingEnabled=0 implica que la lematización está deshabilitada para esta propiedad administrada. En la mayoría de los casos, éste es el comportamiento deseado para una propiedad extraída.

El comando $mp.RefinementEnabled=1 implica que el refinamiento de consultas está habilitado para esta propiedad administrada.

Para obtener información acerca de los comandos de Windows PowerShell, vea el tema sobre la administración de propiedades rastreadas mediante Windows PowerShell y sobre la administración de propiedades administradas mediante Windows PowerShell en Microsoft TechNet.

Nota

También puede configurar la asignación de propiedad mediante la interfaz gráfica de usuario de Administración central de FAST Search Server 2010 for SharePoint. Para obtener más información, vea el tema sobre la administración de propiedades en Microsoft Office.com.

Configuración de un refinador de consultas personalizado

Si bien el extractor personalizado ya está configurado, no podrá ver el refinador correspondiente en el front-end de búsqueda.

Siga los pasos en Adición de un refinador al elemento web de panel de refinamiento para configurar el refinador en el elemento web Panel de refinamiento.

Vea también

Conceptos

Esquema de diccionario lingüístico