Creación de un extractor de propiedades personalizado
Última modificación: jueves, 23 de junio de 2011
Hace referencia a: SharePoint Server 2010
Se aplica a: Microsoft FAST Search Server 2010 for SharePoint
Un extractor de propiedades permite extraer automáticamente entidades o conceptos del contenido de texto visible de un elemento y asignarlos a una propiedad administrada. A su vez, estas propiedades se pueden usar para restringir las consultas mediante filtros de propiedades o como opciones de refinamiento de consultas.
En este artículo se describe cómo crear un extractor de propiedades personalizado, según se indica a continuación:
Creación de un diccionario de extracción de propiedades personalizado
Configuración de la fase de procesamiento del elemento de extracción de propiedades personalizada
Tipos de extractor de propiedades
Puede definir dos tipos de extractores de propiedades: basados en coincidencias exactas o en coincidencias parciales.
Extractores de propiedades de coincidencia exacta
Estos extractores de propiedades son adecuados para establecer coincidencias de cadenas en todos los idiomas, excepto los idiomas del este asiático (coreano, chino, japonés y tailandés).
Las entradas en el diccionario personalizado pueden ser palabras individuales o una cadena de palabras. La búsqueda de cadenas coincidentes se realiza después de una tokenización básica, que reemplaza los caracteres separadores presentes en el texto (por ejemplo, comas, signo de puntuación, dos puntos y guiones) por espacios en blanco. Tras la tokenización básica, los extractores deben buscar una coincidencia exacta para la cadena.
Nota
En el establecimiento de coincidencias se distingue mayúsculas de minúsculas.
Puede definir hasta tres extractores personalizados de propiedades de coincidencia exacta en la canalización de procesamiento de elementos. Se usa una de las fases de procesamiento de elementos predefinidas denominadas wholewordsextractor1, wholewordsextractor2 y wholewordsextractor3.
Extractores de propiedades de coincidencia parcial
Estos extractores de propiedades son adecuados para establecer coincidencias de cadenas en todos los documentos en idiomas del este asiático (coreano, chino, japonés o tailandés), ya que las palabras de estos idiomas no están separadas por espacios.
También puede usar este extractor de propiedades para casos específicos en los que se necesitan coincidencias de subcadenas, por ejemplo, para buscar una secuencia de ADN dentro de secuencias más largas. En este caso, el diccionario personalizado contendría las secuencias de ADN interesantes, por ejemplo, "AAAGTCTGAC", y buscará como coincidencia un documento que contenga la secuencia "ATATGAATGGAAAGTCTGACTGATATCTGG".
Nota
En el establecimiento de coincidencias se distingue mayúsculas de minúsculas.
Puede definir hasta dos extractores personalizados de propiedades de coincidencia parcial en la canalización de procesamiento de elementos. Se usa una de las fases de procesamiento de elementos predefinidas denominadas wordpartsextractor1 y wordpartsextractor2.
Elementos con contenido en idiomas del este asiático y otros idiomas
Si la entrada del diccionario personalizado debe buscar coincidencias en cadenas de documentos rodeadas por palabras en un idioma del este asiático, se debe usar un buscador de coincidencias parciales.
Esto se debe a que las palabras en otros idiomas en un documento en idioma chino o japonés no siempre están separadas de los caracteres de chino o japonés por un espacio.
Creación de un diccionario de extracción de propiedades personalizado
El diccionario personalizado define las palabras que se van a buscar en los elementos indizados y cuáles se van a indizar en la propiedad administrada asociada. Para obtener información acerca de la sintaxis del archivo XML, vea Esquema de diccionario lingüístico. El diccionario personalizado debe tener el mismo formato indicado en el ejemplo siguiente. Cada entrada debe tener una clave y un valor. El diccionario personalizado debe guardarse en formato UTF-8 sin marca BOM (Byte Order Mark). Puede tener una entrada sin valor. En ese caso, no se extraerán entidades para dicha clave.
La clave es la cadena que debe estar presente en el elemento. La búsqueda de coincidencias con la clave distingue mayúsculas de minúsculas. Para que el extractor no distinga entre mayúsculas y minúsculas, agregue todas las variaciones de mayúsculas y minúsculas al diccionario.
Nota
Una clave no debe contener apóstrofos; de contenerlos, nunca se encontrará una coincidencia para el término.
El valor es la cadena que se extraerá en la propiedad rastreada asociada.
Nota
Asegúrese de que no existen espacios ni líneas nuevas después de la etiqueta dictionary de cierre, o el diccionario generará un error.
En el ejemplo siguiente se define un diccionario de extracción de propiedades que extrae términos relacionados con la terminología vinícola. Para que el extractor no distinga mayúsculas de minúsculas, el ejemplo incluye las variaciones de mayúsculas y minúsculas relevantes para los términos.
<dictionary>
<entry key="Wine" value="wine" />
<entry key="wine" value="wine" />
<entry key="red wine" value="red wine" />
<entry key="Red wine" value="red wine" />
<entry key="white wine" value="white wine" />
<entry key="White wine" value="white wine" />
<entry key="Chardonnay" value="chardonnay" />
<entry key="chardonnay" value="chardonnay" />
</dictionary>
El extractor de propiedades asociado extraerá estos términos relacionados con el ámbito vinícola a la propiedad rastreada asociada a la fase de extracción de propiedades personalizada. La búsqueda de coincidencias controlará el uso de mayúsculas y minúsculas en los términos y normalizará el uso de mayúsculas y minúsculas en la propiedad rastreada resultante.
Encontrará plantillas para los diccionarios de extracción de propiedades en la carpeta de almacén de recursos en el servidor de administración. Las plantillas se encuentran en la siguiente carpeta de archivos: %FASTSEARCH%\components\resourcestore\dictionaries\matching\
Importante |
---|
Si hay un error en el formato del diccionario, se le informará al respecto solo cuando especifique un elemento, y no cuando cargue el diccionario en el almacén de recursos. El registro de procesamiento del elemento contendrá un error que indica que no se puede compilar el archivo wholewords_extraction1.xml porque hay un error en el autómata (formato de diccionario compilado). |
Configuración de la fase de procesamiento del elemento de extracción de propiedades personalizada
Debe habilitar la fase de extracción de propiedades personalizada predefinida que se va a usar.
Para configurar la fase de procesamiento del elemento
En el nodo de administración de FAST Search Server 2010 for SharePoint, edite %FASTSEARCH%\etc\config_data\DocumentProcessor\OptionalProcessing.xml. Cambie la definición de fase de propiedades del elemento personalizada correspondiente modificando el valor de active a yes. Para obtener más información, vea Personalización de optionalprocessing.xml.
En el servidor de administración, en el símbolo del sistema de Windows PowerShell, escriba el siguiente comando:
psctrl reset
Este comando restablecerá todos los procesadores de elementos que se estén ejecutando en el sistema.
Cargue el diccionario de extracción de propiedades personalizado en el almacén de recursos de FAST Search Server 2010 for SharePoint mediante el comando Add-FASTSearchResource de Windows PowerShell.
En el siguiente ejemplo de código, el nombre del archivo de diccionario editado es c:\temp\wine_dictionary.xml y va a actualizar la fase de extractor de propiedades personalizado denominada wholewordsextractor1.
Add-FASTSearchResource -FilePath c:\temp\wine_dictionary.xml -Path dictionaries\matching\wholewords_extraction1.xml
FilePath especifica la ruta de acceso al archivo de definición del extractor de propiedades personalizado. Path especifica la ruta de acceso relativa al diccionario en el almacén de recursos. El nombre de archivo que se use dependerá del extractor que desee configurar. En la tabla 1 se muestra la relación entre los extractores de propiedades disponibles y el nombre de archivo en el almacén de recursos.
Tabla 1. Relación entre el nombre del extractor y el nombre de archivo en el almacén de recursos
Nombre del extractor
Nombre del archivo en el almacén de recursos (Path)
wholewords1
wholewords_extraction1.xml
wholewords2
wholewords_extraction2.xml
wholewords3
wholewords_extraction3.xml
wordparts1
wordparts_extraction1.xml
wordparts2
wordparts_extraction2.xml
Para obtener información sobre los comandos del almacén de recursos, vea el tema sobre los cmdlets de administración en Microsoft TechNet.
Creación de la asignación de propiedad administrada
Para usar los datos extraídos en consultas o refinamiento de consultas, debe asignar la propiedad rastreada extraída a una propiedad administrada dentro del esquema de índice.
Cada fase de extracción de propiedades personalizada tiene una propiedad rastreada asociada denominada wholewords1, wholewords2, wholewords3, wordparts1 y wordparts2. Los siguientes comandos de Windows PowerShell crean una propiedad administrada denominada wineterms y asignan la propiedad rastreada llamada wholewords1 a la nueva propiedad administrada.
$cp = Get-FASTSearchMetadataCrawledProperty -Name wholewords1
$mp = New-FASTSearchMetadataManagedProperty -Name wineterms –type 1
$mp.StemmingEnabled=0
$mp.RefinementEnabled=1
$mp.Update()
New-FASTSearchMetadataCrawledPropertyMapping -ManagedProperty $mp -CrawledProperty $cp
El tipo de la propiedad administrada se establece en 1, lo que indica que tendrá el tipo de datos string.
El comando $mp.StemmingEnabled=0 implica que la lematización está deshabilitada para esta propiedad administrada. En la mayoría de los casos, éste es el comportamiento deseado para una propiedad extraída.
El comando $mp.RefinementEnabled=1 implica que el refinamiento de consultas está habilitado para esta propiedad administrada.
Para obtener información acerca de los comandos de Windows PowerShell, vea el tema sobre la administración de propiedades rastreadas mediante Windows PowerShell y sobre la administración de propiedades administradas mediante Windows PowerShell en Microsoft TechNet.
Nota
También puede configurar la asignación de propiedad mediante la interfaz gráfica de usuario de Administración central de FAST Search Server 2010 for SharePoint. Para obtener más información, vea el tema sobre la administración de propiedades en Microsoft Office.com.
Configuración de un refinador de consultas personalizado
Si bien el extractor personalizado ya está configurado, no podrá ver el refinador correspondiente en el front-end de búsqueda.
Siga los pasos en Adición de un refinador al elemento web de panel de refinamiento para configurar el refinador en el elemento web Panel de refinamiento.