Ejemplo de data quality con Talend
Cada vez es más importante imprimir calidad en todos los procesos de gestión de la información; al almacenarla, transmitirla y sobre todo al incorporarla a nuestros repositorios.
La duplicidad de datos cuesta muchísimo dinero en almacenamiento y transmisión de datos, pero sobre todo genera ineficiencias en todos nuestros procesos. Mantener una base de datos correctamente normalizada organiza la información y facilita el análisis y localización de los datos.
Consultas en Solr
Como ya hemos visto en anteriores entradas, Solr nos ofrece un interfaz de administración que nos permite hacer consultas contra los indices y analizarlas. En esta ocasión, vamos a hacer un repaso de las funciones de consulta en Solr.
Veremos como indicar los campos sobre los que buscar, condiciones, filtros, ordenación, depuración, y cómo cambiar el tipo de respuesta y procesarla.
Contextos en Talend
Los contextos definen variables que pueden ser parametrizadas desde fuera del job y ser compartidas entre trabajos. Se utilizan principalmente para definir rutas y otros parámetros de configuración. Funcionan como variables de entorno que toman distintos valores en función del entorno de ejecución.
En este post vamos a ver con detalle como utilizar estas variables de contexto en Talend.
Reload en el admin de Solr
Hoy vamos a publicar un truco rápido para facilitar la gestión de Solr.
Curiosamente no es posible hacer un reload de un core desde la web de administración de Solr. Podemos personalizar la plantilla de la web de administración y añadir esta función en tan solo unos segundos.
Introducción a Talend
De un tiempo a esta parte he tenido la oportunidad (y la necesidad) de utilizar herramientas de transformación de datos ETL.
La aplicación de un ETL es la integración de sistemas que intercambian datos. Esto y el precio típico de estas herramientas, hacía que se utilizaran casi en exclusiva en integración de aplicaciones CRM , ERP o BI. La llegada del open source nos facilita el acceso a los ETLs.
El caso es que cuando aprendes a manejar estas herramientas, se te ocurren mil maneras de aplicarlas.
Indexar en Solr
Solr expone una serie de servicios a los que podemos lanzarle los documentos a indexar en forma de XML.
En este post, vamos a revisar el proceso con el que alimentamos Solr con los datos que extraemos de nuestra base de datos.
Esquemas en Solr
Siguiendo con esta serie dedicada al buscador Solr vamos a avanzar en su configuración y utilización.
En esta ocasión hablaremos del esquema. El esquema es el corazón del buscador ya que define los campos de que dispone y cómo van a ser tratados en al indexarse y al realizar las consultas.
Solr nos provee con los tipos de datos, analizadores y filtros necesarios para hacer que el buscador se comporte exactamente como necesitemos. Además siendo código abierto siempre podemos hacernos nuestros propios analizadores si fuera necesario.
Instalación de Solr en Tomcat
Para comenzar esta serie de posts dedicados a Solr voy a empezar por el principio instalándolo.
Realizaremos una instalación completa en linux, sin asistentes ni gestores de paquetes.
En futuras entradas intentaré mostrar las características de este estupendo buscador open source.
Bienvenidos a Brujuleo
Bienvenidos a Brujuleo
Blog sin pretensiones en el que hablaré de unas cosas y otras por el mero placer de compartir experiencias.
Espero que el contenido pueda interesar a alguien. No dudeis en contactar conmigo.
Saludos
Alberto P.