La opción de partición dentro de Conduit proporciona una manera de indicarle a la herramienta que distribuya la carga, el almacenamiento y el procesamiento de un conjunto de datos dentro del motor SQL de Conduit. La forma en la que se define la partición cuando se crea el conector puede tener un impacto significativo en el rendimiento de Conduit para un conector específico.

En términos generales, el número de particiones de un conjunto de datos específico debe ser un múltiplo del número de procesadores en los nodos del clúster. Hay muchas variables a tener en cuenta al definir el número de particiones para un conjunto de datos, incluyendo las siguientes:

  • Tamaño del conjunto de datos.

  • Tipo de datos dentro del conjunto de datos.

  • Número de nodos dentro del clúster.

  • Número de procesadores dentro de cada nodo.

  • Memoria disponible para cada nodo.

Tener muy pocas particiones dará lugar a una asignación de recursos ineficiente para las operaciones distribuidas en el conjunto de datos. Por otro lado, si se tienen demasiadas particiones, el plan de operación tardará demasiado tiempo en determinar cómo se distribuyen las diversas tareas computacionales implicadas en la ejecución de la consulta.

Si se implementa Conduit en una máquina virtual (VM) con requisitos mínimos (Ubuntu 16.4, 4 núcleos, 16 GB de RAM), es probable que 4 particiones mejoren el almacenamiento en caché y la velocidad de consulta para un conjunto de datos considerable.

El tamaño de las particiones para un conjunto de datos se puede ajustar con el "Connection Wizard" (Asistente de conexiones) en la pestaña "Advanced" (Opciones avanzadas).

Se recomienda configurar la columna de particiones para grandes conjuntos de datos cuando se habilita el almacenamiento en caché del conector o cuando se esperan consultas con uniones (joins) que incluyen otros tipos de orígenes de datos.