Programar consultas de quiosco de datos

Aprenda a programar consultas de Data Kiosk.

Usa esta guía para obtener información sobre cómo realizar llamadas regulares de forma automática a createQuery evitando al mismo tiempo las solicitudes de datos redundantes.

📘

Nota

Se publica un ejemplo de código completo para este mecanismo de programación en nuestro Repositorio de muestras en GitHub.

Descripción general de Data Kiosk

El uso de Data Kiosk implica los siguientes pasos:

  1. Suscríbete a la notificación: Suscríbase a una cola de SQS al DATA_KIOSK_QUERY_PROCESSING_FINISHED notificación, que le notifica cuando se completa el procesamiento de datos.
  2. Crea la consulta: Envía una consulta de GraphQL mediante el createQuery operación.
  3. Recupere el documento: Uso dataDocumentId o errorDocumentId para recuperar los detalles del documento con el getDocument operación. Estos atributos están en la carga útil de notificaciones. Si recibes errorDocumentId, puede encontrar el motivo del error en el documento.
  4. Almacene los datos: Recupere y almacene el JSONL archivo del documentUrl para su posterior procesamiento y acceso.

📘

Nota

Para obtener más información sobre los flujos de trabajo de Data Kiosk, consulte:

Tutorial: Cree un mecanismo de programación para Data Kiosk

Aprenda a realizar consultas automáticas y regulares a Data Kiosk y, al mismo tiempo, evitar llamadas redundantes.

Paso 1. Defina los parámetros de la programación

Determine la fecha de inicio y la velocidad a la que desea realizar consultas.

📘

Nota

Si la fecha de inicio de la consulta es anterior y quieres que el planificador la complete, crea consultas con la mayor frecuencia posible hasta que realices la consulta actual. Esto garantiza que los datos se mantengan actualizados. Por ejemplo, si la fecha de inicio es hace un mes y desea obtener información de cada día, ajuste la solución para que el programador ejecute rápidamente las consultas de todos los días del mes anterior hasta que llegue al día actual.

Si no necesitas rellenar, establece la fecha de inicio en la fecha actual o futura para evitar que el programador cree consultas anteriores.

Las frecuencias comunes incluyen diarias, semanales o mensuales. La elección de la tarifa depende de la frecuencia con la que se actualicen los datos. Por ejemplo, si los datos se actualizan a diario, una frecuencia diaria es adecuada. No consultes con demasiada frecuencia. Si un conjunto de datos se actualiza a diario, una consulta cada hora sería redundante.

Paso 2. Ajustar los parámetros de consulta

Cree una función que cambie las fechas de inicio y finalización de la consulta en función de la tasa deseada para que cada consulta recupere datos nuevos. Por ejemplo, si la tarifa programada es diaria, la función debe ajustar las fechas de inicio y finalización en un día para cada nueva consulta.

❗️

¡Advertencia!

Los diferentes conjuntos de datos tienen diferentes nombres de claves de atributos y diferentes períodos de recarga de datos. Conozca las claves de atributo de las fechas de inicio y finalización de cada conjunto de datos. Al actualizar o cambiar los atributos de las fechas de inicio y finalización, los nombres de las claves pueden variar según los conjuntos de datos.

Paso 3. Crea la consulta

Para enviar consultas automáticamente, utilice un planificador de eventos como AWS EventBridge. Con EventBridge, puedes configurar tareas recurrentes mediante expresiones cron o expresiones de tarifa (por ejemplo, cada cinco minutos, cada hora o todos los días). Configura EventBridge para ajustar automáticamente las fechas de las consultas y realizar las llamadas a createQuery a intervalos definidos para recuperar datos de forma continua y eficiente.

Paso 4. Guardar la información del cronograma

Almacene la información de programación, como las fechas de inicio, las tarifas y las consultas asociadas, en una base de datos. Asegúrese de poder cancelar o eliminar las programaciones según sea necesario y mantenga registros de las consultas con fines de auditoría e informes.

Mejores prácticas y consideraciones

Evite errores y gestione la redundancia. Algunas cosas a tener en cuenta incluyen:

  • Evite la redundancia: Valide que las consultas soliciten datos únicos. Asegúrese de que no haya ninguna superposición con las marcas de tiempo de los datos almacenadas anteriormente y no cree varias programaciones para la misma consulta. La creación de la consulta falla si la consulta anterior aún se está ejecutando.

  • Errores de registro: No permitas que una consulta fallida detenga todo el mecanismo de programación. Implemente un registro exhaustivo para capturar los errores durante el envío de la consulta y la recuperación de datos. Procese los documentos de error que devuelve Data Kiosk y corrija los errores que contienen.

  • Vuelva a intentar: Si una consulta se ve limitada por la limitación de consultas simultáneas, incorpore mecanismos de reintento que utilicen un retraso exponencial.

  • Supervise y avise: Supervise en tiempo real y configure alertas de error para detectar consultas fallidas, superaciones de los límites de frecuencia o tiempos de procesamiento prolongados. Identifique los problemas y responda rápidamente a ellos.

Para obtener más información sobre los diferentes errores y cómo solucionarlos, consulte Manejar los errores de procesamiento.


¿Te ha ayudado esta página?