Información general sobre el laboratorio
En este laboratorio, vas a usar Amazon EMR para analizar Ngrams de Google Books. Un n-gram es una secuencia contigua de n elementos de una determinada secuencia de texto o discurso. Por ejemplo, considera esta frase:
The sun rises in the East and sets in the West.
Esta frase incluye varios 2-grams, entre los que se incluyen:
- «the sun»
- «in the»
- «sets in»
Un 3-gram de ejemplo sería «sets in the» y un 4-gram de ejemplo sería «rises in the east».
Los n-grams se usan para predecir la probabilidad de que aparezcan ciertas palabras en una secuencia. Esto puede ser útil para ofrecer sugerencias de escritura en páginas web y teléfonos móviles.
Los pasos de este laboratorio son muy similares a las actividades que llevaría a cabo un científico de datos al analizar un nuevo conjunto de datos. Esto incluye cargar los datos, examinar los atributos de los datos y escribir código SQL para analizar los datos. En este laboratorio, vas a ejecutar el código SQL en los datos de Ngrams disponibles públicamente y almacenados en Amazon S3 para obtener información interesante.
Objetivos
Después de completar este laboratorio, serás capaz de hacer lo siguiente:
- crear un clúster de Amazon EMR que ejecute Hive
- usar enunciados de Hive para crear tablas a partir de los datos de entrada de Google Ngram almacenados en Amazon S3
- ejecutar consultas de Hive para desglosar y analizar los datos
Duración
El tiempo estimado para completar este laboratorio es de 45 minutos*.
Significado de los iconos
En este laboratorio, se usan varios iconos para llamar la atención sobre diferentes tipos de instrucciones y notas. En la siguiente lista, se explica el propósito de cada icono:
- Comando: un comando que debes ejecutar.
- Resultado previsto: contiene una muestra de resultado que permite revisar el resultado de un comando o archivo editado.
- Nota: Una pista, un consejo o una orientación importante.
- ADVERTENCIA: cualquier acción que sea irreversible y pueda hacer que un comando o un proceso no se ejecuten correctamente (se incluyen advertencias relativas a configuraciones que no se pueden cambiar una vez realizadas).
- Prueba de conocimientos: una oportunidad para comprobar tus conocimientos y poner a prueba lo que has aprendido.
- Tarea completada: un punto de conclusión o resumen del laboratorio.