
El objetivo principal del análisis de big data es ayudar a las empresas a tomar decisiones comerciales más informadas al permitir que DATA Scientist, los modeladores predictivos y otros profesionales de análisis analicen grandes volúmenes de datos de transacciones, así como otras formas de datos que pueden no ser aprovechados por la inteligencia comercial convencional (BI) programas. Esto podría incluir los registros del servidor web y los datos de Internet Click Stream, el contenido de los medios sociales y la actividad de las redes sociales, el texto de los correos electrónicos de los clientes y las respuestas a las encuestas, los registros detallados de las llamadas de los teléfonos móviles y los datos de la máquina capturados por sensores conectados a INTERNET. Algunas personas se asocian exclusivamente Big Data con datos semiestructurados y no estructurados de ese tipo, pero firmas de consultoría como Gartner Inc. y Forrester Research Inc. Capacitación de Hadoop y certificación de Big Data Online | Intellipaat
también considere las transacciones y otros datos estructurados como componentes válidos de las aplicaciones de análisis de big data. Los datos grandes se pueden analizar con las herramientas de software comúnmente utilizadas como parte de las disciplinas de Advance Analytics, como la minería de datos de análisis predictivo, análisis de texto y el método estadístico. El software Mainstream BI y las herramientas de visualización también pueden desempeñar un papel en el proceso de análisis. Sin embargo, los datos semiestructurados y no estructurados pueden no encajar bien en el Almacén de datos tradicional basado en la Base de datos relacional. Tutorial de Hadoop, Tutorial en línea de Apache Hadoop | Intelllipaat.com
Además, es posible que los almacenes de datos no puedan manejar las demandas de procesamiento que plantean los conjuntos de big data que deben actualizarse con frecuencia o incluso de manera continua, por ejemplo, datos en tiempo real sobre el rendimiento de las aplicaciones móviles o de los oleoductos y gasoductos. Como resultado, muchas organizaciones que buscan recopilar, procesar y analizar big data han recurrido a una clase más nueva de tecnologías que incluye Hadoop y herramientas relacionadas como Yarn Spook, Spark y Pig, así como bases de datos No SQL.
Esas tecnologías forman el núcleo de un marco de software de código abierto que admite el procesamiento de conjuntos de datos grandes y diversos en algunos casos agrupados, los sistemas Hadoop Cluster y No SQL se utilizan como plataformas de aterrizaje y áreas de preparación para los datos antes de que se carguen en los datos. Almacén para análisis, a menudo en una forma resumida que es más propicio para las estructuras relacionales. Sin embargo, cada vez más, los proveedores de big data están impulsando el concepto de una Toma de Datos de Hadoop que sirve como el repositorio central para las corrientes entrantes de Datos Brutos de una organización.
En tales arquitecturas, los subconjuntos de datos se pueden filtrar para el análisis en los almacenes de datos y las bases de datos analíticos, o se pueden analizar directamente en Hadoop mediante herramientas de consulta por lotes, software de procesamiento de flujos y tecnologías Sql Y Hadoop que ejecutan consultas interactivas y ad hoc escritas. en Sql Los escollos potenciales que pueden hacer tropezar a las organizaciones con las iniciativas de análisis de big data incluyen la falta de habilidades de análisis interno y el alto costo de contratar profesionales de análisis con experiencia.
La cantidad de información que suele estar involucrada, y su variedad, también pueden causar problemas de gestión de datos, incluidos los problemas de calidad y coherencia de los datos. Además, la integración de los sistemas de Hadoop y los almacenes de datos puede ser un desafío, aunque varios proveedores ahora ofrecen conectores de software entre Hadoop y las bases de datos relacionales, así como otras herramientas de integración de datos con capacidades de big data. Las empresas están utilizando el poder de la información proporcionada por big data. para establecer instantáneamente quién hizo qué, cuándo y dónde. El mayor valor creado por estas perspectivas oportunas y significativas de grandes conjuntos de datos es a menudo la toma de decisiones empresariales efectivas que permiten las perspectivas.
La extrapolación de información valiosa a partir de cantidades muy grandes de datos estructurados y no estructurados de fuentes dispares en diferentes formatos requiere la estructura adecuada y las herramientas adecuadas. Para obtener el máximo impacto en el negocio, este proceso también requiere una combinación precisa de personas, procesos y herramientas analíticas. Algunos de los beneficios comerciales potenciales de la implementación de una metodología efectiva de Big Data Insights incluyen: Información oportuna de las vastas cantidades de datos.
Esto incluye aquellos que ya están almacenados en las bases de datos de la compañía, de fuentes externas de terceros, Internet, redes sociales y sensores remotos. Monitoreo en tiempo real y previsión de eventos que afectan el rendimiento del negocio o la operación. Capacidad para encontrar, adquirir, extraer, manipular, analice, conecte y visualice los datos con las herramientas de su elección (SAP HANA, SAP Sybase®, SAP Intelligence Analysis para la aplicación del sector público de Palantir, Kapow®, Hadoop) .Convergencia de la solución BDI para variedad con la velocidad de SAP HANA para la velocidad
La capacidad de Hadoop para volúmenes para administrar grandes cantidades de datos, dentro o fuera de la nube, con validación y verificación. Identificación de información importante que puede mejorar la calidad de la decisión Mitigación del riesgo al optimizar las decisiones complejas de eventos no planificados con mayor rapidez Aborda la velocidad y la escalabilidad, movilidad y seguridad, flexibilidad y estabilidad Integración de datos estructurados y no estructurados
El tiempo de realización de la información es fundamental para extraer valor de varias fuentes de datos, incluidos dispositivos móviles, identificación por radiofrecuencia (RFID), la web y una creciente lista de tecnologías sensoriales automatizadas. Sap HANA proporciona el almacén de datos empresarial / almacén de datos extremadamente acelerado (BW /EDW).Hadoop proporciona almacenamiento de datos confiable y procesamiento de datos paralelo de alto rendimiento, la capacidad de almacenar conjuntos de datos extremadamente grandes.
La nube es extensible, flexible, escalable, elástica, autoreparable, bajo demanda, etc. y proporciona la plataforma de hardware / software económica con todas las aplicaciones (como Kapow, SAP Intelligence Analysis para la aplicación del Sector Público por Palantir, CRM, SAP Sybase). IQ, Servicios de datos de SAP con análisis de texto) para un rápido incremento a los requisitos de costos de capital más bajos. Hadoop es un marco de código abierto que permite almacenar y procesar big data en un entorno distribuido a través de grupos de computadoras utilizando modelos de programación simples. Está diseñado para escalar desde servidores individuales a miles de máquinas, cada una ofrece computación y almacenamiento locales.
Este breve tutorial proporciona una introducción rápida a Big Data, el algoritmo de reducción de mapas y al sistema de archivos distribuidos de Hadoop. Hadoop es un marco de código abierto de Apache escrito en java que permite el procesamiento distribuido de grandes conjuntos de datos en grupos de computadoras utilizando modelos de programación simples. Una aplicación de marco de trabajo de Hadoop funciona en un entorno que proporciona almacenamiento y cómputo distribuidos en grupos de computadoras. Hadoop está diseñado para escalar de un solo servidor a miles de máquinas, cada una ofrece computación y almacenamiento locales.
Hadoop Common: son bibliotecas y utilidades de Java requeridas por otros módulos de Hadoop. Estas bibliotecas proporcionan abstracciones del sistema de archivos y del sistema operativo, y contienen los archivos Java necesarios y los scripts necesarios para iniciar Hadoop.
Hadoop YARN: Este es un marco para la programación de trabajos y la administración de recursos de clúster.
Sistema de archivos distribuidos de Hadoop (HDFS ™): un sistema de archivos distribuidos que proporciona acceso de alto rendimiento a los datos de la aplicación.
Reducción del mapa Hadoop: este es un sistema basado en YARN para el procesamiento paralelo de grandes conjuntos de datos. Hadoop
Map Reduce es un marco de software para escribir aplicaciones que procesan grandes cantidades de datos en paralelo en grandes clusters (miles de nodos) de hardware de Commodity de una manera confiable y tolerante a fallas. El término Map Reduce en realidad se refiere a los siguientes dos diferentes Tareas que realizan los programas de Hadoop:
La tarea del mapa: Esta es la primera tarea, que toma los datos de entrada y los convierte en un conjunto de datos, donde los elementos individuales se dividen en tuplas (pares clave / valor).
La tarea Reducir: esta tarea toma la salida de una tarea de mapa como entrada y combina esas tuplas de datos en un conjunto más pequeño de tuplas. La tarea de reducción siempre se realiza después de la tarea del mapa. Típicamente, tanto la entrada como la salida se almacenan en un sistema de archivos. El marco se encarga de programar las tareas, supervisándolas y vuelve a ejecutar las tareas fallidas. El marco Map Reduce consiste en un solo maestro
Job Tracker y un esclavo Task Tracker por nodo de clúster. El maestro es responsable de la administración de recursos, el seguimiento del consumo / disponibilidad de los recursos y la programación de las tareas del componente de trabajos en los esclavos, monitorizándolos y volviendo a ejecutar las tareas fallidas. El Rastreador de tareas de los esclavos ejecuta las tareas según lo indica el maestro y proporciona información de estado de la tarea al maestro periódicamente. El Rastreador de trabajos es un punto único de falla para el servicio de reducción de mapa Hadoop, lo que significa que si el Rastreador de trabajos se cae, todos los trabajos en ejecución son detenido
Sistema de archivos distribuidos de Hadoop Hadoop puede trabajar directamente con cualquier sistema de archivos distribuidos, como Local FS, HFTP FS, S3 FS y otros, pero el sistema de archivos más común utilizado por Hadoop es el Sistema de archivos distribuidos de Hadoop (HDFS) .El Hadoop distribuido El Sistema de archivos (HDFS) se basa en el Sistema de archivos de Google (GFS) y proporciona un sistema de archivos distribuidos que está diseñado para ejecutarse en grandes clusters (miles de computadoras) de máquinas de computadoras pequeñas de manera confiable y tolerante a fallos. HDFS utiliza una arquitectura maestro / esclavo donde el maestro consiste en una sola
Nombre del nodo que administra los metadatos del sistema de archivos y uno o más esclavos
Nodos de datos que almacenan los datos reales. Un archivo en un espacio de nombres HDFS se divide en varios bloques y esos bloques se almacenan en un conjunto de Nodos de datos. El nodo de nombre determina la asignación de bloques a los nodos de datos. Los Nodos de datos se encargan de la operación de lectura y escritura con el sistema de archivos. También se ocupan de la creación, eliminación y replicación de bloques en función de las instrucciones proporcionadas por Name Node. HDFS proporciona un shell como cualquier otro sistema de archivos y hay una lista de comandos disponibles para interactuar con el sistema de archivos. Estos comandos de shell se tratarán en un capítulo aparte junto con los ejemplos apropiados.
¿Cómo funciona Hadoop?
Etapa 1 Un usuario / aplicación puede enviar un trabajo a Hadoop (un cliente de trabajo de hadoop) para el proceso requerido especificando los siguientes elementos: La ubicación de los archivos de entrada y salida en el sistema de archivos distribuido. Las clases de java en forma de jar Archivo que contiene la implementación del mapa y funciones de reducción. La configuración del trabajo mediante la configuración de diferentes parámetros específicos para el trabajo.
Etapa 2 El cliente de trabajo Hadoop luego envía el trabajo (jar / ejecutable, etc.) al Job Tracker, que asume la responsabilidad de distribuir el software / configuración a los esclavos, programar tareas y monitorearlos, proporcionar información de diagnóstico y estado a los servidores. trabajo-cliente.
Etapa 3 Los rastreadores de tareas en diferentes nodos ejecutan la tarea según el Mapa Reducir la implementación y la salida de la función de reducción se almacena en los archivos de salida en el sistema de archivos.
Ventajas de Hadoop El marco de trabajo de Hadoop permite al usuario escribir y probar sistemas distribuidos rápidamente. Es eficiente y distribuye automáticamente los datos y el trabajo a través de las máquinas y, a su vez, utiliza el paralelismo subyacente de los núcleos de la CPU. Hadoop no confía en el hardware para proporcionar tolerancia a fallos y alta disponibilidad (FT-HA), sino que la propia biblioteca de Hadoop ha sido diseñada para detectar y manejar fallas en la capa de aplicación. Los servidores pueden agregarse o eliminarse del clúster dinámicamente y Hadoop continúa para operar sin interrupción. Otra gran ventaja de Hadoop es que, además de ser de código abierto, es compatible con todas las plataformas, ya que está basado en Java.