¿Cómo practicar los programas de Hadoop en línea de forma gratuita? ¿Hay algún servicio gratuito en la nube que proporcione la plataforma Hadoop junto con datos de muestra para jugar? Quiero enviar el código de reducción de mapa allí y obtener los resultados. ¿Hay algún servicio disponible?

Practique hadoop / hive / hbase / mysql / sqoop / flume de forma gratuita.

Paso 1:

Regístrese en https://my.imdemocloud.com/

y recuerda tu nombre de usuario y contraseña

solo para explicar usaré el nombre de usuario como [email protected]

y contraseña como contraseña

Demo Cloud | Demo Cloud de IBM Analytics

Demo Cloud de IBM Analytics

IBM Analytics Demo Cloud. Demo Cloud le proporciona entornos que puede utilizar para explorar y experimentar con nuevas capacidades de software. Iniciar sesión Registrarse

Paso 2:
Descargue e instale Putty http://www.putty.org/

Descargue PuTTY, un cliente gratuito de SSH y telnet para Windows

un cliente gratuito de SSH y telnet para Windows

Descargar PuTTY. PuTTY es un cliente SSH y telnet, desarrollado originalmente por Simon Tatham para la plataforma Windows.

PuTTY se utilizará para obtener un shell para practicar todos los comandos relacionados con hadoop, mapreduce, etc.

Paso 3:
Descargue WinScp e instale https://winscp.net/eng/download.php

WinScp se utiliza para transferir archivos entre su sistema y el sistema UNIX alojado en la nube.

Etapa 4:

Inicie sesión en el sitio web de la nube de demostración y haga clic en este enlace según la imagen

Paso 5:

Abra la masilla y ponga las credenciales de la siguiente manera:

en la pantalla de inicio de sesión poner contraseña

Ahora, después de iniciar sesión en putty, obtendrá un shell / prompt donde podrá practicar los comandos de hadoop.

para la transferencia de archivos al sistema use winscp

Edit: Hay otras formas también.

Puede buscar aws vms y obtener una vm gratis por 1 año. Nota: se requiere información de la tarjeta de crédito.
Microsoft Azure también ofrece el mismo servicio gratis por 1 año.
Google también ofrece vm con 300 $ de uso gratuito. (la última vez que lo comprobé era de 300 dólares)
Inicio – Hadoop En el mundo real, consulte este sitio también es bueno.

Seguiré actualizando esta respuesta si encuentro alguna otra plataforma en línea.

Aparte de tomar clases privadas, ¿de qué manera puedo aprender a tocar un teclado de 61 teclas?

¿Cuáles son algunos de los mejores cursos en línea para unirse?

¿Cuáles son los mejores sitios web en línea para aprender yoga?

¿Las universidades en la India ofrecen títulos en línea? ¿Es una opción popular para los estudiantes?

¿Cuáles son algunos buenos recursos para obtener una habilidad elemental en la teoría del aprendizaje automático, la mecánica estadística y la estadística de estadística / probabilidad en 5 a 6 meses?

¿Crees que un buen libro de texto de matemáticas o ciencias puede ser reemplazado por videos en línea (como Khan Academy)?

Primero, le sugiero que configure su propia máquina virtual con el clúster de un solo nodo de Hadoop o un clúster de múltiples nodos en función de los recursos de su sistema. También puedes pasar por este video de instalación de Hadoop.

Ahora que ha instalado Hadoop en su sistema. Puede descargar datos de varias fuentes para comenzar a jugar con su máquina virtual Hadoop:

Plataforma de Datos de Gobierno Abierto (OGD) India
https://www.kaggle.com/datasets
http://www.assetmacro.com
http://usgovxml.com
http://aws.amazon.com/datasets
http://databib.org
http://datacite.org
http://figshare.com
http://linkeddata.org
http://reddit.com/r/datasets
http://thewebminer.com/
alias http://thedatahub.org http://ckan.net
http://quandl.com
Biblioteca de conjuntos de datos interactivos de análisis de redes sociales (conjuntos de datos de redes sociales)
Conjuntos de datos para minería de datos
http://enigma.io
http://www.ufindthem.com/
http://NetworkRepository.com – El primer repositorio de datos de red interactivo
http://MLvis.com
Open Data Inception: una lista completa de más de 2500 portales de datos abiertos en el mundo
http://data.opendatasoft.com

Hay muchas más fuentes desde donde puede descargar grandes conjuntos de datos.

Puede ir a través de estos videos de MapReduce para comprender cómo escribir el programa MapReduce para analizar grandes conjuntos de datos.

Ir a través de estos videos:

También puede utilizar varias herramientas con las que puede analizar datos a través de HDFS.

CERDO

PIG tiene dos partes: Pig Latin , the language y the pig runtime, para el entorno de ejecución. Puedes entenderlo mejor como Java y JVM. Es compatible con el lenguaje latín de cerdo , que tiene una estructura de comandos similar a la de SQL.

Como todo el mundo no pertenece desde un fondo de programación. Entonces, Apache PIG los alivia. Usted podría ser curioso saber cómo?

Bueno, les contaré un dato interesante:

10 linea de cerdo latino = aprox. 200 líneas de código Java de Map-Reduce

Pero no se sorprenda cuando digo que en el extremo posterior del trabajo de Pig, se ejecuta un trabajo de reducción de mapas. El compilador convierte internamente pig latin a MapReduce. Produce un conjunto secuencial de trabajos de MapReduce, y eso es una abstracción (que funciona como una caja negra). PIG fue desarrollado inicialmente por Yahoo. Le brinda una plataforma para generar flujo de datos para ETL (Extraer, Transformar y Cargar), procesando y analizando grandes conjuntos de datos.

En PIG, primero el comando de carga, carga los datos. Luego realizamos varias funciones en él, como agrupar, filtrar, unir, ordenar, etc. Por fin, puede volcar los datos en la pantalla o puede almacenar el resultado en HDFS.

Puedes ir a través de este video tutorial de cerdo:

COLMENA

Facebook creó HIVE para las personas que dominan SQL. Por lo tanto, HIVE los hace sentir como en casa mientras trabajan en un ecosistema de Hadoop. Básicamente, HIVE es un componente de almacenamiento de datos que realiza la lectura, escritura y administración de grandes conjuntos de datos en un entorno distribuido mediante una interfaz similar a la de SQL.

HIVE + SQL = HQL

El lenguaje de consulta de Hive se llama Hive Query Language (HQL), que es muy similar a SQL. Tiene 2 componentes básicos: línea de comando Hive y controlador JDBC / ODBC. los La interfaz de línea de comandos de Hive se utiliza para ejecutar comandos HQL.

Mientras que, Java Database Connectivity (JDBC) y Object Database Connectivity (ODBC) se utilizan para establecer la conexión desde el almacenamiento de datos. En segundo lugar, Hive es altamente escalable. Como, puede servir tanto para propósitos, es decir, procesamiento de grandes conjuntos de datos (es decir, procesamiento de consultas por lotes) como procesamiento en tiempo real (es decir, procesamiento de consultas interactivo). Es compatible con todos los tipos de datos primitivos de SQL. Puede usar funciones predefinidas o escribir funciones personalizadas definidas por el usuario (UDF) también para satisfacer sus necesidades específicas.

Puedes pasar por este video tutorial de Hive:

Para obtener más información, puede consultar la lista de reproducción de videos de tutoriales de Big Data y Hadoop y la serie de blogs de Hadoop .

Krishna Kumar

Hola,

Si quieres 2 simplemente implementa hadoop cluster o vm en la nube. Verifique esta lista de reproducción, lo ayudará a desplegar en Microsoft Cloud Azure sin costo alguno.

Hortonworks Sandbox en Azure: Hortonworks Sandbox en Azure

Voy a subir más videos en Pig, Hive, Mapreduce n Spark. Así que asegúrate de suscribirte a mi canal de youtube. Por favor, deje su comentario para la lista de reproducción anterior.

Syed Hyder

Hay muchos recursos desde donde puedes aprender los programas de Hadoop. Para aprender a escribir programas de Hadoop, debe tener en cuenta con Mapreduce. MapReduce es el corazón de hadoop. Es un modelo de programación diseñado para procesar grandes volúmenes de datos en paralelo al dividir el trabajo en un conjunto de tareas independientes.

MapReduce tiene un modelo simple de procesamiento de datos: las entradas y salidas para el mapa y las funciones de reducción son pares clave-valor. Las funciones de mapa y reducción en Hadoop MapReduce tienen la siguiente forma general:

mapa: (K1, V1) → lista (K2, V2)

reducir: (K2, lista (V2)) → lista (K3, V3)

Para más información puedes consultar este blog. Si quieres saber más sobre Hadoop puedes visitar aquí.

Manyata Chauhan

Sugeriría instalar cualquiera de las cajas virtuales provistas por Cloudera o Hortonworks.

Para Hortonworks: descargue Hadoop y luego practique los tutoriales Comenzar con Hadoop
Para Cloudera: QuickStart VM Descargar con CDH 5.3.x

Ambos deben tener componentes preinstalados del ecosistema Hadoop como Hive, Pig, Sqoop, etc. Puede usar los datos de muestra que puedan tener o descargar los conjuntos de datos de cualquiera de los enlaces mencionados aquí: ¿Dónde puedo encontrar grandes conjuntos de datos abiertos a ¿el público? (No estoy seguro de cuál de esos enlaces funciona).

Espero que sea de alguna ayuda. Feliz aprendizaje !!

Malini Shukla

El entorno gratuito de Hadoop está disponible en Cloudera Live, pero es de solo lectura. No es posible cargar un jar de map-reduce para ejecutarlo.

Le sugiero que pruebe CloudxLab, aunque no es gratis, pero es bastante asequible ($ 15 por un mes). Proporciona un entorno completo para experimentar con varias herramientas como HDFS, Map-Reduce, Hive, Pig, Kafka, Spark, Scala, Sqoop, Oozie, Mahout, MLLib, Zookeeper, R, Scala, scikit learn, pandas, numpy, scipy, matplot, tensorflow, etc. Muchos de los entrenadores populares utilizan CloudxLab.

Descargo de responsabilidad: soy uno de los co-fundadores de CloudxLab.

Sandeep Giri

Todos los distribuidores de hadoop (MapR, cloudera, hortonworks) proporcionan una imagen de máquina virtual gratuita (en su mayoría, un solo nodo) para descargar y obtener experiencia práctica. Descargue uno de ellos y juegue con él. Si realmente necesita probar la capacidad de clúster, pruebe google cloud, incluso le otorgarán un crédito de $ 200 para la primera prueba en google cloud.

Gopal Rajput

Hay tres modos en los que puede obtener la experiencia de hadoop.

Modo independiente:

En este modo, necesita un id como eclipse y los archivos de la biblioteca hadoop (que puede descargar desde el sitio web de apache). Puede crear su programa mapreduce y ejecutarlo en su máquina local. Podrá verificar la lógica del código y podrá verificar los errores de sintaxis y esto necesita algunos datos de muestra para realizar estas acciones, pero no obtendrá la experiencia completa de hadoop.

Modo psuedo-distribuido:

En este modo, se ejecutan todos los demonios de hadoop en una sola máquina y se puede obtener una vm de cloudera o hortonworks, que es solo un tipo de conexión y reproducción. Tendrá todas las herramientas necesarias instaladas y configuradas. En este modo, puede escalar sus datos para verificar el rendimiento de su código y optimizarlos para que el trabajo se realice en el tiempo requerido.

Modo totalmente distribuido:

En este modo consigues que todos los demonios se ejecuten en diferentes máquinas. Esto se utiliza principalmente en la etapa de producción de su proyecto. Cuando ya haya verificado su código, tendrá la oportunidad de implementarlo en este modo.

Ya que solicita un servicio en línea donde puede practicar su código hadoop. Le sugiero que instale eclipse en su PC, descargue las bibliotecas y comience a codificar. Ejecución de la aplicación Hadoop MapReduce de Eclipse Kepler – DZone Big Data

Umesh Sharma

Le sugiero que cree una cuenta de AWS de forma gratuita y luego puede crear una REDUCCIÓN DE MAPA ELÁSTICA en muy poco tiempo, allí puede enviar trabajos para reducción de mapa, porcino, etc.

Manyata Chauhan

Recientemente, Cloudera lanzó una nueva plataforma en línea donde puedes jugar con Hadoop y su ecosistema tanto como quieras. Aquí vas: cloudera.com/live

También visite Apna Code Gyan, HTML, CSS, Java, SQL, HTML5, PHP, Jquery y Javascript

Amit Choudhary

Si sabe cómo codificar en chispa de apache (parte de hadoop framework), puede inscribirse en la edición comunitaria de databricks. Es una cuenta de 6 clústeres gratuita que te permite usar spark.

Malini Shukla

No hay plataformas disponibles para practicar hadoop en línea de forma gratuita si están disponibles son limitadas o deben pagarse. Cloud o Cloudxlab son plataformas pagas para practicar hadoop. Pero hadoop es una fuente abierta que puede descargar y usar en su sistema Linux y en la dirección de muchos blogs. Problemas en la configuración de hadoop en los sistemas.

Amit Choudhary

Cloudera lanzó una nueva plataforma en línea donde puedes jugar con Hadoop y su ecosistema tanto como quieras. Aquí tienes: Cloudera Live

Espero que esto ayude

Sandeep Giri

Hola, Ayesha, Krishna Kumar ya ha dado la respuesta perfecta a tu pregunta. Puedes referir su respuesta, pero me gustaría agregar un punto.

Hadoop es una plataforma grande que no se puede esperar de una plataforma tan grande en un servicio de nube gratuito, pero aún puede jugar con conjuntos de datos instalando cajas virtuales proporcionadas por Cloudera o Hortonworks. No estoy seguro de que estos softwares estén disponibles, por favor permítame.

Umesh Sharma

Big Data University. Esto podría ser útil porque es difícil encontrar un lugar donde los ejemplos en tiempo real se combinen con tutoriales cuando se trata de Hadoop o el sistema Big Data Eco.

Gopal Rajput

Hay mucho contenido en nuestro sitio web y nuestro canal.

Manyata Chauhan

Aprende hadoop en cursos de hoy

Gopal Rajput

La forma más rápida y fácil de aprender Hadoop – Cloudera: visite este enlace.

¡Espero eso ayude!

Malini Shukla

Descargue Cloudera o Horton works SANDBOX VM y podrá practicar en una computadora de escritorio o portátil.

Malini Shukla

Ir para tutoriales cbt o edureka

Kirubakaran