¿Cuáles son los mejores recursos para aprender sobre el rastreo y el rastreo de la web?

Acabo de comenzar un blog sobre raspado web con Java: Kevin Sahin

He hecho publicaciones en el blog sobre:

  • Introducción al raspado web con Java, que cubre la configuración básica para ejecutar sus raspadores, y la introducción a la sintaxis XPath, cómo exportar los datos que raspa en JSON
  • Raspado: manejo de la autenticación: en este caso, explicaré cómo publicar un formulario para iniciar sesión en un sitio web, con un método mágico …
  • Un descargador automático de facturas en Java: con el uso del método de autenticación anterior, explico cómo iniciar sesión en el sitio web de un proveedor de alojamiento para descargar sus facturas y exportar los metadatos en JSON.
  • Rastreo web: manejo de la parte I del sitio web de AJAX: El último artículo trata sobre AJAX y el uso de PhantomJS y Selenium para manejar el sitio web que realiza muchas solicitudes asíncronas.

Estas cuatro publicaciones de blog son una buena base para empezar, está diseñada para ser entendida por principiantes completos (con un entendimiento básico de programación y http)

Espero que lo disfruten, no duden en enviarme comentarios o preguntas.

Puedo aportar tres recursos:

  1. Foro de raspado web: Este es un foro dedicado que fomenta la discusión sobre herramientas y técnicas y recibe preguntas sobre el raspado web a través de la participación de la comunidad.
  2. Rastreo web desde cero a través de Ruby: este libro electrónico completo y gratuito lo lleva a través de los pasos necesarios para extraer datos de una página web utilizando Ruby.
  3. PromptCloud | Blog: aquí compartimos nuestro aprendizaje, las mejores prácticas junto con consejos y trucos relacionados con la extracción de datos web a gran escala.

Creo que depende de cómo quieras hacer raspado y rastreo web.

Puedes aprender a dominar un lenguaje de programación o, para dominar algunos raspadores web.

Puede obtener algunas ideas de estos artículos:

Sitios web de raspado: ¿Para qué?

Extraer texto de documento HTML

“1. Lenguaje de programación

Para esos documentos HTML simples, las personas que tienen conocimientos básicos de codificación pueden optar por escribir un programa para eliminar todas las etiquetas HTML y retener solo el texto dentro de los archivos HTML, usando expresiones regulares o XPath. Hay varios lenguajes de programación ampliamente utilizados como C #, Java, Python, JS, PHP, Go y NodeJs que están disponibles para los usuarios de computadoras. Puedes elegir uno adecuado para comenzar tu proyecto. Algunos de estos idiomas tienen su propio analizador de HTML que está disponible y gratis en línea y usted sabrá más sobre estos analizadores de HTML haciendo clic aquí https://en.wikipedia.org/wiki/Co… .

Vale la pena mencionar que el código que usted escribe solo se puede usar para un tipo de página web, lo que significa que los diferentes tipos de páginas web necesitan escribir un código diferente. Además, necesita probar su código después de haber escrito su programa, y ​​a los que no tienen experiencia les lleva más tiempo escribir y probar el código.

2. Herramientas de extracción de datos web.

Hay muchas herramientas potentes de extracción web como Import.io | Web Data Platform & Free Web Scraping Tool, Mozilla, Octoparse que están disponibles para que los usuarios de computadoras cosechen casi todo en la página web, incluidos el texto, los enlaces, las imágenes, etc. Puede convertir lo que obtiene en formato de datos estructurados.

No necesita escribir ningún código, por lo que es especialmente bueno para aquellos que no tienen experiencia en codificación. En la mayoría de los casos, no es necesario escribir expresiones regulares o XPath. La visualización permite a los usuarios interactuar mejor con la página web. Es fácil verificar y exportar los datos sin ningún IDE “.

Encontré algunas herramientas útiles de raspado web que pueden ayudarte a obtener mejor lo que necesitas. 🙂

Pulpo, raspado web gratuito.

Raspado de datos web de sitios web o cualquier fuente

Entrada de datos, procesamiento de datos, investigación web, servicios DTP

Computyne | Servicios de entrada y tratamiento de datos.

Datahut

Plataforma de análisis de texto de Big Data

Grepsr | Plataforma de extracción de datos simple para raspado web

En Data We Trust & Analysis

PromptCloud

Servicio completo: precios fijos: raspado de datos web

Scrapinghub: plataforma y servicios de rastreo web

Investigación de mercado y clientes potenciales.

Soluciones de seguimiento y seguimiento de la competencia

Inicio | WebScraping.com

Casa

Raspado web personalizado y potente rastreo web

Apifier – rascador web alojado para desarrolladores

Dexi.io – Herramienta de extracción de datos web para profesionales.

Datafiniti | Datos web inteligentes para empresas basadas en datos

Data Scraping Studio ™

Extracción automatizada de datos web y rastreador web

Web scraping visual, extractor de datos web con grabadora de macros.

http://GooSeeker.com

Import.io | Plataforma de datos web y herramienta gratuita de raspado web

Por otra parte tecnologías

# 1 Software de raspado web – Mozenda.com 1-801-995-4550

Extraiga datos de sitios web dinámicos en minutos, sin escribir código.

raspar

Redes sociales, weblogs, foros, comentarios, reseñas y monitoreo de noticias.

Monitoreo de precios – ThePriceMiner

UiPath – Automatización de procesos robóticos

Bobik, una plataforma en la nube para raspar.

Casa