¿Dónde puedo encontrar un conjunto de datos o corpora de ciencias sociales para la minería de textos?

Esta es de hecho una pregunta amplia. Intentaré dar dos respuestas: una específica y otra más general. Para una respuesta específica, mira las respuestas a:
¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?
y luego filtre de acuerdo a su pregunta de búsqueda.
La red de Dataverse, OSF y la replicación de la ciencia política
Parecen buenos recursos, para ciencias sociales generales, psicología y ciencias políticas, respectivamente.

Un camino posible (haré un poco de trampa, pero por favor hazme el humor 🙂

  • Comience con su objetivo de investigación. Diga “descubrimiento de temas de redes sociales”.
  • A continuación, intente leer algunos artículos sobre este objetivo y ver qué conjuntos de datos se usaron. Aquí hay una muestra de papel: McCallum et. al .: Descubrimiento de temas y roles en redes sociales con experimentos en Enron y correo electrónico académico
  • Encuentre menciones de conjuntos de datos en los documentos: aquí se menciona el conjunto de datos de correo electrónico de Enron. La referencia para el conjunto de datos es: Shetty, J., y Adibi, J. (2004). El esquema de la base de datos del conjunto de datos de correo electrónico de Enron y un breve informe estadístico. Tecnología Rep., Instituto de Ciencias de la Información.
  • A continuación, buscamos la referencia en google. Aquí está: Página en foreverdata.com
  • El documento de referencia nos proporciona una URL para el conjunto de datos: Enron Email Dataset. ¡Bingo!

Por cierto, ¿dónde hice trampa? Estaba al tanto del conjunto de datos de Enron por adelantado, así que primero busqué los artículos que lo usaban; autobús el método todavía tiene IMO.

Como dijo Gabe Ignatow, en muchos casos, dependiendo de su pregunta de investigación, necesita recopilar / transformar los datos usted mismo, mediante el uso de Web Scraping, Application Programming Interfaces (API), Data Munging, Feature Extraction, etc.

Depende completamente de tu pregunta de investigación. Consideraría crear el tuyo propio utilizando Helium Scraper, Outwit u otro paquete web de raspado en los comentarios de YouTube o en los comentarios de los usuarios del sitio de noticias en línea. Pero una vez que aprendas a usar el software (o R, Python u otro idioma) puedes crear cuerpos desde prácticamente cualquier lugar.

Gabe

Buscador de Posgrado
(Por favor, pruebe GradTrej si está pensando en graduarse!)

Depende de lo que estés buscando para los conjuntos de datos de ciencias sociales. Pero mi primera parada sería en una universidad de investigación con ciencias sociales / ecología humana / antropología / estudios culturales o departamento / académicos relacionados.

Mi trabajo está más cerca de la ciencia cívica. En los Estados Unidos, uno de los mejores para esto es Peter Levine en Tufts and CIRCLE (CENTRO DE INFORMACIÓN Y INVESTIGACIÓN SOBRE APRENDIZAJE Y COMPROMISO CÍVICO).

Si encuentras alguien / algún dato. Me interesaría escuchar lo que estás haciendo / decidirás hacer con eso. Esto también es relevante para mis intereses / trabajo.