Historical Spanish web content from 2002–2023, automatically labeled with topics, sentiment, region, quality score and linguistic era. Unique categories not found anywhere else.
Veinte años de internet en español, capturados y etiquetados automáticamente. Religión, folclore, misticismo, conspiraciones, BOE y mucho más — categorías que no existen en ningún otro corpus público.
While everyone else is scraping Wikipedia and news, we went deeper. These are the categories that power cultural understanding in Spanish.
Mientras otros rascan Wikipedia y noticias, nosotros fuimos más lejos. Estas son las categorías que impulsan la comprensión cultural en español.
15+ topic categories detected automatically per document
Más de 15 categorías temáticas detectadas automáticamente
Andalucía, Cataluña, Madrid, País Vasco, Galicia and more
Andalucía, Cataluña, Madrid, País Vasco, Galicia y más
web_1_0 → pre_social → social_media → movil_first → ia_era
web_1_0 → pre_social → social_media → movil_first → ia_era
positivo / neutro / negativo with numeric intensity -1.0 to +1.0
positivo / neutro / negativo con intensidad numérica -1.0 a +1.0
0–100 quality score + Flesch readability adapted for Spanish
Puntuación de calidad 0–100 + legibilidad Flesch adaptada al español
MD5 content hash — zero duplicates guaranteed
Hash MD5 del contenido — cero duplicados garantizados
Whether you need a single dataset, a custom extraction, or a recurring data supply — we're happy to discuss your needs.
Tanto si necesitas un dataset individual, una extracción personalizada o un suministro recurrente de datos — estaremos encantados de hablar.