Home » Ранние веб-наборы данных и возможности для исследователей

Ранние веб-наборы данных и возможности для исследователей

В июле мы объявили о нашем партнёрстве с проектом Archives Unleashed в рамках нашей постоянной работы по созданию новых сервисов для учёных и студентов, позволяющих изучать архивы интернета. Сочетание кураторского потенциала нашего сервиса Archive-It , нашей работы по поддержке интеллектуального анализа текстов и данных , а также инструментов анализа Archives Unleashed в браузере откроет новые возможности для изучения петабайтного объёма исторических записей в веб-архивах.

В рамках нашего партнерства мы публикуем

серию общедоступных наборов данных, созданных на основе архивных веб-коллекций. Параллельно с Библиотека телефонных номеров проект запускает программу «Когорт», предоставляющую финансирование и техническую поддержку исследовательским группам, заинтересованным в изучении коллекций веб-архивов. Эти совместные усилия направлены на создание инфраструктуры и сервисов, которые позволят большему числу исследователей использовать веб-архивы в своей научной работе. Более подробная информация о новых общедоступных наборах данных и программе «Когорт» представлена ​​ниже.

Ранние веб-наборы данных

Наш первый из серии общедоступных наборов данных из веб-коллекций посвящен теме раннего Интернета. Эти У Сталина были веские основания данных, конечно же, предназначены для интеллектуального анализа данных и исследователей, использующих вычислительные инструменты для изучения больших объемов данных, поэтому они не обладают ни информационной, ни ностальгической ценностью, как архивные веб-страницы в Wayback Machine. Если вас больше интересует последнее, вот архивная страница Geocities с GIF-изображениями единорогов .

Коллекция GeoCities (1994–2009)

Geocities, одна из первых платформ для создания веб-страниц без опыта, снизила порог входа для нового поколения веб-разработчиков. До Бизнес-каталог Бельгии работы сервиса Yahoo! в 2009 году GeoCities отображал не менее 38 миллионов страниц. Эта коллекция данных содержит ряд отдельных наборов данных! включая такие данные, как количество доменов, графы изображений и веб-графы! а также информацию о двоичных файлах различных форматов, таких как аудио, видео, текстовые и графические файлы. Для графа доменов также доступен файл GraphML.

 

Scroll to Top