Как историки работают с большими данными
Можно ли по среднему росту новобранцев оценить уровень жизни в стране? Оказывается, да. Но для этого вам понадобятся технологии работы с большими данными. О том, как современные историки используют big data и почему без участия живого человека все еще не обойтись, рассказывает кандидат исторических наук, доцент кафедры исторической информатики истфака МГУ имени М.В. Ломоносова Андрей Володин.
— По сути, вся история человечества — огромный массив данных. Какие возможности открывают перед историками современные технологии работы с big data? Это может полностью изменить наше понимание прошлого?
— Использование больших данных поможет открыть новые закономерности в истории. Но вероятность того, что наше представление о прошлом изменится кардинально, как мне кажется, невелика. Разве что появятся какие-то новые открытия, как это случилось в свое время с обнаружением берестяных грамот в Новгороде. Тогда это событие существенным образом изменило представления историков об эпохе и регионе. А уже в наше время найденные грамоты стали основой для научной базы данных.
— А как насчет будущего? Его можно предсказать с помощью больших данных?
— Предсказание будущего находится за пределами компетенции историка. Теоретически можно предположить — чем больше у нас сведений о сегодняшнем дне, тем вероятнее мы можем предсказать, что будет завтра. Но в такой логике заложено одно серьезное допущение, что история развивается линейно. Здесь мне на ум приходит название одной книги про поздний Советский Союз: «Это было навсегда, пока не кончилось». И нелинейность исторических процессов сегодня вполне научно описывается в рамках, например, синергетики или клиодинамики.
— Есть ли уже какие-то кейсы в сфере big data, которыми могут похвалиться российские историки? Как насчет исторических открытий?
— Большие данные, конечно — очень актуальная тема сегодня. Но надо признать, что в исторических исследованиях мы чаще имеем дело с коллекциями данных, которые историки собирают в архивах, и пока (несмотря на успехи оптического распознавания) очень часто вручную.
Самые большие на сегодняшний день — демографические базы данных, основанные на переписях населения (посмотрите, к примеру, базу IPUMS). На их основе можно делать нетривиальные выводы. Возьмем, например, ответы 1897 года на простой вопрос переписчика: «Сколько вам лет»? Если их исследовать, можно получить весьма точное представление об уровне грамотности разных российских губерний. Как показывают наблюдения, чем точнее респонденты сообщают свой возраст (не округляя годы жизни), тем они более грамотны. Как смотреть на сложные социальные данные, интересно и доступно рассказано в недавно переведенной на русский язык книге Ханса Рослинга «Фактологичность».
Важным открытием я бы назвал антропометрическую историю. Выясняется, что если мы говорим опять-таки о большой группе людей, можно сделать достоверный вывод: увеличение среднего роста (как производная от количества и качества питания до совершеннолетия) говорит о повышении благосостояния населения. Такое исследование было бы невозможным без большого массива первичных данных, которые удалось собрать историку Борису Миронову на основе рекрутских списков (в них указывался рост новобранцев). Результатом его работы стала книга «Благосостояние населения и революции в имперской России: XVIII – начало ХХ века», которая вызывает живую дискуссию в научных кругах.
— Вообще насколько корректно компьютер может интерпретировать исторические документы? Живой историк все-таки знает и понимает контекст, в котором происходили те или иные события, а машине этого не дано…
— Главная причина использования компьютерных инструментов при анализе текстов — объем. Многие коллекции исторических источников настолько велики, что на их прочтение у исследователя ушла бы целая жизнь. И тогда на смену привычному приходит «дальнее чтение» — оно позволяет выявить маркеры, взаимосвязи и общие закономерности в больших объемах текстов. В качестве примера можно привести исследование итальянского ученого Франко Моретти, автора книги «Буржуа: между историей и литературой». Он подробно исследовал фигуру буржуа в европейской литературе Нового времени на основе коллекции Google Books, базы данных Чэдвик-Хили по XIX веку (объединяет 250 тщательно отобранных британских и ирландских романов) и корпуса «Литературной лаборатории» (включает 3500 британских, ирландских и американских романов XIX века). Отдельные портреты переплетены с анализом ключевых слов — «полезный» и «серьезный», «эффективность», «влияние», «комфорт».
При этом не стоит думать, что компьютер выдает готовый исследовательский результат. Он лишь показывает, на что в первую очередь нужно обратить внимание, какие наблюдения наиболее частотны или связаны по контексту и смысловой близости. По сути ученый получает своего рода аналитическую карту, построенную на имеющихся данных, но их объяснение и интерпретация — задача живого человека.
— За рубежом уже проделана гигантская работа по оцифровке и систематизации исторических документов. Достаточно упомянуть такие проекты, как CLARIAH, Miningmicrodata, IPUMS. Как с этим обстоят дела в России? Кто производит эту объемную и рутинную работу?
— Существует немало проектов по оцифровке историко-культурного наследия, причем речь не только о текстах, но и об изображениях, и о трехмерных объектах (например, виртуальная реконструкция московского Страстного монастыря). Для конкретного исторического проекта обычно хватает нескольких специалистов. Но когда за дело берутся целые учреждения, речь может идти о сплошном сканировании фондов, как, например, это сделал архив РГАСПИ с документами об интербригадах Республиканской армии Испании.
— Хватает ли у российских историков компетенций для работы с большими данными? Или приходится обращаться к узким data-специалистам?
— Сегодня историки активно обучаются компьютерным технологиям и многие уже неплохо в них разбираются. К примеру, на историческом факультете МГУ есть годовой курс «Информатика и математика» — это два семестра лекций и семинаров о работе с оцифрованными историческими источниками, базами данных и сложными научными онлайн-системами. А желающие еще более углубиться в эту тему могут пройти специализацию на кафедре исторической информатики МГУ. Этот опыт постепенно перенимают и другие вузы России. Так что возможностей для изучения прикладных информационных технологий в истории становится всё больше.
— Возможно ли создать некий всемирный исторический архив, которым могли бы пользоваться все желающие? Что может этому помешать?
— Такая идея мне кажется сомнительной. Цифровые сервисы нужны для удобства поиска информации, а создать единую платформу, которая будет удачно искать и по-русски, и по-арабски, и по-японски, крайне затруднительно. Причем не только из-за языковой разницы, но и по причине сильно отличающихся архивных и музейных традиций. Практика показывает, что хранить документы следует так, как они сложились (или, как говорят архивисты, отложились) исторически. Да, в цифровых коллекциях вы можете их объединять и организовывать по самым разным принципам. Однако не стоит забывать, что бо́льшую часть исторических источников можно правильно понять лишь в контексте комплекса документов, которые их окружают.
— Ждет ли нас в будущем новая история России или, возможно, всего человечества, написанная с использованием больших данных?
— Это весьма вероятно. Сегодня часто обсуждают идею макроскопа — специального исторического подхода к анализу больших данных. Но не стоит переоценивать значение таких достижений. Широкой публике все эти абстрактные макронаблюдения могут оказаться не так интересны, как привычная нарративная история.
Большие данные позволяют серьезно увеличить точность наблюдений, но вряд ли это обязательно изменит представление об общем характере и направлении исторического процесса. Влияние больших массивов данных на профессиональную историю, конечно, будет увеличиваться, но в общественном представлении об истории можно будет заметить лишь отголоски таких процессов.