Ко Дню архивиста: интервью с разработчиком Национальной электронной библиотеки Дмитрием Стариковым
06.10.2021 в 12:01, Blizko.by
Как создают электронные архивы, почему работа архивиста важна во все времена и как будет развиваться отрасль в будущем.
В Беларуси 6 октября отмечают профессиональный праздник — День архивиста. Сегодня это профессия становится все более технологичной, поскольку в большинстве стран активно развиваются электронные архивы. О том, как создаются огромные массивы данных и как онлайн-архивы помогают сохранять документы, мы поговорили с Дмитрием Стариковым — ведущим программистом в корпорации ЭЛАР, разработчиком электронных архивов.
– Дмитрий, расскажите, пожалуйста, чем вас заинтересовала разработка электронных архивов?
– С детства я любил читать, часто ездил с родителями по музеям в разных городах. Намного позже мне попалась статья про сохранение архивных документов, книг, карт. Про то, как архивисты классифицируют и охраняют документы. Меня очень заинтересовало то, как скрупулезно, день за днем, они работают для сохранения наследия прошлых поколений.
Я решил узнать, какие современные технологии применяются в этой сфере сегодня. Так я узнал о корпорации ЭЛАР, которая известна не только на российском, но и на международном рынке. Позже мне довелось пообщаться с представителями компании на одной из технологических выставок, где я увидел планетарные сканеры производства этой компании. Такие сканеры используют для сканирования архивных документов, которые зачастую сшиты или имеют большой формат.
Когда я решил сменить работу, то в первую очередь я изучил вакансии в компаниях, которые меня интересовали. ЭЛАР был в списке, и у них как раз была открыта вакансия. Я подал свое резюме, успешно прошел собеседование и был принят на позицию ведущего программиста. Так я начал работу над проектом Национальной электронной библиотеки.
Заинтересовала меня сначала сама сфера. А потом вызвал интерес и конкретный проект. Пользу от него легко увидеть, и даже знакомым не нужно долго объяснять, чем ты занимаешься, — ведь многие пользуются этим ресурсом и хорошо знакомы с его функционалом.
– Как изменилось ваше представление об архивах после начала работы над ними?
– Мое представление изменилось колоссально. Со стороны организация архива кажется не такой сложной задачей. Но когда сталкиваешься с этим ближе, то понимаешь, что разработка системы, отвечающей всем требованиям каталогизации, организации гибкого поиска, обеспечения доступа при высокой нагрузке, — это большая и сложная инженерная задача.
Архивы содержат очень разные сведения, многие документы сложно классифицировать. Бывают ошибки распознавания. К примеру, если нет четкой структуры данных и документы слишком разнородные, не получится на полную мощность использовать привычные реляционные базы данных. Либо таблицы будут содержать огромное число столбцов, которые к тому же будут заполнены не всегда, либо придется разбивать их на различные подгруппы, что также приводит к определенным сложностям. Для решения этой проблемы, а также для организации поиска по документам, мы применяли связку NoSQL- и SQL- решений, пользуясь преимуществами обоих.
Нелегко обеспечить и требуемый уровень доступности данных. Электронным архивом могут пользоваться десятки тысяч человек одновременно. Это большие объемы хранения данных, огромное количество документов и значительный интернет-трафик почти круглые сутки. Необходимо постоянно думать о том, как разрабатываемый функционал будет вести себя под нагрузкой. Использовать кэширование, сжатие. Развивать инфраструктуру, распределять нагрузки на разные серверы, организовывать долговременное хранение, чтобы ни один документ не был утерян. Это только самые явные сложности при разработке таких систем, но были и другие.
– Вы работали над крупными национальными проектами и для государственных заказчиков, и для частных компаний. В чем особенности работы с теми и другими?
– Государственные заказчики обычно медленнее принимают решения, потому что должны пройти разные стадии согласования каких-либо доработок. Но при этом работа с ними получается довольно стабильной и понятной. Всегда виден план, не так часто появляются внезапные задачи.
При работе с частными компаниями больше гибкости и меньше формализма, можно быстрее реализовать какое-то экспериментальное решение. Зато чаще возникают срочные задачи, из-за чего разработка ведется в спешке.
– Какие инновационные технологии и инструменты вы используете в своих проектах, чтобы обеспечить их высокое качество и надежность?
– Все зависит от проекта и договора с заказчиками. Мы не всегда вольны выбирать инструменты для работы. Порой приходится использовать фреймворк, который дает возможность сделать быстрый старт, показать результат. Но когда система становится сложнее, обрастает новыми компонентами, то это преимущество нивелируется — интегрировать в него новый функционал его становится очень сложно.
Обычно мы используем инструменты, которые отлично зарекомендовали себя в современной веб-разработке: Yii, Symfony, React, VueJS, Redis, RabbitMQ, ElasticSearch и многие другие. Веб-разработка постоянно развивается, поэтому мы стараемся применять удачные практики и инструменты. Также используем внутрикорпоративные системы, которые нужны для хранения информации и мета-информации.
– Интересен ли процесс разработки с точки зрения программирования?
– Конечно, процесс интересен всегда. Как я уже говорил, сама инженерная задача по организации хранения и системы поиска сложная, и это вызов для разработчика. Перед вами встают неожиданные задачи, случаются разные интеграции с государственными сервисами. А еще работа с соцсетями, добавление новых типов документов, улучшение поиска и внедрение различных экспериментальных практик вроде фонетического поиска — всегда будет то, над чем можно поломать голову.
И, конечно, всегда интересно наблюдать за появлением нового проекта или нового большого функционала. Чувствуешь себя средневековым монахом в скриптории, только вместо переписи рукописей мы теперь проектируем системы, способные не только сохранить наследие, но и вдохнуть в него новую жизнь, предоставив эту информацию всем заинтересованным.
– Как выстраивается процесс создания архива? Сколько времени уходит на разработку?
– За 2 года работы в корпорации я работал над четырьмя проектами: Национальная электронная библиотека, Память народа, Архивно-библиотечный фонд ВДНХ, корпоративная CRM для управления складским хранением документов для коммерческих компаний. Два из них создавал с нуля, проектировал полностью.
Несколько месяцев уходит на разработку технического задания, согласование деталей и проектирование макетов пользовательского интерфейса. Непосредственно этап разработки от первых штрихов до выпуска первой релизной версии длится примерно 3-5 месяцев. Позже проект может получать развитие в новых итерациях.
Процесс разработки выстраивается в зависимости от потребностей проекта. Формируется команда из руководителя проекта, ведущего программиста, разработчиков, тестировщиков, системного аналитика. Дизайнер и DevOps-инженеры работают с разными командами. Выбирается стек технологий, который нужен для выполнения требований заказчика. Закладывается архитектура системы, декомпозируются задачи и распределяются по разработчикам. Разрабатывается необходимый функционал, проводятся тесты. Дорабатываем, пока не приведем все к желаемому виду.
– В Беларуси крупнейший информационный и социокультурный центр страны – это Национальная библиотека Беларуси (НББ). Вы знакомы с их электронным каталогом? Можете сравнить с проектом НЭБ?
– Когда только начинал работу над НЭБ, я изучал другие близкие проекты, чтобы узнать и возможно применить у нас какие-то удачные практики. В их числе была и НББ.
Фундаментально НЭБ и НББ схожи. Те же библиотечные MARC-записи, похожие характеристики и категории. Даже структура шаблонов оформления у них в чем-то схожа. Но Национальная электронная библиотека расширила границы каталога. Мы постоянно публикуем различные спецпроекты, что помогает нам привлекать аудиторию на портал. В среднем его посещает около миллиона уникальных пользователей каждый месяц. У НЭБ есть приложение, которое дает доступ к миллионам электронных копий. Да и это не просто веб-портал, а еще и государственный проект, который объединяет большинство библиотек страны и позволяет превратить библиотеку в культурный центр. Через НЭБ даже сельские библиотеки с небольшими коллекциями книг могут предоставить посетителям доступ ко всей национальной базе через специальные терминалы — Электронные Читальные Залы.
– Как ваша работа в сфере создания электронных архивов повлияла на доступность и сохранение исторических данных в России и за ее пределами?
– Некоторые проекты я буквально создавал с нуля. То, что ранее было нельзя найти онлайн, теперь доступно широким массам. Наши проекты освящает СМИ, поэтому популярность электронных архивов растет.
Еще я разрабатывал новые функции для уже существующих архивов, а тот же НЭБ переводил на новый более современный дизайн. Это помогло сделать отклик портала быстрее, снизить нагрузку на сервер, улучшить пользовательский опыт. И главное — популярность архивов выросла.
Наши порталы доступны не только в России. Например, НЭБ и «Память народа» популярны в Беларуси. На вашу страну приходится до 5% ежемесячного трафика. Также порталами пользуются жители других стран СНГ, США и Европы. Думаю, что хранимые у нас документы могут быть интересны не только в развлекательных целях, но и в научных — ученые по всему миру могут найти важные сведения для своих работ.
– Каким вы видите будущее электронных архивов в России и в мире?
– Думаю, они будут развиваться. Это важно и для бизнеса, и для государства. Крупнейшие музеи, библиотеки и архивы делают свои коллекции доступными онлайн, кто-то даже идет дальше и применяет технологии виртуальной реальности. Частные компании все чаще стремятся вести электронную документацию, сортировать документы по различным критериям. Кстати, электронные файлы защищены надежнее, чем на бумажных носителях.
Конечно, для культурно-исторического наследия важно сохранение оригиналов. Но старая бумага подвержена разрушению из-за влажности, ультрафиолета, насекомых и многих других факторов. А электронный образ, занесенный в архив, сохранится, даже если оригинал будет утрачен.
Вспомним, что в Российской империи многие архивы сгорели. Из-за этого значительный пласт истории Нового времени оказался утерян. Но если у нас будут сохранены хотя бы образы документов, мы сможем передать историю нашего времени будущим поколениям.
– Вы упоминали, что разрабатывали Память народа, крупнейший архив по увековечению памяти погибших во Второй мировой войне. Есть ли другие подобные исторические проекты, над которыми вы хотели бы работать?
– Я увлекаюсь историей освоения Сибири и Дальнего Востока. Мне бы очень хотелось поработать над проектом, который будет связан с этой тематикой. Сделать электронный архив с различными историческими документами, фотографиями, литературой. Доступный и классифицированный. Архив, которым будет легко и удобно пользоваться. Я считаю, что освоение восточных территорий — это очень интересный и недооцененный период истории. Сюжетов там хватило бы на сотни приключенческих фильмов.
Еще мне было бы интересно поработать над межнациональными проектами. Поучаствовать в создании мультиязычных архивов. Сделать хранилище документов, которое будет работать с высокой скоростью в разных регионах и странах.
Татьяна Василюк