Обзор arXiv.org
arXiv.org – некоммерческий научный сайт, основное назначение: открытая публикация научных статей, принадлежит Корнеллскому университету (США), основан 14 августа 1991.
Предисловие
В 1996 году Richard Stallman опубликовал свой рассказ “Право читать”. В 2000 году рассказ был переведён Сергеем Коропом на русский язык. В 2002 году Richard Stallman дополнил рассказ информацией о современном положении дел. В этом рассказе идёт речь о мире, где больше нет публичных библиотек, а книги можно читать, только приобретя зашифрованную личную электронную копию, а незаконное чтение книг карается уголовной ответственностью. Герой рассказа стоит перед дилемой: выручить свую девушку и дать ей воспользоваться своим компьютером, но при этом рисковать, что она прочтёт его книги. У пророческого рассказа счастливый конец, однако…
Этот рассказ многих вдохновил на отказ от приобретения электронных изданий. Но ещё до публикации этого рассказа, в далёком 1991 году начал существовать архив научных статей по различным разделам физики – arXiv.org.
Для рассказа “Право читать” и для других своих публикаций Richard Stallman использовал следующий копирайт:
Verbatim copying and distribution of this entire article is permitted in any medium, provided this notice is preserved.
В переводе на русский язык:
Разрешается копирование и распространение этой статьи любым способом без внесения изменений, при условии, что это разрешение сохраняется.
19 декабря 2001 года публикуются лицензии Creative Commons На сегодня CC-лицензии являются предпочтительным стандартизованным способом указать лицензию на публикацию.
Creative Commons, сокращённо CC — некоммерческая организация, которая создала бесплатные для использования типовые договоры — свободные и несвободные публичные лицензии, с помощью которых авторы и правообладатели могут выразить свою волю и распространять свои произведения более широко и свободно, а потребители контента легально и проще пользоваться этими произведениями. – Wikipedia
История
Проект был создан в августе 1991 года в Лос-Аламосской национальной лаборатории и предназначался для публикации статей по физике. На данный момент поддерживается Корнеллским университетом и является частью его библиотеки.
Сайт
Общий вид сайта довольно старомоден (привет из 90-х), в шапке находится логотип Корнеллского университета.
Разделы
Ожидаемо первым разделом является раздел Physics. Раздел Computer Science также занимает довольно внушительное место на странице и располагается после раздела Mathematics.
Раздел Computer Science включает в себя следующие разделы:
- Artificial Intelligence (Искусственный интеллект)
- Computation and Language (Вычисления и языки)
- Computational Complexity (Вычислительная сложность)
- Computational Engineering, Finance, and Science (Вычислительная инженерия, финансы и наука)
- Computational Geometry (Вычислительная геометрия)
- Computer Science and Game Theory (Компьютерные науки и теория игр)
- Computer Vision and Pattern Recognition (Компьютерное зрение и распознавание образов)
- Computers and Society (Компьютеры и общество)
- Cryptography and Security (Шифрование и безопасность)
- Data Structures and Algorithms (Структуры данных и алгоритмы)
- Databases (Базы данных)
- Digital Libraries (Цифровые библиотеки)
- Discrete Mathematics (Дискретная математика)
- Distributed, Parallel, and Cluster Computing (Распределённые, параллельные и кластерные вычисления)
- Emerging Technologies (Новые, перспективные и инновационные технологии)
- Formal Languages and Automata Theory (Формальные языки и теория автоматов)
- General Literature (Общая литература)
- Graphics (Графика)
- Hardware Architecture (Аппаратная архитектура)
- Human-Computer Interaction (Человеко-машинное взаимодействие)
- Information Retrieval (Информационный поиск)
- Information Theory (Теория информации)
- Machine Learning (Машинное обучение)
- Logic in Computer Science (Логика в компьютерных науках)
- Mathematical Software (Математическое программное обеспечение)
- Multiagent Systems (Мультиагентные системы)
- Multimedia (Мультимедиа)
- Networking and Internet Architecture (Сети и архитектура Интернета)
- Neural and Evolutionary Computing (Нейронные и эволюционные вычисления)
- Numerical Analysis (Численный анализ)
- Operating Systems (Операционные системы)
- Other Computer Science (Другое в компьютерных науках)
- Performance (Высокопроизводительные вычисления)
- Programming Languages (Языки программирования)
- Robotics (Робототехника)
- Social and Information Networks (Социальные и информационные сети)
- Software Engineering (Программная инженерия)
- Sound (Звук)
- Symbolic Computation (Символьные вычисления)
- Systems and Control (Системы и управление)
Другие представленные на arXiv.org области науки:
- Physics
- Mathematics
- Quantitative Biology
- Quantitative Finance
- Statistics
- Electrical Engineering and Systems Science
- Economics
Цитирование и рецензирование
Публикуемые статьи автоматически добавлялись в базу цитирования Citebase. Но эта база на данный момент уже не функционирует. Публикуемые статьи не проходят научное рецензирование, однако в 2004 году была введена процедура поручительства, при этом при наличии статуса поручителя можно публиковать статью без поручительства.
Статистика
На 5 октября 2017 число подключений составляло от 150 тыс. до 200 тыс. в час. Общее число подключений составило около 3 млн. Число загрузок в целом из года в год растёт, и в 2016 году достигло пика в 6 млн.
Пользователями являются представители таких известных организаций и университетов как: CERN, Токийский университет, Центр Макса-Планка, Университет Кембриджа, MIT, Berkeley, ETH Zurich, Принстонский университет, Университет Киото, Оксфорд, Колумбийский университет.
Среди Топ-200 пользователей, к сожалению, не обнаружены ни МГУ, ни ИТМО, ни СПбГУ, ни МИФИ, ни ФИЗТЕХ.
Число загружаемых в архив статей также растёт из года в год и в сентябре 2017 составило 10 тыс. Общее число статей на 5 октября 2017 составляет 1 млн. 311 тыс. 222.
Примерно половина всех загружаемых в архив статей являются статьи по различным областям физики. Однако из года в год растёт число публикаций в области математики (примерно четверть) и компьютерных наук (примерно пятая часть). На остальные представленные в архиве науки приходится суммарно около 5%.
Особенности публикации
Большинство публикаций представлены в формате TeX, а также в автоматически генерируемых из него форматах PDF и PostScript. Также могут быть представлены в форматах PDF, PostScript и HTML. Изображения должны быть представлены в форматах PS/EPS, JPEG, GIF, PNG, PDF.
Публикации принимаются только от зарегистрированных авторов. Регистрироваться нужно только, если планируется публикация в архиве. Авторы предоставляют статьи под non-exclusive and irrevocable license to distribute (неисключительные и безотзывные права для распространения).
Представление статьи
Ниже приведён пример представления статьи на arXiv.org:
Машинный доступ
Осуществлять crawling нет необходимости. Архив предоставляет несколько способов машинного чтения: OAI-PMH, API, RSS.
Ссылки
Примечание
Доклад был сделан 9 октября 2017 на кафедре Информатики и прикладной математики Университета ИТМО. Слайды для доклада можно загрузить отсюда.
(c) Симоненко Евгений, 2017