Институт проблем информатики Российской Академии наук
Институт проблем информатики Российской Академии наук
Российская Академия наук

Институт проблем информатики Российской Академии наук




«Информатика и ее применения» (Том 14, Выпуск 3, 2020)

Оглавление | Об авторах

Статистическое оценивание распределений случайных коэффициентов стохастического дифференциального уравнения Ланжевена

  • А. К. Горшенин  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, agorshenin@frccsc.ru
  • В. Ю. Королев  Факультет вычислительной математики и кибернетики Московского государственного университета имени М. В. Ломоносова; Федеральный исследовательский центр "Информатика и управление" Российской академии наук, vkorolev@cs.msu.ru
  • А. А. Щербинина  Факультет вычислительной математики и кибернетики Московского государственного университета имени М. В. Ломоносова, shcherbinina.aa.97 @gmail.com

Аннотация: Разработан метод статистического оценивания распределений случайных коэффициентов стохастических дифференциальных уравнений (СДУ) типа Ланжевена с помощью техники скользящего разделения смесей (СРС). Предложены дискретные аппроксимации для оценок указанных распределений. С целью изучения изменчивости распределений коэффициентов сдвига (дрейфа) и диффузии СДУ во времени предложен алгоритм последовательной идентификации (определения локальной связности) компонент получаемых смесей. В его основу положена комбинация жадного алгоритма для поиска числа компонент и одного из методов кластеризации (к- или с-средних). Применение метода иллюстрируется конкретными примерами анализа процесса теплообмена между атмосферой и океаном для Гольфстрима и тропиков.

Ключевые слова: стохастические дифференциальные уравнения; смешанные распределения; локальная связанность; жадный алгоритм; кластеризация

О марковских и рациональных потоках случайных событий. I

  • В. А. Наумов  Исследовательский институт инноваций, г. Хельсинки, Финляндия, valeriy.naumov@pfu.fi
  • К. Е. Самуйлов  Российский университет дружбы народов; Институт проблем информатики Федерального исследовательского центра "Инфор-матика и управление" Российской академии наук, samouylov-ke@rudn.ru

Аннотация: Статья представляет собой первую часть обзора, призванного ознакомить заинтересованных читателей с основами теории марковских потоков событий для более подробного изучения и облегчения применения этих моделей на практике. В первой части приведены свойства общих марковских потоков событий и показана их связь с марковскими аддитивными процессами и процессами марковского восстановления. Во второй части обзора будут рассмотрены частные случаи таких потоков - подклассы марковских потоков событий, а именно: простые и групповые потоки однородных и неоднородных событий, важные для приложений. Далее будет показано, как свойства марковских потоков событий связаны с мультипликативностью стационарных распределений марковских систем. В завершение обзора будут обсуждены матрично-экспоненциальные распределения и рациональные потоки событий, расширяющие возможности марковских потоков для моделирования сложных систем и при этом сохраняющие удобство их анализа с помощью вычислительной техники.

Ключевые слова: марковские процессы; марковские аддитивные процессы; потоки без последействия; МС-потоки

Аппроксимация множества решений систем нелинейных неравенств с использованием графических ускорителей

  • М. В. Попов  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, alvopim@gmail.com
  • М. А. Посыпкин  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, mposypkin@gmail.com

Аннотация: Существует множество задач, сводящихся к решению системы неравенств. Точное получение множества решений в подобных задачах не всегда возможно, из-за чего прибегают к различным методам аппроксимации данного множества. При повышении точности аппроксимации искомого множества увеличивается объем необходимых вычислений и, соответственно, время работы алгоритмов. В работе для увеличения быстродействия алгоритмов поиска аппроксимируемого множества применяются параллельные вычисления на графических ускорителях. Приводится описание и реализация последовательного метода аппроксимации системы неравенств и предлагается параллельный гибридный алгоритм, сочетающий перебор на равномерной сетке и идеи метода ветвей и границ. Этот алгоритм хорошо подходит для реализации на графических ускорителях и не приводит к избыточному перебору. Приведено сравнение эффективности работы последовательного и двух вариантов параллельного алгоритмов на примере прикладной задачи аппроксимации рабочей области робота. Рабочая область состоит из множества возможных положений инструмента и служит одной из ключевых характеристик робота.

Ключевые слова: оптимизация; параллельные вычисления; графический ускоритель, GPU; CUDA; нелинейные неравенства

Однолинейная система массового обслуживания с инверсионным порядком обслуживания с вероятностным приоритетом, групповым пуассоновским потоком и фоновыми заявками

  • Т. А. Милованова  Российский университет дружбы народов, milovanova-ta@rudn.ru
  • Р. В. Разумчик  Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук, n-azumchik@ipiran.ru

Аннотация: Рассматривается система массового обслуживания (СМО) с одним прибором, групповым пуассоновским потоком основных заявок и насыщенным потоком фоновых заявок, запас которых не ограничен. Основные заявки имеют относительный приоритет перед заявками фонового потока. Таким образом, прерывание обслуживания заявки второго типа не допускается и процесс обслуживания фоновых заявок начинается только тогда, когда после выхода с прибора основной заявки очередь основных заявок пуста. Времена обслуживания основных и фоновых заявок независимы и имеют произвольные распределения. В системе реализована дисциплина инверсионного порядка обслуживания с вероятностным приоритетом. Предложен метод расчета (в терминах преобразований) основных стационарных показателей функционирования системы, включая стационарные распределения времени ожидания начала обслуживания и времени пребывания заявок основного потока в системе.

Ключевые слова: инверсионный порядок обслуживания; вероятностный приоритет; групповой поток; фоновые заявки

О распределении отношения суммы элементов выборки, превосходящих некоторый порог, к сумме всех элементов выборки. I

  • В. Ю. Королев  Факультет вычислительной математики и кибернетики Московского государственного университета имени М. В. Ломоносова; Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук, vkorolev@cs.msu.ru

Аннотация: Рассматривается задача описания распределения доли суммы независимых случайных величин, которая составлена из слагаемых, превосходящих некоторый заданный порог В отличие от известных вариантов такой задачи, в которых фиксируется число суммируемых крайних порядковых статистик, особенность рассматриваемой здесь задачи состоит в том, что заданный порог может быть превзойден непредсказуемым числом элементов выборки. В статье в терминах функции распределения отдельного слагаемого формально представлен явный вид распределения отношения суммы элементов выборки, превосходящих заданный порог, к сумме всех наблюдений. На эвристическом уровне выведены асимптотические и предельные распределения этого отношения при фиксированном пороге, удобные для использования в качестве асимптотических аппроксимаций в практических вычислениях. Рассмотрены ситуации, в которых распределение слагаемых имеет легкий хвост (конечны вторые моменты), и ситуации, в которых распределение слагаемых имеет тяжелый хвост (принадлежит к области притяжения устойчивого закона). Во всех случаях описана нормировка отношения, гарантирующая невырожден-ность предельного (при неограниченном увеличении числа слагаемых) распределения, и само предельное распределение (нормальное в случае легких хвостов и устойчивое в случае тяжелых хвостов).

Ключевые слова: сумма независимых случайных величин; случайная сумма; биномиальное распределение; смесь распределений вероятностей; нормальное распределение; устойчивое распределение; экстремальная порядковая статистика

О статистических свойствах оценки риска в задаче обращения преобразования Радона при случайном объеме проекционных данных

  • О. В. Шестаков  Московский государственный университет им. М. В. Ломоносова, кафедра математической статистики факультета вычислительной математики и кибернетики; Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук, oshestakov@cs.msu.su

Аннотация: При реконструкции томографических изображений необходимо решать задачу подавления шума, возникающего при регистрации проекционных данных. Методы решения этой задачи, основанные на вейвлет-алгоритмах и процедурах пороговой обработки, обладают рядом преимуществ, включая вычислительную эффективность и возможность адаптации к локальным особенностям изображений. Анализ погрешностей этих методов представляет собой важную практическую задачу, поскольку дает возможность оценить качество как самих методов, так и используемого оборудования. При использовании методов пороговой обработки обычно предполагается, что число коэффициентов разложения фиксировано, а распределение шума гауссово. Эта модель хорошо изучена в литературе, и для разных классов функций вычислены оптимальные значения порогов. Однако в некоторых ситуациях объем выборки заранее не фиксирован и его приходится моделировать некоторой случайной величиной. В данной работе рассматривается модель со случайным числом наблюдений и исследуются асимптотические свойства оценки среднеквадратичного риска. Доказывается, что предельное распределение этой оценки принадлежит классу сдвиг-масштабных смесей нормальных законов.

Ключевые слова: пороговая обработка; случайный объем выборки; преобразование Радона; оценка среднеквадратичного риска

Метод логарифмических моментов для оценивания параметров гамма-экспоненциального распределения

  • А. А. Кудрявцев Московский государственный университет им. М.В. Ломоносова, факультет вычислительной математики и кибернетики, nubigena@maii.ru
  • О. В. Шестаков  Московский государственный университет им. М. В. Ломоносова, кафедра математической статистики факультета вычислительной математики и кибернетики; Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук, oshestakov@cs.msu.su

Аннотация: Рассматривается модифицированный метод моментов для оценивания параметров гамма-экспоненциального распределения. Обосновывается сильная состоятельность полученных оценок. Гамма-экспоненциальное распределение представляет собой удобный механизм при моделировании процессов и явлений с помощью масштабных смесей обобщенных гамма-распределений. Подобные задачи возникают во многих естественно-научных областях в предположении о рандомизированности рассматриваемых параметров и могут быть единообразно описаны в терминах байесовских моделей баланса. Полученные результаты могут применяться в широком классе задач, использующих для моделирования распределения с положительным неограниченным носителем, без дополнительных предположений о представлении исследуемого объекта в терминах масштабной смеси, ввиду большого разнообразия видов плотности пятипараметрического гамма-экспоненциального распределения

Ключевые слова: оценивание параметров; гамма-экспоненциальное распределение; смешанные распределения; обобщенное гамма-распределение; метод моментов; состоятельная оценка

Основные понятия программирования в изложении для дошкольников

  • В. Б. Бетелин  Федеральный научный центр "Научно-исследовательский институт системных исследований" Российской академии наук, betelin@niisi.msk.ru
  • А. Г. Кушниренко  Федеральный научный центр "Научно-исследовательский институт системных исследований" Российской академии наук, agk_@mail.ru
  • А. Г. Леонов  Московский государственный университет им. М. В. Ломоносова; Федеральный научный центр "Научно-исследовательский институт системных исследований" Российской академии наук; Московский педагогический государственный университет, dr.l@vip.niisi.ru

Аннотация: : Развитие информационных технологий сформировало социально-экономический запрос на снижение возраста знакомства детей с программированием. В результате шестилетних усилий авторам удалосьразработать и массово внедрить годовой курс программирования для дошкольников, построенный на метафоре программного управления. В процессе развития курса удалось отобрать и сформулировать набор основных понятий программирования, который может быть освоен дошкольниками возраста 6+ в деятельностно-игровой форме. Этот набор понятий вводится на примерах программ управления движущимися и неподвижными объектами с интуитивно понятными, обозримыми системами команд. Курс строится на базе бестекстовой пиктографической системы программирования "ПиктоМир" разработки ФНЦ НИИСИ РАН. Разработанное для курса программно-методическое наполнение позволяет каждому дошкольнику к концу курса получить опыт составления и отладки 120-150 простейших программ.

Ключевые слова: : информатика; робот; программа; компьютер; язык программирования; дошкольник; "ПиктоМир"; пиктограмма

Вычислительные аспекты применения CC-VaR на совокупности рынков

  • Г. А. Агасандян  Вычислительный центр им. А. А. Дородницына Федерального исследовательского центра "Информатика и управление" Российской академии наук, agasand17@yandex.ru

Аннотация: Работа служит непосредственным продолжением предыдущей работы автора, посвященной применению континуального критерия VaR на совокупности нескольких рынков разных размерностей, связанных между собой базовыми активами. Исследование нацелено на приложение идей и методов, развитых для теоретической континуальной модели, к дискретным сценарным рынкам. В модели совокупности одного двумерного и двух одномерных рынков, а также ее усеченных вариантов приводятся конструкции оптимальных сценарных портфелей из базисных инструментов всех рынков совокупности с применением рандомизации. Предлагаемые конструкции проверяются на числовых примерах с использованием потенциально типичных двумерных расширений бета-распределений для описания прогноза будущих цен базовых активов и картины текущих цен базисных инструментов. Изложение сопровождается расчетами весовых коэффициентов базисных инструментов оптимальных портфелей и иллюстрируется графиками портфельных доходов.

Ключевые слова: базовые активы; функция рисковых предпочтений; континуальный критерий VaR (CC-VaR); стоимостная и прогнозная плотности; функция относительных доходов; процедура Неймана- Пирсона; комбинированный портфель; суррогатный портфель; идеалистичный портфель

Методы математической статистики в задаче поиска инсайдера

  • А. А. Грушо  Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук, grusho@yandex.ru
  • М. И. Забежайло  Вычислительный центр им. А. А. Дородницына Федерального исследовательского центра "Информатика и управление" Российской академии наук, m.zabezhailo@yandex.ru
  • Д. В. Смирнов  ПАО Сбербанк России, Департамент кибербезопасности, dvlsmimov@sberbank.ru
  • Е. Е. Тимонина  Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук, eltimon@yandex.ru
  • С. Я. Шоргин  Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук, sshorgin@ipiran.ru

Аннотация: Исследованы подходы к выявлению враждебных инсайдеров организации, использующих сговор. Проблема выявления организованной группы нарушителей информационной безопасности - одна из самых сложных задач обеспечения безопасности организации. Исходное множество данных для анализа состоит из множества малых выборок, описывающих функционал информационных технологий (ИТ) организации. Это множество можно считать большими данными. Для сокращения объема исходных данных использован метод кластеризации. Это позволило эффективно использовать методы математической статистики, т. е. выявить малые выборки, несущие информацию о враждебных инсайдерах. Сложность задачи заключалась в том, чтобы как можно меньше потерять искомых малых выборок. Найдены условия, когда в схеме серий вероятность выявления инсайдеров, использующих сговор, стремится к 1.

Ключевые слова: выявление организованной группы враждебных инсайдеров; малые выборки; большие данные; математическая статистика

Выявление аномалий с помощью метаданных

  • А. А. Грушо  Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук, grusho@yandex.ru
  • Е. Е. Тимонина  Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук, eltimon@yandex.ru
  • Н. А. Грушо  Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук, info@itake.ru
  • И. Ю. Терехина  Факультет вычислительной математики и кибернетики Московского государственного университета им. М. В. Ломоносова, iTina_teryokhina@mail.ru

Аннотация: Рассматривается проблема контроля безопасности информационных технологий (ИТ) на основе данных компьютерного аудита. Эти данные представляют собой последовательность малых выборок, каждая из которых описывает передачу информации от одних преобразований к другим. Информа-ционные технологии представляются математическими моделями в виде ориентированных ациклических графов. Такие графы, описывающие передачу данных, в статье называются метаданными (МД). В единых данных компьютерного аудита могут одновременно присутствовать следы выполнения нескольких ИТ, описываемые своими графами. Это обстоятельство затрудняет распознавание информационных потоков (ИП), которые соответствуют дугам разных графов. В работе введено понятие легальных ИП, которые соответствуют передаче данных всех выполняемых ИТ. Информационные потоки, не соответствующие выполнению действующих ИТ, называются нелегальными, или аномалиями. Такие ИП могут возникать из-за враждебной деятельности инсайдеров или из-за ошибок действий пользователей. В статье на основе МД решена задача эффективного выявления легальных ИП и аномалий.

Ключевые слова: информационная безопасность; информационный поток; аномалии; метаданные; системы различных представителей

Аппроксимация множества достижимых потоков многопользовательской сети

  • Ю. Е. Малашенко  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, malash09@ccas.ru
  • И. А. Назарова  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, irina-nazar@yandex.ru

Аннотация: Рассматривается метод приближенного описания выпуклого многогранного множества допустимых потоков, передаваемых между всеми узлами сети одновременно. Предлагается способ построения внутреннего выпуклого аппроксимирующего каркаса. Каркас формируется на основе векторов предельно достижимых потоков между парами вершин источник-приемник. Система опорных векторов определяется точками, лежащими на внешних гранях исходного множества. Любая выпуклая комбинация базовых векторов задает допустимое распределение потоков. Разработанные алгоритмические схемы допускают распараллеливание вычислительных процедур на гетерогенных многопроцессорных комплексах. Полученное агрегированное описание можно использовать при диспетчеризации интенсивных входных информационных потоков, превышающих функциональные возможности сети.

Ключевые слова: многопродуктовая потоковая модель; множество допустимых потоков; внутренний опорный каркас

Байесовский подход к построению индивидуальной траектории пользователя в системе дистанционного обучения

  • А. В. Босов  Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук; Московский авиационный институт, avbosov@ipiran.ru
  • Я. Г. Мартюшова  Московский авиационный институт, ma1554@mail.ru
  • А. В. Наумов  Московский авиационный институт, naumovav@mail.ru
  • А. П. Сапунова  Московский авиационный институт, sap2603@mail.ru

Аннотация: Рассмотрена задача формирования индивидуальной траектории пользователя системы ди-станционного обучения (СДО) при смешанной форме ведения образовательной деятельности с организацией самостоятельной работы обучаемых с помощью СДО. По окончании каждого раздела курса обучения происходит разделение пользователей СДО на категории, определяемые решением задачи байесовской классификации. Для каждой категории предлагается индивидуальное задание разного уровня сложности на следующий раздел курса, и таким образом формируется индивидуальная траектория обучаемого. Настройка байесовского классификатора проводится на основе статистики работы пользователей СДО. Приводятся экспериментальные результаты решения задачи на одном из этапов обучения.

Ключевые слова: система дистанционного обучения; байесовский классификатор; адаптивные системы; индивидуальная траектория обучения

Анализ механизмов нарезки сети с учетом гарантий для различных типов трафика

  • К. А. Агеев  Российский университет дружбы народов, ageev-ka@rudn.ru
  • Э. С. Сопин  Российский университет дружбы народов; Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук, sopin-es@rudn.ru
  • Н. В. Яркина  Российский университет дружбы народов, yarkina-nv@rudn.ru
  • К. Е. Самуйлов  Российский университет дружбы народов; Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук, samouylov-ke@rudn.university
  • С. Я. Шоргин  Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук, sshorgin@ipiran.ru

Аннотация: Нарезка радиоресурсов сети (network slicing) - это одна из ключевых возможностей современных сетей, позволяющая нескольким виртуальным мобильным операторам использовать ресурсы одной базовой станции. Это дает возможность операторам, владельцам ресурсов, предоставлять в аренду и управлять несколькими выделенными логическими сетями с определенной функциональностью, реализуемой поверх общей инфраструктуры. Каждая из этих логических сетей называется слайсом сети и может быть адаптирована для обеспечения определенного поведения системы, чтобы наилучшим образом поддерживать определенные показатели качества услуг. В работе построена модель механизма нарезки радиоресурсов, распределяющего ресурс по слайсам, и проведен анализ этой модели методом имитационного моделирования.

Ключевые слова: имитационное моделирование; система массового обслуживания; ограниченные ресурсы; нарезка сети

О концепции стохастической модели с управлением в моменты выхода процесса на границу заданного подмножества множества состояний

  • П. В. Шнурков  Национальный исследовательский университет "Высшая школа экономики", pshnurkov@hse.ru
  • Д. А. Новиков  Национальный исследовательский университет "Высшая школа экономики", even.he@yandex.ru

Аннотация: Работа посвящена созданию и анализу общей концепции специальной стохастической модели с управлениями. Основная особенность модели заключается в том, что управляющие воздействия осуществляются в моменты времени, когда случайный процесс, описывающий исследуемую систему, достигает границы некоторого заданного подмножества множества состояний. Само управляющее воздействие заключается в переводе процесса из граничного в одно из внутренних состояний заданного подмножества.
При этом внутренние состояния интерпретируются как допустимые, а граничные - как недопустимые. Управляющие воздействия описываются набором дискретных вероятностных распределений, зависящих от номера граничного состояния. Такой набор определяет стратегию управления. Проблема оптимального управления формализуется как задача нахождения стратегии управления, доставляющей глобальный экстремум некоторому стационарному стоимостному показателю эффективности, который по своему экономическому содержанию представляет собой среднюю удельную прибыль, возникающую при длительной эволюции системы. Поставленную проблему оптимального управления предлагается называть задачей о настройке. Отмечается, что данная стохастическая модель и соответствующая задача о настройке могут быть использованы для исследования многих реальных явлений, происходящихв экономических и технических системах. В качестве примера такого явления рассматривается проведение интервенций на валютном рынке Российской Федерации.

Ключевые слова: управление в стохастических системах; марковские управляемые процессы; полумар- ковские управляемые процессы; стохастическая задача о настройке

Извлечение оптимизационных моделей из данных

  • В. И. Донской  Крымский федеральный университет им. В. И., vidonskoy@mail.ru

Аннотация: Изложены основные принципы, методы и алгоритмы, представляющие новую информа-ционную технологию извлечения оптимизационных математических моделей из данных (ИОМД). Эта технология позволяет автоматически строить математические модели планирования и управления на основе использования массивов прецедентов (наблюдений) над объектами управления и внешней средой, что дает возможность решать задачи интеллектуального управления и определять целесообразное поведение экономических и других объектов в сложных средах. Технология ИОМД позволяет получать объективные модели управления, отражающие реально существующие связи, цели, ограничения и процессы. В этом заключается ее главное преимущество по сравнению с традиционным, субъективным подходом к управлению. Разработаны линейные и нелинейные алгоритмы синтеза моделей по прецедентной информации.

Ключевые слова: машинное обучение; извлечение градиентные методы

Проблемно-ориентированная верификация полноты темпоральных онтологий и заполнение понятийных лакун

  • И. М. Зацман  Институт проблем информатики Федерального исследовательского центра "Информатика и управление" Российской академии наук, izatsman@yandex.ru

Аннотация: Предлагается подход к проверке полноты онтологии и заполнению обнаруженных в ней понятийных лакун с применением следующих симбиотических информационных процессов: целенаправленное извлечение нового знания из данных, его представление в онтологии и применение для решения некоторой проблемы. В процессе ее решения осуществляется верификация полноты онтологии, регистрируются и заполняются ее лакуны, выявленные при решении именно этой проблемы. Разделяются личностный, коллективный и конвенциональный уровни представления знания в онтологии. Этот подход позволяет обнаружить лакуны на конвенциональном уровне онтологии и заполнить их на ее личностном и/или коллективном уровне, если для извлечения нового знания доступны его потенциальные источники. Цель статьи - рассмотреть модель перечисленных симбиотических процессов. Разработанная модель представляет собой обобщенную блок-схему реализации предлагаемого подхода. Блок-схема служит основой компьютеризации симбиотических процессов. Описание модели иллюстрируется примером обнаружения и заполнения понятийных лакун в лингвистической типологии концептами нового знания, извлекаемого из текстовых данных.

Ключевые слова: : трехуровневое представление знания; темпоральная онтология; понятийная лакуна; генерация нового знания; симбиотические информационные процессы

Использование тематических моделей для парного сравнения коллекций научных статей

  • Ф. В. Краснов  Компания НАУМЕН, fkrasnov@naumen.ru
  • А. В. Диментов  Национальный электронно-информационный консорциум (NEICON), dimentov@neicon.ru
  • М. Е. Шварцман  Национальный электронно-информационный консорциум (NEICON); Российская государственная библиотека, shvar@neicon.ru

Аннотация: Авторами предложена новая методика для парного сравнения коллекций научных статей с помощью тематической модели. Разработанная методика получила название сравнительного тематического анализа (СТА). Сравнительный тематический анализ позволяет получать не только количественную оценку похожести коллекций, но и структурные различия сравниваемых коллекций как в количественном виде, так и с помощью средств визуализации, разработанных авторами. В данном исследовании проведено сравнение существующих подходов к тематическому моделирования применительно к рассматриваемой задаче сравнения коллекций научных статей. Рассмотрены вероятностные и генеративные тематические модели. Проведен анализ требований к текстовым коллекциям для корректного примене- ния СТА. Методика СТА показала высокую эффективность на выделении структурных различий близких по тематике коллекций. Авторами разработана интегральная метрика, позволяющая сравнивать коллекции между собой: коэффициент контентной аутентичности. По результатам цифрового эксперимента наиболее информативной показала себя тематическая модель с аддитивной регуляризацией (ARTM, additive regularization of topic model).

Ключевые слова: сравнительный тематический анализ; анализ текстов; метрики тематической модели