Институт проблем информатики Российской Академии наук
Институт проблем информатики Российской Академии наук
Российская Академия наук

Институт проблем информатики Российской Академии наук




«Информатика и ее применения» (Том 17, Выпуск 3, 2023)

Оглавление | Об авторах

О формировании множеств прецедентов на основе таблиц разнородных признаковых описаний методами топологической теории анализа данных

  • И. Ю. Торшин  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, tiy135@yahoo.com

Аннотация: Факторизация вкладов различных переменных при анализе разнородных признаковых описаний - насущная задача интеллектуального анализа сложных данных. В работе предложено развитие решеточного формализма топологической теории анализа данных, в рамках которого получены новые способы порождения параметрических оценок и метрик на решетках, образованных над топологиями множеств объектов. Формализм был апробирован на задаче формирования множеств прецедентов для проведения хемомикробиомного анализа. Тогда как порождение множества исходных информаций на основе регрессионных коэффициентов и разности значений материала обучения соответствовало крайне низкой обобщающей способности настраиваемых алгоритмов (коэффициент корреляции на контроле - 0, 32 ± 0,20), использование предлагаемых оценок для порождения множеств прецедентов в задачах хемомикробиомики позволило существенно повысить обобщающую способность соответствующих алгоритмов (коэффициент корреляции на контроле - 0,79 ± 0,21).

Ключевые слова: топологический анализ данных; теория решеток; параметризация решеточных термов; микробиом человека; фармакоинформатика, алгебраический подход Ю. И. Журавлёва

Оптимальная фильтрация состояния нелинейной динамической системы по наблюдениям со случайными запаздываниями

  • А. В. Босов  Федеральный исследовательский центр "Информатика и управление" Российской академии наук; ABosov@frccsc.ru

Аннотация: Изучается математическая модель нелинейной динамической системы наблюдения с дискретным временем, позволяющая учитывать зависимость времени получения наблюдений от состояния наблюдаемого объекта. Модель реализует предположение о том, что время между моментом, когда формируется измерение состояния, и моментом получения измеренного состояния наблюдателем зависит случайным образом от положения движущегося объекта. Источником такого предположения выступает процесс наблюдения стационарными средствами за автономным подводным аппаратом, в котором время получения актуальных данных зависит от неизвестного расстояния между объектом и наблюдателем. В отличие от детерминированных задержек, формируемых известным состоянием среды наблюдения, для учета зависимости временных задержек от неизвестного состояния объекта наблюдения требуется использовать для их описания случайные функции. Основным результатом исследования предложенной модели стало решение задачи оптимальной фильтрации. Для этого получены рекуррентные байесовские соотношения, описывающие эволюцию апостериорной плотности вероятности. Использование полученного фильтра для практических целей не представляется возможным из-за вычислительной сложности. Предложенная модель проиллюстрирована практическим примером задачи слежения за движущимся подводным объектом по результатам измерений, выполняемых типовыми акустическими сенсорами. Предполагается, что объект движется под водой в плоскости с известной средней скоростью, постоянно выполняет хаотические маневры и наблюдается двумя независимыми комплексами акустических сенсоров, измеряющими дальности до объекта и направляющие косинусы. Сложность определения положения такого объекта иллюстрируется простым фильтром, использующим геометрические свойства измеряемых величин.

Ключевые слова: стохастическая динамическая система наблюдения; фильтрация состояния; оптимальный байесовский фильтр; среднеквадратичный критерий оценивания; автономный подводный аппарат; акустический сенсор; слежение за целью

Рынок с марковской скачкообразной волатильностью II: алгоритм вычисления справедливой цены деривативов

  • А. В. Борисов  Федеральный исследовательский центр "Информатика и управление" Российской академии наук; aborisov@frccsc.ru

Аннотация: Вторая часть цикла посвящена численной реализации задачи моделирования справедливой цены производных финансовых инструментов (деривативов) в модели неполного рынка с марковской скачкообразной волатильностью. Концепция рыночной цены риска, распространенная в Runggaldier (2004) на класс рисковых базовых активов, позволила в первой части цикла получить систему дифференциальных уравнений в частных производных, описывающих временную эволюцию цены деривативов как функцию текущей цены базового актива и скрытой волатильности - обобщение классического уравнения Блэка-Шоулза. В отличие от последнего, полученная система не допускает аналитического решения. Для этого в работе предложено использовать приближенно-аналитический метод дробных шагов. Временная шкала разбивается сеткой, и искомое решение аппроксимируется комбинацией решений классического уравнения теплопроводности и системы обыкновенных линейных дифференциальных уравнений. Свойства полученных решений уравнений и смоделированных с их помощью цен деривативов проиллюстрированы комплексом численных экспериментов.

Ключевые слова: марковский скачкообразный процесс; оптимальная фильтрация; стохастическая волатильность; рыночная цена риска; преобладающая мартингальная мера

Моделирование настойчивого поведения пользователей в сетях 5G NR с адаптацией скорости и блокировками

  • Э. С. Сопин  Российский университет дружбы народов им. Патриса Лумумбы; Федеральный исследовательский центр "Информатика и управление" Российской академии наук, sopin-es@rudn.ru
  • А. Р. Маслов  Российский университет дружбы народов им. Патриса Лумумбы,maslov-ar@rudn.ru
  • В. С. Шоргин  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, vshorgin@ipiran.ru
  • В. О. Бегишев  Российский университет дружбы народов им. Патриса Лумумбы, begishev-vo@rudn.ru

Аннотация: Технология радиодоступа 5G NR (New Radio), работающая в диапазоне миллиметровых волн, и будущие терагерцевые системы 6G предназначены для приложений, чувствительных к скорости. Такие приложения характеризуются адаптивностью, позволяющей снизить скорость передачи в соответствии с текущими условиями сети. Ненадежный характер сетей 5G/6G может вызывать повторные попытки продолжить обслуживание. Предложена модель обслуживания абонентов с нетерпеливым поведением на основе ресурсной системы массового обслуживания (РеСМО) с орбитой. В качестве характеристик обслуживания рассматриваются вероятности блокировки доступа на обслуживание и прерывания заявки, а также коэффициент использования ресурсов системы. Показано, что настойчивость пользователей позволяет понизить рассматриваемые вероятности: выполнение в среднем двух повторных попыток снижает оба показателя на 20%-70%. Настойчивость увеличивает использование системных ресурсов на 20%-40% и снижает долю потраченных впустую ресурсов в 2-3 раза.

Ключевые слова: 5G; NR (New Radio); ресурсная СМО; повторные вызовы; блокировки распространения; прерывание обслуживания

Анализ загрузки многопользовательской сети при расщеплении потоков по кратчайшим маршрутам

  • Ю. Е. Малашенко  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, malash09@ccas.ru
  • И. А. Назарова  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, irina-nazar@yandex.ru

Аннотация: В рамках вычислительных экспериментов на многопродуктовой сетевой модели изучаются два способа передачи потоков различных видов по кратчайшим маршрутам. В первом случае передаваемые межузловые потоки равны по величине. В другом - определяется недискриминирующее распределение, при котором всем парам корреспондентов выделяются одинаковые ресурсы. Суммарная загрузка ребер сети, возникающая при одновременной передаче всех межузловых информационных потоков, считается заданной. Предложенный метод позволяет получить гарантированные оценки удельных затрат ресурсов сети и предельно допустимых загрузок ребер при одновременной передаче расщепленных межузловых потоков по всем найденным кратчайшим маршрутам. Приводятся результаты сравнительного анализа уравнительного распределения потоков и ресурсов в сетях с различными структурными особенностями. Алгоритмическая схема имеет полиномиальную оценку требуемого числа операций.

Ключевые слова: многопродуктовая потоковая модель; распределение межузловых потоков и нагрузок; предельная загрузка сети

Оптимизация схемы распределения буферной памяти узла пакетной коммутации

  • Я. М. Агаларов   Федеральный исследовательский центр "Информатика и управление" Российской академии наук, agalar@yandex.ru

Аннотация: Рассматривается буфер узла коммутации (УК) пакетов, совместно используемый несколькими выходными линиями связи. Совместное использование буферной памяти (БП) несколькими пользователями позволяет уменьшить объем памяти, необходимый для удовлетворения требований к задержке и вероятности потерь пакетов. Однако возникает проблема распределения БП между пользователями, поскольку отдельные пользователи, заняв всю память, могут ограничить (или закрыть) доступ к линиям связи другим пользователям, что может значительно снизить производительность УК в целом. Существует множество различных схем распределения БП, одна из которых, называемая SMA (Sharing with Minimum Allocation), исследуется в данной работе с целью снижения затрат, связанных с отклонением и задержкой пакетов и эксплуатацией накопителя и линий связи. В качестве модели УК используется многопотоковая система массового обслуживания (СМО) с параллельными приборами типа M/M/s/K с совместно используемым по схеме SMA буфером с фиксированным числом зарезервированных за каждым прибором мест хранения. Сформулирована математическая постановка задачи оптимизации схемы SMA по объему общедоступных мест буфера с целью минимизации потерь системы, возникающих из-за отклонения заявок, задержки заявок в очереди и эксплуатации буфера и приборов. Доказана теорема о границах области, содержащей точку глобального оптимума. Приведен также ряд вытекающих из теоремы утверждений о точке глобального оптимума целевой функции для других моделей УК и частных случаев SMA.

Ключевые слова: узел коммутации; распределение буферной памяти; оптимизация; система массового обслуживания

О скорости сходимости и предельных характеристиках для одного обобщенного процесса рождения и гибели

  • И. А. Усов  Вологодский государственный университет, iusov35@yandex.ru
  • Я. А. Сатин  Вологодский государственный университет, yacovi@maiI.ru
  • А. И. Зейфман  Вологодский государственный университет; Федеральный исследовательский центр "Информатика и управление" Российской академии наук; Вологодский научный центр Российской академии наук; Московский центр фундаментальной и прикладной математики; Московский государственный университет имени М. В. Ломоносова, a_zeifman@mail.ru

Аннотация: Рассмотрена система обслуживания с одним сервером и разными вариантами ремонта и отказов, число требований в которой описывается неоднородным обобщенным процессом рождения и гибели (ПРГ) (те. процессом, в котором интенсивности переходов не константы, а функции времени). Для обоснованного нахождения предельных вероятностных характеристик системы изучается скорость сходимости к ним (т. е. скорость, с которой "забываются" начальные условия системы). Для исследования скорости сходимости к предельному режиму применен недавно разработанный вариант подхода, основанного на понятии логарифмической нормы операторной функции, соответствующей оценке нормы матрицы Коши, а также модернизированного специального преобразования прямой системы Колмогорова. Рассмотрен численный пример, в котором детально показано получение оценок скорости сходимости и основанное на этих оценках построение некоторых предельных характеристик модели.

Ключевые слова: обобщенный процесс рождения и гибели; скорость сходимости; эргодичность; логарифмическая норма; системы массового обслуживания

Метод оценивания параметров гамма-экспоненциального распределения по выборке со слабо зависимыми компонентами

  • А. А. Кудрявцев  Московский государственный университет имени М. В. Ломоносова, факультет вычислительной математики и кибернетики; Московский центр фундаментальной и прикладной математики, aakudryavtsev@cs.msu.ru
  • О. В. Шестаков  Московский государственный университет имени М. В. Ломоносова, факультет вычислительной математики и кибернетики; Московский центр фундаментальной и прикладной математики; Федеральный исследовательский центр "Информатика и управление" Российской академии наук, oshestakov@cs.msu.ru

Аннотация: Доказывается асимптотическая нормальность оценок параметров гамма-экспоненциального распределения, полученных при помощи модифицированного метода моментов, в случае слабой зависимости компонент выборки. Для оценок параметров изгиба и масштаба гамма-экспоненциального распределения при фиксированных параметрах формы и концентрации доказана центральная предельная теорема в случае, когда максимальный коэффициент корреляции между элементами выборки стремится к нулю. Метод доказательства основан на исследовании спектральной плотности выборки и результатах теории стационарных случайных последовательностей. Результаты статьи могут быть использованы для обоснования асимптотической нормальности оценок параметров дигамма-распределения, к частным видам которого относятся обобщенное гамма-распределение и обобщенное бета-распределение второго рода, возникающие при описании процессов, для моделирования которых используются распределения с неотрицательным неограниченным носителем.

Ключевые слова: слабая зависимость; оценивание параметров; гамма-экспоненциальное распределение; смешанные распределения; метод моментов; асимптотическая нормальность

Логические методы корректной классификации данных

  • Е. В. Дюкова  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, edjukova@mail.ru
  • Г. О. Масляков  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, gleb-mas@mail.ru
  • А. П. Дюкова  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, anastasia.d.95@gmail.com

Аннотация: Работа посвящена вопросам применения дискретного аппарата (логических методов анализа целочисленных данных) для задачи классификации по прецедентам. Рассматриваются три направ-ления логической классификации: Correct Voting Procedures (CVP), Logical Analysis of Data (LAD) и Formal Concept Analysis (FCA). С использованием терминологии направления CVP приводятся основные понятия, используемые в LAD и FCA. Описывается общая схема работы логического классификатора, согласно которой каждый логический классификатор на этапе обучения задает некоторый частичный порядок на специальном множестве фрагментов описаний прецедентов и ищет максимальные относительно заданного порядка элементы этого множества. Подобные исследования важны для создания общей теории корректной классификации по прецедентам на основе применения дискретного аппарата.

Ключевые слова: классификация на основе прецедентов; логический классификатор; процедуры корректного голосования; логический анализ данных; анализ формальных понятий; тупиковый представительный элементарный классификатор; сильная логическая закономерность; ДСМ-гипотеза; частичный порядок

Классификация с помощью причинно-следственных связей

  • А. А. Грушо  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, grusho@yandex.ru
  • Н. А. Грушо  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, info@itake.ru
  • М. И. Забежайло  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, m.zabezhailo@yandex.ru
  • Д. В. Смирнов  ПАО Сбербанк России, dvlsmirnov@sberbank.ru
  • Е. Е. Тимонина  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, eltimon@yandex.ru

Аннотация: По определению свойство A в объекте O служит причиной появления следствия B, которое доступно наблюдению в информационном пространстве I, если характеристики A могут породить объект в пространстве I, содержащий следствие B, и в этом случае при появлении A детерминированно появляется B. Поэтому можно рассматривать задачу классификации как вычисление следствий характеристик объекта, где в качестве следствий выступают характеристики класса. В этом случае характеристики объекта классификации можно рассматривать как причину, которая детерминированно (классификация как отображение) порождает следствия (характеристики класса). В рассматриваемом случае каждое из свойств Ai, i = 1,..., к, служит причиной детерминированного появления непустого множества своих следствий. Если число классов велико, так же как множества следствий каждого Ai, то задача классификации может оказаться трудно вычислимой из-за того, что возможны повторения следствий в множествах следствий. Поэтому целесообразно искать упрощенные схемы классификации объектов по находящимся в них причинах следствий. Для этого может быть использован аппарат систем различных представителей (СРП). В условиях задачи классификации причин по следствиям нельзя непосредственно воспользоваться теоремой Ф. Холла об СРП, так как нельзя разрывать элементы цепочек причинно-следственных связей.
В статье показано, что преобразование каждой из одинаковых цепочек причинно-следственных связей в один общий новый элемент в множествах следствий формирует возможности применения условий теоремы Ф. Холла.

Ключевые слова: причинно-следственные связи; конечная классификация; поиск свойств в ненаблюдаемых данных

О кластеризации объектов сетевой вычислительной инфраструктуры на основе анализа статистических аномалий в трафике

  • А. К. Горшенин  Федеральный исследовательский центр "Информатикаи управление" Российской академии наук; Московский государственный университет имени М. В. Ломоносова, agorshenin@frccsc.ru
  • С. А. Горбунов  Московский государственный университет имени М. В. Ломоносова; Московский центр фундаментальной и прикладной математики, s.gorbunov.cmc@gmail.com
  • Д. Ю. Волканов  Московский государственный университет имени М. В. Ломоносова, volkanov@asvk.cs.msu.ru

Аннотация: Рассматривается задача выявления статистических аномалий (т. е. существенных превышений от типичных значений полученного и исходящего трафика) нагрузки на узлы сетевой вычислительной инфраструктуры. Рост нагрузки в реальных системах ведет к необходимости регулярного масштабирования вычислительных ресурсов и хранилищ, а также перенаправления потоков данных. Предложена процедура выявления статистических аномалий в сетевом трафике с использованием аппроксимации наблюдений обобщенным гамма-распределением для дальнейшей кластеризации объектов сетевой вычислительной инфраструктуры с целью оценки потребности в ресурсах. Все вычислительные статистические процедуры, описанные в статье, реализованы с использованием языка программирования R и применены к сетевому трафику, полученному в рамках моделирования на специализированном архитектурно-программном стенде. Предложенные подходы могут быть использованы и для более широкого класса телекоммуникационных задач.

Ключевые слова: сетевая инфраструктура; сетевой трафик; обобщенное гамма-распределение; вычислительная статистика; проверка статистических гипотез; выявление аномалий; кластеризация

Исследование эффективности применения бинарных нейронных сетей при детектировании объекта на изображении

  • Д. О. Королев  Институт компьютерных наук и технологий Санкт-Петербургского политехнического университета Петра Великого, korolev.do512@gmail.com
  • О. Г. Малеев  Институт компьютерных наук и технологий Санкт-Петербургского политехнического университета Петра Великого, maleev_og@spbstu.ru

Аннотация: Глубокие сверточные нейронные сети широко применяются для задач детектирования объектов. Однако современные модели глубоких сверточных нейронных сетей требуют больших вы-числительных ресурсов, что затрудняет их развертывание на мобильных и встроенных устройствах с ограниченными ресурсами. Бинарные нейронные сети позволяют снизить требования к устройствам. В бинарных нейронных сетях активации и/или веса принимают только двоичные значения (-1,1). Представленный в работе метод применяет балансировку и нормализацию целочисленных значений весов при прямом распространении и двухэтапную аппроксимацию функции знака при обратном. Приведены результаты сравнения точности обнаружения на наборе данных PASCAL Face и скорости работы и размера модели на мобильном устройстве для представленного в работе метода, модели без применения бинаризации, сети TinyML и методов Bi-Real Net и ABC-Net.

Ключевые слова: бинарные нейронные сети; сверточные нейронные сети; обнаружение объектов; ускорение модели

Формализованное описание статистической обработки информации в базах данных

  • В. В. Вакуленко  Федеральный исследовательский центр "Информатика и управление" Российской академии наук; vvak@pm.me
  • И. М. Зацман  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, izatsman@yandex.ru

Аннотация: Рассматривается последовательность этапов статистической обработки текстовой информации, начиная с конкретных информационных объектов (КИО) баз данных (БД) и заканчивая значениями числовых характеристик множеств этих объектов. Например, если в БД хранятся описания полнотекстовых научных статей, то они считаются КИО. При соответствующем наполнении такой БД многоэтапный процесс их обработки позволяет определить значения числовых характеристик публикационной активности исследователя, научного подразделения или научной организации в целом. Такие процессы начинаются с обработки КИО и завершаются вычислением значений характеристик множеств этих объектов. На промежуточных этапах обработки могут формироваться таблицы и другие вербально-числовые объекты. Если этапы статистической обработки спроектированы как обратимые и в БД реализована функция верификации значений числовых характеристик, то процесс их проверки начинается со значений характеристик и завершается доступом к КИО, которые были использованы для вычисления этих значений. Предлагается формализованное описание этапов статистической обработки текстовой информации в БД. Такую ее трансформацию в числовые значения предлагается назвать информационно-математической (ИМ-трансформация). Она сочетает обработку КИО, формирование вербально-числовых объектов и математические вычисления значений числовых характеристик. Такая трансформация текстовой ин-формации может на отдельных этапах включать математические преобразования, но в целом она к ним не сводится. Цель статьи - предложить принципы формализованного описания ИМ-трансформации текстов в БД. В качестве ее иллюстрации рассмотрен пример формализации процесса определения числа вариантов перевода коннекторов, выражающих внутритекстовые отношения между текстовыми фрагментами в надкорпусной БД (НБД) коннекторов, созданной в ФИЦ ИУ РАН.

Ключевые слова: информационно-математическая трансформация; текстовая информация; статистическая обработка текстовой информации; надкорпусная база данных

Критерии определения семантической близости дискурсивных отношений

  • О. Ю. Инькова  Федеральный исследовательский центр "Информатика и управление" Российской академии наук; Женевский университет, olyainkova@yandex.ru
  • М. Г. Кружков  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, magnit75@yandex.ru

Аннотация: Работа посвящена результатам разработки структурированных определений дискурсивных отношений на основе их классификации, а также критериям, позволяющим определить их семантическую близость. Авторы показывают недостатки существующих подходов, которые приводят к противоречивым или часто необоснованным результатам, а также раскрывают преимущества альтернативного решения: классификации дискурсивных отношений на основе их структурированных определений. Приводятся примеры таких определений, сформированных в Надкорпусной базе данных коннекторов (НБДК), атак- же критерии, позволяющие определить семантическую близость дискурсивных отношений. Поскольку структурированные определения представляют собой набор различительных признаков, авторы обсуждают проблему присвоения коэффициента близости каждому из признаков. Полученные данные, в том числе количественные, позволяют выдвинуть гипотезу, согласно которой из трех групп признаков: "Уровень", "Базовая операция" и "Семейство признаков" - наибольший вес имеет последняя. Предлагаются пути дальнейшего исследования этой проблемы, в частности с учетом таких факторов, как данные по сочетаемости дискурсивных отношений, по соответствиям дискурсивных отношений и их показателей в тексте оригинала и в тексте перевода, а также тех случаев, когда один показатель может выражать несколько дискурсивных отношений.

Ключевые слова: надкорпусная база данных; логико-семантические отношения; коннекторы; аннотирование; фасетная классификация

Трансформация иерархии Акоффа в научной парадигме информатики

  • И. М. Зацман  Федеральный исследовательский центр "Информатика и управление" Российской академии наук, izatsman@yandex.ru

Аннотация: Рассматривается иерархия DIKW (data, information, knowledge, wisdom - данные, информация, знания, мудрость), которая была опубликована в 1989 г. Расселом Акоффом. В ней мудрость находится на вершине иерархии, затем следуют знание, информация и, в самом низу, данные. Первоначально предполагалось, что иерархию DIKW можно будет использовать для описания отношений между ее четырьмя компонентами. Однако проблему описания взаимных преобразований двух соседних компонентов, особенно для знания и информации, оказалось весьма сложно решить в рамках иерархии DIKW. Сложность ее решения заключается в том, что иерархия DIKW подразумевает генерацию знания в результате процесса фильтрации соседней с ней информации, но средства реализации этого процесса не были определены Акоффом. Не удается также описать смысловую интерпретацию данных, так как они непосредственно не примыкают к знанию в иерархии DIKW, которая подразумевает наличие отношений только между соседними компонентами. Цель статьи состоит в трансформации иерархии DIKW в рамках научной парадигмы информатики, основанной на средовом делении ее предметной области на ментальную, информационную, цифровую и ряд других сред. В то время как Акофф использовал принцип вертикального размещения компонентов иерархии, в данной статье вместо этого предлагается соотнести используемые в информатике интерфейсы и знаковые системы с отношениями между тремя компонентами иерархии: данными, информацией и знанием. Если использовать принцип вертикального размещения не компонентов, а сред предметной области информатики, то тогда можно предложить подход крешению проблемы описания взаимных преобразований трех компонентов иерархии, сопоставив их с интерфейсами информатики и знаковыми системами. Такое сопоставление даст возможность увидеть те пары компонентов, для которых интерфейсы в настоящее время не формализованы, не имеют компьютерной реализации и выполняются экспертами. В статье приводится пример технологии извлечения знания, сочетающей автоматические и экспертные (неформализованные) технологические этапы.

Ключевые слова: : научная парадигма информатики; данные; информация; знание; иерархия DIKW; технологии извлечения знания