Институт проблем информатики Российской Академии наук
Институт проблем информатики Российской Академии наук
Российская Академия наук

Институт проблем информатики Российской Академии наук




«Информатика и ее применения» (Том 7, Выпуск 3, 2013)

Оглавление | Библиография | Об авторах

Аннотации и ключевые слова.

ПОДХОД К АВТОМАТИЗИРОВАННОМУ КОНТРОЛЮ РАБОТЫ СИСТЕМЫ ИЗВЛЕЧЕНИЯ ДАННЫХ С ВЕБ-САЙТОВ.

  • А.М. Андреев  Московский государственный технический университет им. Н.Э. Баумана, arkandreev@gmail.com
  • Д.В. Березкин  Московский государственный технический университет им. Н.Э. Баумана, dmitryb2007@yandex.ru
  • И.А. Козлов  Московский государственный технический университет им. Н.Э. Баумана, kozlovilya89@gmail.com
  • К. В. Симаков  Московский государственный технический университет им. Н.Э. Баумана, skv@ixlab.ru

Аннотация: Системы извлечения данных с веб-сайтов используют информацию о разметке HTML-страниц. Для обеспечения бесперебойной работытаких систем необходимо решить проблему своевременного обнаружения изменений структуры веб-сайтов. В статье предложен подход к решению этой проблемы, предполагающий наличие двух этапов детектирования изменений верстки: оперативного и отложенного. В основе первого из них лежит кластеризация, при этом HTML-документ рассматривается как вектор некоторых характеристик. Второй этап основан на сравнении распределений этих характеристик для эталонного и тестового наборов документов. Проведена экспериментальная оценка предложенного подхода, демонстрирующая его практическую применимость.

Ключевые слова:  сбор текстовой информации; парсинг веб-сайтов; кластеризация; статистический анализ HTML-верстки

ПОСТРОЕНИЕ НОВОСТНОГО РЕКОМЕНДАТЕЛЬНОГО СЕРВИСА РЕАЛЬНОГО ВРЕМЕНИ С ИСПОЛЬЗОВАНИЕМ NoSQL СУБД.

  • П.А. Клеменков  Московский государственный университет им.М.В. Ломоносова, parser@cs.msu.su

Аннотация: Обсуждаются вопросы анализа взаимодействия пользователя с веб-приложением, методы проведения подобного анализа и их недостатки. Приведена реализация новостного рекомендательного сервиса с использованием существующих подходов. Описан новый подход к построению рекомендательных систем, работающих в режиме, близком к режиму реального времени, с использованием NoSQL (not only structured query language) системы управления базами данных (СУБД).

Ключевые слова:  рекомендательные системы; minhash; mapreduce; NoSQL

ВЕРИФИЦИРУЕМОЕ ОТОБРАЖЕНИЕ МОДЕЛИ ДАННЫХ, ОСНОВАННОЙ НА МНОГОМЕРНЫХ МАССИВАХ, В ОБЪЕКТНУЮ МОДЕЛЬ ДАННЫХ.

  • С.А. Ступников  Институт проблем информатики Российской академии наук, ssa@ipi.ac.ru

Аннотация: Рассматривается отображение модели данных, основанной на многомерных массивах (ММ- модели), в объектную модель данных. Изложены общие принципы отображения ММ-моделей в объектные модели данных. Рассмотрено отображение конкретной модели — Array Data Model (ADM), использующейся в системе управления базами данных (СУБД) SciDB, в язык СИНТЕЗ, использующийся в качестве канонической модели данных в технологии предметных посредников. Проиллюстрирован метод верификации отображения — доказательства сохранения информации и семантики операций при отображении. Верификация осуществляетсяпри помощиформального языка спецификаций AMN. Практической целью работы ставилось создание базы для виртуальной или материализованной интеграции ресурсов, основанных на многомерных массивах.

Ключевые слова:  многомерные массивы; объектная модель данных; отображение моделей данных; интеграция баз данных

ИССЛЕДОВАНИЕ ГРАФА КАТЕГОРИЙ АНГЛИЙСКОЙ ВЕРСИИ ВИКИПЕДИИ.

  • А.В.Шкотин  Государственный геологический музей им. В.И. Вернадского Российской академии наук, отдел ГИС, ashkotin@acm.org

Аннотация: Википедия является выдающимся проектом по накоплению знаний как общего пользования, так и различных областей специализации. Проверка качества этих знаний, особенно автоматическая, чрезвычайно важна. В работе представлены результаты изучения строения английской версии ГКВ (орграфа категориальных статей Википедии). Являясь по своей идее системой тем, он поддерживает систематизацию знаний, и представляет интерес, из чего эта систематизация состоит и как она устроена. Показано, что в графе есть неприемлемые логические нарушения, и обсуждаются организационные и технические методы их устранения.

Ключевые слова:  Википедия; орграф; связные компоненты; логический анализ

МЕТОДЫ АКТИВНОЙ АУТЕНТИФИКАЦИИ НА ОСНОВЕ АНАЛИЗА ДИНАМИКИ РАБОТЫ ПОЛЬЗОВАТЕЛЕЙ С КЛАВИАТУРОЙ.

  • В.Ю. Каганов  Московский государственный университет им. М.В. Ломоносова, факультет вычислительной математики и кибернетики, vladhid@mlab.cs.msu.su
  • А.К. Королёв  Московский государственный университет им. М.В. Ломоносова, факультет вычислительной математики и кибернетики, akorolev@mlab.cs.msu.su
  • М.Н. Крылов  Московский государственный университет им. М.В. Ломоносова, факультет вычислительной математики и кибернетики, krylovm@mlab.cs.msu.su
  • И. В.Машечкин  Московский государственный университет им. М.В. Ломоносова, факультет вычислительной математики и кибернетики, mash@cs.msu.su
  • М.И. Петровский   Московский государственный университет им. М.В. Ломоносова, факультет вычислительной математики и кибернетики, michael@cs.msu.su

Аннотация: Проведен обзор некоторых эффективных методов аутентификации на основе поведенческих моделей пользователей, построенных с использованием данных, полученных при анализе работы пользователя с клавиатурой. Также предложен новый подход к представлению собираемых данных, проведены эксперименты с использованием этого представления и различных алгоритмов машинного обучения.

Ключевые слова:  аутентификация; машинное обучение; деревья решений; клавиатура; потенциальные функции; поведенческий анализ

ПРОБЛЕМЫ СЕТЕВОГО ДОСТУПА К НАУЧНЫМ ЖУРНАЛАМ.

  • А.В. Глушановский  Библиотека по естественным наукам Российской академии наук, avglush@benran.ru
  • Н. Е. Калёнов   Библиотека по естественным наукам Российской академии наук, nek@benran.ru

Аннотация: Рассматриваются проблемы организации сетевого доступа российских ученых к научным журналам и базам данных. В соответствии с мировой практикой организацию такого доступа осуществляют научные библиотеки, объединяющиеся в консорциумы для получения выгодных финансовых условий. Описывается существующая в России практика организации доступа к зарубежным научным ресурсам через посредство Российского фонда фундаментальных исследований (РФФИ) и «Национального электронно-информационного консорциума» (НЭИКОН).Приведена статистика востребованности пользователями Российской академии наук (РАН) научных журналов, предоставляемых через НЭИКОН. Предложены организационные действия для решения задачи оптимизации доступа к коммерческим сетевым научным ресурсам в условиях существующих в РАН финансовых ограничений.

Ключевые слова:  научные журналы; информация; Интернет; удаленный доступ; библиотеки; консорциум

МОДЕЛИРОВАНИЕ СИСТЕМ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ СИНЕРГЕТИЧЕСКИМ ИСКУССТВЕННЫМ ИНТЕЛЛЕКТОМ.

  • И.А. Кириков  Калининградский филиал Института проблем информатики Российской академии наук, baltbipiran@mail.ru
  • А.В. Колесников  Калининградский филиал Института проблем информатики Российской академии наук, avkolesnikov@yandex.ru
  • С.В. Листопад   Калининградский филиал Института проблем информатики Российской академии наук, ser-list-post@yandex.ru

Аннотация: Рассматривается подход к моделированию коллективных эффектов систем поддержки принятия решений в рамках синергетической парадигмы искусственного интеллекта. Приведена модель и функциональная структура гибридной интеллектуальной многоагентной системы (ГиИМАС) для моделирования систем поддержки принятия решений (СППР). Представлены результаты вычислительных экспериментов, демонстрирующие положительное влияние эффекта самоорганизации на качество коллективных решений.

Ключевые слова:  компьютерная система поддержки принятия решений; гибридная интеллектуальная многоагентная система с самоорганизацией

СЕМАНТИКА АСПЕКТНО-ОРИЕНТИРОВАННОГО МОДЕЛИРОВАНИЯ ДАННЫХ И ПРОЦЕССОВ.

  • С.П. Ковалёв  Институт проблем управления им. В.А. Трапезникова Российской академии наук, kovalyov@nm.ru

Аннотация: Предложен подход к унификации технологий аспектно-ориентированного программирования (АОП) на семантическом уровне путем формализации основных понятий АОП средствами теории категорий. Технология АОП описывается категорией аспектно-ориентированных моделей программ (АО-моделей) и их системных взаимосвязей, снабженной функтором выделения аспектной структуры (разметки моделей классами задач). Связывание аспектно-ориентированных программ формализуется универсальной конструкцией в этой категории. Построеныи проанализированыформальные технологии АОП, применение которых позволяет снижать затраты на моделирование данных и сценариев исполнения процессов. Строго сформулировано и обосновано условие существования связывания для сценарных моделей программных систем.

Ключевые слова:  аспектно-ориентированное программирование; теория категорий; аспектное связыва- ние

КОГНИТИВНАЯ ИНТЕРОПЕРАБЕЛЬНОСТЬ ЭКСПЕРТНОГО ВЗАИМОДЕЙСТВИЯ В ЗАДАЧЕ ОБРАБОТКИ РУССКО-ФРАНЦУЗСКИХ ПАРАЛЛЕЛЬНЫХ ТЕКСТОВ: ЛИНГВОКОГНИТИВНЫЕ АСПЕКТЫ.

  • О.С. Кожунова  Институт проблем информатики Российской академии наук, kozhunovka@mail.ru

Аннотация: Обсуждаются ресурсы информационно-коммуникационных технологий (ИКТ) «Пополняемая база лингвистических данных по трудностям перевода» и «Специальный тезаурус русско-французских параллельных текстов», которые находятся на стадии проектирования и будут разработаны одновременно с созданием параллельного корпуса русско-французских художественных текстов. Помимо их функциональности рассматриваются лингвокогнитивные аспекты взаимодействия экспертов различных областей, решающих задачу обработки русско-французских параллельных текстов совместными усилиями.

Ключевые слова:  когнитивная интероперабельность; задача обработки естественного языка; русско- французские параллельные тексты

РАЗРАБОТКА ИМИТАЦИОННОЙ МОДЕЛИ СБОРА И ОБРАБОТКИ ДАННЫХ ЭКСПЕРИМЕНТОВ НА УСКОРИТЕЛЬНОМ КОМПЛЕКСЕ НИКА.

  • В.В. Кореньков  Объединенный институт ядерных исследований, korenkov@cv.jinr.ru
  • А.В. Нечаевский  Объединенный институт ядерных исследований, Andrey.Nechaevskiy@gmail.com
  • В.В. Трофимов   Объединенный институт ядерных исследований, trofimov@jinr.ru

Аннотация: В работе обоснована необходимость создания имитационной модели системы хранения и обработки данных ускорительного комплекса НИКА. В качестве платформы для создания модели выбрана система GridSim. В работе описан подход к моделированию системы хранения данных dCache и каналов передачи. На простом примере показаны возможности использования модели.

Ключевые слова:  грид-технологии; грид-инфраструктуры; система хранения данных; оптимизация; моделирование; исследование; разработки; dCache; Tier1; НИКА; грид

ОЦЕНКИ СКОРОСТИ СХОДИМОСТИ РАСПРЕДЕЛЕНИЙ НЕКОТОРЫХ СЛУЧАЙНЫХ СУММ К УСТОЙЧИВЫМ ЗАКОНАМ.

  • В.Ю. Королев  Факультет вычислительной математики и кибернетики Московского государственного университета им. М.В. Ломоносова; Институт проблем информатики РАН, vkorolev@cs.msu.su
  • Л.М. Закс  Альфа-банк, отдел моделирования и математической статистики, lily.zaks@gmail.com

Аннотация: Приведены оценки скорости сходимости распределений специальных сумм случайного числа независимых одинаково распределенных случайных величин с конечными дисперсиями к симметричным строго устойчивым законам. Предполагается, что случайный индекс имеет смешанное пуассоновское распределение, в которомсмешивающее распределение является устойчивым законом, сосредоточенным на положительной полуоси. Абсолютные константы выписаны в явном виде.

Ключевые слова:  устойчивое распределение; неравенство Берри–Эссеена; случайная сумма; дважды стохастический пуассоновский процесс (процесс Кокса); смешанное пуассоновское распределение

УНИВЕРСАЛЬНЫЙ МЕТРИЧЕСКИЙ ТЕЗАУРУС РУССКОГО ЯЗЫКА.

  • Л.А. Кузнецов  Российская академия народного хозяйства и государственной службы при Президенте РФ (Липецкий филиал), kuznetsov.leonid48@gmail.com
  • В.Ф. Кузнецова  Российская академия народного хозяйства и государственной службы при Президенте РФ (Липецкий филиал), kuznetsov.leonid48@gmail.com
  • А.В. Капнин   Липецкий государственный технический университет, gert@inbox.ru

Аннотация: Известные тезаурусы русского языка составлены группами экспертов. В статье предлагается вариант разработки инструментов для автоматизированногоформирования тезауруса на основе формального представления текстов, поясняющих семантику слов, и количественной оценки семантического расстояния между словами как меры их близости. Предлагаемые решения позволяют ориентироваться на формально-математические представления, минимизирующие элемент субъективности в оценке близости слов. Они открывают возможность синтеза автоматических систем оценки семантической близости слов и решения иных задач в области обработки текстов.

Ключевые слова:  компьютерная лингвистика; универсальный тезаурус; метрический тезаурус; семантическая оценка близости; семантическое расстояние; теория информации

АППРОКСИМАЦИЯ МНОГОМЕРНЫХ ЗАВИСИМОСТЕЙ НА ОСНОВЕ РАЗЛОЖЕНИЯ ПО СЛОВАРЮ ПАРАМЕТРИЧЕСКИХ ФУНКЦИЙ.

  • М. Г. Беляев  Институт проблем передачи информации РАН,Московский физико-технический институт (государственный университет); ООО Датадванс, belyaev@iitp.ru
  • Е. В. Бурнаев   Институт проблем передачи информации РАН,Московский физико-технический институт (государственный университет); ООО Датадванс, burnaev@iitp.ru

Аннотация: Рассматривается задача аппроксимации многомерной зависимости по конечному множеству пар «точка»–«значение функции в точке». Для решения этой задачи используется модель зависимости, представляющая собой разложение по словарю нелинейных параметрических функций. Построение аппроксимации, основанной на этой модели, может быть разбито на несколько подзадач: выделение валидационной подвыборки, инициализация параметров функций словаря, последующая настройка параметров функций словаря. Предложены эффективные методы решения этих подзадач. Описанный подход демонстрирует высокое качество работы на ряде задач инженерного проектирования и успешно применяется в реальных приложениях.

Ключевые слова:  нелинейная аппроксимация; словарь параметрических функций