|
«Информатика и ее применения» (Том 7, Выпуск 3, 2013)
Оглавление | Библиография | Об авторах
Аннотации и ключевые слова.
ПОДХОД К АВТОМАТИЗИРОВАННОМУ КОНТРОЛЮ РАБОТЫ СИСТЕМЫ ИЗВЛЕЧЕНИЯ ДАННЫХ С ВЕБ-САЙТОВ.
- А.М. Андреев Московский государственный технический университет им. Н.Э. Баумана, arkandreev@gmail.com
- Д.В. Березкин Московский государственный технический университет им. Н.Э. Баумана, dmitryb2007@yandex.ru
- И.А. Козлов Московский государственный технический университет им. Н.Э. Баумана, kozlovilya89@gmail.com
- К. В. Симаков Московский государственный технический университет им. Н.Э. Баумана, skv@ixlab.ru
Аннотация: Системы извлечения данных с веб-сайтов используют информацию о разметке HTML-страниц. Для обеспечения бесперебойной работытаких систем необходимо решить проблему своевременного
обнаружения изменений структуры веб-сайтов. В статье предложен подход к решению этой проблемы,
предполагающий наличие двух этапов детектирования изменений верстки: оперативного и отложенного.
В основе первого из них лежит кластеризация, при этом HTML-документ рассматривается как вектор
некоторых характеристик. Второй этап основан на сравнении распределений этих характеристик для
эталонного и тестового наборов документов. Проведена экспериментальная оценка предложенного
подхода, демонстрирующая его практическую применимость.
Ключевые слова: сбор текстовой информации; парсинг веб-сайтов; кластеризация; статистический
анализ HTML-верстки
ПОСТРОЕНИЕ НОВОСТНОГО РЕКОМЕНДАТЕЛЬНОГО СЕРВИСА РЕАЛЬНОГО ВРЕМЕНИ С ИСПОЛЬЗОВАНИЕМ NoSQL СУБД.
- П.А. Клеменков Московский государственный университет им.М.В. Ломоносова, parser@cs.msu.su
Аннотация: Обсуждаются вопросы анализа взаимодействия пользователя с веб-приложением, методы
проведения подобного анализа и их недостатки. Приведена реализация новостного рекомендательного
сервиса с использованием существующих подходов. Описан новый подход к построению рекомендательных систем, работающих в режиме, близком к режиму реального времени, с использованием NoSQL (not
only structured query language) системы управления базами данных (СУБД).
Ключевые слова: рекомендательные системы; minhash; mapreduce; NoSQL
ВЕРИФИЦИРУЕМОЕ ОТОБРАЖЕНИЕ МОДЕЛИ ДАННЫХ,
ОСНОВАННОЙ НА МНОГОМЕРНЫХ МАССИВАХ, В ОБЪЕКТНУЮ МОДЕЛЬ ДАННЫХ.
- С.А. Ступников Институт проблем информатики Российской академии наук, ssa@ipi.ac.ru
Аннотация: Рассматривается отображение модели данных, основанной на многомерных массивах (ММ-
модели), в объектную модель данных. Изложены общие принципы отображения ММ-моделей в объектные модели данных. Рассмотрено отображение конкретной модели — Array Data Model (ADM),
использующейся в системе управления базами данных (СУБД) SciDB, в язык СИНТЕЗ, использующийся
в качестве канонической модели данных в технологии предметных посредников. Проиллюстрирован
метод верификации отображения — доказательства сохранения информации и семантики операций при
отображении. Верификация осуществляетсяпри помощиформального языка спецификаций AMN. Практической целью работы ставилось создание базы для виртуальной или материализованной интеграции
ресурсов, основанных на многомерных массивах.
Ключевые слова: многомерные массивы; объектная модель данных; отображение моделей данных;
интеграция баз данных
ИССЛЕДОВАНИЕ ГРАФА КАТЕГОРИЙ АНГЛИЙСКОЙ ВЕРСИИ ВИКИПЕДИИ.
- А.В.Шкотин Государственный геологический музей им. В.И. Вернадского Российской академии наук, отдел ГИС, ashkotin@acm.org
Аннотация: Википедия является выдающимся проектом по накоплению знаний как общего пользования,
так и различных областей специализации. Проверка качества этих знаний, особенно автоматическая,
чрезвычайно важна. В работе представлены результаты изучения строения английской версии ГКВ
(орграфа категориальных статей Википедии). Являясь по своей идее системой тем, он поддерживает
систематизацию знаний, и представляет интерес, из чего эта систематизация состоит и как она устроена.
Показано, что в графе есть неприемлемые логические нарушения, и обсуждаются организационные и
технические методы их устранения.
Ключевые слова: Википедия; орграф; связные компоненты; логический анализ
МЕТОДЫ АКТИВНОЙ АУТЕНТИФИКАЦИИ НА ОСНОВЕ АНАЛИЗА ДИНАМИКИ РАБОТЫ ПОЛЬЗОВАТЕЛЕЙ С КЛАВИАТУРОЙ.
- В.Ю. Каганов Московский государственный университет им. М.В. Ломоносова, факультет вычислительной математики и кибернетики,
vladhid@mlab.cs.msu.su
- А.К. Королёв Московский государственный университет им. М.В. Ломоносова, факультет вычислительной математики и кибернетики,
akorolev@mlab.cs.msu.su
- М.Н. Крылов Московский государственный университет им. М.В. Ломоносова, факультет вычислительной математики и кибернетики,
krylovm@mlab.cs.msu.su
- И. В.Машечкин Московский государственный университет им. М.В. Ломоносова, факультет вычислительной математики и кибернетики,
mash@cs.msu.su
- М.И. Петровский Московский государственный университет им. М.В. Ломоносова, факультет вычислительной математики и кибернетики,
michael@cs.msu.su
Аннотация: Проведен обзор некоторых эффективных методов аутентификации на основе поведенческих
моделей пользователей, построенных с использованием данных, полученных при анализе работы пользователя с клавиатурой. Также предложен новый подход к представлению собираемых данных, проведены
эксперименты с использованием этого представления и различных алгоритмов машинного обучения.
Ключевые слова: аутентификация; машинное обучение; деревья решений; клавиатура; потенциальные
функции; поведенческий анализ
ПРОБЛЕМЫ СЕТЕВОГО ДОСТУПА К НАУЧНЫМ ЖУРНАЛАМ.
- А.В. Глушановский Библиотека по естественным наукам Российской академии наук, avglush@benran.ru
- Н. Е. Калёнов Библиотека по естественным наукам Российской академии наук, nek@benran.ru
Аннотация: Рассматриваются проблемы организации сетевого доступа российских ученых к научным
журналам и базам данных. В соответствии с мировой практикой организацию такого доступа осуществляют научные библиотеки, объединяющиеся в консорциумы для получения выгодных финансовых
условий. Описывается существующая в России практика организации доступа к зарубежным научным
ресурсам через посредство Российского фонда фундаментальных исследований (РФФИ) и «Национального электронно-информационного консорциума» (НЭИКОН).Приведена статистика востребованности
пользователями Российской академии наук (РАН) научных журналов, предоставляемых через НЭИКОН.
Предложены организационные действия для решения задачи оптимизации доступа к коммерческим
сетевым научным ресурсам в условиях существующих в РАН финансовых ограничений.
Ключевые слова: научные журналы; информация; Интернет; удаленный доступ; библиотеки; консорциум
МОДЕЛИРОВАНИЕ СИСТЕМ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ СИНЕРГЕТИЧЕСКИМ ИСКУССТВЕННЫМ ИНТЕЛЛЕКТОМ.
- И.А. Кириков Калининградский филиал Института проблем информатики Российской академии наук, baltbipiran@mail.ru
- А.В. Колесников Калининградский филиал Института проблем информатики Российской академии наук, avkolesnikov@yandex.ru
- С.В. Листопад Калининградский филиал Института проблем информатики Российской академии наук, ser-list-post@yandex.ru
Аннотация: Рассматривается подход к моделированию коллективных эффектов систем поддержки принятия решений в рамках синергетической парадигмы искусственного интеллекта. Приведена модель и
функциональная структура гибридной интеллектуальной многоагентной системы (ГиИМАС) для моделирования систем поддержки принятия решений (СППР). Представлены результаты вычислительных
экспериментов, демонстрирующие положительное влияние эффекта самоорганизации на качество коллективных решений.
Ключевые слова: компьютерная система поддержки принятия решений; гибридная интеллектуальная
многоагентная система с самоорганизацией
СЕМАНТИКА АСПЕКТНО-ОРИЕНТИРОВАННОГО МОДЕЛИРОВАНИЯ ДАННЫХ И ПРОЦЕССОВ.
- С.П. Ковалёв Институт проблем управления им. В.А. Трапезникова Российской академии наук, kovalyov@nm.ru
Аннотация: Предложен подход к унификации технологий аспектно-ориентированного программирования (АОП) на семантическом уровне путем формализации основных понятий АОП средствами теории
категорий. Технология АОП описывается категорией аспектно-ориентированных моделей программ
(АО-моделей) и их системных взаимосвязей, снабженной функтором выделения аспектной структуры
(разметки моделей классами задач). Связывание аспектно-ориентированных программ формализуется
универсальной конструкцией в этой категории. Построеныи проанализированыформальные технологии
АОП, применение которых позволяет снижать затраты на моделирование данных и сценариев исполнения процессов. Строго сформулировано и обосновано условие существования связывания для сценарных
моделей программных систем.
Ключевые слова: аспектно-ориентированное программирование; теория категорий; аспектное связыва-
ние
КОГНИТИВНАЯ ИНТЕРОПЕРАБЕЛЬНОСТЬ ЭКСПЕРТНОГО ВЗАИМОДЕЙСТВИЯ В ЗАДАЧЕ ОБРАБОТКИ
РУССКО-ФРАНЦУЗСКИХ ПАРАЛЛЕЛЬНЫХ ТЕКСТОВ: ЛИНГВОКОГНИТИВНЫЕ АСПЕКТЫ.
- О.С. Кожунова Институт проблем информатики Российской академии наук, kozhunovka@mail.ru
Аннотация: Обсуждаются ресурсы информационно-коммуникационных технологий (ИКТ) «Пополняемая база лингвистических данных по трудностям перевода» и «Специальный тезаурус русско-французских параллельных текстов», которые находятся на стадии проектирования и будут разработаны
одновременно с созданием параллельного корпуса русско-французских художественных текстов. Помимо их функциональности рассматриваются лингвокогнитивные аспекты взаимодействия экспертов
различных областей, решающих задачу обработки русско-французских параллельных текстов совместными усилиями.
Ключевые слова: когнитивная интероперабельность; задача обработки естественного языка; русско-
французские параллельные тексты
РАЗРАБОТКА ИМИТАЦИОННОЙ МОДЕЛИ СБОРА И ОБРАБОТКИ
ДАННЫХ ЭКСПЕРИМЕНТОВ НА УСКОРИТЕЛЬНОМ КОМПЛЕКСЕ НИКА.
- В.В. Кореньков Объединенный институт ядерных исследований, korenkov@cv.jinr.ru
- А.В. Нечаевский Объединенный институт ядерных исследований, Andrey.Nechaevskiy@gmail.com
- В.В. Трофимов Объединенный институт ядерных исследований, trofimov@jinr.ru
Аннотация: В работе обоснована необходимость создания имитационной модели системы хранения
и обработки данных ускорительного комплекса НИКА. В качестве платформы для создания модели
выбрана система GridSim. В работе описан подход к моделированию системы хранения данных dCache и
каналов передачи. На простом примере показаны возможности использования модели.
Ключевые слова: грид-технологии; грид-инфраструктуры; система хранения данных; оптимизация;
моделирование; исследование; разработки; dCache; Tier1; НИКА; грид
ОЦЕНКИ СКОРОСТИ СХОДИМОСТИ РАСПРЕДЕЛЕНИЙ НЕКОТОРЫХ СЛУЧАЙНЫХ СУММ К УСТОЙЧИВЫМ ЗАКОНАМ.
- В.Ю. Королев Факультет вычислительной математики и кибернетики Московского государственного университета им. М.В. Ломоносова;
Институт проблем информатики РАН, vkorolev@cs.msu.su
- Л.М. Закс Альфа-банк, отдел моделирования и математической статистики, lily.zaks@gmail.com
Аннотация: Приведены оценки скорости сходимости распределений специальных сумм случайного числа
независимых одинаково распределенных случайных величин с конечными дисперсиями к симметричным
строго устойчивым законам. Предполагается, что случайный индекс имеет смешанное пуассоновское
распределение, в которомсмешивающее распределение является устойчивым законом, сосредоточенным
на положительной полуоси. Абсолютные константы выписаны в явном виде.
Ключевые слова: устойчивое распределение; неравенство Берри–Эссеена; случайная сумма; дважды
стохастический пуассоновский процесс (процесс Кокса); смешанное пуассоновское распределение
УНИВЕРСАЛЬНЫЙ МЕТРИЧЕСКИЙ ТЕЗАУРУС РУССКОГО ЯЗЫКА.
- Л.А. Кузнецов Российская академия народного хозяйства и государственной службы при Президенте РФ (Липецкий филиал),
kuznetsov.leonid48@gmail.com
- В.Ф. Кузнецова Российская академия народного хозяйства и государственной службы при Президенте РФ (Липецкий филиал),
kuznetsov.leonid48@gmail.com
- А.В. Капнин Липецкий государственный технический университет, gert@inbox.ru
Аннотация: Известные тезаурусы русского языка составлены группами экспертов. В статье предлагается
вариант разработки инструментов для автоматизированногоформирования тезауруса на основе формального представления текстов, поясняющих семантику слов, и количественной оценки семантического
расстояния между словами как меры их близости. Предлагаемые решения позволяют ориентироваться
на формально-математические представления, минимизирующие элемент субъективности в оценке близости слов. Они открывают возможность синтеза автоматических систем оценки семантической близости
слов и решения иных задач в области обработки текстов.
Ключевые слова: компьютерная лингвистика; универсальный тезаурус; метрический тезаурус; семантическая оценка близости; семантическое расстояние; теория информации
АППРОКСИМАЦИЯ МНОГОМЕРНЫХ ЗАВИСИМОСТЕЙ НА ОСНОВЕ РАЗЛОЖЕНИЯ ПО СЛОВАРЮ ПАРАМЕТРИЧЕСКИХ ФУНКЦИЙ.
- М. Г. Беляев Институт проблем передачи информации РАН,Московский физико-технический институт
(государственный университет); ООО Датадванс, belyaev@iitp.ru
- Е. В. Бурнаев Институт проблем передачи информации РАН,Московский физико-технический институт
(государственный университет); ООО Датадванс, burnaev@iitp.ru
Аннотация: Рассматривается задача аппроксимации многомерной зависимости по конечному множеству
пар «точка»–«значение функции в точке». Для решения этой задачи используется модель зависимости,
представляющая собой разложение по словарю нелинейных параметрических функций. Построение
аппроксимации, основанной на этой модели, может быть разбито на несколько подзадач: выделение
валидационной подвыборки, инициализация параметров функций словаря, последующая настройка
параметров функций словаря. Предложены эффективные методы решения этих подзадач. Описанный
подход демонстрирует высокое качество работы на ряде задач инженерного проектирования и успешно
применяется в реальных приложениях.
Ключевые слова: нелинейная аппроксимация; словарь параметрических функций
|
|