Завершение деятельности группы “Сравнительные рейтинговые исследования”
Здравствуйте, уважаемые читатели данного блога!
На данный момент, группа “Сравнительных рейтинговых исследований” объявляет о завершении своей деятельности. Период создания и функционирования данной группы выдался достаточно плодотворным и насыщенным. Участники данной группы планируют в дальнейшем придать развитие данному проекту. Вместо многих слов, автор данной рубрики, с позволения участников ПУГ, публикует их отзывы.
Что в работе ПУГ оказало на Вас наибольшее влияние? Почему?
“Высокий профессионализм руководителя ПУГ, а также других участников проекта помогли приобрести новые практические знания и навыки, которые не всегда возможно получить в рамках программы ВУЗа”
“Свобода действий”
” Командная работа, совместное обсуждение аспектов работы и планов”
Если у Вас есть планы, связанные с продолжением проекта ПУГ, опишите их
” Мне кажется, желательно обобщение методов и данных, к которым применимо найденное решение сопоставления рейтинговых шкал. Возможность объяснять различия в рейтинговых оценках посредством анализа. Создание интерактивной системы, взаимодействующей с пользователем”
” Хотелось бы расширить данную методологию для массового использования различными финансовыми участниками”
Что бы Вы еще хотели добавить?
” Участие в подобных проектах позволяет не только получить новый опыт, но и реализовать свои навыки на практике, раскрыть свой потенциал, что является очень ценным для студентов”
Текущие задачи CrowDM: статистический анализ
Одной из задач, поставленных в рамках работы проектно-учебной группы CrowDM, является базовый статистический анализ данных одного из проектов краудсорсинговой платформы Witology. Этой частью исследований в надежде найти интересные закономерности занималась Анастасия Беззубцева.
текущие задачи CrowDM: разработка рекомендательных систем
Одним из главных направлений работы группы CrowDM занимается Андрей Константинов. Он пишет диссертацию о рекомендательных системах и предложил несколько оригинальных идей для анализа и развития форума краудсорсинговой платформы Witology.
Результаты исследования рынка дополнительных образовательных услуг города Выкса (ПУГ «Партнёрство между органами власти, образовательными учреждениями и бизнесом в образовании: создание ресурсного центра ВШЭ»)
30 марта 2012 года участники ПУГ «Партнёрство между органами власти, образовательными учреждениями и бизнесом в образовании: создание ресурсного центра ВШЭ» встретились в здании НИУ ВШЭ – НН на Б. Печерской для обсуждения результатов иследования рынка дополнительных образовательных услуг города Выкса. О востребованности ресурсного центра ВШЭ в Выксе говорили Светлана Завалина и Сергей Черенок, представители управленческого блока группы. Под руководством Зороастровой Ирины Владимировны, старшего преподавателя каф. экономической теории и эконометрики НИУ ВШЭ – НН, они подготовили выводы по результатам интервью жителей города Выкса, проведенного в конце февраля (подробнее см. “Поездка в Выксу…”).
Семинар по экономическому обеспечению деятельности ПУГ «Партнёрство между органами власти, образовательными учреждениями и бизнесом в образовании: создание ресурсного центра ВШЭ»
19 марта 2012 года участники ПУГ «Партнёрство между органами власти, образовательными учреждениями и бизнесом в образовании: создание ресурсного центра ВШЭ» встретились в рамках рабочей встречи. На семинаре представители экономического блока презентовали присутствующим результаты SWOT-анализа модели создания ресурсного центра в форме некоммерческой организации.
Образ ресурсного центра ВШЭ в проекте “Партнёрство между органами власти, образовательными учреждениями и бизнесом в образовании: создание ресурсного центра ВШЭ”
14 марта 2012 года состоялась очередная встреча участников ПУГ «Партнёрство между органами власти, образовательными учреждениями и бизнесом в образовании: создание ресурсного центра ВШЭ». В рамках встречи участники обсудили особенности образа ресурсного центра, его цели и задачи, административную структуру, а также потенциально перспективные виды деятельности, на которых он мог бы специализироваться.
Текущие задачи CrowDM: статистический анализ
Одной из задач, поставленных в рамках работы проектно-учебной группы CrowDM, является базовый статистический анализ данных одного из проектов краудсорсинговой платформы Witology. Этой частью исследований в надежде найти интересные закономерности занималась Анастасия Беззубцева.
Для начала, чтобы яснее увидеть общую картину происходящего, Анастасия изобразила активность участников (создание идей, их комментирование и оценивание) в виде точечных диаграмм. Ниже приведен один из графиков (по оси абсцисс указано количество оценок, по оси ординат – число участников, поставивших соответствующее количество оценок) в логарифмических шкалах (для удобства восприятия).
Рис. 1. Оценивание
Прочие графики не сильно уступали приведенному в хаотичности, поэтому было решено изменить подход к визуализации. Во-первых, данные были категоризованы (число бинов вычислялось по формуле Штюргеса http://en.wikipedia.org/wiki/Histogram или определялось эвристически) и изображены в виде гистограмм (напр., рис. 2). Во-вторых, были построены кумулятивные точечные диаграммы. Ось ординат такой диаграммы показывает число пользователей, создавших больше количества идей, комментариев или оценок, указанного на оси абсцисс (рис. 3). Так, больше одной оценки поставили 167 участников – на рис. 1 это сумма всех значений по вертикальной оси, соответствующих диапазону оценок от 2 до 5020, а на рис. 3 этот факт отражает крайняя левая точка.
Рис. 2. Генерация идей (гистограмма с бинированием)
Рис. 3. Оценивание (кумулятивная диаграмма)
Форма гистограмм и диаграмм обнадеживает: распределение числа идей напоминает правую часть нормального, а на кумулятивном графике числа оценок в логарифмических шкалах и достаточно четко видны две прямые с разным наклоном, что дает повод выдвинуть гипотезу о степенном характере распределения каждой части (см. рис. 4).
Рис. 4. Пример данных, распределенных по Парето, в обычной и логарифмической шкалах. По оси абсцисс – население городов США, по оси ординат – процент городов с таким населением ((M.E.J. Newman, Power laws, Pareto distributions and Zipf’s law, , Contemporary Physics 46, 323–351, 2005)
Почему так важно установление характера распределения активности пользователей? Дело в том, что сейчас достаточно хорошо исследованы сетевые сообщества и установлено, что многие из них следуют такому фундаментальному закону природу как степенной, так же называемый законом Парето и известный в экономике в следующей упрощенной формулировке: «20 процентов людей обладают 80 процентами всего богатства». В информатике текстов этот закон известен под именем закона Ципфа. Обладая знанием характера распределения можно получить выгоды от использования тех или иных методов анализа данных. Например, графы, с распределением степеней вершин по Парето сложнее кластеризовать общими методами, но проще с помощью алгоритмов кластеризации с жадной стратегией покрытия.
Итак, впереди проверка стандартных параметрические тестов на соответствие данных теоретическим функциям распределения. Предстоит также интересная работа по составлению типологии активности участников краудсорсинговой платформы исходя из наличия в ней определенных законов. Особенно полезными выводы могут оказаться при анализе других проектов платформы, например, для предсказания нормального поведения участников и выявления аномального развития событий.
Одной из задач, поставленных в рамках работы проектно-учебной группы CrowDM, является базовый статистический анализ данных одного из проектов краудсорсинговой платформы Witology. Этой частью исследований в надежде найти интересные закономерности занималась Анастасия Беззубцева.
Для начала, чтобы яснее увидеть общую картину происходящего, Анастасия изобразила активность участников (создание идей, их комментирование и оценивание) в виде точечных диаграмм. Ниже приведен один из графиков (по оси абсцисс указано количество оценок, по оси ординат – число участников, поставивших соответствующее количество оценок) в логарифмических шкалах (для удобства восприятия).
Рис. 1. Оценивание
Прочие графики не сильно уступали приведенному в хаотичности, поэтому было решено изменить подход к визуализации. Во-первых, данные были категоризованы (число бинов вычислялось по формуле Штюргеса http://en.wikipedia.org/wiki/Histogram или определялось эвристически) и изображены в виде гистограмм (напр., рис. 2). Во-вторых, были построены кумулятивные точечные диаграммы. Ось ординат такой диаграммы показывает число пользователей, создавших больше количества идей, комментариев или оценок, указанного на оси абсцисс (рис. 3). Так, больше одной оценки поставили 167 участников – на рис. 1 это сумма всех значений по вертикальной оси, соответствующих диапазону оценок от 2 до 5020, а на рис. 3 этот факт отражает крайняя левая точка.
Рис. 2. Генерация идей (гистограмма с бинированием)
Рис. 3. Оценивание (кумулятивная диаграмма)
Форма гистограмм и диаграмм обнадеживает: распределение числа идей напоминает правую часть нормального, а на кумулятивном графике числа оценок в логарифмических шкалах и достаточно четко видны две прямые с разным наклоном, что дает повод выдвинуть гипотезу о степенном характере распределения каждой части (см. рис. 4).
Рис. 4. Пример данных, распределенных по Парето, в обычной и логарифмической шкалах. По оси абсцисс – население городов США, по оси ординат – процент городов с таким населением ((M.E.J. Newman, Power laws, Pareto distributions and Zipf’s law, , Contemporary Physics 46, 323–351, 2005)
Почему так важно установление характера распределения активности пользователей? Дело в том, что сейчас достаточно хорошо исследованы сетевые сообщества и установлено, что многие из них следуют такому фундаментальному закону природу как степенной, так же называемый законом Парето и известный в экономике в следующей упрощенной формулировке: «20 процентов людей обладают 80 процентами всего богатства». В информатике текстов этот закон известен под именем закона Ципфа. Обладая знанием характера распределения можно получить выгоды от использования тех или иных методов анализа данных. Например, графы, с распределением степеней вершин по Парето сложнее кластеризовать общими методами, но проще с помощью алгоритмов кластеризации с жадной стратегией покрытия.
Итак, впереди проверка стандартных параметрические тестов на соответствие данных теоретическим функциям распределения. Предстоит также интересная работа по составлению типологии активности участников краудсорсинговой платформы исходя из наличия в ней определенных законов. Особенно полезными выводы могут оказаться при анализе других проектов платформы, например, для предсказания нормального поведения участников и выявления аномального развития событий.
Автор текста: Анастасия Беззубцева
Текущие задачи CrowDM: выделение ключевых слов и словосочетаний
Как мы уже писали, тексты Интернет-форума краудсорсинговых систем Witology – один из основных объектов анализа. В первую очередь нас интересуют ключевые слова и словосочетания, то есть значимые слова и словосочетания, отражающие стилистическую или тематическую специфику текста. Решением задачи выделения ключевых слов и словосочетаний, а также программированием разработанных методов в нашем проекте занимается Екатерина Черняк, а помогает ей в этом Даниил Недумов.
Ключевые слова и словосочетания интересны сами по себе, хотя и предназначены для последующего анализа. Часто говорят, что они являются сжатой формой представления текста. Так, например, если мы рассматриваем тексты одного участника форума, ключевыми для него могут оказаться как специфические термины, которыми пользуется только он (или ограниченное количество участников форума), так и оригинальные формы приветствия. Форумы Witology имеют конкретную направленность (обсуждается проект одной тематики – банковской, страховой, образовательной и т.п.), поэтому для всего форума целиком целесообразно считать ключевыми именно термины и другие слова, соответствующие тематической специфике. Следовательно, на первых этапах анализа перед нами стоят две задачи: 1) выделение ключевых слов и словосочетаний на всем форуме; 2) выделение ключевых слов и словосочетаний одного пользователя. Несмотря на то, что формулировки задач похожи, мы решаем их разными способами.
Первая задача решается в два этапа. На первом этапе мы находим ключевые слова, то есть слова, которые часто встречаются во всех текстах форума и удовлетворяют определенным условиям, например, являются существительными или глаголами. На втором этапе мы выделяем ключевые словосочетания, то есть цепочки слов, связанные тем или иным способом. В качестве критерия оценки силы связанности слов можно использовать разные статистические меры сочетаемости. Эти меры показывают, насколько неслучайно событие вида «слово A и слово B оказались рядом». Например, словосочетание «сберегательная касса» – неслучайно и полезно, а «другая идея» – скорее случайно, чем нет. К синтаксическим мерам связности относятся меры Pointwise Mutual Information, T-Score, хи-квадрат и т.д.. Подробнее о них можно узнать во многих открытых источниках, таких как Википедия, или учебниках по информационному поиску (см., например, http://nlp.stanford.edu/IR-book/information-retrieval-book.html). Также можно пользоваться синтаксическими фильтрами: задавать типы интересных для нас словосочетаний (например, прилагательное+существительное), а потом оценивать неслучайность всех отобранных словосочетаний.
Вторая задача в некотором смысле проще. Требуется найти уникальные и характерные слова и словосочетания для одного пользователя. Для этого мы оцениваем контрастность слов и словосочетаний пользователя, то есть, смотрим, как отличается встречаемость (частота) слов и словосочетаний в его текстах от их встречаемости на всем форуме. Мы пользуемся двумя мерами контрастности, TF-IDF и Mutual Information, так же широко известными, как и вышеописанные меры. Эти меры устроены так, что нет необходимости проводить различия между словами или словосочетаниям и в этом случае, мы оперируем с ними одинаково.
Заметим, что вторую задачу мы можем решать не только для пользователя, но и для отдельной темы форума или идеи (говоря на профессиональном языке Witology), группы пользователей или временного периода.
Общая схема задачи выделения ключевых слов и словосочетаний выглядит так:
1. разбиваем текст на слова
2. формируем списки кандидатов к ключевые слова и словосочетания (единичные слова, последовательные пары и тройки слов)
3. применяем синтаксические фильтры
4. в зависимости от поставленной задачи, рассчитываем некоторую меру (меры) для кандидатов в ключевые слова и словосочетания
5. отбираем такие ключевые слова и словосочетания, для которых значение меры максимально (например, топ-5, топ-10 или топ-100 ключевых слов и словосочетаний)
6. на основе экспертной проверки формируем окончательный список ключевых слов и словосочетаний.
Эта схема может показаться элементарной. Действительно, ничего оригинального в ней нет, однако с технической точки зрения, реализация схемы довольно сложна. Любой из шагов (особенно 1 и 2) требует серьезного лингвистического анализа. Первый его этап называется токенизацией, а на втором решается задача лемматизации слов и нормализации словосочетаний. Для лемматизации и нормализации необходимо использование морфологического словаря! Подробнее о задачах токенизации, лемматизации и нормализации можно прочесть в любом учебнике по математической лингвистике.
Для чего же нужны ключевые слова и словосочетания в нашем проекте? Прежде всего, для формирования формальных контекстов вида «пользователь – ключевое слово/ключевое словосочетание», «идея – ключевое слово/ключевое словосочетание» и последующего анализа формальных контекстов: нахождения формальных понятий и признаковых зависимостей, бикластеризации, спектральной кластеризации. Кроме того, ключевые слова позволяют построить так называемую социосемантическую сеть, основную модель, используемую для анализа влияния и поиска сообществ. Подробнее о социосемантических сетях можно прочесть в статьях Камия Рота и соавторов (http://camille.roth.free.fr/papers.php).
Не стоит забывать и про эстетически приятный бонус визуализации ключевых слов – облако тегов, наглядный и забавный способ изобразить ключевые слова на плоскости, таким образом, что кегль, которым написано слово, пропорционален частоте или любой другой статистической характеристике слова.
Благодарим Виктора Бочарова, аспиранта кафедры математической лингвистики СПбГУ и участника инициативы Mathlingvo и проекта Открытый корпус , за помощь в разработке методики выделения ключевых слов и словосочетаний.
Программная система для анализа формальных понятий – Lattice Miner
Ещё одно средство анализа данных, используемое в работе проектно-учебной группы – Lattice Miner, программа для построения, визуализации и манипулирования решетками формальных понятий. Она позволяет генерировать формальные понятия, находить ассоциативные правила, и отображать вложенные линейные диаграммы.

Главное окно LatticeMiner. Заполнение контекста формальных понятий.
ПО Lattice Miner реализовано на языке Java. Ядро программы позволяет осуществлять все низкоуровневые операции и содержит структуры для представления и обработки контекстов, решеток и ассоциативных правил. Ядро Lattice Miner состоит из трех модулей: для работы с формальным контекстом, решеткой и ассоциативными правилами. Пользовательский интерфейс содержит редактор контекста и блок для работы с решетками понятий. Открытая модульная архитектура Lattice Miner позволяет интегрировать в каждый компонент программы новые функции и возможности.
Скачать программу можно в Интернете по адресу http://lattice-miner.sourceforge.net/. Для запуска программы необходимо установить Java Runtime Environment.
От Базель 1 к Базель 2. IRB подход
6 марта 2012 года, в здании НИУ-ВШЭ на Малом Гнездниковском переулке, в аудитории 43 под руководством Александра Марковича Карминского состоялся очередной семинар научно-учебной группы по моделированию вероятности дефолта коммерческого банка. Данный семинар состоял из двух частей. Сначала с презентацией моделей оценки вероятности дефолта выступил Мурзенков Тарас, а в качестве второй части мероприятия был подготовлен доклад Алексея Рыбалко по BASEL II. Стоит отметить важность затронутой тематики данного семинара, как практическую, так и сугубо научную. Она обосновывается тем, что лучше предотвратить крах какого-либо кредитного института заранее, нежели потом разбираться и реструктуризировать его задолженность перед кредиторами, акционерами и, тем более, перед обыкновенными вкладчиками (коими является большинство читателей блога).