lemura: (Default)
[personal profile] lemura
Скажите мне, а есть ли среди вас кто-нибудь, кто разбирается в linear regression и hierarchical regression? У меня есть несколько дурацких вопросов.

Date: 2015-03-06 08:39 pm (UTC)
From: [identity profile] 5cr34m.livejournal.com
hierarchical это типа lasso и компании? попытаюсь помочь.

Date: 2015-03-06 08:45 pm (UTC)
From: [identity profile] gimli-m.livejournal.com
Не, это скорее будет иерархия переменных, и каждая зависимость в иерархии описывается регрессией.
"Мы умеем делать только линейные зависимости, но признаем что не все из них действуют напрямую".
http://en.wikipedia.org/wiki/Multilevel_model в общем.

LASSO - это скорее из серии "не все линейные зависимости одинаково полезны".

Date: 2015-03-06 08:55 pm (UTC)
From: [identity profile] lemura.livejournal.com
Тут [livejournal.com profile] gimli_m уже ответил.
Я думаю, что речь будет именно о линейной зависимости, поскольку интересует взаимосвязь между стадиями преступления. Вот в этом комментарии я описала проблему: http://lemura.livejournal.com/217944.html?thread=3884120#t3884120

Но, возможно, я плохо понимаю, что такое lasso

Date: 2015-03-06 09:06 pm (UTC)
From: [identity profile] gimli-m.livejournal.com
LASSO - это способ построения линейной модели таким образом, чтобы "несущественные" переменные почти наверняка получили коэффициент ноль. Это хороший способ из сотни потенциальных причин выделить десяток "настоящих", но в данном случае этот термин не очень нужен.

Date: 2015-03-06 08:43 pm (UTC)
From: [identity profile] gimli-m.livejournal.com
Смотря какой контекст. Мне проще рассказать зачем это, и что оно может (я это делаю последние два года), чем быстро решить домашку по статистике.

Date: 2015-03-06 08:53 pm (UTC)
From: [identity profile] lemura.livejournal.com
(уныло) Лучше бы это была домашка по статистике.

Тут такое дело. Я пытаюсь простроить взаимосвязь между переменными в сценарии преступления. Есть три стадии развития преступления, условно говоря триггер, поведение во время совершения преступления и поведение после совершения преступления. Например, триггер был то, что Джонсу показалось, что на его девушку оскорбительно покосился Смит. Джонс испытал внезапный прилив ярости и спонтанно избил Смита. После преступления Джонс бежал быстрее лани, и закопал окровавленную одежду на кладбище, чтоб полиция не нашла.

Так вот. У меня есть ряд категорий в этих трех группах (группа "Триггеры", группа "Характеристики преступления", группа "Поведение после преступления"). Все категории не взаимоисключающие, все дихотомные. Вопрос - логично ли применить тут линейную регрессию, чтобы найти, какие сочетания стадий преступления чаще наиболее вероятны? Использовать, например, "Поведение после преступления" как dependant variable, прочие объявить ID (по принципу "Конец пути определен началом")?

Date: 2015-03-06 09:02 pm (UTC)
From: [identity profile] gimli-m.livejournal.com
Смотря для какой аудитории. На пустом месте, если эти модели никто не строил никогда, вполне можно.

То есть это будет такой causal modelling. Мы представляем набор причин и следствий как граф в котором три уровня:
1. Все триггеры.
2. Все манеры поведения во время
3. Все манеры поведения после.

Вероятность перехода из состояние в 1x в состояние 2y мы оцениваем как линейную функцию от x (и может быть еще каких-то характеристик человека, если они у нас есть).
Почему линейную? Потому что это то, что мы всегда пробуем сначала, для её настройки нужно очень немного данных

Можно пропустить линейную функцию через какой-нибудь нелинейный оператор. Например, logistic regression для каждой пары состояний: тогда факт перехода 1x -> 2y это 1/1(+exp - ( линейная функция (x,y, параметры)).
Edited Date: 2015-03-06 09:04 pm (UTC)

Date: 2015-03-06 09:06 pm (UTC)
From: [identity profile] lemura.livejournal.com
Триггерами немного занимались, но именно немного. А на наших crime narratives такую модель никто и никогда не строил, они только стиль преступления учитывают и действия на данный момент.

То есть это не у меня глюки, и линейная регрессия подойдет? Это ура.

Кстати - а это сработает на маленьком сэмпле (61 человек всего :()? А то я когда пыталась хотя бы простые cross-tabs считать для других параметров, то это было черезвычайно огорчительно - что ни возьму, все non-significant, а другого сэмпла нету.

Date: 2015-03-06 09:11 pm (UTC)
From: [identity profile] gimli-m.livejournal.com
На маленькой подборке скорее всего всё остальное сработает ещё хуже.

А не хотите пообщаться на эту тему по скайпу? Я сейчас по основной работе занимаюсь вопросами моделирования "чего угодно" для областей, в которых никто почти ничего не делал раньше. Наша основная тема - клиническая практика, медицина, но нам никто не запрещает брать задачи из смежных областей.

Скайп: oleg.roderick
Я могу через полчаса (но тогда скажите сразу, нужно забрать компьютер с камерой), или ближе к вечеру воскресенья по нью-йорку.

Date: 2015-03-06 09:15 pm (UTC)
From: [identity profile] lemura.livejournal.com
Спасибо огромное! Очень хочу.
Если можно, лучше ближе к вечеру воскресенья, я сейчас в скайпе на тему воркшопа сижу и не знаю, сколько еще просижу.
В котором часу удобно?

Date: 2015-03-06 09:18 pm (UTC)
From: [identity profile] gimli-m.livejournal.com
тогда действительно лучше вечером вскр., начиная с 6 по Нью-Йорку. Это немножко поздно или нормально?

Date: 2015-03-06 09:20 pm (UTC)
From: [identity profile] lemura.livejournal.com
Это 11 по Лондону. Отлично! :) Спасибо еще раз

Date: 2015-03-06 09:16 pm (UTC)
From: [identity profile] lemura.livejournal.com
В скайпе я sophietml, на юзерпике лемур с пистолетом.

Date: 2015-03-07 07:22 am (UTC)
From: [identity profile] 5cr34m.livejournal.com
я бы попробовал тупые, но понятные деревья классификации.
данные все-таки качественные. от преобразования будет еще загадочнее.

Date: 2015-03-07 02:02 pm (UTC)
From: [identity profile] lemura.livejournal.com
Спасибо, я попробую.

Date: 2015-03-07 03:27 pm (UTC)
From: [identity profile] 5cr34m.livejournal.com
если данные не особо секретные, покажите (я их никуда не распространю).

Date: 2015-03-06 09:04 pm (UTC)
From: [identity profile] gimli-m.livejournal.com
Если уже есть контекст, то нужно читать литературу по криминалистической информатике. Я совершенно не знаю что там, может быть уже есть какая-то традиционная школа моделирования.

Если бы я угадывал на слабо, я бы предположил что используются decision trees, если руководитель исследования зануда, и neural networks если он сумасшедший нёрд.

Я вообще на правильные вопросы отвечаю? [Кстати, что у вас за данные, какая размерность?]

Date: 2015-03-06 09:14 pm (UTC)
From: [identity profile] lemura.livejournal.com
Традиционная школа моделирования crime narratives - это и есть мои научруки. Два любителя качественных методов исследования, и когда речь идет о количественных, они... имхо, немного плавают.
Я, впрочем, тоже, я не знаю, что такое decision trees.

Данные у нас - 61 semi-structured interview, взятые у разнообразных сидельцев, точнее, только та часть интервью, в которой они описывают наиболее запомнившееся им (и ими же совершенное) преступление. В основном там особо тяжкие или наркоторговля, но есть и ограбления, и воровство. Фактически я их категоризировала, используя концепции из ранее существоваших исследований (это если речь о триггерах и характеристиках преступления), а для поведения после преступления строила категории "от земли". Если удастся выстроить модель "crime role - crime scenario", то потом я это еще хочу с Agnew's crime plot запараллелить, но пока не уверена как.

Date: 2015-03-06 11:41 pm (UTC)
From: [identity profile] dimview.livejournal.com
У наиболее популярного алгоритма decision tree (CHAID) внутри как раз тот самый chi-squared test, про который я ниже говорил. Вот только по 61 интервью дерево будет толком не построить. Или оно будет совсем куцее, как рогатка. Эмпирическое правило - 20 событий на рассматриваемую переменную.

Date: 2015-03-06 11:44 pm (UTC)
From: [identity profile] lemura.livejournal.com
Это жалко, потому что больше кейсов в этом сэмпле у меня не будет. Будет второй сэмпл для сравнения, тьфу-тьфу-тьфу, чтоб не сглазить, но они отличаются по очень важному параметру, и слить их в одну группу невозможно, имхо.

Date: 2015-03-06 11:30 pm (UTC)
From: [identity profile] dimview.livejournal.com
Для поисков сочетаний лучше подходит тест хи-квадрат. Для каждого сочетания категорий и значений зависимой переменной считаем ожидаемое количество случаев (ожидаемое в смысле если никаких эффектов нет вообще, нулевая гипотеза), называем его E (expected). Произошедшее в действительности количество случаев называем O (observed). В каждой ячейке считаем (O-E)^2/E, складываем, сравниваем результат с табличкой хи-квадрата.

Это при отсутствии априорных знаний, если они есть, то начинается Байес.

Если всё-таки хочется именно регрессию, то лучше логистическую использовать.

Date: 2015-03-06 11:43 pm (UTC)
From: [identity profile] lemura.livejournal.com
Мне кажется, что регрессия там будет логичнее, чем chi square. Переменных очень много (в группе "Триггер" их, например, шесть). А сэмпл маленький.

Date: 2015-03-06 11:57 pm (UTC)
From: [identity profile] dimview.livejournal.com
Регрессия хороша тогда, когда переменные непрерывные (возраст, доход, температура окружающей среды). А тут насколько я понял категории и на входе, и на выходе.

Ну то есть сделать регрессию можно, получить статистически значимый результат тоже. Особенно если их несколько сделать и выбрать "лучшую". Но эффект скорее всего будет при этом переоценён (Andrew Gelman это называет "Type M (magnitude) error"), и там ещё есть несколько граблей, на котороые очень легко наступить.

Date: 2015-03-07 12:03 am (UTC)
From: [identity profile] lemura.livejournal.com
Да, вы правильно поняли.
Переоцененный эффект - это нормальный limitation, этим я готова рискнуть. А какие еще грабли и как их распознать? Извините, я понимаю, что ответ может быть примерно размером с учебник. Можете посоветовать что-то почитать по этой теме?

Date: 2015-03-07 01:48 am (UTC)
From: [identity profile] dimview.livejournal.com
Если совсем кратко, то главные грабли - перетренировка (overfitting) в разных проявлениях. По 61 интервью можно построить модель с 60 независимыми переменными (включая взаимодействия), которая будет идеально работать на этой выборке. То есть вообще без ошибок. Как в анекдоте про воздушный шар в тумане - абсолютно точный и абсолютно бесполезный ответ.

Понятно, что это крайность, и отсутствие модели совсем другая крайность, но непонятно, где именно между этими крайностями остановиться.

Развёрнутый ответ действительно будет размером с учебник, хороший пример - Frank Harrell, Regression Modeling Strategies.

Date: 2015-03-07 02:03 pm (UTC)
From: [identity profile] lemura.livejournal.com
О, спасибо, закажу эту книгу сегодня же.

Date: 2015-03-08 06:59 pm (UTC)
From: [identity profile] rus kr (from livejournal.com)
В ЖЖ про линейную регрессию лучше всего узнавать здесь: http://ru-spss.livejournal.com/. Там достаточно много компетентных людей.

И вот тут список тем: http://ru-spss.livejournal.com/tag/

(frozen)

Date: 2015-07-08 10:20 pm (UTC)
From: [identity profile] lobastova.livejournal.com
Если бы мы не поругались у bagira, я бы ответила и про linear regression и про методы анализа малого числа observations. А так sorry :-)
Могу лишь подсказать что ответ существует.

(frozen)

Date: 2015-07-08 10:49 pm (UTC)
From: [identity profile] lemura.livejournal.com
Если б я считала вас знающей хоть что-то и умеющей этими знаниями пользоваться, я бы непременно вас спросила.
А так вы будете скакать три дня, доказывая мне, как я вам безразлична :)

(frozen)

Date: 2015-07-08 11:09 pm (UTC)
From: [identity profile] lobastova.livejournal.com
Не угадали :-) При всем желании, я бы не смогла скакать вокруг вас три дня потому что завтра улетаю по работе, а потом ухожу на неделю в трек по альпам. Я не плевала в потолок на лекциях по статистике и вот я знаю ответ... а вы пока нет :-) Если бы не нахамили мне (=незнакомому человеку) с пол оборота то и вы бы его знали.

(frozen)

Date: 2015-07-08 11:15 pm (UTC)
From: [identity profile] lemura.livejournal.com
Да-да, ваши знания ослепительно сияют каждый раз, как только вы достаете фотографию с как бишь его недопрезидентом-мормоном. Особенно она оттеняет ваше знание статистики и криминалистической психологии. Они прямо-таки бросаются в глаза.

А если б меня интересовало мнение интеллектуально увечных - я бы непременно вас спросила.

И да, вы не сможете скакать тут три дня, потому что вы отправляетесь в бан.

(frozen)

Date: 2015-07-08 11:15 pm (UTC)
From: [identity profile] lobastova.livejournal.com
Сколько статей написано о том что делать когда переменных много относительно размера sample.
Мне искренне жаль что вы не читали ни одной :-) Но я вам не помощник, вы же такая умная, а главное вежливая :-)))

(frozen)

Date: 2015-07-08 11:17 pm (UTC)
From: [identity profile] lemura.livejournal.com
И на этой последней попытке попрыгать вокруг меня с воплями "Ну заметь же, заметь меня, меня сам Ромни заметил, когда я рядом с ним для фото позировала!" вам прилетает волшебный банхаммер :)

February 2026

S M T W T F S
1234567
8910111213 14
15161718 192021
22232425262728

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 23rd, 2026 04:04 am
Powered by Dreamwidth Studios