Не, это скорее будет иерархия переменных, и каждая зависимость в иерархии описывается регрессией. "Мы умеем делать только линейные зависимости, но признаем что не все из них действуют напрямую". http://en.wikipedia.org/wiki/Multilevel_model в общем.
LASSO - это скорее из серии "не все линейные зависимости одинаково полезны".
Тут gimli_m уже ответил. Я думаю, что речь будет именно о линейной зависимости, поскольку интересует взаимосвязь между стадиями преступления. Вот в этом комментарии я описала проблему: http://lemura.livejournal.com/217944.html?thread=3884120#t3884120
LASSO - это способ построения линейной модели таким образом, чтобы "несущественные" переменные почти наверняка получили коэффициент ноль. Это хороший способ из сотни потенциальных причин выделить десяток "настоящих", но в данном случае этот термин не очень нужен.
Тут такое дело. Я пытаюсь простроить взаимосвязь между переменными в сценарии преступления. Есть три стадии развития преступления, условно говоря триггер, поведение во время совершения преступления и поведение после совершения преступления. Например, триггер был то, что Джонсу показалось, что на его девушку оскорбительно покосился Смит. Джонс испытал внезапный прилив ярости и спонтанно избил Смита. После преступления Джонс бежал быстрее лани, и закопал окровавленную одежду на кладбище, чтоб полиция не нашла.
Так вот. У меня есть ряд категорий в этих трех группах (группа "Триггеры", группа "Характеристики преступления", группа "Поведение после преступления"). Все категории не взаимоисключающие, все дихотомные. Вопрос - логично ли применить тут линейную регрессию, чтобы найти, какие сочетания стадий преступления чаще наиболее вероятны? Использовать, например, "Поведение после преступления" как dependant variable, прочие объявить ID (по принципу "Конец пути определен началом")?
Смотря для какой аудитории. На пустом месте, если эти модели никто не строил никогда, вполне можно.
То есть это будет такой causal modelling. Мы представляем набор причин и следствий как граф в котором три уровня: 1. Все триггеры. 2. Все манеры поведения во время 3. Все манеры поведения после.
Вероятность перехода из состояние в 1x в состояние 2y мы оцениваем как линейную функцию от x (и может быть еще каких-то характеристик человека, если они у нас есть). Почему линейную? Потому что это то, что мы всегда пробуем сначала, для её настройки нужно очень немного данных
Можно пропустить линейную функцию через какой-нибудь нелинейный оператор. Например, logistic regression для каждой пары состояний: тогда факт перехода 1x -> 2y это 1/1(+exp - ( линейная функция (x,y, параметры)).
Триггерами немного занимались, но именно немного. А на наших crime narratives такую модель никто и никогда не строил, они только стиль преступления учитывают и действия на данный момент.
То есть это не у меня глюки, и линейная регрессия подойдет? Это ура.
Кстати - а это сработает на маленьком сэмпле (61 человек всего :()? А то я когда пыталась хотя бы простые cross-tabs считать для других параметров, то это было черезвычайно огорчительно - что ни возьму, все non-significant, а другого сэмпла нету.
На маленькой подборке скорее всего всё остальное сработает ещё хуже.
А не хотите пообщаться на эту тему по скайпу? Я сейчас по основной работе занимаюсь вопросами моделирования "чего угодно" для областей, в которых никто почти ничего не делал раньше. Наша основная тема - клиническая практика, медицина, но нам никто не запрещает брать задачи из смежных областей.
Скайп: oleg.roderick Я могу через полчаса (но тогда скажите сразу, нужно забрать компьютер с камерой), или ближе к вечеру воскресенья по нью-йорку.
Спасибо огромное! Очень хочу. Если можно, лучше ближе к вечеру воскресенья, я сейчас в скайпе на тему воркшопа сижу и не знаю, сколько еще просижу. В котором часу удобно?
Если уже есть контекст, то нужно читать литературу по криминалистической информатике. Я совершенно не знаю что там, может быть уже есть какая-то традиционная школа моделирования.
Если бы я угадывал на слабо, я бы предположил что используются decision trees, если руководитель исследования зануда, и neural networks если он сумасшедший нёрд.
Я вообще на правильные вопросы отвечаю? [Кстати, что у вас за данные, какая размерность?]
Традиционная школа моделирования crime narratives - это и есть мои научруки. Два любителя качественных методов исследования, и когда речь идет о количественных, они... имхо, немного плавают. Я, впрочем, тоже, я не знаю, что такое decision trees.
Данные у нас - 61 semi-structured interview, взятые у разнообразных сидельцев, точнее, только та часть интервью, в которой они описывают наиболее запомнившееся им (и ими же совершенное) преступление. В основном там особо тяжкие или наркоторговля, но есть и ограбления, и воровство. Фактически я их категоризировала, используя концепции из ранее существоваших исследований (это если речь о триггерах и характеристиках преступления), а для поведения после преступления строила категории "от земли". Если удастся выстроить модель "crime role - crime scenario", то потом я это еще хочу с Agnew's crime plot запараллелить, но пока не уверена как.
У наиболее популярного алгоритма decision tree (CHAID) внутри как раз тот самый chi-squared test, про который я ниже говорил. Вот только по 61 интервью дерево будет толком не построить. Или оно будет совсем куцее, как рогатка. Эмпирическое правило - 20 событий на рассматриваемую переменную.
Это жалко, потому что больше кейсов в этом сэмпле у меня не будет. Будет второй сэмпл для сравнения, тьфу-тьфу-тьфу, чтоб не сглазить, но они отличаются по очень важному параметру, и слить их в одну группу невозможно, имхо.
Для поисков сочетаний лучше подходит тест хи-квадрат. Для каждого сочетания категорий и значений зависимой переменной считаем ожидаемое количество случаев (ожидаемое в смысле если никаких эффектов нет вообще, нулевая гипотеза), называем его E (expected). Произошедшее в действительности количество случаев называем O (observed). В каждой ячейке считаем (O-E)^2/E, складываем, сравниваем результат с табличкой хи-квадрата.
Это при отсутствии априорных знаний, если они есть, то начинается Байес.
Если всё-таки хочется именно регрессию, то лучше логистическую использовать.
Регрессия хороша тогда, когда переменные непрерывные (возраст, доход, температура окружающей среды). А тут насколько я понял категории и на входе, и на выходе.
Ну то есть сделать регрессию можно, получить статистически значимый результат тоже. Особенно если их несколько сделать и выбрать "лучшую". Но эффект скорее всего будет при этом переоценён (Andrew Gelman это называет "Type M (magnitude) error"), и там ещё есть несколько граблей, на котороые очень легко наступить.
Да, вы правильно поняли. Переоцененный эффект - это нормальный limitation, этим я готова рискнуть. А какие еще грабли и как их распознать? Извините, я понимаю, что ответ может быть примерно размером с учебник. Можете посоветовать что-то почитать по этой теме?
Если совсем кратко, то главные грабли - перетренировка (overfitting) в разных проявлениях. По 61 интервью можно построить модель с 60 независимыми переменными (включая взаимодействия), которая будет идеально работать на этой выборке. То есть вообще без ошибок. Как в анекдоте про воздушный шар в тумане - абсолютно точный и абсолютно бесполезный ответ.
Понятно, что это крайность, и отсутствие модели совсем другая крайность, но непонятно, где именно между этими крайностями остановиться.
Развёрнутый ответ действительно будет размером с учебник, хороший пример - Frank Harrell, Regression Modeling Strategies.
Если бы мы не поругались у bagira, я бы ответила и про linear regression и про методы анализа малого числа observations. А так sorry :-) Могу лишь подсказать что ответ существует.
Если б я считала вас знающей хоть что-то и умеющей этими знаниями пользоваться, я бы непременно вас спросила. А так вы будете скакать три дня, доказывая мне, как я вам безразлична :)
Не угадали :-) При всем желании, я бы не смогла скакать вокруг вас три дня потому что завтра улетаю по работе, а потом ухожу на неделю в трек по альпам. Я не плевала в потолок на лекциях по статистике и вот я знаю ответ... а вы пока нет :-) Если бы не нахамили мне (=незнакомому человеку) с пол оборота то и вы бы его знали.
Да-да, ваши знания ослепительно сияют каждый раз, как только вы достаете фотографию с как бишь его недопрезидентом-мормоном. Особенно она оттеняет ваше знание статистики и криминалистической психологии. Они прямо-таки бросаются в глаза.
А если б меня интересовало мнение интеллектуально увечных - я бы непременно вас спросила.
И да, вы не сможете скакать тут три дня, потому что вы отправляетесь в бан.
Сколько статей написано о том что делать когда переменных много относительно размера sample. Мне искренне жаль что вы не читали ни одной :-) Но я вам не помощник, вы же такая умная, а главное вежливая :-)))
И на этой последней попытке попрыгать вокруг меня с воплями "Ну заметь же, заметь меня, меня сам Ромни заметил, когда я рядом с ним для фото позировала!" вам прилетает волшебный банхаммер :)
no subject
Date: 2015-03-06 08:39 pm (UTC)no subject
Date: 2015-03-06 08:45 pm (UTC)"Мы умеем делать только линейные зависимости, но признаем что не все из них действуют напрямую".
http://en.wikipedia.org/wiki/Multilevel_model в общем.
LASSO - это скорее из серии "не все линейные зависимости одинаково полезны".
no subject
Date: 2015-03-06 08:55 pm (UTC)Я думаю, что речь будет именно о линейной зависимости, поскольку интересует взаимосвязь между стадиями преступления. Вот в этом комментарии я описала проблему: http://lemura.livejournal.com/217944.html?thread=3884120#t3884120
Но, возможно, я плохо понимаю, что такое lasso
no subject
Date: 2015-03-06 09:06 pm (UTC)no subject
Date: 2015-03-06 08:43 pm (UTC)no subject
Date: 2015-03-06 08:53 pm (UTC)Тут такое дело. Я пытаюсь простроить взаимосвязь между переменными в сценарии преступления. Есть три стадии развития преступления, условно говоря триггер, поведение во время совершения преступления и поведение после совершения преступления. Например, триггер был то, что Джонсу показалось, что на его девушку оскорбительно покосился Смит. Джонс испытал внезапный прилив ярости и спонтанно избил Смита. После преступления Джонс бежал быстрее лани, и закопал окровавленную одежду на кладбище, чтоб полиция не нашла.
Так вот. У меня есть ряд категорий в этих трех группах (группа "Триггеры", группа "Характеристики преступления", группа "Поведение после преступления"). Все категории не взаимоисключающие, все дихотомные. Вопрос - логично ли применить тут линейную регрессию, чтобы найти, какие сочетания стадий преступления чаще наиболее вероятны? Использовать, например, "Поведение после преступления" как dependant variable, прочие объявить ID (по принципу "Конец пути определен началом")?
no subject
Date: 2015-03-06 09:02 pm (UTC)То есть это будет такой causal modelling. Мы представляем набор причин и следствий как граф в котором три уровня:
1. Все триггеры.
2. Все манеры поведения во время
3. Все манеры поведения после.
Вероятность перехода из состояние в 1x в состояние 2y мы оцениваем как линейную функцию от x (и может быть еще каких-то характеристик человека, если они у нас есть).
Почему линейную? Потому что это то, что мы всегда пробуем сначала, для её настройки нужно очень немного данных
Можно пропустить линейную функцию через какой-нибудь нелинейный оператор. Например, logistic regression для каждой пары состояний: тогда факт перехода 1x -> 2y это 1/1(+exp - ( линейная функция (x,y, параметры)).
no subject
Date: 2015-03-06 09:06 pm (UTC)То есть это не у меня глюки, и линейная регрессия подойдет? Это ура.
Кстати - а это сработает на маленьком сэмпле (61 человек всего :()? А то я когда пыталась хотя бы простые cross-tabs считать для других параметров, то это было черезвычайно огорчительно - что ни возьму, все non-significant, а другого сэмпла нету.
no subject
Date: 2015-03-06 09:11 pm (UTC)А не хотите пообщаться на эту тему по скайпу? Я сейчас по основной работе занимаюсь вопросами моделирования "чего угодно" для областей, в которых никто почти ничего не делал раньше. Наша основная тема - клиническая практика, медицина, но нам никто не запрещает брать задачи из смежных областей.
Скайп: oleg.roderick
Я могу через полчаса (но тогда скажите сразу, нужно забрать компьютер с камерой), или ближе к вечеру воскресенья по нью-йорку.
no subject
Date: 2015-03-06 09:15 pm (UTC)Если можно, лучше ближе к вечеру воскресенья, я сейчас в скайпе на тему воркшопа сижу и не знаю, сколько еще просижу.
В котором часу удобно?
no subject
Date: 2015-03-06 09:18 pm (UTC)no subject
Date: 2015-03-06 09:20 pm (UTC)no subject
Date: 2015-03-06 09:16 pm (UTC)no subject
Date: 2015-03-07 07:22 am (UTC)данные все-таки качественные. от преобразования будет еще загадочнее.
no subject
Date: 2015-03-07 02:02 pm (UTC)no subject
Date: 2015-03-07 03:27 pm (UTC)no subject
Date: 2015-03-06 09:04 pm (UTC)Если бы я угадывал на слабо, я бы предположил что используются decision trees, если руководитель исследования зануда, и neural networks если он сумасшедший нёрд.
Я вообще на правильные вопросы отвечаю? [Кстати, что у вас за данные, какая размерность?]
no subject
Date: 2015-03-06 09:14 pm (UTC)Я, впрочем, тоже, я не знаю, что такое decision trees.
Данные у нас - 61 semi-structured interview, взятые у разнообразных сидельцев, точнее, только та часть интервью, в которой они описывают наиболее запомнившееся им (и ими же совершенное) преступление. В основном там особо тяжкие или наркоторговля, но есть и ограбления, и воровство. Фактически я их категоризировала, используя концепции из ранее существоваших исследований (это если речь о триггерах и характеристиках преступления), а для поведения после преступления строила категории "от земли". Если удастся выстроить модель "crime role - crime scenario", то потом я это еще хочу с Agnew's crime plot запараллелить, но пока не уверена как.
no subject
Date: 2015-03-06 11:41 pm (UTC)no subject
Date: 2015-03-06 11:44 pm (UTC)no subject
Date: 2015-03-06 11:30 pm (UTC)Это при отсутствии априорных знаний, если они есть, то начинается Байес.
Если всё-таки хочется именно регрессию, то лучше логистическую использовать.
no subject
Date: 2015-03-06 11:43 pm (UTC)no subject
Date: 2015-03-06 11:57 pm (UTC)Ну то есть сделать регрессию можно, получить статистически значимый результат тоже. Особенно если их несколько сделать и выбрать "лучшую". Но эффект скорее всего будет при этом переоценён (Andrew Gelman это называет "Type M (magnitude) error"), и там ещё есть несколько граблей, на котороые очень легко наступить.
no subject
Date: 2015-03-07 12:03 am (UTC)Переоцененный эффект - это нормальный limitation, этим я готова рискнуть. А какие еще грабли и как их распознать? Извините, я понимаю, что ответ может быть примерно размером с учебник. Можете посоветовать что-то почитать по этой теме?
no subject
Date: 2015-03-07 01:48 am (UTC)Понятно, что это крайность, и отсутствие модели совсем другая крайность, но непонятно, где именно между этими крайностями остановиться.
Развёрнутый ответ действительно будет размером с учебник, хороший пример - Frank Harrell, Regression Modeling Strategies.
no subject
Date: 2015-03-07 02:03 pm (UTC)no subject
Date: 2015-03-08 06:59 pm (UTC)И вот тут список тем: http://ru-spss.livejournal.com/tag/
(frozen) no subject
Date: 2015-07-08 10:20 pm (UTC)Могу лишь подсказать что ответ существует.
(frozen) no subject
Date: 2015-07-08 10:49 pm (UTC)А так вы будете скакать три дня, доказывая мне, как я вам безразлична :)
(frozen) no subject
Date: 2015-07-08 11:09 pm (UTC)(frozen) no subject
Date: 2015-07-08 11:15 pm (UTC)А если б меня интересовало мнение интеллектуально увечных - я бы непременно вас спросила.
И да, вы не сможете скакать тут три дня, потому что вы отправляетесь в бан.
(frozen) no subject
Date: 2015-07-08 11:15 pm (UTC)Мне искренне жаль что вы не читали ни одной :-) Но я вам не помощник, вы же такая умная, а главное вежливая :-)))
(frozen) no subject
Date: 2015-07-08 11:17 pm (UTC)