lemura | (no subject)

You're viewing

lemura's journal
Create a Dreamwidth Account Learn More

Reload page in style: site light

Скажите мне, а есть ли среди вас кто-нибудь, кто разбирается в linear regression и hierarchical regression? У меня есть несколько дурацких вопросов.

Flat | Top-Level Comments Only

From:

5cr34m.livejournal.com

hierarchical это типа lasso и компании? попытаюсь помочь.

From:

gimli-m.livejournal.com

Не, это скорее будет иерархия переменных, и каждая зависимость в иерархии описывается регрессией.
"Мы умеем делать только линейные зависимости, но признаем что не все из них действуют напрямую".
http://en.wikipedia.org/wiki/Multilevel_model в общем.

LASSO - это скорее из серии "не все линейные зависимости одинаково полезны".

From:

lemura.livejournal.com

Тут

gimli_m уже ответил.
Я думаю, что речь будет именно о линейной зависимости, поскольку интересует взаимосвязь между стадиями преступления. Вот в этом комментарии я описала проблему: http://lemura.livejournal.com/217944.html?thread=3884120#t3884120

Но, возможно, я плохо понимаю, что такое lasso

From:

gimli-m.livejournal.com

LASSO - это способ построения линейной модели таким образом, чтобы "несущественные" переменные почти наверняка получили коэффициент ноль. Это хороший способ из сотни потенциальных причин выделить десяток "настоящих", но в данном случае этот термин не очень нужен.

From:

gimli-m.livejournal.com

Смотря какой контекст. Мне проще рассказать зачем это, и что оно может (я это делаю последние два года), чем быстро решить домашку по статистике.

From:

lemura.livejournal.com

(уныло) Лучше бы это была домашка по статистике.

Тут такое дело. Я пытаюсь простроить взаимосвязь между переменными в сценарии преступления. Есть три стадии развития преступления, условно говоря триггер, поведение во время совершения преступления и поведение после совершения преступления. Например, триггер был то, что Джонсу показалось, что на его девушку оскорбительно покосился Смит. Джонс испытал внезапный прилив ярости и спонтанно избил Смита. После преступления Джонс бежал быстрее лани, и закопал окровавленную одежду на кладбище, чтоб полиция не нашла.

Так вот. У меня есть ряд категорий в этих трех группах (группа "Триггеры", группа "Характеристики преступления", группа "Поведение после преступления"). Все категории не взаимоисключающие, все дихотомные. Вопрос - логично ли применить тут линейную регрессию, чтобы найти, какие сочетания стадий преступления чаще наиболее вероятны? Использовать, например, "Поведение после преступления" как dependant variable, прочие объявить ID (по принципу "Конец пути определен началом")?

From:

gimli-m.livejournal.com

Смотря для какой аудитории. На пустом месте, если эти модели никто не строил никогда, вполне можно.

То есть это будет такой causal modelling. Мы представляем набор причин и следствий как граф в котором три уровня:
1. Все триггеры.
2. Все манеры поведения во время
3. Все манеры поведения после.

Вероятность перехода из состояние в 1x в состояние 2y мы оцениваем как линейную функцию от x (и может быть еще каких-то характеристик человека, если они у нас есть).
Почему линейную? Потому что это то, что мы всегда пробуем сначала, для её настройки нужно очень немного данных

Можно пропустить линейную функцию через какой-нибудь нелинейный оператор. Например, logistic regression для каждой пары состояний: тогда факт перехода 1x -> 2y это 1/1(+exp - ( линейная функция (x,y, параметры)).

Edited Date: 2015-03-06 09:04 pm (UTC)

From:

lemura.livejournal.com

Триггерами немного занимались, но именно немного. А на наших crime narratives такую модель никто и никогда не строил, они только стиль преступления учитывают и действия на данный момент.

То есть это не у меня глюки, и линейная регрессия подойдет? Это ура.

Кстати - а это сработает на маленьком сэмпле (61 человек всего :()? А то я когда пыталась хотя бы простые cross-tabs считать для других параметров, то это было черезвычайно огорчительно - что ни возьму, все non-significant, а другого сэмпла нету.

From:

gimli-m.livejournal.com

На маленькой подборке скорее всего всё остальное сработает ещё хуже.

А не хотите пообщаться на эту тему по скайпу? Я сейчас по основной работе занимаюсь вопросами моделирования "чего угодно" для областей, в которых никто почти ничего не делал раньше. Наша основная тема - клиническая практика, медицина, но нам никто не запрещает брать задачи из смежных областей.

Скайп: oleg.roderick
Я могу через полчаса (но тогда скажите сразу, нужно забрать компьютер с камерой), или ближе к вечеру воскресенья по нью-йорку.

From:

lemura.livejournal.com

Спасибо огромное! Очень хочу.
Если можно, лучше ближе к вечеру воскресенья, я сейчас в скайпе на тему воркшопа сижу и не знаю, сколько еще просижу.
В котором часу удобно?

From:

gimli-m.livejournal.com

тогда действительно лучше вечером вскр., начиная с 6 по Нью-Йорку. Это немножко поздно или нормально?

From:

lemura.livejournal.com

Это 11 по Лондону. Отлично! :) Спасибо еще раз

From:

lemura.livejournal.com

В скайпе я sophietml, на юзерпике лемур с пистолетом.

From:

5cr34m.livejournal.com

я бы попробовал тупые, но понятные деревья классификации.
данные все-таки качественные. от преобразования будет еще загадочнее.

From:

lemura.livejournal.com

Спасибо, я попробую.

From:

5cr34m.livejournal.com

если данные не особо секретные, покажите (я их никуда не распространю).

From:

gimli-m.livejournal.com

Если уже есть контекст, то нужно читать литературу по криминалистической информатике. Я совершенно не знаю что там, может быть уже есть какая-то традиционная школа моделирования.

Если бы я угадывал на слабо, я бы предположил что используются decision trees, если руководитель исследования зануда, и neural networks если он сумасшедший нёрд.

Я вообще на правильные вопросы отвечаю? [Кстати, что у вас за данные, какая размерность?]

From:

lemura.livejournal.com

Традиционная школа моделирования crime narratives - это и есть мои научруки. Два любителя качественных методов исследования, и когда речь идет о количественных, они... имхо, немного плавают.
Я, впрочем, тоже, я не знаю, что такое decision trees.

Данные у нас - 61 semi-structured interview, взятые у разнообразных сидельцев, точнее, только та часть интервью, в которой они описывают наиболее запомнившееся им (и ими же совершенное) преступление. В основном там особо тяжкие или наркоторговля, но есть и ограбления, и воровство. Фактически я их категоризировала, используя концепции из ранее существоваших исследований (это если речь о триггерах и характеристиках преступления), а для поведения после преступления строила категории "от земли". Если удастся выстроить модель "crime role - crime scenario", то потом я это еще хочу с Agnew's crime plot запараллелить, но пока не уверена как.

From:

dimview.livejournal.com

У наиболее популярного алгоритма decision tree (CHAID) внутри как раз тот самый chi-squared test, про который я ниже говорил. Вот только по 61 интервью дерево будет толком не построить. Или оно будет совсем куцее, как рогатка. Эмпирическое правило - 20 событий на рассматриваемую переменную.

From:

lemura.livejournal.com

Это жалко, потому что больше кейсов в этом сэмпле у меня не будет. Будет второй сэмпл для сравнения, тьфу-тьфу-тьфу, чтоб не сглазить, но они отличаются по очень важному параметру, и слить их в одну группу невозможно, имхо.

From:

dimview.livejournal.com

Для поисков сочетаний лучше подходит тест хи-квадрат. Для каждого сочетания категорий и значений зависимой переменной считаем ожидаемое количество случаев (ожидаемое в смысле если никаких эффектов нет вообще, нулевая гипотеза), называем его E (expected). Произошедшее в действительности количество случаев называем O (observed). В каждой ячейке считаем (O-E)^2/E, складываем, сравниваем результат с табличкой хи-квадрата.

Это при отсутствии априорных знаний, если они есть, то начинается Байес.

Если всё-таки хочется именно регрессию, то лучше логистическую использовать.

From:

lemura.livejournal.com

Мне кажется, что регрессия там будет логичнее, чем chi square. Переменных очень много (в группе "Триггер" их, например, шесть). А сэмпл маленький.

From:

dimview.livejournal.com

Регрессия хороша тогда, когда переменные непрерывные (возраст, доход, температура окружающей среды). А тут насколько я понял категории и на входе, и на выходе.

Ну то есть сделать регрессию можно, получить статистически значимый результат тоже. Особенно если их несколько сделать и выбрать "лучшую". Но эффект скорее всего будет при этом переоценён (Andrew Gelman это называет "Type M (magnitude) error"), и там ещё есть несколько граблей, на котороые очень легко наступить.

From:

lemura.livejournal.com

Да, вы правильно поняли.
Переоцененный эффект - это нормальный limitation, этим я готова рискнуть. А какие еще грабли и как их распознать? Извините, я понимаю, что ответ может быть примерно размером с учебник. Можете посоветовать что-то почитать по этой теме?

From:

dimview.livejournal.com

Если совсем кратко, то главные грабли - перетренировка (overfitting) в разных проявлениях. По 61 интервью можно построить модель с 60 независимыми переменными (включая взаимодействия), которая будет идеально работать на этой выборке. То есть вообще без ошибок. Как в анекдоте про воздушный шар в тумане - абсолютно точный и абсолютно бесполезный ответ.

Понятно, что это крайность, и отсутствие модели совсем другая крайность, но непонятно, где именно между этими крайностями остановиться.

Развёрнутый ответ действительно будет размером с учебник, хороший пример - Frank Harrell, Regression Modeling Strategies.

From:

lemura.livejournal.com

О, спасибо, закажу эту книгу сегодня же.

From:

rus kr (from livejournal.com)

В ЖЖ про линейную регрессию лучше всего узнавать здесь: http://ru-spss.livejournal.com/. Там достаточно много компетентных людей.

И вот тут список тем: http://ru-spss.livejournal.com/tag/

From:

lobastova.livejournal.com

Если бы мы не поругались у bagira, я бы ответила и про linear regression и про методы анализа малого числа observations. А так sorry :-)
Могу лишь подсказать что ответ существует.

From:

lemura.livejournal.com

Если б я считала вас знающей хоть что-то и умеющей этими знаниями пользоваться, я бы непременно вас спросила.
А так вы будете скакать три дня, доказывая мне, как я вам безразлична :)

From:

lobastova.livejournal.com

Не угадали :-) При всем желании, я бы не смогла скакать вокруг вас три дня потому что завтра улетаю по работе, а потом ухожу на неделю в трек по альпам. Я не плевала в потолок на лекциях по статистике и вот я знаю ответ... а вы пока нет :-) Если бы не нахамили мне (=незнакомому человеку) с пол оборота то и вы бы его знали.

From:

lemura.livejournal.com

Да-да, ваши знания ослепительно сияют каждый раз, как только вы достаете фотографию с как бишь его недопрезидентом-мормоном. Особенно она оттеняет ваше знание статистики и криминалистической психологии. Они прямо-таки бросаются в глаза.

А если б меня интересовало мнение интеллектуально увечных - я бы непременно вас спросила.

И да, вы не сможете скакать тут три дня, потому что вы отправляетесь в бан.

From:

lobastova.livejournal.com

Сколько статей написано о том что делать когда переменных много относительно размера sample.
Мне искренне жаль что вы не читали ни одной :-) Но я вам не помощник, вы же такая умная, а главное вежливая :-)))

From:

lemura.livejournal.com

И на этой последней попытке попрыгать вокруг меня с воплями "Ну заметь же, заметь меня, меня сам Ромни заметил, когда я рядом с ним для фото позировала!" вам прилетает волшебный банхаммер :)

Flat | Top-Level Comments Only

Profile

lemura

February 2026

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Most Popular Tags

"за передовую магию" - 27 uses
funny - 11 uses
present continuous - 241 uses
rpg - 11 uses
британские ученые лемуры - 14 uses
бывает же такое - 44 uses
во гневе - 10 uses
война - 34 uses
вопрос - 11 uses
воспоминания - 14 uses
вселенная и глупость - 95 uses
два мешка плана - 25 uses
девочковое - 18 uses
домашнее - 23 uses
думай об англии - 87 uses
думаю мысль - 49 uses
дурь у нас своя - 28 uses
жывая природа - 70 uses
и кто я после этого?! - 137 uses
и рассказывает-рассказывает - 188 uses
израиль - 35 uses
к нам сегодня приходил... - 64 uses
кино и немцы - 72 uses
книги - 139 uses
кулинарное - 24 uses
лекции онлайн - 184 uses
лемур ученый - 15 uses
лемурий наркотик - 12 uses
мелкое хулиганство - 16 uses
моя семья и другие звери - 16 uses
музыка - 12 uses
мысли вслух - 25 uses
непутевые заметки - 13 uses
объявление - 76 uses
поздравление - 12 uses
праздники - 11 uses
преступлять свои преступления - 166 uses
работа - 29 uses
радость жизни - 13 uses
ролевое - 22 uses
сказки - 147 uses
творчество - 78 uses
учеба - 44 uses
фотографии - 27 uses
хихикательное - 65 uses
хозяйственный зверек лемур - 38 uses
хотелки - 10 uses
я здесь как женщина - 27 uses
я люблю свою работу - 160 uses
я очень злая - 49 uses

Page Summary

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Feb. 23rd, 2026 04:04 am

Powered by Dreamwidth Studios