Ваш ответ на вопрос

Комментарии

Алексей Февраль 24, 2023 в 14:8

1) Первый случай самый приятный для нас так как есть много строк и мало фич, собственно единственная проблема может быть что сами по себе фичи могут быть не очень полезными и решением этого может стать feature engineering 2) Этот случай уже неприятнее, так как у нас резко возросло кол-во фич, и самая очевидная проблема это как минимум что памяти такой датасет и алгоритм, который будет работать с ним, будет жрать много. Плюс те же классификаторы ансамблей деревьев которые обучаются на подвыборке признаков могут показывать себя очень ужасно, если большинство признаков - мусорные и в этих подвыборках ничего полезного не будет, в то время как обычная лог регрессия сможет что-то полезное найти. В целом решение может быть уменьшение размерности (PCA, либо отбирать признаки по важности лог регрессией или деревом, смотреть на корреляции с таргетной переменной). 3) Ну и третий случай самый ужасный, мало данных, хотя с этим можно бороться кросс валидацией. Много признаков, с чем конечно можно работать как в прошлом пункте, но теперь выше шанс того, что какая-то шумная переменная просто случайно коррелирует с таргетной.

Евгений Март 3, 2021 в 10:39

Ощущение, что в первом случае можно скатиться в переобучение, во втором все будет ок, а в третьем данных может быть недостаточно.

Guest Сегодня в 13:28

Дополню про первый пункт. Из примеров, которые мне удалось найти, при кросс-валидации с увеличением объема выборки может возникнуть переобучение. Ссылка на источник https://stats.stackexchange.com/questions/230351/number-of-training-samples-vs-feature-dimension-in-cross-validation Надеюсь ссылки тут можно прикреплять.

Дима Апрель 29, 2020 в 12:32

Думаю во 2 и 3 случаях будет проблема проклятия размерности (зависимось между количеством признаков и данных которых будет достаточно для хорошей модели экспоненциально). В первом случаи думаю всё нормально.