Алексей Февраль 24, 2023 в 14:8
1) Первый случай самый приятный для нас так как есть много строк и мало фич, собственно единственная проблема может быть что сами по себе фичи могут быть не очень полезными и решением этого может стать feature engineering
2) Этот случай уже неприятнее, так как у нас резко возросло кол-во фич, и самая очевидная проблема это как минимум что памяти такой датасет и алгоритм, который будет работать с ним, будет жрать много. Плюс те же классификаторы ансамблей деревьев которые обучаются на подвыборке признаков могут показывать себя очень ужасно, если большинство признаков - мусорные и в этих подвыборках ничего полезного не будет, в то время как обычная лог регрессия сможет что-то полезное найти. В целом решение может быть уменьшение размерности (PCA, либо отбирать признаки по важности лог регрессией или деревом, смотреть на корреляции с таргетной переменной).
3) Ну и третий случай самый ужасный, мало данных, хотя с этим можно бороться кросс валидацией. Много признаков, с чем конечно можно работать как в прошлом пункте, но теперь выше шанс того, что какая-то шумная переменная просто случайно коррелирует с таргетной.