Thursday, April 14, 2011

Метод поиска ближайшего соседа с примерами на R

Продолжаю серию про методы и алгоритмы data mining. Предыдущая статья была посвящена линейной регрессии. Эта статья посвящается методу ближайшего соседа. Идея метода ближайшего соседа очень проста на интуитивном уровне. Давайте рассмотрим простой пример.

Простой пример метода ближайшего соседа

Рассмотрим зарплаты людей, в зависимости от их места жительства. Предположим, что вы живете в центре Москвы и что рядом с вами живут люди с зарплатой 150 тыс рублей. Тогда, можно предположить, что и ваша зарплата близка к этой величине. Если же вы проживаете в поселке Новотагилка Челябинской области, и зарплаты ваших соседей около 3 тыс рублей, то скорее всего и ваша зарплата близка к 3 тыс рублей. Естественно, что здесь нет 100% точной зависимости, кто-то может жить в центре Москвы на пенсию в 6 тыс, а кто-то в Новотагилке зарабатывать 50. Но если единственная информация, которой мы владеем о человеке является его место жительства, то мы можем воспользоваться приведенным подходом для оценки его доходов.

Аналогично работает и метод ближайшего соседа

Tuesday, April 12, 2011

Линейная регрессия с примерами на R

Меня давно преследует идея пройтись по ключевым алгоритмам data mining, систематизировать имеющиеся знания и составить некий обзор с примерами. Собственно, этой статьей и ознаменую начало данной серии. Для примеров будет использоваться программная среда R, о которой я уже писал в одном из прошлых постов.

Линейная регрессия

Строго говоря, линейная регрессия не является алгоритмом data mining. Это один из методов пришедших из статистики. В статистике, под регрессией, обычно подразумевают прогнозирование, в той или иной форме. Существует множество различных типов регрессий, но в основе любого из них лежит одна и та же идея: построить модель, связывающую предсказываемое значение с исходными данными (предикторами), минимизируя ошибку.

Friday, April 1, 2011

Зачем Goldman Sachs крысы или генетические алгоритмы и нейронные сети на службе в инвестиционных банках

Алгоритмический трейдинг в наше время составляет более 80% сделок практически на всех биржах. Это значит, что среднестатистический трейдер это уже не безумный человек, бегающий с телефоном, и кричащий "покупаем - продаем", это тихо жужащий в углу сервер с толстым каналом в интернет и надежной системой охлаждения. И это уже давно ни для кого не секрет. Но так было до недавнего времени. Последние годы ситуация стремительно меняется...