Friday, May 20, 2011

Пока Дойче. Привет Одноклассники!

Как некоторым уже стало известно, затишье в моем блоге последние пару недель было вызвано сменой работы. Да, отныне я более не сотрудник Deutsche Bank, а работаю в компании Одноклассники.ру Это, однако, отнюдь не значит что финансовые рынки мне более не интересны. Скорее наоборот, теперь я освобожден от ограничений, накладываемых контрактом инвестиционного банка и могу свободно спекулировать на бирже. Так что, рассчитываю в ближайшее время опробовать на практике множество идей, о которых пока мог только теоретизировать. Надеюсь так же, что и для графоманской деятельности вскоре найдется время и мой блог пополнится множеством новых замечательных статей.


О работе в дойче хочу сказать, что это лучшее из всех мест где мне доводилось работать прежде. И это единственное место, из которого я уходил с некоторым ощущением грусти и сожаления. Люди, с которыми мне довелось там познакомиться и поработать, это действительно высококлассные специалисты и очень талантливые разработчики. Желаю им всем удачи и всяческих успехов.


В то же время, я надеюсь, что мое новое место работы будет еще лучше и еще интересней. Надеюсь найти здесь сложные задачи и получить бесценный опыт разработки высоконагруженных многопользовательских систем. Думаю, что мне найдется здесь чему поучиться и будет возможность принести пользу, как специалист.

Tuesday, May 3, 2011

Кластерный анализ с примерами на R

Доброго дня, уважаемый читатель! Перед вами очередной опус из серии о data mining. В прошлый раз я рассказал о методе ближайших соседей. Сегодня, как логическое продолжение, поговорим о кластерном анализе или кластеризации. С устоявшейся терминологией тут проблемы, т.к. большинство публикаций на английском и приходится придумывать русский эквивалент английским терминам. Потому и я иногда буду тоже скатываться на англицизмы.

Почему это логическое продолжение? Потому что идеи лежащие в основе этих подходов очень похожи. Напомню, что суть метода ближайших соседей состоит в том, что для каждого объекта мы ищем ближайших к нему соседей и на основании имеющихся данных о соседях делаем вывод об исходном объекте, на языке data mining, это называется обучением с учителем. Для того, чтобы этот подход работал, нужно иметь набор тренировочных данных.

А что если у нас есть просто данные и мы ничего не знаем об их структуре? Но зато, у каждого элемента данных есть набор характеристик (например, если речь идет о людях: возраст, пол, образование итп). Так вот, задача кластерного анализа состоит в том, чтобы разбить объекты на группы (кластеры) так чтобы объекты в каждой группе были некоторым образом похожи. Тем самым раскрывается внутренняя структура данных. При этом, нам не требуются тренировочные данные. Такой подход носит название обучения без учителя.