Ну что есть кто желающие ?
jsmith82 давай блесни своими мега способностями по программированию BIGDATA ))))
Ну что есть кто желающие ?
jsmith82 давай блесни своими мега способностями по программированию BIGDATA ))))
Будущий_Олигарх ищут они крутых программеров
ну, тут задание не столько на программирование, сколько на построение статистической модели
(3) биг дата это и есть на 50% статистика
ну кстати они не плохо придумали. за 500т рублей собрать "пул" потенциальных сотрудников)) и пятерку первых можно сразу браьт на работу
(5) Да еще бы получить гарантию что 500 тонн упадет кому надо, а то казачок засланный будет, а вот со 2 по 30 место будет нормальный список мощных товарищей и бесплатно !)))
Давайте по существу по обсуждаем имеющиеся данные и что можно сделать ?
будем время - прогоню через дефолтную стат модель от сапа
будет интересно посмотреть на результат
Я статистику в последний раз в институте изучал. На практике почти не применял.
короче поковырял как смог, понял что нихера не понял
вообщем нужно каким-то образом получить закономерности для каждой группы. типа у группы 2 показатель Х37 в 95% случаев больше 3. найти побольше таких "предположений" и "машинным обучением" выявить какие "закономерности" самые точные.
а потом полученные закономерности "надеть" тестовые данные...
(18) так а как делать то?))))
(22) давай, не тяни)))
Кстати они процент попадания сразу присылают ? Хотя там конечно они берут всего 30% то есть овер дохера попыток если сделать ? То есть грубо говоря вообще забить на эти таблички а слать им результирующую табличку меняя порционно там значения, сколько нужно итераций долбануть интересно ?
а я про попытки ваще не понял. как это работает? я понял присылаешь им результирующую таблицу, он проверяют данные и выдают процент. причем здесь попытки?
у нас 50 тыс. абонентов и 7 возрастных категорий от 0 до 6, сколько вариаций табличек можно сделать ? Но такая схема сработала бы если бы они брали таблицу и давали 100% значение попадания по всей таблице.
каждый абонент - это точка в 60ти мерном пространстве
Нужно эту таблицу подсунуть обучалке для нейросети, и просто ждать пока она обучается до конца конкурса, и в последний момент посчитать и залить результат.
спейшиализды блеять
(27) че то сап считает, что кластерный анализ по недискретным значениям строить небогоугодно. Буду пробовать Decision tree обучать
а я буду ждать ноября, когда очередь курса по машинному обучению подойдет...
(35) ну курсы кстати не скучные. хотя да, иногда бывают такие моменты
(37) Чем больше процент угадывания, тем выше качество, очевидно же.
admin govnoforuma (37) Чем больше процент угадывания, тем выше качество, очевидно же.
Так тебе нужно каждый цикл заливать и получать ответ и сУвать его программе, что бы она учитывала результаты.
(39) зачем разделять? По 100% учишься и проверяешь.
Ту проблема в том, что существует стопицот разных алгоритмов кластерного анализа
ну так есть же трейн дата. половину для обучения, половину для тестов
Построить модель на основе данных из выборки train.csv, разметить выборку test.csv и предоставить файл, содержащий строки, такие как: ID из файла test.csv, предсказанная возрастная группа. Файл sol.csv содержит формат, в котором нужно загружать решение.
блин, каждый божий день такой херней занимаюсь...
(49) не [...]?
(51) Очевидно, работает в билайне, подготавливает предложения для разных возрастных групп.
500 000 рублей / 50 000 строк = 10 рублей за каждую строку.
если в день минимум по 100 строк отсортировывать, то за 10 дней от 1000 строк можно отсортировать, от 10 000р. заработать.
Для решения задачи за 10 дней нужно до 500 человек.
Можно на мисте тему создать, набрать желающих подзаработать.
(55)(52) не билайн, а просто с бигдата работает
(56) а причем здесь сортировка?
admin govnoforuma Наверное около 70% - это предел.
наверное, попадание определяется примененными алгоритами. чем ближе примененное решение к примененному решению постановщиков задачи - тем выше процент.
sf наверное, попадание определяется примененными алгоритами. чем ближе примененное решение к примененному решению постановщиков задачи - тем выше процент.
я думаю, что у них уже есть информация о возрасте - в конце концов, паспорт то все абоненты предъявляют. Так что проверка будет вестись по реальным данным, а не на предмет алгоритма
Че, кто-нибудь вгрузил дату?
Я в регистр сведений залил, сделал скриптом один огромный запрос угадывающий возростную группу и подсчитывающий количество угадываний, получилось всего 38%. Маловато что-то. Правда я использовал только колонки СМС, Интернета, местных и зарубежных звонков, абонентской платы. Короче все более менее понятные и числовые колонки. Нечисловые типа тарифного плана, а так же числовые типа гео координат вообще не использовал. Наверное из-за этого такая неточность. Да и алгоритм самый простой придумал. А, и еще вес колонок не задавал.
(61) Нет! Пол ляма дарить не собираюсь. Я кажется понял как значительно улучшить процент попаданий.
ЗлобнийМальчик Так что проверка будет вестись по реальным данным
это попахивает! хотя билайн может...
(63) Так фамилий же нет.
(64) Ахаха! :)
Добавил весА, точность попаданий на 30% увеличилась. Нормально
admin govnoforuma (61) Нет! Пол ляма дарить не собираюсь.
Ох ты и жмот!
(69) да билайн еще те жлобы. с учетом того, что у них слив базы был уже не раз, обфусцированные реальные дата для конкурса, вряд ли выложили....
хотя это же билайн!
(68) Ну ок, подскажите тогда. Я не учился такому. Как сложить вероятности правильно? Пример задачи понятными словами:
источник 1 утверждает что: Смит сегодня будет смотреть фильм, вероятность 99%, потому что он видел как Смит добыл деньги и ходил в магазин и купил диск с фильмом.
источник 2 утверждает что: Смит сегодня будет смотреть фильм, вероятность 10%, потому что он знает что Смит любит фильмы.
Итого у нас две вероятности: 99% + 10%. Какова общая вероятность? Просто сложить их нельзя, получится больше 100%. Какая правильная формула дополнения этих вероятностей?
События ни несовместные, ни зависимые, ни независимые
Тут формализовать надо правильно...
А нельзя как сумму совместных событий? Или это херня выйдет? 0,991
Всё-таки, наверно, сумма совместных событий, ибо для сторонних наблюдателей эти события соместные. Зависимыми их назвать нельзя.
Тогда P(A+B) = P(A)+P(B)-P(AB)
То есть экспертные оценки одного и того же события должны складываться по формуле сложения совместных событий. Я такой вывод сделал.
А даже в гугл транслейт разобраться не могу ((( хуле, в детский сад не ходил, школу прогулял, даже в каблуху поступить не смог. Всю жизнь с 1С блять.
(81) Ну, так-то могу, если реально надо.
Я-то в английском как рыба в воде :)
Титаник: машинное обучение на примере катастрофы
Знакомство с Иксель
Знакомство с Иксель: конкурс по Титанику от Кэггл
Продолжать?
Под переводом я имел ввиду не просто тупо перевод, а сделать все как в статье, только данные подсунуть билайновские и своими мыслями дополнить.
Ааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааа вот я лох
Я же не шарю в биг дейта :(
Ну так там как бы много информации на этом ресурсе, по читай и вдруг чего интересного родишь. [smile=^_^]
Э нах мне это, я тут по 1с не успеваю, и по вебу, а вы ещё хотите ширануть меня в совершенно иную сферу приложения аналитических скиллов.
admin govnoforuma (90) за пол ляма че бы не выучить что-то новое?
Задрал ты с этими пол-ляма, не буит никаких ни пол, даже шишечки не будет. Но для общего развития и в резюме указать принимал участие в таком-то конкурсе попал в ТОП10 - это то же определенная стоимость.
(92) А вдруг будет. Это же билайн, они щедрые, от них всего можно ожидать. Может скажут что так как участников было очень мало, то передумали и решили дать всем кто участвовал по пол ляма.
Будущий_Олигарх Не будет никаких пол ляма, смотри (6), там даже в правилах написано что мы выберем кого посчитаем нужным.
Да и конкурса никакого нет. Это на хабре прикол такой сделали.
Итого, остановился ровно на 50% угадываний, и больше не занимался этой задачей. Хотя четко знаю как значительно улучшить процент угадываний, но некогда было делать, занимался более реальными делами. А время уже подходит к концу, так что даже не буду пытаться ничего улучшать. Темку можно закрывать.
admin govnoforuma Итого, остановился ровно на 50% угадываний, и больше не занимался этой задачей. Хотя четко знаю как значительно улучшить процент угадываний, но некогда было делать, занимался более реальными делами. А время уже подходит к концу, так что даже не буду пытаться ничего улучшать. Темку можно закрывать.
Лишь бы только по закрывать чего нибудь. Будет победитель будет решение, будем обсуждать. Мне тема интересна.
на приз пох. попадание в топ - дает шанс на работу в билайне, и через пару лет можно будет проситься в гугло-фейсбуки.
Бешеная Нога на приз пох. попадание в топ - дает шанс на работу в билайне, и через пару лет можно будет проситься в гугло-фейсбуки.
Там чЁ медом намазано ? Или это программа максимум любого говнокодера ?
В макдаке например можно с мойщика полов, до куроводителя до расти и без решения каких либо задачек! Только разве это самоцель ?
(99) попадание в топ ничего не дает, и проситься в гугль бестолку
Бешеная Нога на приз пох. попадание в топ - дает шанс на работу в билайне, и через пару лет можно будет проситься в гугло-фейсбуки.
По мне, так вот лучше http://media.rusbase.com/news/jan-koum-infographic.jpg.1000x600_q75_crop_upscale.jpg