Азы работы с pandas.DataFrame на примере задачи о Титанике.




[ad_1]

Данные это ключ, с их помощью раскрывают преступления, оптимизирую пассажиропотоки и выигрывают войны. Что сможешь сделать с ними сегодня ты, после этой лабы зависит лишь от твоего воображения ;)!

Надеюсь что после данной лабы каждый сможет загрузив свои данные выполнить базовые исследования характера данных, понять какими признаками описывается тот или иной объект. А так же простым анализом выявить очевидные закономерности в данных.

Будет ОЧЕНЬ классно если ты, в комментариях, поделишься каким именно интересным выводам пришел поигравшись со своими данными, а не только теми что были представлены на уроке.

Ссылка на Notebook: https://storage.googleapis.com/hexlet-ml/Titanic%2Bintro.ipynb

Страничка с соревнованием Kaggle: https://www.kaggle.com/c/titanic

Наша страничка на Patreon: https://www.patreon.com/b0noi

Твоя поддержка очень важна для нас, если видео тебе понравилось помоги нам его распространить и не забудь подписаться на канал 😉

Source


[ad_2]

Comment List

  • Kovalevskyi Academy
    November 13, 2020

    А продолжение есть?

  • Kovalevskyi Academy
    November 13, 2020

    какой же качественный контент! спасибо! лайк подписка

  • Kovalevskyi Academy
    November 13, 2020

    Добрый день!
    Подскажите, почему у меня файл загрузился не в том виде как у вас?
    http://joxi.ru/ZrJ1LZotMVKVkA
    Колонки и значения совсем другие, возможно исходный файл был изменен.
    Где взять оригинальный файл из видео для работы?

  • Kovalevskyi Academy
    November 13, 2020

    12:08 это капитан корабля

  • Kovalevskyi Academy
    November 13, 2020

    Очень помогло, огромное спасибо!

  • Kovalevskyi Academy
    November 13, 2020

    Уже будучи знакомой с анализом данных приятно слушать видео. Очень дельные вещи

  • Kovalevskyi Academy
    November 13, 2020

    Спасибо большое! Автор молодец!

  • Kovalevskyi Academy
    November 13, 2020

    Супер круто!

  • Kovalevskyi Academy
    November 13, 2020

    на 3:30 Вы говорите, что будет выводиться без print. Чего то я это не понял. У меня без принт не выводится.Что я не так делаю?

  • Kovalevskyi Academy
    November 13, 2020

    Хорошее видео, спасибо!

  • Kovalevskyi Academy
    November 13, 2020

    лайк

  • Kovalevskyi Academy
    November 13, 2020

    Ошибка на df[PCLASS_COL].value_counts() https://colab.research.google.com/drive/1_ul3DyhQOqlpXymw4k2-vBBE_v0Pls50 В csv файле 32 записи по ссылке ( а не 1313 как в видео) http://vincentarelbundock.github.io/Rdatasets/csv/datasets/Titanic.csv, и нет PClass столбца, есть Class, и колонка Age не содержит float данных
    Спасибо за видео, очень доходчиво, по полочкам, все законспектировала, три раза пересмотрела, вот что значит опыт преподавателя – разработчика ! Супер!!! Еще бы про Kaggle сделали видео как участвовать в соревнованиях по Титанику.

  • Kovalevskyi Academy
    November 13, 2020

    если я правильно помню, то проценты складываются как корень из суммы квадратов? То есть прогноз будет построен так: я ввожу свои данные(пол, возраст, класс), беру соответствующий процент из каждой группы и вычисляю среднее квадратическое значение?

  • Kovalevskyi Academy
    November 13, 2020

    слово "эпплаит" просто убило…

  • Kovalevskyi Academy
    November 13, 2020

    Интересно и не занудно, даже скорость не надо менять, спасибо

  • Kovalevskyi Academy
    November 13, 2020

    Вячеслав, спасибо за видео. Продолжение будет ?

  • Kovalevskyi Academy
    November 13, 2020

    Огромное спасибо за видео!

  • Kovalevskyi Academy
    November 13, 2020

    супер

  • Kovalevskyi Academy
    November 13, 2020

    Вы упоминали, что планируете снимать видео о TensorFlow . Ваши планы изменились? Или видео можно посмотреть на Вашем другом канале?

  • Kovalevskyi Academy
    November 13, 2020

    +5

  • Kovalevskyi Academy
    November 13, 2020

    Спасибо за видео, а можно ноутбук на github скинуть ?

  • Kovalevskyi Academy
    November 13, 2020

    Вячеслав, будут ли новые видео?

  • Kovalevskyi Academy
    November 13, 2020

    Так вот и самый главный вопрос, как комплексно анализировать данные? Как подсчитать вероятность выживания парня 30 лет во втором классе? Методом линейной регрессии с множеством предикторов?

  • Kovalevskyi Academy
    November 13, 2020

    21:30 возрастная группа 1 – выживших больше

  • Kovalevskyi Academy
    November 13, 2020

    Очень понятные уроки! Спасибо тебе большое!
    Пожалуйста, выпускай видео ещё!

  • Kovalevskyi Academy
    November 13, 2020

    Спасибо за видео! Подскажите как правильно сделать fillna по условию? Допустим заменить на медиану возраста для всех у кого Sex = female и Pclass = 1st?

  • Kovalevskyi Academy
    November 13, 2020

    df[AGE_GROUP_COL] = df[AGE_COL].map(lambda age: int(age // 10))
    df[:HEAD_ROWS_TO_SHOW] ошибка на этой строчке

    —————————————————————————
    ValueError Traceback (most recent call last)
    <ipython-input-18-d645ffb79767> in <module>()
    > 1 df[AGE_GROUP_COL] = df[AGE_COL].map(lambda age: int(age // 10))
    2 df[:HEAD_ROWS_TO_SHOW]

    /Users/konstantin/anaconda/lib/python2.7/site-packages/pandas/core/series.pyc in map(self, arg, na_action)
    2175 new_values = algos.take_1d(arg._values, indexer)
    2176 else:
    -> 2177 new_values = map_f(values, arg)
    2178
    2179 return self._constructor(new_values,

    pandas/src/inference.pyx in pandas.lib.map_infer (pandas/lib.c:66124)()

    <ipython-input-18-d645ffb79767> in <lambda>(age)
    > 1 df[AGE_GROUP_COL] = df[AGE_COL].map(lambda age: int(age // 10))
    2 df[:HEAD_ROWS_TO_SHOW]

    ValueError: cannot convert float NaN to integer

  • Kovalevskyi Academy
    November 13, 2020

    Уточню для тех кто смотрит: автор оговорился вот тут (https://youtu.be/_D1xhwXUebI?t=16m27s), это целочисленное деление, не остаток.)
    За видео лайк.) Спасибо)

  • Kovalevskyi Academy
    November 13, 2020

    будут ли новые видео ?

Write a comment