1. Описание проекта
2. Какой кейс решаем?
3. Требования к оформлению ноутбука-решения
4. Результаты
5. Использованные инструменты и библиотеки
6. Графики в plotly
7. Ссылки на данные
Работа происходит с базой данных соискателей с сайта HeadHunter.
⭐ Компания HeadHunter хочет построить модель, которая бы автоматически определяла примерный уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе. Но, как вы знаете, прежде чем построить модель, данные необходимо преобразовать, исследовать и очистить. В этом и состоит наша с вами задача!
Наш проект будет состоять из четырёх частей:
-
Базовый анализ структуры данных
-
Преобразование данных
-
Разведывательный анализ
-
Очистка данных
- Решение оформляется только в Jupyter Notebook.
- Решение оформляется в соответствии с ноутбуком-шаблоном.
- Каждое задание выполняется в отдельной ячейке, выделенной под задание (в шаблоне они помечены как ваш код здесь). Не следует создавать множество ячеек для решения задачи — это создаёт неудобства при проверке.
- Код для каждого задания оформляется в одной-двух jupyter-ячейках (не стоит создавать множество ячеек для решения задачи, это усложняет проверку).
- Решение должно использовать только пройденный материал: переменные, основные структуры данных (списки, словари, множества), циклы, функции, библиотеки numpy, pandas, matplotlib, seaborn, plotly. Если вы думаете, что для решения необходимо воспользоваться сторонними библиотеками или инструментами (например Excel), другими языками программирования или неизученными конструкциями, вы ошибаетесь :) Все задания решаются с помощью уже знакомых методов.
- Код должен быть читаемым и понятным: имена переменных и функций отражают их сущность, важно избегать многострочных конструкций и условий.
- Пользуйтесь руководством PEP 8.
- Графики оформляются в соответствии с теми правилами, которые мы приводили в модуле по визуализации данных.
- Обязательное требование: графики должны содержать название, отражающее их суть, и подписи осей.
- Выводы к графикам оформляются в формате Markdown под самим графиком в отдельной ячейке (в шаблоне они помечены как ваши выводы здесь). Выводы должны быть представлены в виде небольших связанных предложений на русском языке.
Проведен анализ и очистка данных, также составлен отчет о заимосвязях данных
Получен практический опыт по работе с реальными данными
- numpy
- pandas
- seaborn
- plotly
- matplotlib
-
- 'Распределение возраста соискателей'
- 'Распределение опыта работы(месяц) соискателей'
- 'Распределение желаемой з/п соискателей'
- 'Медианная з/п по уровню образования'
- 'Распределение з/п по городам'
- 'Медианная з/п по готовности к командировкам/переезду'
- 'Медианная з/п по образованию и возрасту'
- 'Зависимость опыта работы от возраста'
- 'Количество соискателей готовых к удаленной работе и перездам по городам'
- "Медианная з/п по признакам 'Пол' и 'Oпыт работы (год)'"