Python как инструмент Data Mining Лекция 4.4 Инструменты Data Mining Зырянов Александр Олегович.

Презентация:



Advertisements
Похожие презентации
Решение математических и экономических задач средствами MATLAB.
Advertisements

NumPy, SciPy. это открытая библиотека высококачественных научных инструментов для языка программирования Python. SciPy содержит модули для оптимизации.
Декомпозиция сложных дискретных систем, формализованных в виде вероятностных МП-автоматов. квалификационная работа Выполнил: Шляпенко Д.А., гр. ИУ7-83.
Использование возможностей CUDA на языке Python Александр Мыльцев (Parallel Compute) 1.
Алгоритмический трейдинг c Python Денис Колодин ген. директор AlgoMarkets LLC Денис Колодин ген. директор AlgoMarkets LLC.
1 Исследование алгоритмов решения задачи k коммивояжеров Научный руководитель, проф., д.т.н. Исполнитель, аспирант Ю.Л. Костюк М.С. Пожидаев Томский государственный.
Тема исследование: Распознавание букв на изображении Группа: 10510/1 Киселев Павел.
Реализация индексного анализа для деревьев циклов любого вида сложности Выполнил : студент 818 гр. Юдин Павел Научный руководитель : к. т. н. Муханов Л.
Технология хранения, поиска и сортировки информации в базах данных
Массивы Материалы к урокам по программированию. МАССИВ это УПОРЯДОЧЕННАЯ последовательность данных ОДНОГО ТИПА. Массивы относятся к структурированным.
Анализ вычислительной сложности алгоритмов Теория сложности вычислений.
Визуализация Лекция 4.2 Инструменты Data Mining Зырянов Александр Олегович.
Двумерные массивы. Двумерный массив При решении практических задач часто приходится иметь дело с различными таблицами данных, математическим эквивалентом.
(слово французского происхождения, обозначающее мощный или сплошной) совокупность множества однородных по каким-либо признакам объектов, предметов, данных.
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Предмет и методы Лекция 2.
ЭЛЕКТРОННЫЕ ТАБЛИЦЫ КАК ИНФОРМАЦИОННЫЕ ОБЪЕКТЫ Разработала учитель информатики и ИКТ Некруткина Елена Владимировна МОУ СОШ 32 Средства и технологии создания.
Массив это пронумерованная последовательность величин одинакового типа, обозначаемая одним именем. Элементы массива располагаются в последовательных ячейках.
Министерство образования Республики Беларусь Белорусский государственный университет Управляющие структуры языков программирования.
Двумерные массивы. В математике часто используют многомерные массивы, т.е. массивы массивов. Особенно широкое распространение получили двумерные массивы.
Транксрипт:

Python как инструмент Data Mining Лекция 4.4 Инструменты Data Mining Зырянов Александр Олегович

Почему Python 1. Мощное сообщество в области научных вычислений 2. Обилие библиотек для анализа данных 3. Скорость работы 4. Подходит как для прототипирования, так и для создания конечных продуктов 2

Почему не Python 1. Скорость работы 2. Проблемы с многопоточностью 3

Основные библиотеки NumPy SciPy IPython matplotLib Pandas mlpy 4

NumPy NumPy или Numerical Python – основной пакет для научных вычислений на Python. Среди всего прочего он предоставляет: Быстрые и эффективные многомерные массивы ndarray Функции, реализующие математические операции над массивами Инструменты для чтения и записи данных в виде массивов Операции линейной алгебры, преобразование Фурье и генератор случайных чисел Инструменты для интеграции с кодом на C, C++ и Fortran 5

SciPy SciPy – это набор пакетов для решения различных проблем в области научных вычислений. Вот некоторые из включенных в него пакетов: scipy.integrate: численное интегрирование и решение дифференциальных уравнений scipy.linalg: линейная алгебра и разложение матриц. Предоставляет более широки возможности по сравнению с NumPy scipy.signal: Инструменты для обработки сигналов scipy.stats: стандартные непрерывные и дискретные статистические распределения, различные статистические тесты 6

matplotlib Matplotlib – наиболее популярная библиотека для двумерной визуализации данных 7

IPython Ipython – это усовершенствованная оболочка для Python, созданная что бы ускорить написание, тестирование и отладку программ. Она особенна полезна для интерактивной работы с данными и визуализации. Среди прочего, включает в себя: HTML-редактор для подключения к IPython через браузер Консоль с возможностью построения графиков, многострочным редактированием и подсветкой синтаксиса Инфраструктуру для интерактивных параллельных и распределенных вычислений 8

Pandas Pandas – предоставляет структуры данных и функции, созданные, чтобы сделать работу со структурированными данными быстрой, простой и выразительной. Pandas предоставляет: DataFrame - двумерная, ориентированная на столбцы, структура данных. Поддерживает индексацию Высокопроизводительный функционал для работы с временными последовательностями Инструменты для чтения и записи данных в различных форматах 9

NumPy: Массивы и векторизованные вычисления Далее будут рассмотрены основные приемы работы с массивами NumPy. В частности: Использование векторизованных операций для фильтрации, выделения подмножеств и трансформации данных Использование общих алгоритмов, таких как сортировка или преобразование массива во множество Получение общих статистических сведений о данных Слияние и объединение разнородных наборов данных 10

NumPy: Создание ndarray 11 Для создания ndarray функцией array. Эта функция принимает любой объект, являющийся последовательностью Если структура данных вложенная, то будет создан многомерный массив. Массив будет иметь наиболее общий для его элементов тип данных

NumPy: Операции над массивами 12 Большинство операций над массивами NumPy можно производить без использования циклов for. Любая арифметическая операция над массивами одинакового размера выполняется поэлементно: Арифметические операции со скалярными величинами и массивами так же производятся поэлементно:

NumPy: Работа с индексами массивов 13 Работа с индексами довольно проста и похожа на работу со стандартными списками Python

NumPy: Работа с фрагментами массива 14 При создании фрагментов массива данные не копируются. Модификация фрагментов отражается на оригинале

NumPy: Транспонирование массивов 15 Транспонирование возвращает образ данных без их копирования. Транспонированная матрица может быть так же доступна через атрибут Т

NumPy: Универсальные функции 16 Универсальные функции – функции, которые производят поэлементные операции над массивами Они являются векторизованными оболочками для простых функций Многие из них производят простую поэлементную трансформацию

NumPy: Универсальные функции 17 Некоторые универсальные функции могут принимать два массива и возвращать один

NumPy: Математические и статистические методы 18 NumPy предоставляет набор математических функций, вычисляющих статистику по всему набору данных Для некоторых функций можно задать ось, по которой они будут вычисляться

NumPy: Сортировка 19 Массивы NumPy могут быть отсортированы методом sort Многомерные массивы сортируются по заданной размерности