Skip to content

Возможности функции Crosstab в Pandas для анализа и визуализации данных

Пересказ статьи R. Gupta. The Power of Crosstab Function in Pandas for Data Analysis and Visualization


Pandas является популярной библиотекой Python для анализа и манипуляции данными. Она предоставляет мощные инструменты для работы с табличными данными, включая такие структуры как ряды и фреймы данных, и функции для очистки, слияния и изменения формы данных.

Одним из наиболее полезных инструментов для анализа табличных данных в Pandas является функция crosstab(). Эта функция позволяет вам рассчитать таблицу частот двух и более переменных, которые суммируют разбросанные в данных значения и позволяют выявить связь между переменными. Перекрестная табуляция (или crosstab) является важным инструментом для анализа двух категориальных переменных в наборе данных. Она дает сводную таблицу распределения частот двух переменных, позволяя увидеть взаимосвязь между ними и идентифицировать любые шаблоны или тренды. Продолжить чтение "Возможности функции Crosstab в Pandas для анализа и визуализации данных"

Причины скачков производительности запроса в SQL Server

Пересказ статьи Aaron Bertrand. Reasons for SQL Server Query Performance Fluctuations


Производительность запроса может испытывать скачки с течением времени, и это не обязательно обусловлено изменениями в самом запросе (или в коде приложения, которое его вызывает). Пользователи часто спрашивают, почему запрос внезапно стал работать медленнее, хотя они ничего не меняли в приложении, а данные не изменялись резко. В этой статье мы укажем на несколько причин - их существует много - по которым запрос мог замедлиться сегодня по сравнению с тем, что было 10 минут назад, две недели назад, или прошлым летом.

Прежде чем вникать в возможные причины скачков производительности, давайте сделаем обзор того, что происходит в SQL Server при обработке запросов.

Продолжить чтение "Причины скачков производительности запроса в SQL Server"

Индексы PostgreSQL: что это такое и как они могут помочь

Пересказ статьи Henrietta Dombrovskaya. PostgreSQL Indexes: What They Are and How They Help


В предыдущей статье этой серии мы узнали, как произвести, прочитать и интерпретировать планы выполнения. Мы узнали, что план выполнения предоставляет информацию о методах доступа, которые PostgreSQL использует для выборки записей из базы данных. В частности, мы видели, что в некоторых случаях PostgreSQL использовал последовательное сканирование, а в некоторых - доступ на основе индекса.

Кажется, что было бы неплохо поговорить об индексах до обсуждения планов выполнения, но планы запросов - это хорошее место для начала движения в сторону решения проблем производительности! Здесь мы собираемся поговорить об индексах, зачем они нам нужны, как они могут нам помочь, и как они могут усугубить ситуацию.
Продолжить чтение "Индексы PostgreSQL: что это такое и как они могут помочь"

Nidhi Gupta. DECODE vs CASE IN ORACLE

Пересказ статьи Nidhi Gupta. DECODE vs CASE IN ORACLE


DECODE: Decode - это функция в SQL. Это способ преобразования написанного кода в понимаемый язык.

CASE: Case - это оператор в SQL. Это способ реагирования на появление значения или на то, какое действие необходимо выполнить при появлении определенного значения.
Продолжить чтение "Nidhi Gupta. DECODE vs CASE IN ORACLE"

Нормализуйте строки для оптимизации пространства и поиска

Пересказ статьи Aaron Bertrand. Normalize strings to optimize space and searches


Эта статья написана для SQL Server, однако эти понятия применимы к любой платформе реляционных баз данных.

Социальная сеть Stack Exchange журнализует большой веб-трафик - даже в сжатом виде мы в среднем имеем свыше терабайта в месяц. И это всего лишь суммарный срез наших общих необработанных данных журнала, который мы загружаем в базу данных для обеспечения безопасности и аналитических целей. На каждый месяц имеется своя собственная таблица, позволяя использовать скользящие окна секционного типа и селективные индексы без дополнительных ограничений и накладных расходов на обслуживание. (Taryn Pratt рассказывает об этих таблицах весьма подробно в своей статье Migrating a 40TB SQL Server Database.)
Продолжить чтение "Нормализуйте строки для оптимизации пространства и поиска"

Параллелизм базы данных в PostgreSQL

Пересказ статьи Mohan Saraswatipura. Database Concurrency in PostgreSQL


Управление параллелизмом является важным аспектом в системах баз данных, которые имеют дело с множеством параллельно выполняющихся транзакций. В PostgreSQL применяются различные методы для обеспечения параллельного доступа к базе данных при поддержке согласованного состояния данных с использованием свойств атомарности и изоляции ACID (атомарность, согласованность, изоляция и длительность).
Продолжить чтение "Параллелизм базы данных в PostgreSQL"

Продвинутый Pandas: исчерпывающее руководство для энтузиастов данных

Пересказ статьи RaviTeja G. Advanced Pandas: A Comprehensive Handbook for Data Enthusiasts


Это вторая часть нашего руководства по науке о данных с Pandas. В части 1 мы заложили основы изучения структур данных, загрузки данных, очистки, выборки, индексации и манипуляции данными. Однако исследование данных на этом не заканчивается, правильно?

Теперь, во второй части, мы рассмотрим более продвинутые темы агрегации данных, анализа, визуализации, обработки данных временных рядов и другие. Продолжить чтение "Продвинутый Pandas: исчерпывающее руководство для энтузиастов данных"

Новости за 2024-03-02 - 2024-03-08

Прекрасную половину любителей SQL поздравляем с праздником
8 Марта!
Здоровья и счастья!


§ Популярные темы недели на форуме


Топик		Сообщений	Просмотров
303 (SELECT) 13 5
24 (Learn) 2 19
131 (SELECT) 2 6

§ Авторы недели на форуме


Автор		Сообщений
selber 6
MyBoringSQL 3
aks_nsk 2
Aintripin 2
Продолжить чтение "Новости за 2024-03-02 - 2024-03-08"

Что такое план выполнения и как его найти в PostgreSQL

Пересказ статьи Henrietta Dombrovskaya. What Is an Execution Plan and How to Find It in PostgreSQL


В последнем блоге (Когда настройка параметра в PostgreSQL не помогает) мы сравнили несколько планов выполнения для оператора SQL по мере изменения параметров и индексов. При этом не было упомянуто то, что собой представляет план выполнения, как можно получить план выполнения запроса и как интерпретировать результат. В этом блоге мы глубже погрузимся в эту тему.
Продолжить чтение "Что такое план выполнения и как его найти в PostgreSQL"

Понимание предложения ROWS BETWEEN в SQL

Пересказ статьи Rahma Hassan. Understanding the “ROWS BETWEEN” Clause in SQL


В SQL предложение “ROWS BETWEEN” является мощным средством, которое позволяет вам определить окно строк для анализа или вычислений непосредственно в запросе. Указывая диапазон строк, вы можете выполнять вычисления или применять агрегатные функции к подмножеству данных, а не ко всему результирующему набору. Цель данной статьи - сделать понятным предложение “ROWS BETWEEN” и его использование на примерах.
Продолжить чтение "Понимание предложения ROWS BETWEEN в SQL"