Skąd brać dane do nauki Power BI?

Chcę zacząć! Ale skąd wziąć dane?

Masz już zainstalowanego Power BI’a Desktop. Jesteś gotowy do pracy i nagle pojawia się myśl:
OK, ale co ja tak właściwie chcę przeanalizować? Skąd wziąć jakieś sensowne dane? 

Pokażę Ci kilka źródeł, których możesz użyć, jeśli chcesz pobrać dane, które mogą pomóc Ci ćwiczyć umiejętności w narzędziu Power BI Desktop.

Znani Włosi

Panów Ferrari i Russo z sqlbi.com nie muszę chyba przedstawiać, a jeśli jeszcze ich nie znasz, to zachęcam do zapoznania się z ich materiałami. Na GitHubie, o tutaj, znajdziesz dane z modelu Contoso. Co ciekawe, możesz skorzystać z różnych typów plików: CSV, Parquet, z plików bak, które możesz „zaciągnąć” do swojej instancji SQL Server, a także gotowych plików Power BI Desktop.

Co ciekawe i warte podkreślenia, dane dotyczące tabelki faktów, z zamówieniami, mogą mieć od 10 000 do 100 000 000 wierszy. Dzięki temu można poćwiczyć różne scenariusze, a także potestować Power BI Desktop, jak zachowuje się przy pracy z tak sporymi tabelami.

Możesz też nieco „podrasować” model i skorzystać z customizacji, które oferuje. Jednakże jest to nieco bardziej zaawansowane, jak mówią sami autorzy, konieczna jest wiedza z C#’a czy SQL. 

Kaggle

Innym źródłem, z którego możesz skorzystać jest platforma Kaggle.com. Po zarejestrowaniu się, w zakładce „Datasets” znajdziesz bardzo wiele zestawów danych.
Być może z częścią z nich się już spotkałeś, jak np. ze zbiorem Iris.

Jest to na pewno ciekawe miejsce, gdzie możesz poszukać dane z domeny, w której się specjalizujesz czy takiej, która jest przedmiotem Twoich zainteresowań.

Zestawy danych, które znajdziesz na Kaggle są różne pod kątem złożoności, znajdziesz tutaj typowe „jednotabelkowce” jak i bardziej skomplikowane modele, gdzie pomiędzy tabelami możesz budować relacje.

Python’ owy Faker

Nie, to nie fejk, a Faker! W Pythonie możesz skorzystać z biblioteki Faker, która pozwala tworzyć dane według interesującej Cię struktury, bez konieczności wymyślania danych. Definiujesz atrybuty, które Cię interesują. „Produkcją” danych zajmie się biblioteka.

Zachęcam do zapoznania się z dokumentacją rozwiązania, która w przejrzysty sposób pozwala zrozumieć zasady jej działania.

Poniżej znajdziesz przykładowy skrypt do wygenerowania danych „finansowych” na potrzeby ćwiczeń.

[sourcecode language="python"]
import pandas as pd
from faker import Faker
import random

fake = Faker()

def generate_transaction_data(num_records):
    data = []
    for _ in range(num_records):
        user_name = fake.first_name()
        user_surname = fake.last_name()
        iban = fake.iban()
        transaction_date = fake.date_this_year()
        transaction_amount = round(random.uniform(1.0, 10000.0), 2)
        transaction_currency = fake.currency_code()
        
        data.append({
            'UserName': user_name,
            'UserSurname': user_surname,
            'Iban': iban,
            'TransactionDate': transaction_date,
            'TransactionAmount': transaction_amount,
            'TransactionCurrency': transaction_currency
        })
    return data

num_records = 100
transaction_data = generate_transaction_data(num_records)
df = pd.DataFrame(transaction_data)
print(df)
[/sourcecode]

Ten skrypt generuje 100 rekordów (liczbę rekordów można dostosować, zmieniając wartość num_records) z losowymi danymi o transakcjach, takimi jak imię, nazwisko, IBAN, data transakcji, kwota transakcji i waluta. Wszystkie te dane są umieszczane w w pandasowym Data Frame’ie.

Podsumowanie

Jak widzisz, żeby zacząć eksplorację narzędzia Power BI Desktop możesz skorzystać z kilku źródeł danych. Według mnie bardzo ciekawą opcją jest rozwiązanie sugerowane przez Panów z SQLBI.
Jeśli znasz trochę Pythona możesz skorzystać z kolei z biblioteki Faker, która pozwoli Ci samemu wyprodukować dane na swoje potrzeby.

A Ty? Skąd bierzesz dane do nauki narzędzia Power BI Desktop?
Zachęcam do zapoznania się ze źródłami, które wskazałem w artykule!

Dane są wszędzie, wiesz?

Zapisz się, jeśli interesujesz się Power BI'em i danymi. Co jakiś czas odezwę się z ciekawymi materiałami.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Komentarze (4)

Hej Marcel,
Dzięki za komentarz!
Możesz przeanalizować aplikacje, z których korzystasz, zapewne część z nich ma możliwość eksportu danych.
Myślę, że można przeanalizować dane pochodzące z rachunków bankowych (tam jest możliwy eksport, sam śledzę dane w ten sposób).
Kolejnym źródłem mogą być opaski fitness/ smartwatche.
Ewentualnie dane pochodzące z odczytów z urządzeń, które masz w domu np. termoetry, higrometery.
To kilka inspiracji, zerknij też na aplikację, z których korzystasz. Dane są wszędzie 🙂
Pozdrawim!