
Skąd brać dane do nauki Power BI?
Chcę zacząć! Ale skąd wziąć dane?
Masz już zainstalowanego Power BI’a Desktop. Jesteś gotowy do pracy i nagle pojawia się myśl:
OK, ale co ja tak właściwie chcę przeanalizować? Skąd wziąć jakieś sensowne dane?
Pokażę Ci kilka źródeł, których możesz użyć, jeśli chcesz pobrać dane, które mogą pomóc Ci ćwiczyć umiejętności w narzędziu Power BI Desktop.
Znani Włosi
Panów Ferrari i Russo z sqlbi.com nie muszę chyba przedstawiać, a jeśli jeszcze ich nie znasz, to zachęcam do zapoznania się z ich materiałami. Na GitHubie, o tutaj, znajdziesz dane z modelu Contoso. Co ciekawe, możesz skorzystać z różnych typów plików: CSV, Parquet, z plików bak, które możesz „zaciągnąć” do swojej instancji SQL Server, a także gotowych plików Power BI Desktop.
Co ciekawe i warte podkreślenia, dane dotyczące tabelki faktów, z zamówieniami, mogą mieć od 10 000 do 100 000 000 wierszy. Dzięki temu można poćwiczyć różne scenariusze, a także potestować Power BI Desktop, jak zachowuje się przy pracy z tak sporymi tabelami.
Możesz też nieco „podrasować” model i skorzystać z customizacji, które oferuje. Jednakże jest to nieco bardziej zaawansowane, jak mówią sami autorzy, konieczna jest wiedza z C#’a czy SQL.
Kaggle
Innym źródłem, z którego możesz skorzystać jest platforma Kaggle.com. Po zarejestrowaniu się, w zakładce „Datasets” znajdziesz bardzo wiele zestawów danych.
Być może z częścią z nich się już spotkałeś, jak np. ze zbiorem Iris.
Jest to na pewno ciekawe miejsce, gdzie możesz poszukać dane z domeny, w której się specjalizujesz czy takiej, która jest przedmiotem Twoich zainteresowań.
Zestawy danych, które znajdziesz na Kaggle są różne pod kątem złożoności, znajdziesz tutaj typowe „jednotabelkowce” jak i bardziej skomplikowane modele, gdzie pomiędzy tabelami możesz budować relacje.
Python’ owy Faker
Nie, to nie fejk, a Faker! W Pythonie możesz skorzystać z biblioteki Faker, która pozwala tworzyć dane według interesującej Cię struktury, bez konieczności wymyślania danych. Definiujesz atrybuty, które Cię interesują. „Produkcją” danych zajmie się biblioteka.
Zachęcam do zapoznania się z dokumentacją rozwiązania, która w przejrzysty sposób pozwala zrozumieć zasady jej działania.
Poniżej znajdziesz przykładowy skrypt do wygenerowania danych „finansowych” na potrzeby ćwiczeń.
[sourcecode language="python"]
import pandas as pd
from faker import Faker
import random
fake = Faker()
def generate_transaction_data(num_records):
data = []
for _ in range(num_records):
user_name = fake.first_name()
user_surname = fake.last_name()
iban = fake.iban()
transaction_date = fake.date_this_year()
transaction_amount = round(random.uniform(1.0, 10000.0), 2)
transaction_currency = fake.currency_code()
data.append({
'UserName': user_name,
'UserSurname': user_surname,
'Iban': iban,
'TransactionDate': transaction_date,
'TransactionAmount': transaction_amount,
'TransactionCurrency': transaction_currency
})
return data
num_records = 100
transaction_data = generate_transaction_data(num_records)
df = pd.DataFrame(transaction_data)
print(df)
[/sourcecode]
Ten skrypt generuje 100 rekordów (liczbę rekordów można dostosować, zmieniając wartość num_records
) z losowymi danymi o transakcjach, takimi jak imię, nazwisko, IBAN, data transakcji, kwota transakcji i waluta. Wszystkie te dane są umieszczane w w pandasowym Data Frame’ie.
Podsumowanie
Jak widzisz, żeby zacząć eksplorację narzędzia Power BI Desktop możesz skorzystać z kilku źródeł danych. Według mnie bardzo ciekawą opcją jest rozwiązanie sugerowane przez Panów z SQLBI.
Jeśli znasz trochę Pythona możesz skorzystać z kolei z biblioteki Faker, która pozwoli Ci samemu wyprodukować dane na swoje potrzeby.
A Ty? Skąd bierzesz dane do nauki narzędzia Power BI Desktop?
Zachęcam do zapoznania się ze źródłami, które wskazałem w artykule!
Komentarze (4)
A jakie dane, które produkujemy sami mogłybyć dobre na start?
Hej Marcel,
Dzięki za komentarz!
Możesz przeanalizować aplikacje, z których korzystasz, zapewne część z nich ma możliwość eksportu danych.
Myślę, że można przeanalizować dane pochodzące z rachunków bankowych (tam jest możliwy eksport, sam śledzę dane w ten sposób).
Kolejnym źródłem mogą być opaski fitness/ smartwatche.
Ewentualnie dane pochodzące z odczytów z urządzeń, które masz w domu np. termoetry, higrometery.
To kilka inspiracji, zerknij też na aplikację, z których korzystasz. Dane są wszędzie 🙂
Pozdrawim!
Całkiem nieźle z generowaniem takich danych radzi sobie Gemini. Oczywiście im lepszy prompt tym lepszy wynik
Hej,
Dzięki za komentarz i kolejną wskazówkę na wygenerowanie sobie danych!