Database
"Praca domowa" SysAdmina – part 2: ETL, czyli ładowanie dużej ilości danych do bazy danych
·3862 words·19 mins
Blog.dsinf.net
Csv
Database
Etl
Io
Linux
Postgresql
Psql
Sysadmin
Ten wpis jest kontynuacją wpisu “Praca domowa” SysAdmina – part 1: disk baselines - z ciekawszym zadaniem polegającym na zoptymalizowaniu ładowania sporych plików csv do wybranej bazy danych jak najszybciej. Punkt wyjściowy - copy extract from STDIN WITH delimiter E'\t' NULL AS ";
tl;dr? Podsumowanie jest na końcu artykułu 😉
Intro notes # Disk benchmarking for ETL is done in file for task 1. Following sections are in chronological order of testing. Average of 2 most consistent results were chosen in perf tests, over 4-6 performed awk’s and plotly.js average value are different since rounding is performed on different stages of computation krps is k rows/sec, 1000x amount of rows inserted per second Environment setup # Initial filesystem for /home is ext4 journalled. Below is setup log