Ce aducem in EXCELeaza pentru tine?
- Yellow Shirts
- Jun 25, 2024
- 4 min read
În curând vom da startul la înscrierea pentru cursul EXCELează în analiza de date. Până atunci însă, vrem să vă povestim mai pe larg ce înseamnă aceste ateliere.
Cursul cuprinde trei sesiuni de aproximativ două ore structurate astfel încât să urmeze pașii de bază ai procesului de pregătire, analiză și prezentare a datelor într-un raport de tip dashboard interactiv.
Urmând firul logic, pornim de la curățarea datelor prin eliminarea rândurilor și coloanelor cu informații lipsă sau inutile. Această etapă este una de reducere a dimensiunii bazei de date și poate fi omisă dacă prin natura sursei de date nu este posibil să existe coloane/rânduri goale (100% valori lipsă) sau fără variație (aceeași informație peste tot).
Următorul pas este să verificăm ce alte informații lipsă mai pot exista urmărind atât ponderea spațiilor goale, cât și eventuale etichete care ar putea semnifica lipsa informației (de exemplu, texte precum N/A, Not Available, Not Applicable, Valid skip etc.). Aceste valori nu sunt purtătoare de informație (non-informative). Există, însă, și valori lipsă informative: în cazul în care răspunsul la o întrebare condiționează răspunsul la următoarea întrebare, valorile lipsă din a doua întrebare conțin implicit răspunsul din prima întrebare.

De exemplu, avem un chestionar de satisfacție a angajaților pe care îl aplicăm la nivelul companiei. În acest chestionar dorim să punem și întrebări legate de cultura organizațională. Cum un angajat care a petrecut puțin timp în companie nu va putea să ne ofere un răspuns relevant la aceste întrebări, nu i le vom adresa. Să presupunem că sunt necesare cel puțin 3 luni (perioada de probă minimă legală) în companie pentru a putea oferi răspunsuri relevante la întrebări legate de cultura companiei. În acest caz, vom avea o întrebare-filtru legată de vechimea respondentului în organizație. Dacă acesta este de mai mult de 3 luni în companie va răspunde la întrebările legate de cultura organizațională, altfel nu. Deci în baza rezultată, pentru toți angajații recenți (angajați în ultimele 3 luni) coloanele aferente întrebărilor legate de cultura organizațională vor conține valori lipsă. Acestea sunt valorile lipsă informative, ele ne spun că angajatul respectiv nu are suficientă vechime pentru a putea oferi informații relevante legate de subiectul de interes.
Odată stabilit volumul de informație disponibilă, vom trece la codificare. Această etapă se face ținând cont de tipul de date pe care se lucrează: nominale, ordinale sau continue. Cunoașterea și diferențierea acestora este importantă din prisma operațiilor posibile pe fiecare tip de date. Datele continue se referă cel mai frecvent la datele de tip numeric. În cazul acestora codificarea se concentrează în principal pe gruparea pe intervale. Datele nominale sunt categorii neordonabile, în timp ce cele ordinale au o ordine implicită.
Să comparăm, de exemplu, sectoarele mari de activitate din economie (primar, secundar, terțiar) cu nivelul de educație (primar, secundar, terțiar). La prima vedere ele sunt identice, însă la o analiză mai atentă observăm că în cazul sectoarelor de activitate ele sunt doar denumiri (care ar putea eventual reflecta ordinea în care au apărut), dar nu se schimbă sensul, substanța informației dacă amestecăm ordinea. Pe de altă parte, nivelurile de educație sunt progresive, au o ordine implicită/ intrinsecă. Nivelul de educație superior aduce ceva în plus față de cel secundar, care la rândul său îl completează pe cel primar. Aici ordinea contează. Vom spune deci că sectoarele de activitate sunt informații nominale, iar nivelul de educație este ordinal.

Cea mai simplă operație ce poate fi efectuată pe date (de orice tip) este numărarea. Aceasta rezultă în ceea ce numim frecvența de apariție a unei categorii. De exemplu, dacă avem o companie cu 100 de angajați din care 20 sunt la IT, 50 la call-center și 30 în alte departamente, frecvența angajaților IT va fi de 20. Pornind de la acest concept, vom explora frecvențele absolute (numărul de anagați), relative (ponderea angajaților) și cumulate.
A doua secțiune se concentrează pe analiza statistică de bază a datelor prelucrate în secțiunea anterioară. Vom discuta despre concepte precum media, mediana și modul, și utilizarea lor în tratarea valorilor lipsă, despre variația din date și despre identificarea valorilor extreme (outliers). Vom vedea de asemenea și caree concepte pot fi folosite cu ce tip de date, cum ne putem da seama dacă informația ce ne este prezentată e relevantă și/sau chiar corectă.
În cea de-a treia secțiune ne vom concentra pe prezentarea informațiilor în format vizual. Mai precis, vom discuta despre diferitele tipuri de grafice folosite cel mai frecvent și cu ce tipuri de date se pot folosi pentru a transmite informația corect și relevant. Apoi, vom trece la discutarea elementelor necesare și opționale pentru ca un grafic să fie ușor de înțeles pentru privitor.
În final, vom combina toate informațiile prezentate pe parcursul celor trei secțiuni pentru a crea un tip de raport vizual (dashboard) și interactiv. Vom atinge aspecte legate de cum organizăm informația pentru a transmite cât mai ușor mesajul și vom crea interfața prin care utilizatorul poate să interacționeze cu raportul pentru a-l personaliza.
Pe parcursul întregului curs vor fi folosite funcționalități ale Excel-ului (sau editoare de foi de calcul), cu accent pe folosirea filtrelor, sortării, formatării condiționate, graficelor și tabelelor pivot. Majoritatea acestor funcționalități pot fi considerate de bază pentru lucrul cu datele și diferite implementări ale lor se găsesc în toate softurile de analiză de date.
Acest proiect este sprijinit financiar de Consliliul Județean Maramureș și de Muncipiul Baia Mare.
Comments