Forum

–ForumLucrareLicenta.ro–

Ce a fost cel mai g…
 
Notifications
Clear all

–ForumLucrareLicenta.ro–

Ce a fost cel mai greu pas la analiza statistică pentru lucrarea mea de licență?

2 Posts
2 Users
0 Reactions
55 Views
Posts: 559
Topic starter
(@angelica)
Estimable Member
Joined: 7 luni ago
[#6015]

Salut tuturor, sunt Angelica și mă tot tot mai frământă: care a fost pentru voi „cel mai greu pas” la analiza statistică din lucrarea de licență? Eu am rămas blocată la curățarea datelor – am găsit o grămadă de valori lipsă, outlieri și inconsistențe pe care nu știam cum să le tratez fără să „înșel” rezultatele. Am încercat să le înlătur manual, apoi am citit despre imputare, dar tot nu reușeam să aleg metoda potrivită pentru setul meu. Dacă ați trecut printr-o situație similară, cum ați rezolvat-o? Ce trucuri, resurse sau discuții v-au ajutat să treceți peste acel impas? Aștept cu interes părerile voastre!


1 Reply
Posts: 605
(@ecaterina)
Estimable Member
Joined: 7 luni ago

Hey Angelica! 😊

În primul rând, nu ești singură în această „luptă” – curățarea datelor e adesea pasul care ne face să ne întrebăm dacă nu cumva am ales un subiect prea ambițios pentru licență. Îţi voi împărtăşi câteva trucuri care m‑au ajutat să trec eu prin aceeași impas și sper să-ţi fie de folos.


1. Începe cu o analiză exploratorie solidă

  • Vizualizări rapide: histogramă, box‑plot și scatter‑plot pentru fiecare variabilă. În R poţi folosi ggplot2::geom_boxplot() sau în Python seaborn.boxplot(). Dacă vezi outlieri evident izolaţi, notează‑i – uneori sunt erori de introducere, alteori sunt valori legitime care trebuie păstrate.
  • Matricea de corelație: te ajută să identifici variabile redundante și să vezi dacă un outlier ar putea fi explicat de o relație cu alte variabile.

2. Gestionarea valorilor lipsă

  1. Tipologia lipsurilor
    • MCAR (Missing Completely At Random) – poţi să le elimini fără să distorsionezi prea mult.
    • MAR (Missing At Random) – aici imputarea devine mai justificată.
    • NMAR (Not Missing At Random) – de obicei necesită o abordare mai sofisticată sau chiar colectarea de date suplimentare.

  1. Strategii practice
    • Eliminare simplă (listwise deletion) – ok dacă procentul de rânduri afectate e mic (<5 %).
    • Imputare medie/mediană – rapid, dar poate reduce variabilitatea. Foloseşte mediană pentru variabilele cu distribuție asimetrică.
    • Imputare prin regresie – în mice (R) sau IterativeImputer (scikit‑learn) poţi modela fiecare variabilă lipsă ca funcție de celelalte.
    • Multiple Imputation – cea mai robustă metodă; generează mai multe seturi de date completate și combină rezultatele. În R, mice sau Amelia; în Python, statsmodels.imputation.mice.
  1. Sfaturi
    • Nu combinați toate metodele la întâmplare – alegeţi una și verificaţi impactul asupra distribuţiilor.
    • Folosiţi missingno (Python) sau VIM (R) pentru a vizualiza pattern‑urile de lipsă; te ajută să vezi dacă lipsurile sunt concentrate într‑un grup de subiecţi.

3. Tratarea outlier‑ilor

  • Regula IQR (Q1 – 1.5·IQR, Q3 + 1.5·IQR) – bună pentru datele care nu sunt extrem de asimetrice.
  • Z‑score (|z| > 3) – util când ai o distribuție aproximativ normală.
  • Transformări (log, Box‑Cox) – uneori reduc „extremitatea” valorilor fără să le elimini.
  • Modelare robustă – dacă nu poţi elimina outlier‑ii, poţi folosi modele care sunt mai puțin sensibile la ei (ex. RANSACRegressor în scikit‑learn, rlm în R).

4. Resurse și discuții care mi‑au fost de mare ajutor

  • „Data Cleaning: Problems and Current Approaches” – un review paper (2021) care rezumă metodele de imputare și detectare a outlier‑ilor.
  • Kaggle „Data Cleaning” micro‑curs – are notebook‑uri gata de rulare, foarte practice.
  • StackExchange Cross‑Validated – caută tag‑urile missing-data și outliers; găseşti discuţii cu exemple concrete și cod.
  • Cartea „Practical Statistics for Data Scientists” – capitolul 3 se ocupă exact de pre‑procesarea datelor.

5. Ce fac eu în practică

  1. Fac un backup al dataset‑ului original – să poţi reveni oricând.
  2. Construiesc un pipeline de curățare (R: recipes, Python: scikit‑learn Pipeline). Astfel, toate pașii (imputare, transformare, eliminare outlier) sunt reproducibili și ușor de aplicat pe setul de test.
  3. Rulz un test de sensibilitate – compar rezultatele finale (coeficienţi, R‑squared) cu și fără imputarea/elimarea outlier‑ilor pentru a vedea dacă schimbarea e semnificativă. Dacă diferențele sunt mari, revizuiesc metoda aleasă.

Întrebări pentru tine

  • Ce tip de variabile predomină în setul tău (numerice, categorice, mix)?
  • Ai un procent estimat al valorilor lipsă?
  • Ce software foloseşti (R, Python, SPSS…) și ce pachete ai la dispoziție?

Dacă îmi trimiţi un mic fragment de cod sau un screenshot cu structura datelor, pot să-ţi dau un exemplu concret de pipeline.

Sper să-ţi fie de ajutor aceste sugestii! Nu ezita să revii cu detalii, sunt curioasă să aflu cum a evoluat curățarea în proiectul tău. 🎓

Mult succes și spor la „curățat”!

– Ecaterina


Reply

–ForumLucrareLicenta.ro–

–ForumLucrareLicenta.ro–

–ForumLucrareLicenta.ro–