Am intrat recent în lumea LDM și, sinceră să fiu, mă simt un pic copleșită de cantitatea de informație. Cam de unde ați început voi ceilalți? Ce resursă, fie că e vorba de un curs, un tutorial, un articol, un set de date, sau chiar o conversație pe aici, v-a ajutat cel mai mult să prindeți ideea pe partea de LDM în general? Apreciez orice sfat constructiv.
Salutare, @Gloria!
Pe deplin înțeleg ce zici. E ca și cum ai da buzna la o bibliotecă uriașă fără să știi unde să începi să cauți o anume carte. Când am intrat și eu în chestia asta cu LDM-urile (Large Data Mining, presupun că tot la asta te referi, nu?), la fel am simțit o mică panică. Erau atâtea chestii, atâtea terminologii noi, atâtea algoritmi…
Ce m-a ajutat pe mine cel mai mult la început a fost să mă scap de presiunea asta de a înțelege totul dintr-o dată. Am început cu niște chestii mai generale, pe „de ce”-ul din spate. De ce avem nevoie de LDM? Ce probleme rezolvă? Ce beneficii aduce?
Cred că primul pas a fost să citesc un articol mai introductiv despre Data Mining în general. Nu neapărat LDM specific, ci despre ce înseamnă să extragi „aur” din „rocă” (date). Apoi, am dat peste un cursuleț pe Coursera/edX (nu mai țin minte exact, erau pe la începuturile mele cu platformele astea) care explica bazele, cum ar fi preprocesarea datelor, tipurile de învățare automată (supervizată, nesupervizată) și câteva exemple simple de algoritmi aplicați (regresie liniară, k-means clustering) pe seturi de date mici. Simplu și la obiect, fără să mă blochez în matematică complicată.
După ce am prins ideea generală și am văzut cum funcționează lucrurile la nivel macro, am început să mă uit la tutoriale specifice pe anumite tehnici sau unelte. De exemplu, dacă vreau să fac ceva cu Python, caut tutoriale despre Pandas + Scikit-learn. Dacă vreau să înțeleg un algoritm anume, caut explicații pas cu pas cu exemple.
Seturile de date? E mișto să ai la ce să aplici, dar pentru început, cred că mai util e să înțelegi cum să aplici. Când ajungi să ai o idee despre ce vrei să faci, atunci cauți date pe Kaggle sau pe alte surse, dar nu invers.
Păstrează calmul și mergi pas cu pas. Asta e cheia. Oricum ai da-o, e un domeniu vast și o să înveți mereu chestii noi. Găsește o sursă care îți explică „din suflet”, nu doar cu formule. De multe ori, o metaforă bună face mai mult decât o pagină de teorie.
Succes! Oricând te blochezi sau ai o întrebare specifică, nu ezita să pui. Aici pe forum se discută și asta e super.
Salutare, @Gloria și @florinel!
Vai, @florinel, descrierea ta cu biblioteca uriașă unde nu știi de unde să apuci cartea… e superbă! Exact așa m-am simțit și eu la început. E a dracului de multă informație și pare că toți ceilalți știu deja totul, iar tu ești cel/cea care se bâlbâie la introducere.
Ce zici tu despre „a te descărca de presiunea asta de a înțelege totul dintr-o dată” e aur curat, @florinel. Asta e prima lecție, cred, pe care trebuie să o înveți în orice domeniu nou și vast. Eu am încercat inițial să citesc despre tot felul de algoritmi de la început, și m-am trezit cu capul plin de termeni ca Gradient Boosting, SVM, Random Forest… și habar n-aveam ce fac ei, de fapt.
Ce m-a scos din ceața asta (cred că a ajutat chiar discuția asta, ironic, sau ceva similar de pe forumul ăsta) a fost să mă concentrez pe ce vreau să fac. Adică, să mă gândesc la o problemă concretă pe care vreau să o rezolv. De exemplu, la început am fost super interesată de prezicerea abandonului clienților. Atunci am căutat de ce aș avea nevoie de LDM pentru asta și ce pași implică.
Și da, articolele introductive despre „What is Data Mining” sau „Introduction to Machine Learning” au fost esențiale. Nu chestii super academice, ci genul care îți explică cu exemple din viața reală (recomandările de pe Netflix, detectarea spam-ului etc.). Și multe, multe metafore, cum zicea și @florinel. Am prins o grămadă de concepte pe baza unor analogii.
Cursurile acelea pe platforme gen Coursera, sau chiar tutoriale pe YouTube de la canale care explică mai „pe românește” (sau „pe uman”) au fost de ajutor. De exemplu, am urmărit o serie despre Python pentru Data Science care folosea mult Scikit-learn. Nu am înțeles tot, dar am văzut cum se aplică niște algoritmi simpli. Măcar am prins fluxul de lucru: încărcare date, curățare, modelare, evaluare.
Pe partea de seturi de date, eu am început să mă joc cu chestii simple de pe Kaggle, gen „Titanic Survival Prediction” sau „House Prices Prediction”. Sunt clasice, sunt bine documentate și găsești o grămadă de soluții de la alții pe care să le studiezi. Nu să le copiezi, ci să vezi cum au abordat ei problema.
Pe scurt, pentru mine a contat mult să nu mă pierd în detalii la început și să înțeleg mai întâi conceptul și utilitatea. Apoi, pas cu pas, am explorat algoritmi și unelte. E un maraton, nu un sprint.
@Gloria, nu te descuraja! E absolut normal să te simți așa. Ce bine că ești aici și pui întrebări! Ignoră zgomotul de fond și concentrează-te pe ce te interesează pe tine. Dacă ai o întrebare specifică pe parcurs, pică aici! S-or mai găsi oameni care să te aj
