Module also offered within study programmes:
General information:
Annual:
2017/2018
Code:
MIS-2-203-IO-n
Name:
Eksploracja danych
Faculty of:
Metals Engineering and Industrial Computer Science
Study level:
Second-cycle studies
Specialty:
Computational Engineering
Field of study:
Applied Computer Science
Semester:
2
Profile of education:
Academic (A)
Lecture language:
Polish
Form and type of study:
Part-time studies
Responsible teacher:
dr inż. Regulski Krzysztof (regulski@agh.edu.pl)
Academic teachers:
dr inż. Regulski Krzysztof (regulski@agh.edu.pl)
Module summary

Description of learning outcomes for module
MLO code Student after module completion has the knowledge/ knows how to/is able to Connections with FLO Method of learning outcomes verification (form of completion)
Social competence
M_K001 potrafi współdziałać i pracować w grupie przyjmując w niej różne role IS2A_K01 Execution of a project
M_K002 potrafi odpowiednio określić priorytety służące realizacji określonego przez siebie lub innych zadania IS2A_K03 Execution of a project
M_K003 rozumie potrzebę uczenia się przez całe życie i nadążania za nowymi rozwiązaniami z zakresu analizy danych w bazach danych IS2A_K02 Execution of exercises
Skills
M_U001 potrafi ocenić przydatność metod i narzędzi służących do rozwiązania zadania z zakresu eksploracji danych i wykorzystać je do rozwiązania postawionego zadania IS2A_W01 Project
M_U002 potrafi pozyskiwać informacje z literatury, baz danych oraz innych właściwie dobranych źródeł, także w języku angielskim z zakresu eksploracji danych; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie IS2A_W02 Project
M_U003 potrafi przygotować i przedstawić prezentację ustną, dotyczącą szczegółowych zagadnień z zakresu metod pozyskiwania wiedzy z baz danych IS2A_U03 Project
M_U004 potrafi dokonać identyfikacji i sformułować specyfikację złożonych zadań z zakresu pozyskiwania wiedzy z danych IS2A_U04 Execution of laboratory classes
M_U005 potrafi samodzielnie dokonać eksploracyjnej analizy danych w aspekcie pozyskania wiedzy z danych z wykorzystaniem poznanych w trakcie zajęć narzędzi (STATISTICA i inne pakiety obliczeniowe) IS2A_U05 Execution of laboratory classes
Knowledge
M_W001 ma wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach z zakresu odkrywania wiedzy w danych IS2A_W01 Oral answer
M_W002 zna podstawowe metody, techniki i narzędzia stosowane w zagadnieniach dotyczących analizy danych zapisanych w bazach danych, w tym algorytmy indukcji reguł, klasyfikacji i analizy skupień IS2A_W02 Oral answer
M_W003 ma pogłębioną wiedzę z zakresu probabilistyki i statystyki w tym zagadnień związanych z analizą regresji i szeregów czasowych IS2A_W03 Oral answer
M_W004 ma podbudowaną teoretycznie szczegółową wiedzę związaną z zagadnieniami eksploracji danych jak: analiza asocjacji, czy eksploracji tekstu i stron WWW IS2A_W04 Oral answer
FLO matrix in relation to forms of classes
MLO code Student after module completion has the knowledge/ knows how to/is able to Form of classes
Lecture
Audit. classes
Lab. classes
Project classes
Conv. seminar
Seminar classes
Pract. classes
Zaj. terenowe
Zaj. warsztatowe
Others
E-learning
Social competence
M_K001 potrafi współdziałać i pracować w grupie przyjmując w niej różne role - - - + - - - - - - -
M_K002 potrafi odpowiednio określić priorytety służące realizacji określonego przez siebie lub innych zadania - - + - - - - - - - -
M_K003 rozumie potrzebę uczenia się przez całe życie i nadążania za nowymi rozwiązaniami z zakresu analizy danych w bazach danych - - + - - - - - - - -
Skills
M_U001 potrafi ocenić przydatność metod i narzędzi służących do rozwiązania zadania z zakresu eksploracji danych i wykorzystać je do rozwiązania postawionego zadania - - - + - - - - - - -
M_U002 potrafi pozyskiwać informacje z literatury, baz danych oraz innych właściwie dobranych źródeł, także w języku angielskim z zakresu eksploracji danych; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie - - - + - - - - - - -
M_U003 potrafi przygotować i przedstawić prezentację ustną, dotyczącą szczegółowych zagadnień z zakresu metod pozyskiwania wiedzy z baz danych - - - + - - - - - - -
M_U004 potrafi dokonać identyfikacji i sformułować specyfikację złożonych zadań z zakresu pozyskiwania wiedzy z danych - - + - - - - - - - -
M_U005 potrafi samodzielnie dokonać eksploracyjnej analizy danych w aspekcie pozyskania wiedzy z danych z wykorzystaniem poznanych w trakcie zajęć narzędzi (STATISTICA i inne pakiety obliczeniowe) - - + - - - - - - - -
Knowledge
M_W001 ma wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach z zakresu odkrywania wiedzy w danych + - - - - - - - - - -
M_W002 zna podstawowe metody, techniki i narzędzia stosowane w zagadnieniach dotyczących analizy danych zapisanych w bazach danych, w tym algorytmy indukcji reguł, klasyfikacji i analizy skupień + - - - - - - - - - -
M_W003 ma pogłębioną wiedzę z zakresu probabilistyki i statystyki w tym zagadnień związanych z analizą regresji i szeregów czasowych + - - - - - - - - - -
M_W004 ma podbudowaną teoretycznie szczegółową wiedzę związaną z zagadnieniami eksploracji danych jak: analiza asocjacji, czy eksploracji tekstu i stron WWW + - - - - - - - - - -
Module content
Lectures:

Program wykładów:

1. Wprowadzenie do Eksploracji Danych: przebieg procesu ED, przykłady zastosowań, typy zadań ED. Repetytorium z probabilistyki i statystyki: podstawy probabilistyki, twierdzenie Bayesa, parametry charakterystyczne wektora losowego, estymacja punktowa i przedziałowa, testowanie hipotez statystycznych.
2. Przygotowanie i wstępna obróbka danych: postacie danych, wczytywanie danych, ocena jakości, filtrowanie oraz czyszczenie danych, konsolidacja danych, przekształcenia danych.
3. Dobór, eliminacja i redukcja liczby zmiennych: metoda analizy macierzy współczynników korelacji, metoda eliminacji zmiennych oparta o statystykę chi-kwadrat, analiza składowych głównych (PCA)
4. Klasyfikacja I: wprowadzenie, metoda k-najbliższych sąsiadów, przestrzenie metryczne, cechy metod i modeli klasyfikacyjnych,. drzewa klasyfikacyjne
5. Klasyfikacja II:, liniowe funkcje dyskryminacyjne, logistyczne funkcje dyskryminacyjne, klasyfikacja za pomocą sztucznych sieci neuronowych, klasyfikacja bayesowska, techniki modyfikacji oraz ewaluacji klasyfikatorów, ocena jakości klasyfikatora, polepszanie klasyfikatorów.
6. Regresja: wprowadzenie, regresja liniowa i nieliniowa, ewaluacja modelu regresyjnego
7. Analiza szeregów czasowych.
8. Analiza skupień: wprowadzenie, metoda k-średnich, metody hierarchiczne, sieci Kohonena, grupowanie probabilistyczne – algorytm EM.
9. Zaawansowane metody klasteryzacji dla bardzo dużych zbiorów danych – algorytm BIRCH, Grupowanie oparte na gęstości .
10. Analiza asocjacji I: wprowadzenie, algorytm A-Priori, ocena jakości reguł asocjacyjnych.
11. Analiza asocjacji II: algorytm FP-Growth, wielopoziomowe reguły asocjacyjne.
12. Analiza sekwencji.
13. Eksploracja tekstu i zasobów internetowych – podział metod ze względu na rodzaj opracowywanych danych.
14. Inne zagadnienia ED: analiza przeżycia, regresja logistyczna, redukcja wymiarowości przestrzeni cech. Przykłady eksploracyjnej analizy danych i pozostałych algorytmów.

Laboratory classes:

Pierwsza polowa ćwiczeń odbywa się w laboratorium – studenci poznają narzędzia eksploracji danych wchodzące w skład programu Statistica oraz innych pakietów do data mining’u.

→ Excel
→ STATISTICA: dobór zmiennych
→ Indukcja drzew decyzyjnych
→ Analiza skupień
→ Zaliczenie sprawozdania
→ KOLOKWIUM / ZALICZENIA / POPRAWKI

Project classes:

W ramach drugiej części ćwiczeń studenci samodzielnie wykonują projekt polegający na eksploracyjnej analizie wybranego zbioru danych.

→ Wybór tematu i pozyskanie danych → Przygotowanie danych → Dobór zmiennych → Drzewa decyzyjne → Analiza skupień → Wybrany algorytm → Sprawozdanie

Student workload (ECTS credits balance)
Student activity form Student workload
Summary student workload 104 h
Module ECTS credits 4 ECTS
Participation in lectures 18 h
Realization of independently performed tasks 16 h
Participation in laboratory classes 9 h
Preparation for classes 16 h
Participation in project classes 9 h
Completion of a project 20 h
Contact hours 14 h
Examination or Final test 2 h
Additional information
Method of calculating the final grade:

Ocena końcowa (OK) to średnia ważona:
Ocena z ćwiczeń laboratoryjnych (OL) + ocena projektu (OP) + ocena z kolokwium z wykładu (OW)
OK = 0,4*OP + 0,3*OL + 0,3*OW
Ocenę z projektu może obniżyć niedotrzymanie terminu realizacji

Prerequisites and additional requirements:

Zgodnie z Regulaminem Studiów AGH podstawowym terminem uzyskania zaliczenia jest ostatni dzień zajęć w danym semestrze. Termin zaliczenia poprawkowego (tryb i warunki ustala prowadzący moduł na zajęciach początkowych) nie może być późniejszy niż ostatni termin egzaminu w sesji poprawkowej (dla przedmiotów kończących się egzaminem) lub ostatni dzień trwania semestru (dla przedmiotów niekończących się egzaminem).

Recommended literature and teaching resources:

1.Hand D., Mannila H., Smyth P., Eksploracja danych, WNT, Warszawa, 2005.
2.Larose D.T., Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, PWN, Warszawa, 2006.
3.Larose D.T., Odkrywanie wiedzy z danych. Metody i Modele eksploracji danych, PWN, Warszawa, 2008.
4.Stanisz A., Przystępny kurs statystyki : w oparciu o program STATISTICA PL na przykładach z medycyny, T.1-3, Statsoft, Kraków, 2006.
5.Cichosz P., Systemy uczące się, WNT, Warszawa, 2000.
6.Koronacki J., Ćwik J., Statystyczne systemy uczące się, WNT, Warszawa, 2005.
7.Brandt S., Analiza danych : metody statystyczne i obliczeniowe, PWN, Warszawa, 1998.
8.Hastie T., Tibshirani R., Friedman J., The elements of Statistical Learning, Springer, 2009.

Scientific publications of module course instructors related to the topic of the module:

http://www.bpp.agh.edu.pl/autor/regulski-krzysztof-05601

Górny Z., Kluska-Nawarecka S., Czekaj E., Saja K., Wilk-Kołodziejczyk D., REGULSKI K., Eksploracyjna analiza wyników ulepszania cieplnego brązu z zastosowaniem wybranych metod sztucznej inteligencji – Data mining analysis of results of bronze heat treatment based on selected methods of artificial intelligence, [w:] Polska metalurgia w latach 2011–2014, red. Świątkowski K., Dańko J., et al., Komitet Metalurgii Polskiej Akademii Nauk, Wydawnictwo Naukowe AKAPIT , Kraków, 2014, s. 283–294
Kluska-Nawarecka S., Górny Z., REGULSKI K., Wilk-Kołodziejczyk D., Jančíková Z., David J., A method to make classification of the heat treatment processes performed on bronze using incomplete knowledge, Archives of Foundry Engineering, Polish Academy of Sciences. Commission of Foundry. Engineering. 2014 vol. 14 iss. 2, s. 69–72.
REGULSKI K., Szeliga D., Kusiak J., Data Exploration Approach Versus Sensitivity Analysis for Optimization of Metal Forming Processes, Key Engineering Materials, 2014 vols. 611–612, s. 1390–1395
REGULSKI K., Szeliga D., Kusiak J., Application of regression trees in optimization of metal forming process, Key Engineering Materials, 2014 vols. 622–623, s. 749–755.
Kluska-Nawarecka S., REGULSKI K., Krzyżak M., Leśniak G., Gurda M., System of semantic integration of non-structuralized documents in natural language in the domain of metallurgy, Archives of Metallurgy and Materials, Polish Academy of Sciences. Committee of Metallurgy. Institute of Metallurgy and Materials Science, 2013 vol. 58 iss. 3, pp. 927–930. DOI: 10.2478/amm-2013-0103
REGULSKI K., Rojek G., Skóra M., Kusiak J., Data exploration approach in control of metal forming manufacturing chain : example of fasteners production, Metal Forming 2012 : proceedings of the 14th international conference on Metal Forming : September 16–19, 2012, Krakow, Poland, eds. Jan Kusiak, Janusz Majta, Danuta Szeliga. — Weinheim : Wiley-VCH Verlag GmbH & Co. KGaA, cop. 2012. — (Steel Research International ; spec. ed.). — ISBN 978-3-514-00797-0. — pp. 1319–1322.
Górny Z., Kluska-Nawarecka S., Wilk-Kołodziejczyk D., REGULSKI K., Diagnosis of casting defects using uncertain and incomplete Knowledge, Archieves of Metallurgy and Materials, vol 55, Issue 3, 2010

Additional information:

None