Induktīvu secināšanas sistēmu analīze / ID: 556793

Autors: sirikr (7)

Vērtējums:

Publicēts: 24.11.2005.

Valoda: Latviešu

Līmenis: Augstskolas

Literatūras saraksts: 17 vienības

Atsauces: Ir

Izvērst priekšskatu

SatursAizvērt

Nr.	Sadaļas nosaukums	Lpp.
	IEVADS	13
1.	Uzdevuma nostādne	14
1.1.	Uzdevuma saturīgā nostādne	14
1.2.	Uzdevuma formālā nostādne	15
2.	Izmantotās metodes	16
2.1.	Jēdzienu vispārināšana pēc pazīmēm algoritms CORA	16
2.1.1.	CORA klasifikācijas algoritms	17
2.1.2.	Secīgās pārklāšanas metode	19
2.1.3.	Loģiskā bloka uzdevums (CORA)	20
2.1.3.1.	Loģiskās funkcijas meklēšana pa daļām	21
2.1.4.	Konjunkciju atlases kritēriji	22
2.1.4.1.	Atcerēšanās kritērijs (slieksnis)	23
2.1.4.2.	Neatkarības pakāpes kritērijs	23
2.1.4.3.	Vienas klases piemērotības kritērijs	24
2.1.5.	Pazīmju drošums	25
2.1.6.	Kritēriju izvēle	26
2.1.6.1.	Algoritma pilnveidošana	27
2.1.6.2.	Pazīmju atlases kritēriju novērtēšana	27
2.1.7.	Pazīmes neatkarība	32
2.2.	Risināšanas koki C4.5	33
2.2.1.	Koka izveidošanas algoritms	33
2.2.2.	Jaunu piemēru klasifikācija	36
2.2.3.	Uzlabotājs sadalīšanas kritērijs	37
2.2.4.	Izlaistie dati	38
2.2.5.	Troksnis	40
2.2.6.	Risināšanas koku saīsināšanas metodes	40
2.2.6.1.	Saīsināšana pēc kļūdas grūtības (Err-Comp)	40
2.2.6.2.	Saīsināšana pēc kļūdas minimuma (Min-Err)	42
2.2.6.3.	Saīsināšana pēc kritiskas vērtības (Critical)	42
2.2.6.4.	Saīsināšana pēc kļūdas samazināšanas (Reduce)	42
2.2.6.5.	Saīsināšana pēc pesimistiskas kļūdas (Pessim)	43
2.2.7.	Kross – pārbaude	44
2.2.7.1.	Kross – pārbaude uz pārbaudes kopas	44
2.2.7.2.	V – kārtas kross – pārbaude	44
2.2.7.3.	Globāla kross – pārbaude	45
2.2.8.	Risināšanas koka pārveidošana uz likuma kopu	46
2.3.	AQ amācības algoritma metode	46
2.3.1.	AQ izpildīšanas algoritms	46
2.3.2.	Divdabīgas saites tuvinājums	47
2.3.3.	Trokšņainu piemēru apmācības koncepcija	48
2.3.4.	Vislabākā apraksta multikritērijas atlase	49
2.3.5.	Pilnība, savienojamība un savienojamības pastiprināšana	51
2.3.6.	Likuma kvalitātes definēšana	53
2.3.7.	Likuma kvalitātes kritērija empīriskais salīdzinājums	54
2.3.7.1.	AQ pretrunības pieņemšana	54
2.3.8.	Neparedzētas grūtības	57
2.3.9.	AQ nepilnības pieņemšana	59
2.4.	CN2 induktīva algoritma metode	60
3.	Nopublicēto risināmo metožu apraksts	65
3.1.	Vilsona slimības imunoloģisko radītāju analīze, izmantojot loģiskās – statistiskas metodes	65
3.2.	Smagas IT problēmas Internet problēmu risinājumā	71
3.3.	2D modeļa simbolisku aprakstu apmācība rentgenogrammas attēlu objekta atpazīšanā	73
4.	Teorētiskā daļa	83
4.1.	CORA klasifikācijas algoritms	85
4.2.	AQ induktīvais algoritms	91
4.3.	Risinājumu koku algoritms C4.5	104
4.4.	CN2 induktīvais algoritms	115
5.	Praktiska daļa	132
5.1.	Eksperimentu plāna izstrādāšana	132
5.1.1.	Pareģojoša precizitāte	132
5.1.2.	Visparinājums	133
5.1.3.	Apgabala sarežģītums	133
5.1.4.	Laika sarežģītums	133
5.1.5.	Domēna pārklājums	134
5.2.	Sākumdatu ģenerēšana	134
5.3.	Eksperimentu paveikšana	137
5.3.1.	Pareģošanas precizitāte atkarība no apmācības kopas sadalījuma	137
5.3.2.	10 – kartas kross validācijas pareģošanas precizitāte	143
5.3.3.	Sareždituma, visparinājuma un pārklāšanas kvalitāte	148
5.4.	Praktisko eksperimentu rezultātu analīze	149
6.	Izmantojamas induktīvas sistēmas	151
6.1.	Koncepciju vispārināšanas sistēma Cora	151
6.1.1.	Atribūti	152
6.1.2.	Vērtības	152
6.1.3.	Parametri	152
6.2.	Risinājumu koku induktīva sistēma See5/C5	155
6.2.1.	Risināšanas koku izveidošana- See5/c5.0 sistēma	155
6.2.2.	See5 datu sagatavošana	156
6.2.3.	Lietotāja interfeiss	158
6.2.4.	Risināšanas koka izveidošana	159
6.2.5.	Risināšanas koka likumu kopā pārveidošana	161
6.2.6.	Risinājuma pastiprināšana	162
6.2.7.	Risinājumu pieņemšana izmantojot likumu kopu	162
6.2.8.	Režģu mīkstināšana	163
6.2.9.	Algoritma noskaņošanas iespējas	163
6.2.10.	Krustoša pārbaude	164
6.2.11.	Lielu datu kopas izlase	164
6.2.12.	Klasifikācijas kļūdu izmaksas uzskaite	164
6.2.13.	Klasifikatoru izmantošana	165
6.2.14.	Detalizēta pārbaude un rezultātu saglabāšana	166
6.3.	Induktīva sistēma iAQ	167
6.3.1.	Inter- un intra – saites likumu specifikācijai	170
6.3.2.	AQ20 programmas palaišana	171
6.3.3.	AQ programmatūra	172
6.3.4.	Likumu kopas reprezentācijas apskats	181
6.3.5.	Faila formāts un paskaidrojumi	182
6.3.6.	Parametru tabula	183
6.3.7.	Kritēriju tabulas	190
6.3.8.	Domēna - tipa mainīgo tabulas	192
6.3.9.	Nosaukumu tabulas	193
6.3.10.	Struktūru tabulas	194
6.3.11.	Notikumu un testēšanas notikumu tabulas	196
6.3.12.	Bērnu tabulas	197
6.3.13.	Varsel tabula	198
6.3.14.	Testēšanas likumu kopa	199
6.3.14.1.	Testēšanas metodes	199
6.4.1.	Sistēmas parametri	203
6.4.2.	Piemēru un atribūtu faili	204
6.4.3.	Atribūti	205
6.4.4.	Vertības	205
6.4.5.	Novērtējums	206
	SECINĀJUMI	208
	BIBILIOGRĀFISKAIS SARAKSTS	210

Darba fragmentsAizvērt

Darbā tika aprakstītas induktīvu secināšanas sistēmu metodoloģijas un to pielietojums reālajā dzīvē. Pamatojoties uz induktīvām sistēmām un izmantojot attiecīgo programmatūru nodrošinājumus, tika paveikti vairāki eksperimenti ar reālajām datu bāzēm un izveidot sistēmu risinājuma analīzi.
Sistēmu analīzei tika izvēlētas fiksētu atribūta vērtību pāris algoritms CORA un naturālo indukciju algoritmi C4.5, AQ20 un CN2. Visas metodes tika detalizēti izskatītas, noteikti notikumu klasifikācijas kritēriji un novērtētas risinājumu likumu kopas, kā arī risinājumu koku kvalitātes kritēriji.
Pamatojoties uz teorētisko daļu, tika izstrādāti eksperimenti, kuri var būt pielietoti četru metožu salīdzināšanai. Eksperimentu veikšanai tika izmantotas četru piemēru klasifikāciju programmatūras, kuru iznākums ir risinājuma koka, sakārtotu un nesakārtotu likumu, kopu veidā. Sistēmu salīdzināšanai un likumu kvalitātes novērtēšanai tika izmantotas divas reālas pasaules datu bāzes Voting un Credit Approval. Datu bāzes ir ļoti interesantas ar saturošiem sevī datiem. Tās satur nepārtrauktus, diskrētus, simboliskus, izlaistus un trokšņainus datus. Pielietojot risinājumu kopas kvalitātes novērtēšanas metriku, tika salīdzinātas sistēmās CORA, C4.5, See5/C5 un CN2 risinājumu koka un risinājumu likumu atpazīšanas kvalitāti. Izmantotā metrika ļauj novērtēt risinājuma kopas precizitāti, vispārinājumu, apgabala sarežģītību un pārklāšanu. Tā ir viegli pielietojama visām četrām sistēmām.
Paveiktie eksperimenti deva sistēmu darbības kvalitātes vispārēju apskatu. Lai varētu objektīvi salīdzināt visas programmatūras, tām tika izvēlēti kopēji uzstādīšanas parametri, līdz ar to nodrošinot sistēmas no lietotāja puses ar vienādām notikumu klasifikācijas iespējām.
Pielikumā A pievienots CD ar maģistra darba tekstu elektroniskajā veidā, CORA, C4.5, AQ20 un CN2 programmatūras instalācijas faili un izmantojamās datu bāzes dati.
RIGA TECHNICAL UNIVERSITY
FACULTY OF COMPUTER SCIENCE AND INFORMATION TECHNOLOGY
Institute of Information TechnologySimboliskas induktīvās sistēmas, kuras inducē koncepcijas aprakstus no piemēriem, ir vērtīgi darbarīki ekspertu sistēmas zināšanu iegūšanas uzdevumos. Kopš laika, kad induktīvās apmācības metodes izveido noteiktus koncepcijas aprakstus, kad tiek doti identiski apmācības piemēri, parādījās jautājums par izveidoto likumu kopas kvalitāti. Šis darbs atspoguļo vairākas likumu kopas salīdzināšanas un analizēšanas tehnoloģijas. Šīs tehnoloģijas mēra precizitāti, vispārināšanu, apgabala sarežģītību un domēnu likumu kopas pārklāšanu. Balstoties uz šo metriku, tiek paveikts četru dažādu induktīvu sistēmu salīdzinājums. Izmantotas ir koncepciju vispārināšanas Bongarda algoritms CORA un izveidota ar E. Tipanu sistēma CORA, izveidota ar Michalski un ekspertu grupu - AQ20 sistēma, Quinlana sistēma C4.5, Clarka un Nibletta sistēma CN2. Salīdzinājumi tiek veikti, izmantojot divas reālas datubāzes, kuras satur datus no politiskas sfēras un bankas kredīta izsniegšanas sfēras, un tiek pamatotas uz risinājumu koku un likumu kopas izveidošanu, izmantojot šos algoritmus.
Simboliskais induktīvās apmācības algoritms apmāca klases aprakstus no piemēriem. Visai informācijai par piemēriem jābūt izteiktai terminos ar fiksēto īpašību daudzumu vai atribūtu, kur katra atribūta vērtības domēni ir arī atsevišķi simboli, diskrēti vai nepārtraukti skaitļi, vai ti var būt arī daļēji sakārtoti. Katrs piemērs tiek aprakstīts ar atribūtu vērtības vektoru un pieder pie vienas no kopas iekļautām klasēm. Kopš tā laika, kad katra piemēra klase ir noteikta apmācības algoritmam ar lietotāju, šī apmācības forma tiek saukta - apmācība ar skolotāju. Indukciju uzdevums ir izveidot likumu kopu, kura var noteikt piemēra klasi, izmantojot atribūtu vērtības. Šo metodoloģiju izmanto trijām no četrām apskatītajām šajā darbā sistēmām: uzlabota C4.5 programma See5, AQ20 un CN2. Un viena, balstīta uz Bongard .M CORA sistēma, kur informācijai par piemēriem jābūt izsākamai terminos ar fiksēto atribūtu daudzumu, kur katra atribūta vērtība ir fiksētais atribūtu vērtības pāris (bināra rinda), līdz ar to daudz reālas pasaules datu bāzes piemēri nevar būt reprezentēti ar fiksēto atribūtu vērtību pāri, nezaudējot daudz vērtīgas informācijas.
Izmantotās tehnoloģijas, kuras tiek salīdzinātas šajā darbā, tika izvēlētas tāpēc, ka tās ir ļoti populāras mašīnu apmācības literatūrā. Tās izveido dažādu tipu likumu kopas, nesecīgas likumu kopas, secīgas likumu kopas, zināmas kā risinājumu saraksts, un risinājumu kokus attiecīgi. Likumu kopas kvalitātes mērs, izmantojamais šajā darbā, ļauj veikt šo dažādo tipu likumu kopas salīdzinājumu.
Šajā darbā tika apskatīti un analizēti induktīvās secināšanas sistēmas. Tika izvēlētas četras metodes, kur viena balstās uz fiksēto atribūtu vērtību pāri, piedāvāta M. Bongardam metode CORA un trīs naturālās indukcijas sistēmas C4.5, AQ20 un CN2.
Tagad zinātniskā pasaule ir pārpildīta ar notikumu klasifikācijas metodēm un atbilstošām sistēmām, tādēļ izveidojās situācija, kad parādījas nepieciešamība salīdzināt un izvēlēties sistēmu ar vislabāko kvalitāti. Katra sistēma var būt ļoti laba vienu uzdevumu risināšanai, bet pavisam nepiemērota citam uzdevumam. Rezultātā mēs nonācām pie secinājuma, ka katram uzdevumam sistēmu ir nepieciešams pielāgot.
Šī darba uzdevums ir paveikt četru induktīvu sistēmu salīdzinājumu un novērtēt risinājuma kvalitāti. Šim nolūkam ir nepieciešams iztrādāt eksperimentus, kuri salīdzinātu visas sistēmas. Atrast parametrus, kuri varētu būt uzstādīti uz visām sistēmām, līdz ar to pielīdzinot sistēmu klasifikācijas spējas, kā arī paveikt, izvestus ar sistēmām, likumu kopas analīzi un noteikt tās kvalitāti. Kvalitātes noteikšanai tika izvēlēta metrika, kura varētu būt pielietota visām četrām sistēmām. Mertikā iekļautie mēri var novertēt likumu kopas precizitāti, vispārinājumu, apgabala sarežģītību un pārklāšanu.
Darbā izmantotas attiecīgi apskatītām metodēm programmatūras nodrošinājums. Modificēta ar E. Tipanu sistēma CORA, izveidota ar Michalski un ekspertu grupu - AQ20 sistēma, Quinlana sistēma C4.5, Clarka un Nibletta sistēma CN2.
Šī maģistra darba izvēlētā tēma par induktīvu secināšanas sistēmu analīzi uzdevuma formālā nostādne sastāv:
1.Apskatīt CORA, C4.5, AQ20 un CN2 algoritmu arhitektūru;
2.Apskatīt šo metožu pielietojumu reālajā dzīve, reālajām problēmām.
3.Izstrādāt risinājuma kvalitātes novērtēšanas kritērijus, kuri varētu būt pielietoti visām četrām metodēm.
4.Apskatīt CORA, See5/C5, AQ20 un CN2 programmatūras nodrošinājumus, ar kuru palīdzību varētu būt realizētas metodes lielām datu bāzēm.
5.Atrast divas datu bāzes, kurām būs dažāda datu sarežģījuma pakāpe. Datu bāze Voting, kura satur tikai simboliskus datus ar fiksēto atribūtu vērtību pāri. Var būt viegli pārveidota binārajā rindu kopā. Otrā Credit Approval ir sarežģīta ar nepārtrauktu, diskrētu, simbolisku, trokšņainu un izlaistu datu saturu.
6.Pielāgot sistēmas vienam klasifikācijas līmenim no lietotāja puses nozīmē - uzstādīt uz visām sistēmām kopējus parametrus.
7.Izstrādāt eksperimentu plānu, pie kura pastāvēs iespēja salīdzināt visas četras sistēmas.
8.Novērtēt sistēmu izveduma kvalitāti, pielietojot vienādu metriku visām sistēmām.
9.Izveidot sistēmu analīzi un secinājumus.…

Autora komentārsAtvērt

Darbu komplekts:

IZDEVĪGI pirkt komplektā ➞ ietaupīsi −12,27 €

Dators māksliniekam
Referāts22 Datori, elektronika, programmēšana, Māksla
Induktīvu secināšanas sistēmu analīze
Referāts207 Datori, elektronika, programmēšana
Multimedia un dators
Referāts57 Datori, elektronika, programmēšana

Materiālu komplekts Nr. 1120669

Pirkt 3 materiālus komplektā

Apskatīt materiālu komplektu

Referāts

Tehnoloģijas

Datori, elektronika, programmēšana

Induktīvu secināšanas sistēmu analīze