ê áèáëèîòåêå   ê îãëàâëåíèþ ÒÏÎÈ   ê äèñêðåòíîé ìàòåìàòèêå   òåõíîëîãèè ïðîãðàììèðîâàíèÿ

Ìåòîäû è ñðåäñòâà àíàëèçà äàííûõ

Ìåòîäû ïîñòðîåíèÿ ïðàâèë êëàññèôèêàöèè

Àëãîðèòì ïîñòðîåíèÿ 1-ïðàâèë

Ïóñòü ó íàñ åñòü íåçàâèñèìûå ïåðåìåííûå A1...Aj...Ak, ïðèíèìàþùèå çíà÷åíèÿ < x_1^1...x_n^1>,...<x_1^j...x_n^j>,...<x_1^k...x_n^k> ñîîòâåòñòâåííî, è çàâèñèìàÿ ïåðåìåííàÿ C, ïðèíèìàþùàÿ çíà÷åíèÿ c1...cr. Äëÿ ëþáîãî âîçìîæíîãî çíà÷åíèÿ êàæäîé íåçàâèñèìîé ïåðåìåííîé ôîðìèðóåòñÿ ïðàâèëî, êîòîðîå êëàññèôèöèðóåò îáúåêò èç îáó÷àþùåé âûáîðêè.  åñëè-÷àñòè ïðàâèëà óêàçûâàþò çíà÷åíèå íåçàâèñèìîé ïåðåìåííîé (Åñëè A^j=x_i^j).  òî-÷àñòè ïðàâèëà óêàçûâàåòñÿ íàèáîëåå ÷àñòî âñòðå÷àþùååñÿ çíà÷åíèå çàâèñèìîé ïåðåìåííîé ó äàííîãî çíà÷åíèÿ íåçàâèñèìîé ïåðåìåííîé(òî C = cr). Îøèáêîé ïðàâèëà ÿâëÿåòñÿ êîëè÷åñòâî îáúåêòîâ, èìåþùèõ äàííîå çíà÷åíèå ðàññìàòðèâàåìîé íåçàâèñèìîé ïåðåìåííîé (A^j=x_i^j), íî íå èìåþùèõ íàèáîëåå ÷àñòî âñòðå÷àþùååñÿ çíà÷åíèå çàâèñèìîé ïåðåìåííîé ó äàííîãî çíà÷åíèÿ íåçàâèñèìîé ïåðåìåííîé(C \ne c_r). Îöåíèâ îøèáêè, âûáèðàåòñÿ ïåðåìåííàÿ, äëÿ êîòîðîé îøèáêà íàáîðà ìèíèìàëüíà.

 ñëó÷àå íåïðåðûâíûõ çíà÷åíèé ìàíèïóëèðóþò ïðîìåæóòêàìè.  ñëó÷àå ïðîïóùåííûõ çíà÷åíèé - äîñòðàèâàþò. Íàèáîëåå ñåðüåçíûé íåäîñòàòîê - ñâåðõ÷óâñòâèòåëüíîñòü, àëãîðèòì âûáèðàåò ïåðåìåííûå, ñòðåìÿùèåñÿ ê êëþ÷ó (ò.å. ñ ìàêñèìàëüíûì êîëè÷åñòâîì çíà÷åíèé, ó êëþ÷à îøèáêà âîîáùå 0, íî îí íå íåñåò èíôîðìàöèè). Ýôôåêòèâåí, åñëè îáúåêòû êëàññèôèöèðóþòñÿ ïî îäíîìó àòðèáóòó.

Ìåòîä Naive Bayes

"Íàèâíàÿ" êëàññèôèêàöèÿ - äîñòàòî÷íî ïðîçðà÷íûé è ïîíÿòíûé ìåòîä êëàññèôèêàöèè. "Íàèâíîé" îíà íàçûâàåòñÿ ïîòîìó, ÷òî èñõîäèò èç ïðåäïîëîæåíèÿ î âçàèìíîé íåçàâèñèìîñòè ïðèçíàêîâ.

Ñâîéñòâà íàèâíîé êëàññèôèêàöèè:

1. Èñïîëüçîâàíèå âñåõ ïåðåìåííûõ è îïðåäåëåíèå âñåõ çàâèñèìîñòåé ìåæäó íèìè.

2. Íàëè÷èå äâóõ ïðåäïîëîæåíèé îòíîñèòåëüíî ïåðåìåííûõ:

Âåðîÿòíîñòü òîãî, ÷òî íåêèé îáúåêò ii, îòíîñèòñÿ ê êëàññó cr(y = cr) îáîçíà÷èì êàê P(y = cr). Ñîáûòèå, ñîîòâåòñòâóþùåå ðàâåíñòâó íåçàâèñèìûõ ïåðåìåííûõ îïðåäåëåííîìó çíà÷åíèþ, îáîçíà÷èì êàê Å, à åãî âåðîÿòíîñòü - Ð(Å). Èäåÿ àëãîðèòìà â ðàñ÷åòå óñëîâíîé âåðîÿòíîñòè ïðèíàäëåæíîñòè îáúåêòà ê ñr ïðè ðàâåíñòâå åãî íåçàâèñèìûõ ïåðåìåííûõ îïðåäåëåííûì çíà÷åíèÿì. Èç òåðâåðà:

P(y=c_r|E)=\frac{P(E|y=c_r) * P(y=c_r)}{P(E)}

Òàêèì îáðàçîì ôîðìóëèðóþòñÿ ïðàâèëà, â óñëîâíûõ ÷àñòÿõ êîòîðûõ ñðàâíèâàþòñÿ âñå íåçàâèñèìûå ïåðåìåííûå ñ ñîîòâåòñââóþùèìè âîçìîæíûìè çíà÷åíèÿìè.  çàêëþ÷èòåëüíîé ÷àñòè - âñå âîçìîæíûå çíà÷åíèÿ çàâèñèìîé ïåðåìåííîé: {x_1=c_1^k, ..., x_n=c_n^k, y=c_r}....{è òàê äëÿ âñå íàáîðîâ} Äëÿ êàæäîãî èç ýòèõ ïðàâèë ïî ôîðìóëå Áàéåñà îïðåäåëÿåòñÿ åãî âåðîÿòíîñòü. Òàê êàê íåçàâèñèìûå ïåðåìåííûå íåçàâèñèìû äðóã îò äðóãà, òî :

P(E|y=c_r)=P(x_1=c_1^k|y=c_r)*...*P(x_n=c_n^k|y=c_r), ÷òî ïîäñòàâëÿåì â âåðõíóþ ôîðìóëó è ïîëó÷àåì âåðîÿòíîñòü âñåãî ïðàâèëà.

Âåðîÿòíîñòü ïðèíàäëåæíîñòè îáúåêòà ê êëàññó cr ïðè ðàâåíñòâå åãî ïåðåìåííîé xn îïðåäåëåííîìó çíà÷åíèþ ñnk :

P(x_n=c_n^k|y=c_r)=\frac{P(x_n=c_n^k \And y=c_r)}{P(y=c_r)}

Íîðìàëèçîâàííàÿ âåðîÿòíîñòü âû÷èñëÿåòñÿ ïî ôîðìóëå:

P'(y=cr|E) = \frac {P(y=c_r|E)} {\sum_{c_r} P(y=c_r|E)}

è ÿâëÿåòñÿ âåðîÿòíîñòüþ íàñòóïëåíèÿ äàííîãî èñõîäà âîîáùå, à íå òîëüêî ïðè E. P(E) ïðîñòî ñîêðàùàåòñÿ.

Ïðîáëåìà: â îáó÷àþùåé âûáîðêå ìîæåò íå áûòü îáúåêòà ñ x_n=c_n^k è ïðè ýòîì ïðèíàäëåæàùåìó ê êëàññó cr. Òîãäà âåðîÿòíîñòü ðàâíà íóëþ è ñîîòâåòñòâåííî âåðîÿòíîñòü ïðàâèëà ðàâíà íóëþ. ×òîáû ýòîãî èçáåæàòü, ê êàæäîé âåðîÿòíîñòè ïðèáàâëÿþò çíà÷åíèå, îòëè÷íîå îò íóëÿ. Ýòî íàçûâàåòñÿ îöåíî÷íîé ôóíêöèåé Ëàïëàñà. Ïðè ïîäñ÷åòå âåðîÿòíîñòåé òîãäà ýòè âåðîÿòíîñòè ïðîïóñêàþòñÿ.

Ìåòîäû ïîñòðîåíèÿ äåðåâüåâ ðåøåíèé

Äåðåâüÿ ðåøåíèé - ýòî ñïîñîá ïðåäñòàâëåíèÿ êëàññèôèêàöèîííûõ ïðàâèë â èåðàðõè÷åñêîé, ïîñëåäîâàòåëüíîé ñòðóêòóðå.
Îáû÷íî êàæäûé óçåë âêëþ÷àåò ïðîâåðêó îäíîé íåçàâèñèìîé ïåðåìåííîé. Èíîãäà â óçëå äåðåâà äâå íåçàâèñèìûå ïåðåìåííûå ñðàâíèâàþòñÿ äðóã ñ äðóãîì èëè îïðåäåëÿåòñÿ íåêîòîðàÿ ôóíêöèÿ îò îäíîé èëè íåñêîëüêèõ ïåðåìåííûõ.
Åñëè ïåðåìåííàÿ, êîòîðàÿ ïðîâåðÿåòñÿ â óçëå, ïðèíèìàåò êàòåãîðèàëüíûå çíà÷åíèÿ, òî êàæäîìó âîçìîæíîìó çíà÷åíèþ ñîîòâåòñòâóåò âåòâü, âûõîäÿùàÿ èç óçëà äåðåâà. Åñëè çíà÷åíèåì ïåðåìåííîé ÿâëÿåòñÿ ÷èñëî, òî ïðîâåðÿåòñÿ áîëüøå èëè ìåíüøå ýòî çíà÷åíèå íåêîòîðîé êîíñòàíòû. Èíîãäà îáëàñòü ÷èñëîâûõ çíà÷åíèé ðàçáèâàþò íà èíòåðâàëû. (Ïðîâåðêà ïîïàäàíèÿ çíà÷åíèÿ â îäèí èç èíòåðâàëîâ).

Ëèñòüÿ äåðåâüåâ ñîîòâåòñòâóþò çíà÷åíèÿì çàâèñèìîé ïåðåìåííîé, ò.å. êëàññàì.

Ìåòîäèêà "Ðàçäåëÿé è âëàñòâóé"

Ìåòîäèêà îñíîâàíà íà ðåêóðñèâíîì ðàçáèåíèè ìíîæåñòâà îáúåêòîâ èç îáó÷àþùåé âûáîðêè íà ïîäìíîæåñòâà, ñîäåðæàùèå îáúåêòû, îòíîñÿùèåñÿ ê îäèíàêîâûì êëàññàì.
Ñïåðâà âûáèðàåòñÿ íåçàâèñèìàÿ ïåðåìåííàÿ, êîòîðàÿ ïîìåùàåòñÿ â êîðåíü äåðåâà.
Èç âåðøèíû ñòðîÿòñÿ âåòâè, ñîîòâåòñòâóþùèå âñåì âîçìîæíûì çíà÷åíèÿì âûáðàííîé íåçàâèñèìîé ïåðåìåííîé.
Ìíîæåñòâî îáúåêòîâ èç îáó÷àþùåé âûáîðêè ðàçáèâàåòñÿ íà íåñêîëüêî ïîäìíîæåñòâ â ñîîòâåòñòâèè ñî çíà÷åíèåì âûáðàííîé íåçàâèñèìîé ïåðåìåííîé.
Òàêèì îáðàçîì, â êàæäîì ïîäìíîæåñòâå áóäóò íàõîäèòüñÿ îáúåêòû, ó êîòîðûõ çíà÷åíèå âûáðàííîé íåçàâèñèìîé ïåðåìåííîé áóäåò îäíî è òî æå.
Îòíîñèòåëüíî îáó÷àþùåé âûáîðêè T è ìíîæåñòâà êëàññîâ C âîçìîæíû òðè ñèòóàöèè:

  1. ìíîæåñòâî Ò ñîäåðæèò îäèí èëè áîëåå îáúåêòîâ, îòíîñÿùèõñÿ ê îäíîìó êëàññó cr. Òîãäà äåðåâî ðåøåíèé äëÿ T - ýòî ëèñò, îïðåäåëÿþùèé êëàññ cr;
  2. ìíîæåñòâî Ò íå ñîäåðæèò íè îäíîãî îáúåêòà (ïóñòîå ìíîæåñòâî). Òîãäà ýòî ñíîâà ëèñò, è êëàññ, àññîöèèðîâàííûé ñ ëèñòîì, âûáèðàåòñÿ èç äðóãîãî ìíîæåñòâà, îòëè÷íîãî îò Ò, íàïðèìåð èç ìíîæåñòâà, àññîöèèðîâàííîãî ñ ðîäèòåëåì;
  3. Ìíîæåñòâî Ò ñîäåðæèò îáúåêòû, îòíîñÿùèåñÿ ê ðàçíûì êëàññàì.  ýòîì ñëó÷àå ñëåäóåò ðàçáèòü ìíîæåñòâî Ò íà íåêîòîðûå ïîäìíîæåñòâà. Äëÿ ýòîãî âûáèðàåòñÿ îäíà èç íåçàâèñèìûõ ïåðåìåííûõ xh, èìåþùàÿ äâà è áîëåå îòëè÷íûõ äðóã îò äðóãà çíà÷åíèé c_h^1, c_h^2 ..., c_h^n; Ìíîæåñòâî Ò ðàçáèâàåòñÿ íà ïîäìíîæåñòâà T1,T2,...,Tn, ãäå êàæäîå ïîäìíîæåñòâî Ti ñîäåðæèò âñå îáúåêòû, ó êîòîðûõ çíà÷åíèå âûáðàííîé çàâèñèìîé ïåðåìåííîé ðàâíî c_h^i. Äàëåå ïðîöåññ ïðîäîëæàåòñÿ ðåêóðñèâíî äëÿ êàæäîãî ïîäìíîæåñòâà äî òåõ ïîð, ïîêà çíà÷åíèå çàâèñèìîé ïåðåìåííîé âî âíîâü îáðàçîâàííîì ïîäìíîæåñòâå íå áóäåò îäèíàêîâûì (êîãäà îáúåêòû ïðèíàäëåæàò îäíîìó êëàññó).  ýòîì ñëó÷àå ïðîöåññ äëÿ äàííîé âåòâè äåðåâà ïðåêðàùàåòñÿ.

Ïðè èñïîëüçîâàíèè äàííîé ìåòîäèêè ïîñòðîåíèå äåðåâà ðåøåíèé áóäåò ïðîèñõîäèòü ñâåðõó âíèç. Áîëüøèíñòâî àëãîðèòìîâ, êîòîðûå å¸ èñïîëüçóþò, ÿâëÿþòñÿ "æàäíûìè àëãîðèòìàìè". Ýòî çíà÷èò, ÷òî åñëè îäèí ðàç ïåðåìåííàÿ áûëà âûáðàíà è ïî íåé áûëî ïðîèçâåäåíî ðàçáèåíèå, òî àëãîðèòì íå ìîæåò âåðíóòüñÿ íàçàä è âûáðàòü äðóãóþ ïåðåìåííóþ, êîòîðàÿ äàëà áû ëó÷øåå ðàçáèåíèå.
Âîïðîñ â òîì, êàêóþ çàâèñèìóþ ïåðåìåííóþ âûáðàòü äëÿ íà÷àëüíîãî ðàçáèåíèÿ. Îò ýòîãî öåëèêîì çàâèñèò êà÷åñòâî ïîëó÷èâøåãîñÿ äåðåâà.
Îáùåå ïðàâèëî äëÿ âûáîðà ïåðåìåííîé äëÿ ðàçáèåíèÿ: âûáðàííàÿ ïåðåìåííàÿ äîëæíû ðàçáèòü ìíîæåñòâî òàê, ÷òîáû ïîëó÷àåìûå â èòîãå ïîäìíîæåñòâà ñîñòîÿëè èç îáúåêòîâ, ïðèíàäëåæàùèõ ê îäíîìó êëàññó, èëè áûëè ìàêñèìàëüíî ïðèáëèæåíû ê ýòîìó, ò.å. ÷òîáû êîëè÷åñòâî îáúåêòîâ èç äðóãèõ êëàññîâ ("ïðèìåñåé") â êàæäîì èç ýòèõ ìíîæåñòâ áûëî ìèíèìàëüíûì.
Äðóãîé ïðîáëåìîé ïðè ïîñòðîåíèè äåðåâà ÿâëÿåòñÿ ïðîáëåìà îñòàíîâêè åãî ðàçáèåíèÿ. Ìåòîäû å¸ ðåøåíèÿ:

  1. Ðàííÿÿ îñòàíîâêà. Èñïîëüçîâàíèå ñòàòèñòè÷åñêèõ ìåòîäîâ äëÿ îöåíêè öåëåñîîáðàçíîñòè äàëüíåéøåãî ðàçáèåíèÿ. Ýêîíîìèò âðåìÿ îáó÷åíèÿ ìîäåëè, íî ñòðîèò ìåíåå òî÷íûå êëàññèôèêàöèîííûå ìîäåëè.
  2. Îãðàíè÷åíèå ãëóáèíû äåðåâà. Íóæíî îñòàíîâèòü äàëüíåéøåå ïîñòðîåíèå, åñëè ðàçáèåíèå âåä¸ò ê äåðåâó ñ ãëóáèíîé, ïðåâûøàþùåé çàäàííîå çíà÷åíèå.
  3. Ðàçáèåíèå äîëæíî áûòü íåòðèâèàëüíûì, ò.å. ïîëó÷èâøèåñÿ â ðåçóëüòàòå óçëû äîëæíû ñîäåðæàòü íå ìåíåå çàäàííîãî êîëè÷åñòâà îáúåêòîâ.
  4. Îòñå÷åíèå âåòâåé (ñíèçó ââåðõ). Ïîñòðîèòü äåðåâî, îòñå÷ü èëè çàìåíèòü ïîääåðåâîì òå âåòâè, êîòîðûå íå ïðèâåäóò ê âîçðàñòàíèþ îøèáêè. Ïîä îøèáêîé ïîíèìàåòñÿ êîëè÷åñòâî íåïðàâèëüíî êëàññèôèöèðîâàííûõ îáúåêòîâ, à òî÷íîñòüþ äåðåâà ðåøåíèé îòíîøåíèå ïðàâèëüíî êëàññèôèöèðîâàííûõ îáúåêòîâ ïðè îáó÷åíèè ê îáùåìó êîëè÷åñòâó îáúåêòîâ èç îáó÷àþùåãî ìíîæåñòâà.

Ïîñòðîèòü âñå âîçìîæíûå âàðèàíòû ðàçáèåíèÿ è âûáðàòü íàèëó÷øèé ïðîáëåìàòè÷íî ïðè íàëè÷èè áîëüøîãî ÷èñëà íåçàâèñèìûõ ïåðåìåííûõ èëè ïðè áîëüøîì ÷èñëå âîçìîæíûõ êëàññîâ.

Àëãîðèòì ID3

Ðàññìîòðèì êðèòåðèé âûáîðà íåçàâèñèìîé ïåðåìåííîé, îò êîòîðîé áóäåò ñòðîèòüñÿ äåðåâî.
Ïîëíûé íàáîð âàðèàíòîâ ðàçáèåíèÿ |X| - êîëè÷åñòâî íåçàâèñèìûõ ïåðåìåííûõ.
Ðàññìîòðèì ïðîâåðêó ïåðåìåíîé xh, êîòîðàÿ ïðèíèìàåò m çíà÷åíèé ch1,ch2,...,chm.
Òîãäà ðàçáèåíèå ìíîæåñòâà âñåõ îáúåêòîâ îáó÷àþùåé âûáîðêè N ïî ïðîâåðêå ïåðåìåííîé xh äàñò ïîäìíîæåñòâà T1,T2,...,Tm.

Ìû îæèäàåì, ÷òî ïðè ðàçáèåíèè èñõîäíîãî ìíîæåñòâà, áóäåì ïîëó÷àòü ïîäìíîæåñòâà ñ ìåíüøèì ÷èñëîì îáúåêòîì, íî áîëåå óïîðÿäî÷åííûå.
Òàê, ÷òîáû â êàæäîì èç íèõ áûëè ïî-âîçìîæíîñòè îáúåêòû îäíîãî êëàññà.
Ýòà ìåðà óïîðÿäî÷åííîñòè (íåîïðåäåëåííîñòè) õàðàêòåðèçóåòñÿ èíôîðìàöèåé.
 êîíòåêñòå ðàññìàòðèâàåìîé çàäà÷è ýòî êîëè÷åñòâî èíôîðìàöèè, íåîáõîäèìîå äëÿ òîãî, ÷òîáû îòíåñòè îáúåêò ê òîìó èëè èíîìó êëàññó.
Ïðè ðàçäåëåíèè èñõîäíîãî ìíîæåñòâà íà áîëåå ìåëêèå ïîäìíîæåñòâà, èñïîëüçóÿ â êà÷åñòâå êðèòåðèÿ äëÿ ðàçäåëåíèÿ çíà÷åíèÿ âûáðàííîé íåçàâèñèìîé ïåðåìåííîé,
íåîïðåäåë¸ííîñòü ïðèíàäëåæíîñòè îáúåêòîâ êîíêðåòíûì êëàññàì áóäåò óìåíüøàòüñÿ. Çàäà÷à ñîñòîèò â òîì, ÷òîáû âûáðàòü òàêèå íåçàâèñèìûå ïåðåìåííûå,
÷òîáû ìàêñèìàëüíî óìåíüøèòü ýòó íåîïðåäåëåííîñòü è â êîíå÷íîì èòîãå ïîëó÷èòü ïîäìíîæåñòâà, ñîäåðæàùèå îáúåêòû òîëüêî îäíîãî êëàññà.
 ïîñëåäíåì ñëó÷àå íåîïðåäåëåííîñòü ðàâíà íóëþ.

Åäèíñòâåííàÿ äîñòóïíàÿ èíôîðìàöèÿ - êàêèì îáðàçîì êëàññû ðàñïðåäåëåíû â ìíîæåñòâå T è åãî ïîäìíîæåñòâàõ, ïîëó÷àåìûõ ïðè ðàçáèåíèè.
Èìåííî îíà è èñïîëüçóåòñÿ ïðè âûáîðå ïåðåìåííîé.
Ðàññìîòðèì ïðèìåð, â êîòîðîì òðåáóåòñÿ ïîñòðîèòü äåðåâî ðåøåíèé îòíîñèòåëüíî òîãî, ñîñòîèòñÿ ëè èãðà ïðè çàäàííûõ ïîãîäíûõ óñëîâèÿõ.
Èñõîäÿ èç ïðîøëûõ íàáëþäåíèé (íàêîïëåííûõ èñòîðè÷åñêèõ äàííûõ), âîçìîæíû ÷åòûðå âàðèàíòà ðàçáèåíèÿ äåðåâà.
Âàðèàíòû ïåðâîíà÷àëüíîãî ðàçáèåíèÿ.
Ïóñòü freq(cr,I) - ÷èñëî îáúåêòîâ èç îáó÷àþùåé âûáîðêè, îòíîñÿùèõñÿ ê êëàññó cr.
Òîãäà âåðîÿòíîñòü òîãî, ÷òî ñëó÷àéíî âûáðàííûé îáúåêò èç îáó÷àþùåãî ìíîæåñòâà I áóäåò ïðèíàäëåæàòü êëàññó cr ðàâíÿåòñÿ:
P=\frac{freq(c_r,I)}{|I|}.
Ïîäñ÷èòàåì êîëè÷åñòâî èíôîðìàöèè, îñíîâûâàÿñü íà ÷èñëå îáúåêòîâ òîãî èëè èíîãî êëàññà, ïîëó÷èâøèõñÿ â óçëå äåðåâà ïîñëå ðàçáèåíèÿ èñõîäíîãî ìíîæåñòâà.
Ñîãëàñíî òåîðèè èíôîðìàöèè îöåíêó ñðåäíåãî êîëè÷åñòâà èíôîðìàöèè, íåîáõîäèìîãî äëÿ îïðåäåëåíèÿ êëàññà îáúåêòà èç ìíîæåñòâà Ò, äà¸ò âûðàæåíèå:
H(x)=-\sum_{i=1}^np(i)\log_2 p(i) (ïîíÿòèå èíôîðìàöèîííîé ýíòðîïèè)
Ïîäñòàâëÿÿ â ýòó ôîðìóëó ïîëó÷åííîå çíà÷åíèå äëÿ P, ïîëó÷èì: Info(I)=-\sum_{r=1}^k\frac{freq(c_r,I)}{|I|}\log_2(\frac{freq(c_r,I)}{|I|}).
Ïîñêîëüêó èñïîëüçóåòñÿ ëîãàðèôì ñ äâîè÷íûì îñíîâàíèåì, òî ýòî âûðàæåíèå äà¸ò êîëè÷åñòâåííóþ îöåíêó â áèòàõ.
Äëÿ îöåíêè êîëè÷åñòâà èíôîðìàöèè ñïðàâåäëèâû ñëåäóþùèå óòâåðæäåíèÿ:

  1. Åñëè ÷èñëî îáúåêòîâ òîãî èëè èíîãî êëàññà â ïîëó÷èâøåìñÿ ïîäìíîæåñòâå ðàâíî íóëþ, òî êîëè÷åñòâî èíôîðìàöèè òàêæå ðàâíî íóëþ.
  2. Åñëè ÷èñëî îáúåêòîâ îäíîãî êëàññà ðàâíî ÷èñëó îáúåêòîâ äðóãîãî êëàññà, òî êîëè÷åñòâî èíôîðìàöèè ìàêñèìàëüíî.

Ïîñ÷èòàåì çíà÷åíèå èíôîðìàöèîííîé ýíòðîïèè äëÿ èñõîäíîãî ìíîæåñòâà äî ðàçáèåíèÿ.
Info(I) = -\frac{9}{14}*log_2(\frac{9}{14}) - \frac{5}{14}*log_2(\frac{5}{14}) = 0.94 áèò.
Òó æå îöåíêó, íî óæå ïîñëå ðàçáèåíèÿ ìíîæåñòâà Ò ïî xh äà¸ò ñëåäóþùåå âûðàæåíèå: Info_{x_h}(T)=\sum_{i=1}^m\frac{T_i}{|T|}Info(T_i)èëè Info_{x_h}(T)=\sum_{i=1}^m\frac{T_i}{|T|}(-\sum_{r=1}^k\frac{freq(c_r,T_i)}{|T_i|}\log_2(\frac{freq(c_r,T_i)}{|T_i|})).
Íàïðèìåð, äëÿ ïåðåìåííîé "Íàáëþäåíèå", îöåíêà áóäåò ñëåäóþùåé:

Info_{sun} = -\frac{2}{5} *log_2(\frac{2}{5}) - \frac{3}{5}*log_2(\frac{3}{5}) = 0.971 áèò.

Info_{clouds} = -\frac{4}{4}*log_2(\frac{4}{4}) - \frac{0}{4}*log_2(\frac{0}{4}) = 0 áèò.

Info_{rain} = -\frac{3}{5}*log_2(\frac{3}{5}) - \frac{2}{5}*log_2(\frac{2}{5}) = 0.971 áèò.

Info_{condition} = \frac{5}{14}*0.971 + \frac{4}{14}*0 + \frac{5}{14}*0.971 = 0.693 áèò.

Êðèòåðèåì äëÿ âûáîðà àòðèáóòà (çàâèñèìîé ïåðåìåííîé) áóäåò ÿâëÿòüñÿ ñëåäóþùàÿ ôîðìóëà: Gain(x_h)=Info(I)-Info_{x_h}(T).
Êðèòåðèé Gain ðàññ÷èòûâàåòñÿ äëÿ âñåõ íåçàâèñèìûõ ïåðåìåííûõ ïîñëå ÷åãî âûáèðàåòñÿ ïåðåìåííàÿ ñ ìàêñèìàëüíûì çíà÷åíèåì Gain.
Íåîáõîäèìî âûáðàòü òàêóþ ïåðåìåííóþ, ÷òîáû ïðè ðàçáèåíèè ïî íåé îäèí èç êëàññîâ èìåë íàèáîëüøóþ âåðîÿòíîñòü ïîÿâëåíèÿ. Ýòî âîçìîæíî â òîì ñëó÷àå, êîãäà ýíòðîïèÿ Infox èìååò ìèíèìàëüíîå çíà÷åíèå è, ñîîòâåòñòâåííî, êðèòåðèé Gain(X) äîñòèãàåò ñâîåãî ìàêñèìóìà.
 íàøåì ïðèìåðå çíà÷åíèå Gain äëÿ íåçàâèñèìîé ïåðåìåííîé "Íàáëþäåíèå" (ïåðñïåêòèâà) áóäåò ðàâíî:

Gain(ïåðñïåêòèâà) = Info(I) - Info(ïåðñïåêòèâà) = 0.94 - 0.693 = 0.247 áèò.

Àíàëîãè÷íûå ðàñ÷åòû ìîæíî ïðîâåñòè äëÿ äðóãèõ íåçàâèñèìûõ ïåðåìåííûõ.  ðåçóëüòàòå ïîëó÷àåì:

Gain(íàáëþäåíèå) = 0.247 áèò.
Gain(òåìïåðàòóðà) = 0.029 áèò.
Gain(âëàæíîñòü) = 0.152 áèò.
Gain(âåòåð) = 0.048 áèò.

Òàêèì îáðàçîì, äëÿ ïåðâîíà÷àëüíîãî ðàçáèåíèÿ ëó÷øå âñåãî âûáðàòü íåçàâèñèìóþ ïåðåìåííóþ "Íàáëþäåíèå".
Äàëåå òðåáóåòñÿ âûáðàòü ñëåäóþùóþ ïåðåìåííóþ äëÿ ðàçáèåíèÿ. Âàðèàíòû ðàçáèåíèÿ ïðåäñòàâëåíû íà ðèñóíêå.
Âàðèàíòû ðàçáèåíèÿ íà âòîðîì øàãå.
Àíàëîãè÷íûì îáðàçîì ìîæíî ïîñ÷èòàòü çíà÷åíèå Gain äëÿ êàæäîãî ðàçáèåíèÿ:

Gain(òåìïåðàòóðà) = 0.571 áèò.
Gain(âëàæíîñòü) = 0.971 áèò.
Gain(âåòåð) = 0.02 áèò.

Âèäíî, ÷òî ñëåäóþùåé ïåðåìåííîé, ïî êîòîðîé áóäåò ðàçáèâàòüñÿ ïîäìíîæåñòâî T (ñîëíå÷íî) áóäåò "Âëàæíîñòü".
Äàëüíåéøåå ðàçáèåíèå ýòîé âåòâè óæå íå ïîòðåáóåòñÿ, ò.ê. â ïîëó÷èâøèõñÿ ïîäìíîæåñòâàõ âñå îáúåêòû îòíîñÿòñÿ òîëüêî ê îäíîìó êëàññó.

Åñëè â ïðîöåññå ðàáîòû àëãîðèòìà ïîëó÷åí óçåë, àññîöèèðîâàííûé ñ ïóñòûì ìíîæåñòâîì (íè îäèí îáúåêò íå ïîïàë â äàííûé óçåë), òî îí ïîìå÷àåòñÿ êàê ëèñò, è â êà÷åñòâå ðåøåíèÿ ëèñòà âûáèðàåòñÿ íàèáîëåå ÷àñòî âñòðå÷àþùèéñÿ êëàññ ó íåïîñðåäñòâåííîãî ïðåäêà äàííîãî ëèñòà.

Àëãîðèòì C4.5

Ïðåäñòàâëÿåò ñîáîé óñîâåðøåíñòâîâàííûé âàðèàíò àëãîðèòìà ID3. Ñðåäè óëó÷øåíèé ñòîèò îòìåòèòü ñëåäóþùèå:

Îäèí èç íåäîñòàòêîâ àëãîðèòìà ID3 ÿâëÿåòñÿ òî, ÷òî îí íåêîððåêòíî ðàáîòàåò ñ àòðèáóòàìè, èìåþùèìè óíèêàëüíûå çíà÷åíèÿ äëÿ âñåõ îáúåêòîâ èç îáó÷àþùåé âûáîðêè. Äëÿ òàêèõ îáúåêòîâ èíôîðìàöèîííàÿ ýíòðîïèÿ ðàâíà íóëþ è íèêàêèõ íîâûõ äàííûõ îò ïîñòðîåííîãî äåðåâà ïî äàííîé çàâèñèìîé ïåðåìåííîé ïîëó÷èòü íå óäàñòüñÿ. Ïîñêîëüêó ïîëó÷àåìûå ïîñëå ðàçáèåíèÿ ïîäìíîæåñòâà áóäó ñîäåðæàòü ïî îäíîìó îáúåêòó.
Àëãîðèòì C4.5 ðåøàåò ýòó ïðîáëåìó ïóò¸ì ââåäåíèÿ íîðìàëèçàöèè.
Îöåíèâàåòñÿ íå êîëè÷åñòâî îáúåêòîâ òîãî èëè èíîãî êëàññà ïîñëå ðàçáèåíèÿ, à ÷èñëî ïîäìíîæåñòâ è èõ ìîùíîñòü (÷èñëî ýëåìåíòîâ).
Âûðàæåíèå split info(x_h)=-\sum_{i=1}^m\frac{T_i}{T}\log_2(\frac{T_i}{T}) îöåíèâàåò ïîòåíöèàëüíóþ èíôîðìàöèþ, ïîëó÷àåìóþ ïðè ðàçáèåíèè ìíîæåñòâà Ò íà m ïîäìíîæåñòâ.
Êðèòåðèåì âûáîðà ïåðåìåííîé äëÿ ðàçáèåíèÿ áóäåò âûðàæåíèå: gain ratio(x_h)=\frac{Gain(x_h)}{split  info(x_h)} èëè gain ratio(x_h)=\frac{Gain(x_h)}{-\sum_{i=1}^m\frac{T_i}{T}\log_2(\frac{T_i}{T})}.
Ïðè óñëîâèè, ÷òî èìååòñÿ k êëàññîâ è n - ÷èñëî îáúåêòîâ â îáó÷àþùåé âûáîðêå è îäíîâðåìåííî êîëè÷åñòâî çíà÷åíèé ïåðåìåííûõ, òîãäà ÷èñëèòåëü ìàêñèìàëüíî áóäåò ðàâåí log2k, à çíàìåíàòåëü ìàêñèìàëüíî ðàâåí log2n. Åñëè ïðåäïîëîæèòü, ÷òî êîëè÷åñòâî îáúåêòîâ çíàâåäîìî áîëüøå êîëè÷åñòâà êëàññîâ, òî çíàìåíàòåëü ðàñò¸ò áûñòðåå, ÷åì ÷èñëèòåëü è, ñîîòâåòñòâåííî, çíà÷åíèå âûðàæåíèÿ áóäåò íåáîëüøèì.
 îáó÷àþùåé âûáîðêå ìîãóò ïðèñóòñòâîâàòü îáúåêòû ñ ïðîïóùåííûìè çíà÷åíèÿìè àòðèáóòîâ.  ýòîì ñëó÷àå èõ ëèáî îòáðàñûâàþò (÷òî âëå÷¸ò çà ñîáîé ðèñê ïîòåðÿòü ÷àñòü äàííûõ), ëèáî ïðèìåíèòü ïîäõîä, ïðåäïîëàãàþùèé, ÷òî ïðîïóùåííûå çíà÷åíèÿ ïî ïåðåìåííîé âåðîÿòíîñòíî ðàñïðåäåëåíû ïðîïîðöèîíàëüíî ÷àñòîòå ïîÿâëåíèÿ ñóùåñòâóþùèõ çíà÷åíèé.

Àëãîðèòì ïîêðûòèÿ

Àëãîðèòì çàêëþ÷àåòñÿ â ïîñòðîåíèè äåðåâüåâ ðåøåíèé äëÿ êàæäîãî êëàññà ïî îòäåëüíîñòè. Íà êàæäîì ýòàïå ãåíåðèðóåòñÿ ïðîâåðêà óçëà äåðåâà, êîòîðûé ïîêðûâàåò íåñêîëüêî îáúåêòîâ îáó÷àþùåé âûáîðêè.
Íà êàæäîì øàãå àëãîðèòìà âûáèðàåòñÿ çíà÷åíèå ïåðåìåííîé, êîòîðîå ðàçäåëÿåò ìíîæåñòâî íà äâà ïîäìíîæåñòâà. Ðàçäåëåíèå äîëæíî âûïîëíÿòüñÿ òàê, ÷òîáû âñå îáúåêòû êëàññà, äëÿ êîòîðîãî ñòðîèòñÿ äåðåâî, ïðèíàäëåæàëè îäíîìó ïîäìíîæåñòâó. Òàêîå ðàçáèåíèå ïðîèçâîäèòñÿ äî òåõ ïîð, ïîêà íå áóäåò ïîñòðîåíî ïîäìíîæåñòâî, ñîäåðæàùåå òîëüêî îáúåêòû îäíîãî êëàññà.
Äëÿ âûáîðà íåçàâèñèìîé ïåðåìåííîé è å¸ çíà÷åíèÿ, êîòîðîå ðàçäåëÿåò ìíîæåñòâî, âûïîëíÿþòñÿ ñëåäóþùèå äåéñòâèÿ:

  1. Èç ïîñòðîåííîãî íà ïðåäûäóùåì ýòàïå ïîäìíîæåñòâà (äëÿ ïåðâîãî ýòàïà ýòî âñÿ îáó÷àþùàÿ âûáîðêà), âêëþ÷àþùåãî îáúåêòû, îòíîñÿùèåñÿ ê âûáðàííîìó êëàññó äëÿ êàæäîé íåçàâèñèìîé ïåðåìåííîé, âûáèðàþòñÿ âñå çíà÷åíèÿ, âñòðå÷àþùèåñÿ â ýòîì ïîäìíîæåñòâå.
  2. Äëÿ êàæäîãî çíà÷åíèÿ êàæäîé ïåðåìåííîé ïîäñ÷èòûâàåòñÿ êîëè÷åñòâî îáúåêòîâ, óäîâëåòâîðÿþùèõ ýòîìó óñëîâèþ è îòíîñÿùèõñÿ ê âûáðàííîìó êëàññó.
  3. Âûáèðàþòñÿ óñëîâèÿ, ïîêðûâàþùèå íàèáîëüøåå êîëè÷åñòâî îáúåêòîâ âûáðàííîãî êëàññà.
  4. Âûáðàííîå óñëîâèå ÿâëÿåòñÿ óñëîâèåì ðàçáèåíèÿ ïîäìíîæåñòâà íà äâà íîâûõ.

Ïîñëå ïîñòðîåíèÿ äåðåâà äëÿ îäíîãî êëàññà òàêèì æå îáðàçîì ñòðîÿòñÿ äåðåâüÿ äëÿ äðóãèõ êëàññîâ.

Ïðåèìóùåñòâà èñïîëüçîâàíèÿ äåðåâüåâ ðåøåíèé

Îáëàñòè ïðèìåíåíèÿ äåðåâüåâ ðåøåíèé

Äåðåâüÿ ðåøåíèé ÿâëÿþòñÿ ïðåêðàñíûì èíñòðóìåíòîì â ñèñòåìàõ ïîääåðæêè ïðèíÿòèÿ ðåøåíèé, èíòåëëåêòóàëüíîãî àíàëèçà äàííûõ (data mining).  ñîñòàâ ìíîãèõ ïàêåòîâ, ïðåäíàçíà÷åííûõ äëÿ èíòåëëåêòóàëüíîãî àíàëèçà äàííûõ, óæå âêëþ÷åíû ìåòîäû ïîñòðîåíèÿ äåðåâüåâ ðåøåíèé.

Äåðåâüÿ ðåøåíèé óñïåøíî ïðèìåíÿþòñÿ äëÿ ðåøåíèÿ ïðàêòè÷åñêèõ çàäà÷ â ñëåäóþùèõ îáëàñòÿõ:

ê áèáëèîòåêå   ê îãëàâëåíèþ ÒÏÎÈ   ê äèñêðåòíîé ìàòåìàòèêå   òåõíîëîãèè ïðîãðàììèðîâàíèÿ

Çíàåòå ëè Âû, ÷òî íèçêî÷àñòîòíûå ýëåêòðîìàãíèòíûå âîëíû ÷àñòîòîé ìåíåå 100 ÊÃö êîðåííûì îáðàçîì îòëè÷àþòñÿ îò áîëåå âûñîêèõ ÷àñòîò ïàäåíèåì ñêîðîñòè ýëåêòðîìàãíèòíûõ âîëí ïðîïîðöèîíàëüíî êîðíþ êâàäðàòíîìó èõ ÷àñòîòû îò 300 òûñÿ÷ êìèëîìåòðîâ â ñåêóíäó ïðè 100 êÃö äî ïðèìåðíî 7 òûñ êì/ñ ïðè 50 Ãö.

ÍÎÂÎÑÒÈ ÔÎÐÓÌÀ

Ôîðóì Ðûöàðè òåîðèè ýôèðà


Ðûöàðè òåîðèè ýôèðà
 10.11.2021 - 12:37: ÏÅÐÑÎÍÀËÈÈ - Personalias -> WHO IS WHO - ÊÒÎ ÅÑÒÜ ÊÒÎ - Êàðèì_Õàéäàðîâ.
10.11.2021 - 12:36: ÑÎÂÅÑÒÜ - Conscience -> ÐÀÑ×ÅËÎÂÅ×ÈÂÀÍÈÅ ×ÅËÎÂÅÊÀ. ÊÎÌÓ ÝÒÎ ÍÀÄÎ? - Êàðèì_Õàéäàðîâ.
10.11.2021 - 12:36: ÂÎÑÏÈÒÀÍÈÅ, ÏÐÎÑÂÅÙÅÍÈÅ, ÎÁÐÀÇÎÂÀÍÈÅ - Upbringing, Inlightening, Education -> Ïðîñâåùåíèå îò ä.ì.í. Àëåêñàíäðà Àëåêñååâè÷à Ðåäüêî - Êàðèì_Õàéäàðîâ.
10.11.2021 - 12:35: ÝÊÎËÎÃÈß - Ecology -> Áèîëîãè÷åñêàÿ áåçîïàñíîñòü íàñåëåíèÿ - Êàðèì_Õàéäàðîâ.
10.11.2021 - 12:34: ÂÎÉÍÀ, ÏÎËÈÒÈÊÀ È ÍÀÓÊÀ - War, Politics and Science -> Ïðîáëåìà ãîñóäàðñòâåííîãî òåððîðèçìà - Êàðèì_Õàéäàðîâ.
10.11.2021 - 12:34: ÂÎÉÍÀ, ÏÎËÈÒÈÊÀ È ÍÀÓÊÀ - War, Politics and Science -> ÏÐÀÂÎÑÓÄÈß.ÍÅÒ - Êàðèì_Õàéäàðîâ.
10.11.2021 - 12:34: ÂÎÑÏÈÒÀÍÈÅ, ÏÐÎÑÂÅÙÅÍÈÅ, ÎÁÐÀÇÎÂÀÍÈÅ - Upbringing, Inlightening, Education -> Ïðîñâåùåíèå îò Âàäèìà Ãëîãåðà, ÑØÀ - Êàðèì_Õàéäàðîâ.
10.11.2021 - 09:18: ÍÎÂÛÅ ÒÅÕÍÎËÎÃÈÈ - New Technologies -> Âîëíîâàÿ ãåíåòèêà Ïåòðà Ãàðÿåâà, 5G-êîíòðîëü è óïðàâëåíèå - Êàðèì_Õàéäàðîâ.
10.11.2021 - 09:18: ÝÊÎËÎÃÈß - Ecology -> ÝÊÎËÎÃÈß ÄËß ÂÑÅÕ - Êàðèì_Õàéäàðîâ.
10.11.2021 - 09:16: ÝÊÎËÎÃÈß - Ecology -> ÏÐÎÁËÅÌÛ ÌÅÄÈÖÈÍÛ - Êàðèì_Õàéäàðîâ.
10.11.2021 - 09:15: ÂÎÑÏÈÒÀÍÈÅ, ÏÐÎÑÂÅÙÅÍÈÅ, ÎÁÐÀÇÎÂÀÍÈÅ - Upbringing, Inlightening, Education -> Ïðîñâåùåíèå îò Åêàòåðèíû Êîâàëåíêî - Êàðèì_Õàéäàðîâ.
10.11.2021 - 09:13: ÂÎÑÏÈÒÀÍÈÅ, ÏÐÎÑÂÅÙÅÍÈÅ, ÎÁÐÀÇÎÂÀÍÈÅ - Upbringing, Inlightening, Education -> Ïðîñâåùåíèå îò Âèëüãåëüìà Âàðêåíòèíà - Êàðèì_Õàéäàðîâ.
Bourabai Research - Òåõíîëîãèè XXI âåêà Bourabai Research Institution