[ X Files @ 04.12.2015. 19:58 ] @
Želim da formulišem (definšem) neku metodu za izbor određenih "značajnih" vrednosti iz serije brojeva.

Na primer,

Ako imam seriju brojeva:
95, 99, 98, 96, 95, 98, 1, 2
... želim da izaberem sve izuzev 1 i 2.

Ako imam seriju brojeva:
95, 98, 2, 1, 3, 1, 2, 3
... želim da izaberem samo 95 i 98.

Ako imam seriju brojeva:
95, 98, 98, 97, 99, 98, 96, 99
... želim da izaberem sve, jer su bliske.

Ako imam seriju brojeva:
2, 2, 3, 3, 2, 2, 2, 3
... želim da izaberem sve, jer su bliske.

Ako imam seriju brojeva:
2, 1, 3, 3, 2, 2, 2, 3
... želim da izaberem sve, izuzev 1.

Pretpostavljam da je potrebno definisati još neku konstantu koja definiše "osetljivot", koja bi u poslednjem primeru možda selektovala i jedinicu.

Kako formulisati ovakvu metodu, makar rečima?


Može li se upotrebiti jedna, ili kombinacija nekih od ovih metoda, pa da guglujem?
http://asq.org/learn-about-qua...sis-tools/overview/pareto.html
[ djoka_l @ 04.12.2015. 20:10 ] @
Ne znam tačno šta ti treba, ali bi, recimo, moglo da se kaže da ti iz neke serije brojeva treba izdvojiti sve koji su u opsegu srednja vrednost serije plus minus standardna devijacija (mislim da u taj opseg kod normalne raspodele upada 68% uzoraka), ili dve standardne devijacije (oko 96% uzoraka).

Onaj tvoj drugi primer je "abnormalan" serija se sastoji od dve veoma razdvojene serije, situacija koja se nikad ne bi javila kod standardne raspodele.
Recimo, nije mi jasno zašto u drugom primeru upada dva broja 95 i 98, a ne 6 brojeva 1,2 i 3, svi po dva puta.
[ T.r.o.n.i.c.Srb @ 04.12.2015. 20:11 ] @
Evo neke moje ideje kako bi moglo da se resi ali ona ima smisla samo kada postoji velika razlika izmedju vrednosti "znacajnih" i onih ostalih brojeva
Izracunas prosecnu vrednost clana niza ( niz brojeva ) i kao reper uzmes prvu manju celu vrednost, a onda tu vrednost uporedjujes sa pojedinim clanovima i ako su oni veci od prosecne izaberes njih a ako nisu onda ne.
[ X Files @ 04.12.2015. 20:59 ] @
Konkretno, radi se o definisanju prikladne metode za izbor takozvanih SEU ("significant energy uses"), odnosno izbor područja značajnog korišćenja energije iz određene liste. Vrednosti su izražene u giga džulima (GJ).

E sad, ne radi se samo o jednoj listi, već o više nezavisnih ista, gde su potrošnje grupisane po izvorim/oblicima energije, procesima koji troše taj odrešeni izvor energije.

Kod jedne liste, vrednosti su i u milionima GJ. Kod druge liste vrednosti su u hiljadama GJ i sl.

Svaka lista je priča za sebe, tj. svako u svom domenu treba metodološki da izabre određene stavke iz liste koje su značajnije od drugih, kojim se treba dalje baviti. Nekada jednu stavku, a nekada možda i sve.

Ako su vrednosti:
99 999 999
88 888 888
33 333 333
... može se reći (odokativno) da su značajne prve dve.

Ako su vrednosti:
99 999 999
99 999 999
99 999 999
... može se reći da su značajne sve tri, slično kao i ovde:
99 999 999
99 999 998
99 999 997.

E sad, potrebno je definisati neku metodu koja će ovo i matematički izdvajati.


U osnovi, verujem da je ovo neki standardni statistički metod, pa da ne izmišljam toplu vodu, nego da pročitam, proučim i primenim :) Gledam nešto oko standardne devijacije, izgleda da se može nešto upotrebiti.
[ Shadowed @ 04.12.2015. 21:30 ] @
Citat:
X Files: Ako imam seriju brojeva:
95, 98, 2, 1, 3, 1, 2, 3
... želim da izaberem samo 95 i 98.

Zasto 95 i 98 a ne sve osim njih? Ostale su medjusobno bliske, cak su im razlike manje i ima ih vise.
[ djoka_l @ 04.12.2015. 21:42 ] @
Pa sad mi je manje jasno, ali mislim da onaj moj prvi predlog nije dobar.
Tebi ne treba standardna devijacija serije, treba ti neki odnos u odnosu na maksimalan element u jednoj listi, ili odnos pojedinog elementa u odnosu na sumu svih elemenata. A možda ništa od toga. Možda ti treba neki heuristički model, što je uvek problematičan problem.
[ X Files @ 04.12.2015. 22:02 ] @
Citat:
Shadowed: Zasto 95 i 98 a ne sve osim njih? Ostale su medjusobno bliske, cak su im razlike manje i ima ih vise.

Izgleda da sam ispustio da pomenem bitnu stvar. Veća vrednost predstavlja veći "problem" (utrošak energije), koji treba izdvojiti iz liste, da bismo se njime kasnije bavili, u cilju smanjenja potrošnje. Odnosno bavljenje njime će dati veće uštede u nekom podsistemu (procesi od 1 do 8), nego da se bavimo sa stavkama 2, 1 ,3, 1, 2, 3.

Proces 1 troši 99 miliona GJ
Proces 2 troši 98 miliona GJ
Proces 3 troši 2 miliona GJ
Proces 4 troši 1 miliona GJ
Proces 5 troši 3 miliona GJ
Proces 6 troši 1 miliona GJ
Proces 7 troši 2 miliona GJ
Proces 8 troši 3 miliona GJ

Međutim, ako imam sledeće:
Proces 1 troši 99 miliona GJ
Proces 2 troši 98 miliona GJ
Proces 3 troši 97 miliona GJ
... teško mi je da odustanem bilo od čega sa liste.

Citat:
djoka_l: Pa sad mi je manje jasno, ali mislim da onaj moj prvi predlog nije dobar.
Tebi ne treba standardna devijacija serije, treba ti neki odnos u odnosu na maksimalan element u jednoj listi, ili odnos pojedinog elementa u odnosu na sumu svih elemenata. A možda ništa od toga. Možda ti treba neki heuristički model, što je uvek problematičan problem.

Da, metodologija može biti i složena, if (slučaj 1) onda metodologija1, else if (slucaj 2) onda metodologija 2 ...

Svakako ću na kraju napraviti neki kod koji će propustiti vrednosti i sagledati da li daje očekivane rezultate.
[ djoka_l @ 04.12.2015. 22:25 ] @
Malo si me zainteresovao da ponovim ono malo što sam znao o neuronskim mrežama.

Ajde, ako ti nije teško, napravi neke testne serije da se malo poigram.
Recimo, napravi excel koji ima u koloni A jednu seriju, a u koloni B vrednosti 1 i 0 i to 1 za odgovarajuću vrednost iz A koja je "interesantna" a 0 za "neinteresantne"
Pa onda par kolona C i D na isti način, E i F itd. Da vidimo šta može da se izbunari...