Silhouetta koeficijent

[ mikoni @ 17.04.2020. 18:32 ] @

Poštovani,

Da li je neko imao iskustva sa obračunom Silhouetta koeficijenta, kao mere validnosti (ne)hijerarhijske klasterizacije.
Posebno, prosečne i u Excel-u.
Osim formule, našao sam nepotpune ( uglavnom verbalne o kratke ) komentare.
Uradio sam neki obračun, sa vrlo visokim koeficijentima, koji me iz tog razloga i ne zadovoljava.
Pre je moguće moje nerazumevanje!!!

Molim za pomoć,
Mikoni

P.S. podatke stavljam na uvid ako bude trebalo

[ Jpeca @ 18.04.2020. 21:59 ] @

Pre prilično vremena sam radio neku klasterizaciju i ne sećam se da sam računao silhouetta koeficijent. Pogledao u [url=https://en.m.wikipedia.org/wiki/Silhouette_(clustering)]wikipediji[/url] i postupak izgleda dosta pravolinijski (ako radiš sa euklidskim distancama).
Excel mi ne izgleda kao najbolji alat za to - python npr. ima već gotove procedure za obračun u okviru paketa sklearn

Ako već radiš sa Excelom verovatno je zgodno da se naprave pomoćne funkcije u VBA (nisam video da postoje gotove) za obračun.

Kakogod, evo jedno rešenje sa formulama na jednostavnom primeru sa stackoverflow .

Rešenje sam proverio sa pomenutom python bibliotekom i slaže se.

_{[Ovu poruku je menjao Jpeca dana 18.04.2020. u 23:11 GMT+1]}

[ mikoni @ 19.04.2020. 10:48 ] @

Hristos vaskrse!!! Srećan praznik Tebi, i ostalima na forumu.

Tebi hvala na javljanju i želji da mi pomogneš!!!

Sigurno je da Excel nije najbolja sredina za ovu računicu.

Za Python je potreban SPSS, ali još potrebnije znanje – nemam ni jedno ni drugo!
Sva Tvoja uputstva metodološkog karaktera sam prošao ( oba site-a, i oba rada tvorca ovog parametra – Rousseew-a ). Za njih je potrebno znanje VB, ja i to nemam!!
Jednom rečju – primenjeni analitičar, gotovi paketi sa kvačicama kao izborom.
Shvativši, verovatno na lakši način, ja sam nešto i uradio. Razmišljajući o tome zaključio sam da je to što sam uradio mnogo dobro da bi valjalo i tako došao na naš site.

Priznajem, očekivao sam Tvoje ili Ivketovo javljanje.

Ali, i bez detaljnog gledanja Tvoj predlog može da bude rešenje. Probaću da ga primenim i šaljem ’kreaciju’.

Poštovanje i zahvalnost,
Mikoni

P.S. izvinjenje, baš sam odužio

_{[Ovu poruku je menjao mikoni dana 19.04.2020. u 12:19 GMT+1]}

[ mikoni @ 19.04.2020. 12:36 ] @

Može li se i sa mojom podacima uraditi obračun sličan Tvom.
Čini mi da je rešenja i u ( na Tvoj način ) veoma blizu.

U drugom i trećem sheet-u je moj obračun, pojedinačnih, klasterskih i prosečne silhouete.

Mikoni

[ Jpeca @ 20.04.2020. 09:31 ] @

Računica koju sam ja našao polazi od rastojanja između pojedinačnih opservacija (160 u tvom slučaju, 12720 rastojanja). Nisam u ovom primeru našao te pojedinačne opservacije. Ti polaziš od rastojanja od centroida - možda može i tako, ali ja ne znam tu računicu.
U python biblioteci sklearn.metrics za obračun se prosleđuju kompletan skup opservacija X (svi features) i odgovarajući klasteri koji pripaduju da se izračuna koeficijent cluster_labels Npr. silhouette_score(X, cluster_labels)

[ mikoni @ 20.04.2020. 10:34 ] @

Upoređujući Tvoje i moje računice, ako sam dobro shvatio moje su na nivou Tvoje Silhouette calculation formula.
Meni model završi račun Euklidove distance sa 8 klastera i tu se završava.
Nadao sam se da će od ovog nivoa neko uraditi Silhouette pa da iz toga napravim šablon, jer bih u tom slučaju mogao da izračunam za 5 - 12 klastera - najveći koeficijent bi bio mera za optimalni broj klastera.
Ovako mi preostaje da iskoristim moju računicu.

Ali, zaključujem da koristiš SPSS, znam da ima opciju za izračunavanje S., koju sam pre par godina probao da koristim.
Nije mi uspelo jer nisam znao da definišem Next Best Cluster ( jedan ili više ) i Silhouette value ( jednu ili više, virtuelne ili moje ).

Hvala Ti na angažovanju, značajan bi mi bio i Tvoj komentar.

Mikoni