[ axez @ 22.09.2004. 12:40 ] @
http://www.techworld.com/opsys/news/index.cfm?NewsID=2275

21 September 2004
Microsoft server crash nearly causes 800-plane pile-up
Failure to restart system caused data overload.


By Matthew Broersma, Techworld

A major breakdown in Southern California's air traffic control system last week was partly due to a "design anomaly" in the way Microsoft Windows servers were integrated into the system, according to a report in the Los Angeles Times.

The radio system shutdown, which lasted more than three hours, left 800 planes in the air without contact to air traffic control, and led to at least five cases where planes came too close to one another, according to comments by the Federal Aviation Administration reported in the LA Times and The New York Times. Air traffic controllers were reduced to using personal mobile phones to pass on warnings to controllers at other facilities, and watched close calls without being able to alert pilots, according to the LA Times report.

The failure was ultimately down to a combination of human error and a design glitch in the Windows servers brought in over the past three years to replace the radio system's original Unix servers, according to the FAA.

The servers are timed to shut down after 49.7 days of use in order to prevent a data overload, a union official told the LA Times. To avoid this automatic shutdown, technicians are required to restart the system manually every 30 days. An improperly trained employee failed to reset the system, leading it to shut down without warning, the official said. Backup systems failed because of a software failure, according to a report in The New York Times.

The contract for designing the system, called Voice Switching and Control System (VSCS), was awarded to Harris Corporation in 1992 and the system was installed in the late 1990s, initially using Unix servers, according to Harris. In 2001, the company completed testing of the VSCS Control Subsystem Upgrade (VCSU), which replaced the original servers with off-the-shelf Dell hardware running Microsoft Windows 2000 Advanced Server. The upgrade was installed in California last year, according to the FAA.

Soon after installation, however, the FAA discovered that the system design could lead to a radio system shutdown, and put the maintenance procedure into place as a workaround, the LA Times said. The FAA reportedly said it has been working on a permanent fix but has only eliminated the problem in Seattle. The FAA is now planning to institute a second workaround - an alert that will warn controllers well before the software shuts down.

The shutdown is intended to keep the system from becoming overloaded with data and potentially giving controllers wrong information about flights, according to a software analyst cited by the LA Times.

Microsoft told Techworld it was aware of the reports but was not immediately able to comment.
[ dinke @ 22.09.2004. 13:04 ] @
Da li je iko zapazio reklamu na gornjem linku :))) ?

[ flylord @ 22.09.2004. 13:16 ] @
Jel neko nekad rekao da Win ne mora da se restartuje non stop da bi radio kako treba!?
[ axez @ 22.09.2004. 14:27 ] @
Dinke, Ironija je to....:)
Neverovatno je koliko su neki ljudi glupi....staviti windows na tako vazan zadatak je ravno krivicnom delu...:)

No, videcemo sta kolege windows zealoti imaju da kazu posto oni tvrde ono sto ovakav slucaj pobija.
Mislim da smo srecno sto se neko nije setio da stavi windows da upravlja nuklearnom elektranom i sl....;)
[ srki @ 22.09.2004. 14:28 ] @
Citat:
axez:
The failure was ultimately down to a combination of human error and a design glitch in the Windows servers brought in over the past three years to replace the radio system's original Unix servers, according to the FAA.

A linux ispravlja i ljudske greske?
Da li imas malo vise informacija o tome sta je stvarno bila greska?
[ tdjokic @ 22.09.2004. 14:42 ] @
"E, jest, sad vam sve krivo" reko bi degojs :-) Moje misljenje: ne mogu da verujem da je tu ostavljena mogucnost ljudske greske, jer se onda ona moze uraditi i NAMERNO. Mora da postoji hijerarhiski sistem - redovan postupak / rezervni za slucaj da redovni otkaze / vanredni za slucaj da rezervni otkaze / uzbuna, za slucaj da vanredni otkaze. Cemu inace IT? Onda opet mozemo da stavimo tamo pijanog Peru, ludog Ziku, deprimiranog Lazu, da 'kontrolisu' letove, pa ko se spusti, spusti, a ko se ne spusti - "Ma, spustice ce se, bre, ne moze gore da ostane!" Nije rec o 800 klipova kukuruza, nego aviona, brrrrr.... jezivo .....
[ axez @ 22.09.2004. 14:45 ] @
Citat:
srki: A linux ispravlja i ljudske greske?
Da li imas malo vise informacija o tome sta je stvarno bila greska?


Ljudska greska je ta sto cova nije manuelno restartovao windows posle 30 dana kako im je naredjeno.


Citat:
tdjokic: "E, jest, sad vam sve krivo" reko bi degojs :-) Moje misljenje: ne mogu da verujem da je tu ostavljena mogucnost ljudske greske, jer se onda ona moze uraditi i NAMERNO. Mora da postoji hijerarhiski sistem - redovan postupak / rezervni za slucaj da redovni otkaze / vanredni za slucaj da rezervni otkaze / uzbuna, za slucaj da vanredni otkaze. Cemu inace IT? Onda opet mozemo da stavimo tamo pijanog Peru, ludog Ziku, deprimiranog Lazu, da 'kontrolisu' letove, pa ko se spusti, spusti, a ko se ne spusti - "Ma, spustice ce se, bre, ne moze gore da ostane!" Nije rec o 800 klipova kukuruza, nego aviona, brrrrr.... jezivo .....


Pa nije ostavljena mogucnost ljudske greske, nego su naknadno otkrili da windoza ne moze da izdrzi toliko nego mora da se restartuje i to tek posle prelaska sa Unixa....ko zna sta su im nas?a?i ovi iz microsofta da bi kupili njihov sistem.


[Ovu poruku je menjao dinke dana 22.09.2004. u 17:14 GMT]
[ Jbyn4e @ 22.09.2004. 14:48 ] @
Sta, sta?
[ Dejan Lozanovic @ 22.09.2004. 15:01 ] @
sada bi vam ivan dimkovic spomenuo flight entretaimnet sistem ;) sa pingvinom :), a degojs bi rekao linux nije ni dorastao zadatku da ga postave na tako vaznu funkciju.

A ja cu da kazem ovde nije kriv windows, nego programeri koji su radili softver za kontrolu leta, jer da se ne lazemo NT je stabilan koliko i linux, moze taj da radi i po nekoliko godina bez restarta isto kao i linux. Jer koliko se vidi u tekstu oni restartuju servere da ne bi doslo do pretrpavanja memorije (ima negde neko curenje cim to rade). Tu su krivci sami dizajneri tog programa, po meni bi tu trebalo da dodje neki hi aviability cluster.
[ broker @ 22.09.2004. 17:04 ] @
hm da, lepo je receno da je problem nastao u losoj bekap proceduri sto nema mnogo veze sa Windows-ima. Da su isti programeri pravili sistem pod Unixom verovatno bi ga isto tako traljavo napravili...
[ Ivan Dimkovic @ 22.09.2004. 17:30 ] @
Elem i ja bih se slozio sa Dejanom - kao sto se vidi problem je u curenju memorije i losoj backup proceduri - a nista od toga nema bas puno veze sa operativnim sistemom koji se koristi.

Svaka cast za takav QA :)
[ degojs @ 22.09.2004. 18:28 ] @
Sad Windows treba i da detektuje program koji ima curenje memorije :) Pa momci ako vam je do toga, aplikacije pravite u .NET pa neće biti ovakvih problema.

Eto i to je rešeno.

Stvarno koliko čovek mora biti pametan da "optuži" Windows zbog loše aplikacije? Naspeš loše gorivo u svoj auto, pa kažeš kako BMW ima loše aute.. drnda nešto mnogo.. :) Što se ljudske greške tiče, možemo samo da citiramo HAL-a iz Odiseje: "It can only be attributable to human error." :)
[ strba @ 22.09.2004. 18:36 ] @
Nisi napisao da je svaka veza izmedju kvaliteta bmw-a i windows-a isključena :)

A inače moj komentar na sve ovo:

Razgovarao sam sa prijateljom koji radi u jednoj Kanadskoj kompaniji. Za godinu dana njihovom informacionom sistemu najviše štete je naneo ljudski faktor. Ne virusi, ne hakeri ni kvar opreme već ljudski faktor.



Pozdrav


P.s Ništa nije bezbedno od ljudi



[Ovu poruku je menjao strba dana 22.09.2004. u 20:41 GMT]
[ degojs @ 22.09.2004. 18:40 ] @
Zato tebi piše: OS: Widows XP :)

Osim ako nisi mislio da je Windows mnogo bolji u odnosu na druge OS nego što je BMW u odnosu na druge automobile. U tom slučaju se slažemo.
[ strba @ 22.09.2004. 18:45 ] @
Da, ne odskače bmw toliko u odnosu na ostale automobile u svojoj klasi koliko windows XP odskace u odnosu na ostale OS-ove (desktop primena).


On što sam hteo reći je da je ljudski faktor presudan u svemu.
[ axez @ 22.09.2004. 21:15 ] @
Citat:
The failure was ultimately down to a combination of human error and a design glitch in the Windows servers


Ovde je sasvim jasno da je krivica do loseg windowsa pored ljudskog faktora. uopste nema pomena da je nesto drugo u pitanju.
A to sto je bekap otkazao to je samo slag na tortu.
Prema tome, mozete vi da se pravite da to nije tako i da skrecete sa teme ali ljudi su lepo ukazali ko je krivac jer je sigurno vodjena istraga povodom ovoga.\
[ VRider @ 22.09.2004. 21:17 ] @
BMW a.k.a. "Kisni ubica"?
[ Marko_L @ 22.09.2004. 22:05 ] @
Citat:
Ovde je sasvim jasno da je krivica do loseg windowsa pored ljudskog faktora. uopste nema pomena da je nesto drugo u pitanju.

Da, da, samo što si ti vrlo mudro boldovao rečenice koje ti odgovaraju, a neke isto tako važne koje govore o pomenutom slučau, si ignorisao, na primer ova:
Citat:
A major breakdown in Southern California's air traffic control system last week was partly due to a "design anomaly" in the way Microsoft Windows servers were integrated into the system

Znači, u izveštaju piše, da je do kvara doveo način na koji je MS Win Server integrisan u sistem, a uopšte se ne pominje da je greška u samom MS Win Serveru...Priznaćeš, ima razlike...Dakle greška je u integraciji sistema, a ne u samom sistemu, odnosno serveru.
Dalje...
Citat:
An improperly trained employee failed to reset the system, leading it to shut down without warning, the official said.

Dakle, nepravilno, odnosno neadekvatno obučen radnik nije uspeo pravilno da resetuje sistem, što je dovelo do gašenja istog bez upozorenja.Dakle, gde je tu greška samog Win-a, ili hoćeš da kažeš da je kojim slučajme to bio Linux, i neadekvatno obučen radnik bi mogao da izbegne kvar ?
[ Slobodan Milivojevic @ 22.09.2004. 22:12 ] @
Kolko sam ja ukapirao nije problem u software-u, vec u OS-u, zato sto je neko brojac prevrteo, a neko od admina nije odradio mesecni reboot.

Izem ti server koji ima max uptime 47 dana..... (2^32sec)
[ Palma @ 22.09.2004. 22:34 ] @
Nisi dobro ukapirao, pročitaj malo detaljnije gornje postove, naročito drugi citat u Markovom postu, biće ti sve jasnije.
[ VRider @ 22.09.2004. 23:21 ] @
Tako im i treba kad unixe menjaju windowsima. Na linuxima bi mogli da koriste isti software, koji ocigledno radi malo bolje.
[ Marko_L @ 22.09.2004. 23:28 ] @
Citat:
Tako im i treba kad unixe menjaju windowsima.

Upravo tako.Što će reći, nije greška u win-u, već u načinu na koji je odrađen ceo taj proces tranzicije, jer očigledno da ljudi koji su to radili, svoj posao nisu obavili kako treba, a i činjenica da radnik koji je izazvao "glitch" nije bio adekvatno obučen za rad na sistemu ne pomaže baš mnogo ;)
[ McKracken @ 22.09.2004. 23:40 ] @
A koji su Q menjali Unix windozetom?

Solitaire?

Doduse, prosli put je Mandrake bio kriv sto nije predvideo da LG pravi drajvove koji ne postuju standarde, a sad je sve OK :)

[Ovu poruku je menjao McKracken dana 23.09.2004. u 01:45 GMT]
[ srki @ 22.09.2004. 23:45 ] @
Citat:
VRider: Tako im i treba kad unixe menjaju windowsima. Na linuxima bi mogli da koriste isti software, koji ocigledno radi malo bolje. :)

Slazem se. If it works, don't fix.
[ VRider @ 22.09.2004. 23:45 ] @
Da zakljucimimo:
Windows je OK, ali i sama pomisao da moze da zameni *nixe je velika greska.
[ srki @ 23.09.2004. 00:09 ] @
Ne, nemoj da izvrces moje reci pa cak ni sa smajlijem :).
[ Dejan Lozanovic @ 23.09.2004. 00:10 ] @
Citat:
Ivan Dimkovic
Elem i ja bih se slozio sa Dejanom - kao sto se vidi problem je u curenju memorije i losoj backup proceduri - a nista od toga nema bas puno veze sa operativnim sistemom koji se koristi.

Svaka cast za takav QA :)


Da bi neke stvari skapirao na pravi nacin treba ipak biti programer :)

Citat:
degojs
Sad Windows treba i da detektuje program koji ima curenje memorije :) Pa momci ako vam je do toga, aplikacije pravite u .NET pa neće biti ovakvih problema.


Ne bih ja ipak stavljao .NET ili Javu na mission critical aplikacije kao sto je ova za kontrolu leta, jer je tu ipak potrebna brzina primera radi i dan danas space shulte u space shutle-u koriste program pisan u asm-u koji stane na 32k na jedan chip , a program racuna trajektoriju sletanja na zemlji iz svemira, cisto i optimizovano maksimalno, procesorsko vreme najbolje iskorisceno. Nema sta da ga mucis sa raznoraznim GC-om i na taj nacin pocevas samom programu brzinu reagovanja. .NET i JAVA su jos uvek za veliki deo industrije jos uvek decije igracke. U nekim aspektima mogu da pariraju C/C++, a negde je i C++ jos uvek igracka
(mikrokontroleri)


Citat:
VRider: Da zakljucimimo:
Windows je OK, ali i sama pomisao da moze da zameni *nixe je velika greska. :)


A mozda je bug unutar SFU-a ? :)
[ VRider @ 23.09.2004. 00:47 ] @
Zapravo, Srki, ja tvoju poruku nisam ni video (pisali smo istovremeno). To sto sam napisao je samo logican zakljucak proistekao iz ove rasprave.
[ Dragi Tata @ 23.09.2004. 02:31 ] @
Citat:
VRider: Tako im i treba kad unixe menjaju windowsima. Na linuxima bi mogli da koriste isti software, koji ocigledno radi malo bolje. :)


Hoćeš da kažeš da Unix podnosi i aplikacije koje "cure memoriju"? Hehe, ne bih rekao.
[ Dejan Lozanovic @ 23.09.2004. 13:28 ] @
Citat:
Dragi Tata: Hoćeš da kažeš da Unix podnosi i aplikacije koje "cure memoriju"? Hehe, ne bih rekao.


Pa da se razumemo, podnosice ju dok ne alocira svu raspolozivu memoriju, nakon toga ce aplikacija ili da pukne ako nisu gledali da li im pri alokaciji memorije dobili NULL vrednost pa poceli da pisu po read-only segmentu, ili ce pri konstataciji da nema vise slobonde memorije uradti neki zahvat u programu i srediti stvar rucno. U suprotnom sam operativni sistem ce prekinuti izvrsavanje aplikacije, ali nece biti primoran da ga resetujes. Sto je velika prednost tj usteda u vremenu.

Mada i dalje stoji da su krivi programeri koji su dizajnirali losu aplikaciju na tako kriticnom mestu.
[ VRider @ 23.09.2004. 14:34 ] @
Ne, Ćale, ne kažem da unix podnosi bolje curenje memorije, već kažem da dok nije bilo windowsa, nego samo unixi, sve je radilo kako treba (software za unixe očigledno nema greške u ovom slučaju). Taj isti software bi mogao da radi i na linuxima. Slažeš se?
[ Dragi Tata @ 23.09.2004. 14:52 ] @
Citat:
VRider: Ne, Ćale, ne kažem da unix podnosi bolje curenje memorije, već kažem da dok nije bilo windowsa, nego samo unixi, sve je radilo kako treba (software za unixe očigledno nema greške u ovom slučaju). Taj isti software bi mogao da radi i na linuxima. Slažeš se?


Ah, sad mi je jasno šta si mislio. Slažem se da bi bilo mnogo lakše portovati postojeći software sa Unix-a na Linux nego na Windows.

Međutim, ti uvodiš neke pretpostavke za koje ne znamo da li su tačne:

Citat:
VRider: sve je radilo kako treba


Da je sve radilo kako treba, zašto bi uopšte vršili prelaz na novi software (nezavisno od OS-a)? Kao što rekoh u onoj drugoj temi, Švajcarcima COBOL programi na mainframeovima lepo rade i ne pada im na pamet da ih menjaju.
[ VRider @ 23.09.2004. 15:04 ] @
Kako nisam cuo ranije za ovakva sra*** u Kaliforniji, mogu da pretpostavim da je sve bilo OK.
Citat:
which replaced the original servers with off-the-shelf Dell hardware running Microsoft Windows 2000 Advanced Server.

Mislim da su mislili da ce da ustede prelaskom na windows i jeftini hardware, umesto (verovatno) skupog na kome su se vrteli Unixi (Solaris, AIX, HP-UX ili neki drugi). Mada, to opet nema mnogo smisla, jer na tom istom "off-the-shelf Dell hardware" moze da se vrti RHLinux, SuSe ili neki drugi, za koji takodje mogu da dobiju i podrsku i sve drugo sto ima treba. Mozda je i politika malo umesala svoje prste.
[ McKracken @ 23.09.2004. 15:31 ] @
Dosao im MS-ov salesman i rekao "The new Windows server. Now with more guns, actions and expolosions" . Pokazao TCO studiju (sponsored, of kors) i ljudi poverovali :)

Tacnije u MS-ovom recniku "Mission critical application" je aplikacija koja dovede stanje na kriticno :)

[ Dragi Tata @ 23.09.2004. 16:27 ] @
Citat:
VRider: Kako nisam cuo ranije za ovakva sra*** u Kaliforniji, mogu da pretpostavim da je sve bilo OK.


Možeš da pretpostaviš šta god hoćeš, ali to što ti nisi čuo za slična s... događanja ne znači da im je postojeći software vršio posao. Nije to tako crno-belo: radi super ili crkava. Uostalom, kao i obično, raspravljamo o nečem o čemu ne znamo skoro ništa.
[ McKracken @ 23.09.2004. 17:05 ] @
Palma, Linuxovci raspravljaju za razliku od MCSE-a koji obaraju avijone..


Btw.. Zar je za rad na windowsu potrebna neka obuka? Koliko se secam, svaka sekretarica to moze da radi :)

He He He.. pa mozda i jeste neka sekretarica naperavala avijone :)

Citat:
An improperly trained employee failed to reset the system, leading it to shut down without warning, the official said.




[Ovu poruku je menjao McKracken dana 23.09.2004. u 19:15 GMT]
[ Reljam @ 23.09.2004. 17:10 ] @
49.7 dana - meni ovo vise zvuci kao da aplikacija koristi 32bitni tajmer i da ne ume da izadje na kraj sa trenutkom kada se tajmer obrne.

Za to je obicno kriva C/C++ 'clock()' funkcija koja vraca broj milisekundi od pocetka rada programa.

60 sek u min. * 60 min u satu * 24 * 49.7 * 1000 milisekundi u sekundi < max broja koji stane u dword (malo vise od 4 milijarde, (dword) -1).

Oni koji poznaju C znace da ovo nema nikakve veze sa OSom, vec je obican bag u programu.
[ VRider @ 23.09.2004. 17:22 ] @
Pronadji jednu recenicu, Cale, koja ukazuje na prosirenje mogucnosti novog softwarea. Pokusali su da ustede, i zajebali su se. End of story.