[ vojvoda1010 @ 20.04.2019. 08:58 ] @
Da li moze i kako sledece sledece,
na usb imam vise word dokumenta (duplikata) kako da znam da li su iste sadrzine i kako ih sve obristi?

npr. imam imenovana 3 dokumeta sa imenom kopija, ali posotoji mogucnost da nisu iste sadrzine.

[ bachi @ 20.04.2019. 10:26 ] @
https://www.teachucomp.com/com...ocuments-in-word-instructions/

Na nivou fajla imaš Total COmmander i opciju compare ili synchronize, ili ovaj open source programčić: http://winmerge.org/?lang=en
[ mjanjic @ 20.04.2019. 13:18 ] @
Ne misli čovek na fajlove, nego na sarždaj dokumenata.

Ako je običan tekst, lakše ti je da prebaciš u neki TXT ili drugi tekstualni dokument koji mogu da čitaju alati za poređenje sadržaja. Stari DOC je binarni format, dok je novi DOCX u stvari XML u ZIP arhivi (ali, kad ga otvoriš nekim arhiverom ili promeniš ekstenziju u ZIP pa otvoriš na Win, vidiš kakav je haos tamo), tako da ne znam za bilo koji alat koji bi mogao to da ti uradi.

Možeš da uradiš sa Word-om, ako imaš npr. 2013, onda je postupak opisan ovde (za druge verzije potraži na internetu): https://www.c-sharpcorner.com/...sion-of-document-in-word-2013/
[ bokinet @ 20.04.2019. 14:03 ] @
Ako se gleda da li je u pitanju realna uverljiva kopija tj. da li je isti sadrzaj file a samo razliciti naziv file onda bi najprakticnije resenje bilo da se odradi hasovanje file-ova i da se uporede dobijene vrednosti.

Ako su hash vrednost iste onda je i sadrzaj isti te tako se zna da li je nesto duplikat ili ne.

Drugi nacin je da se odradi strukturno poredjenje file preko VBA tako sto bi se pristupilo uporedjivanju sadrzaja kroz ceo objekat klase koji se dobija kada se svaki file ucita (otvori) u memoriju.

Ovo vazi za sve MS Office aplikacije koje podrzavaju VBA.
[ vojvoda1010 @ 20.04.2019. 20:18 ] @
Mozda nisam najbolje objasnio.

imam npr. 10 foldera u folderu 1, 4, 5 imam dokument koji nosi isti naziv "novi dokument", oni su ist sadrzine, dok u folderu 6 imam isti naziv ali drugi tekst.

sad moje pitanje kako da uporedim i eventualno kopije istih da obrisem.

u prilogu npr. "novi dokument" da je 3 puta isti tekst snimljen sa istim nazivom, a 1 drugi tekst ali isti naziv.


izvinjavam se kako je menjan sistem vidim da mi je instaliran word 2016
[ bokinet @ 20.04.2019. 21:56 ] @
Ono sto sam vam vec bio napisao i dalje bi bio isti odgovor sa moje strane kao resenje.
Nije bitno da li su dva file ili N fileova u jednom ili N foldera.
Uvek se jedan poredi sa ostalima dok se svi ne provere i ako se nadje poklapanje onda se radi sa njim sta je potrebno kao na primer brisanje ili recimo pomeranje na neku rezervnu lokaciju kao karantin za svaki slucaj.
[ mjanjic @ 21.04.2019. 00:42 ] @
Tako je to kad neko pređe sa pisaće mašine (ili čak nije radio ni na njoj) i odmah sedne za računar, a ne prođe osnovnu obuku.

Imamo i mi na poslu ženu koja je bila daktilograf, a sad ima pune foldere fajlova kao u ovom tvom slučaju, samo nisu baš tako banalni nazivi, nego ugovori, rešenja i ko zna šta sve, plus u svakom dokumentu po 200 strana ugovora i rešenja koja su samo kopirana na sledeću stranu i menjani datumi i lični podaci. Pa na sve to, još YUSCII font!



Tako i ti imaš problem sa nekom računarski "pismenom" osobom :)

Jedno od rešenja, koje ti je pomenuo bokinet, je da nađeš program koji traži kopije fajlova generišući heš ili neku drugu vrednost, tzv. "duplicate finder" alati. Imaš i na MS Store jedan takav alat.

Od besplatnih, ima recimo ovaj: http://doubles.sourceforge.net/
ali taj ne koristi heševe, već poredi veličinu fajla, međutim ne mora da znači da su 2 fajla iste veličine identična, jer je možda u nekom fajlu ispravljena slovna greška, npr samo promenjeno jedno slovo!

Takođe, fajlovi različite veličine mogu imati isti sadržaj - ali je različit font, veličina teksta, neki je tekst obojen i sl., a sadržaj je u potpunosti isti.


Ima i dosta drugih alata, ali onaj najbolji koji odgovara za rešenje ovog tvog problema moraš potražiti sam.
[ vojvoda1010 @ 21.04.2019. 13:28 ] @
mjanjic je u pravu, ali ja sam ta nepismena osoba ali naravno vazni su dokumenti.

kako bi to moglo u vba? i jedan i drugi nacin, odnano da ih nadje i eventualno grupise u jedan foledr ili da ih obrise?

[ bokinet @ 21.04.2019. 13:48 ] @
Evo na primer kako bi to moglo kroz VBA:

- Napravi se lista svih file-a (pokupe fizicke lokacije);

- Onda se krene kroz listu tih file-ova i svaki se proverava sa svakim;

- Ako je sadrzaj isti ili identican u zavisnosti od metoda onda se radi definisana opercija brisanja ili pomeranja u tkz. karantina za naknadni nadzor;

- Nakon celog procesa odradi se mali presek sta je uradjeno i vizuelno predstavi na ekranu o uspesnosti procesa;



Sto se tice uporedjivanja sadrzaja:

Nacin br. 1 bi bio uporedjivanje hash vrednosti file-ova;

Nacin br. 2 bi bio uporedjivanje vrednosti kroz objekat koji nastaja kad se file ucita u Word-u (obicno klasifikacije ThisDocument za svaki otvoreni dokument u MS Wordu);

Ako se zeli dubinsko poredjenje (deep compare) onda je pozeljno koristiti oba metoda tj. ako je prvi nacin nije istinit tj. FALSE onda proveriti sadrzaj na par nivoa koristeci drugi nacin kako bi se potvrdilo da se radi o razlicitim file-ovima;

Ova slozenija procedura (nacin 1 + 2) je sporija metoda pre svega zbog nacina br. 2 gde se provera u pojedinostima.


Ovde takodje mogu da se odrade pomocne klase tj. objekti koji bi mogli da olaksaju ceo proces rada.

[ vojvoda1010 @ 21.04.2019. 14:06 ] @
ako se koristi samo uporedjivanje sa usb, da li bi to bila jedna lokacija u kojoj ima vise foldera?

koje bi to bilr kljucne reci kako bi eventualno probao da nadjem vba code na engleskom, jer za mene je to kvantna fizika.

da li bi te rezerve bile na jefom mestu obzirom da su mozda istog imena
[ bokinet @ 21.04.2019. 14:20 ] @
- Fizicka lokacija file moze biti bilo gde (hard disk/usb flash/mrezni drive i sl.) kojoj se moze pristupiti fizicki preko Windows OS i VBA;

- Vi kreirate listu file-ova koja se poredi gde svaki file ima svoju punu lokaciju gde se fizicki nalazi te tako kao sto vec rekoh bitno je da je vidljivo od strane OS i VBA;

- Sto se tice kljucnih reci, ceo postupak se sastoji od elementarinih stvari koje treba sklopiti u celinu koja ce da vam odradi ceo posao.

Na primer potrebno je:

- Kako se pravi lista file-ova tj. enumercija koristeci izlistavanjem svih file na odredjnoj lokaciji i pomocu rekurzivnih poziva pokupiti sve file u svim direktorijumima i pod-direktorijumima - ovo je moguce uraditi na vise nacine na primer;

- Potrebno je znati kako se vrsi kopiranje, brisanje i eventualno preimenovanje file-ova u zavisnosti od zeljenog postupak koji se primenjuje kada se ustanovi da postoji duplikat;

- Potrebno je znati kako se vrsi hasovanje sadrzaja i file-ova recimo koristeci sistemske API pozive i iste implementirati u VBA;

- Ako se koristi drugi opisani nacin u prethodnom mom post-u onda je potrebno razumeti logiku Word objekta i iste osobine i metode iskoristiti kako bi se izvrsila provera sadrzaj izmedju file-ova;

Znaci, nema 100% gotovog resenja vec im nesto na tu temu mozda gotovo a ako nema onda je isti alat potrebno napraviti kako je opisano u prethodnim postovima od svih nas.

Ovo je jedan od nacin sto znaci i da nije jedini.
[ vojvoda1010 @ 22.04.2019. 05:57 ] @
mjanjic super program http://doubles.sourceforge.net/, Hvala.

[ mjanjic @ 22.04.2019. 06:38 ] @
Nema na čemu.

Kao što rekoh, kod Word-a je problem što se dokumenti mogu razlikovati za jedan znak, veliko-malo slovi i slično, odnosno da sadržaj može praktično biti identičan. Ali, u tom smislu, greške su ispravljane u novijoj verziji, tako da se može uzeti ona novija po datumu. Problem nastaje ako je kasnije otišla CMOS baterija pa nije podešavan datum na tačan, a vršene izmene, onda imaš bukvalno haos...
[ calexx @ 22.04.2019. 07:56 ] @
Prva i najlakša provera bi mogao da bude Total Commander, kao što je bači predložio, jer on poredi fajlove i sadržaj a ne samo veličinu ili imena. Primenljivo na foldere i rezultat su sortirani isti fajlovi. Posle toga može i neka provera dokumenata koji su praktično isti ali sam sadržaj nije. Recimo negde je prored veći ili manji i fajl više nije isti ali je razlika nebitna.

Pomenuta daktilografkinja nije mogla sama da krene sa yuscii fontovima, to je neki "stručnjak" u firmi naučio.
[ mjanjic @ 22.04.2019. 08:27 ] @
Pa krajem 90-ih je bio aktuelan YUSCII, a ona posle nastavila po starom ;)

Total Commander ne poredi sadržaj, ako si mislio na sadržaj samog fajla, a naročito ne Word dokumenata. Poredi sadržaj foldera/direktorijuma, ali postavljaču teme to ne znači mnogo, jer je izgleda sam pravio kopije dokumenata, što smisleno (sufiksi tipa "novi", "Copy", itd.), što besmisleno (kopije istih dokumenata u više foldera).
Sad bi da proveri koji fajlovi imaju identičan sadržaj, pa da ostavi samo jedan od svih kopija, ali je pitanje da li je on u tim fajlovima promenio neku sitnicu. Na primer, u kopiji video grešku i jednom slovu i promenio, a kasnije u "originalu" izvršio neku značajniju izmenu, pa posle mesec dana opet na kopiji nešto menjao. Tu može jedino da na takvim dokumentima pomoću Word-a odradi "merge", tj. spajanje svih izmena, pa šta dobije. Ali, prvo treba da sve takve dokumente stavi u jedan folder, odradi "merge", i potom taj novi dokument negde sačuva, a ove pobriše.
[ Miroslav Jeftić @ 22.04.2019. 08:43 ] @
Imaš u samom Wordu opciju Compare documents (Review kartica), ako nemaš previše dokumenata za poređenje, može i s tim.
[ SlobaBgd @ 22.04.2019. 08:51 ] @
Ovako izgleda prikaz prozora koji se javlja kada uporedimo dva docx dokumenta koji se razlikuju u jednoj rečenici i jednoj izmenjenoj reči:



Praktično neupotrebljivo, osim kao pokazatelj da razlika postoji.
[ mjanjic @ 22.04.2019. 09:47 ] @
Promenite docx ekstenziju u zip :)
[ calexx @ 22.04.2019. 10:37 ] @
Citat:
mjanjic:Pa krajem 90-ih je bio aktuelan YUSCII, a ona posle nastavila po starom ;)
To što je koristila yuscii samo pokazuje da u firmi nije postojao neko ko se razume. Još je i moglo da se razume pre pojave Windows 3.1 (ili ipak 3.11) u CEE varijanti sa podrškom za naša slova. Ja sam u to vreme (početak devedesetih) yuscii izbacio i iz dosa (konretno za Sezam) a tek Windows ... Ti YUSCII fontovi su došli iz CorelDraw 2.0 koji je koristio svoj format i imao editor fontova. Kasnije se prešlo na TTF i sa pojavom CEE edicije prestaje potreba za njima.

To što i dalje koristi takve fontove samo znači da u firmi i dalje ne postoji neko ko se razume. ;)
Citat:
mjanjic:Total Commander ne poredi sadržaj, ako si mislio na sadržaj samog fajla, a naročito ne Word dokumenata. Poredi sadržaj foldera/direktorijuma, ali postavljaču teme to ne znači mnogo, jer je izgleda sam pravio kopije dokumenata, što smisleno (sufiksi tipa "novi", "Copy", itd.), što besmisleno (kopije istih dokumenata u više foldera).
Sad bi da proveri koji fajlovi imaju identičan sadržaj, pa da ostavi samo jedan od svih kopija
Mislio sam na sadržaj fajla i to u binarnoj varijanti. Čini mi se da je ovde reč o duplikatima i kopijama i to bi trebalo da su isti fajlovi. Sam sadržaj nekog dokumenta je priča za sebe, dokument sa različitim fontom ili sa istim fontom druge veličine praktično ima isti sadržaj. Ja sam mislio na pronalaženje apsolutno istih duplih fajlova, bez poređenja teksta u njima. A to TC radi bez problema.
[ mjanjic @ 22.04.2019. 20:09 ] @
Radilo se o domaćim ćiriličnim fontovima, ne znam da li su postojali u tim nekim CEE varijantama, Corel mi nemoj pominjati, od njega sam pobegao negde kod verzije 5, gde se jedan Win font video kao CE, Greek, Turkish, dok je većina drugih programa radila normalno sa tastaturama/kodnim stranama za odgovarajuće jezike.

Cela ta priča sa implementacijom srpske tastature u Win, srpske ćirilice (posebno kurziva) i drugih problema je odraz nebrige naše države i nadležnih institucija, ne znam sve detalje, ali znam da se krajem 90-ih i početkom 2000-tih država uopšte nije bavila time kako će podrška za srpski jezik biti implementirana od strane MS-a. Ako imaš neki info iz prve ruke, voleo bih da čujem.

Takođe, od Word 2010 je omogućena podrška za naša kurzivna slova koja se razlikuju od ruskih (b, d, p, g), s tim što je (čuda li) za lokalizaciju moralo da se izabere Serbia and Montenegro (former), dok kod Word 2013 radi kako treba (najzad) za Cyrillic Serbia, pri čemu se u Font > Advanced za ligature odabere "Standard and Contextual".
Naravno, važi samo za fontove koji imaju podržane alternative za srpsku ćirilicu (pojedini Adobe fontovi, Times New Roman naravno NEMA, ali Calibri ima :)
[ calexx @ 22.04.2019. 21:35 ] @
Naravno da je bilo i ćirilice i latinice ali sa problemom koji pominješ. Mislim da se i dalje provlače neki ruski kurzivi umesto naših ali nisam mnogo u toku jer slabo koristim tako nešto. Mogu da se raspitam kod nekoga ko je bio u tom poslu, ne znam da li se i dalje bavi a vodio je praktikum koji je prilično povezan sa ovim detaljima.
Corel sam i ja koristio negde do te verzije, na početku mi je bio zanimljiv baš zbog vektorskih fontova (koje windows tada nije imao) ali je od verzije 3 (i windows 3.1) prešao na ttf pa donekle standardizovao upotrebu fontova.

E da, sećam se nekih detalja od pre petnaestak+ godina, bio je dopis na državnom nivou za neki simpozijum da se za dokumente isključivo koriste TimesYuRoman i YuHelvetica (otprilike tako, zaboravio sam tačna imena) što znači da je i država tada gurala te krpeže od fontova. Ali da i sada neko koristi yuscii ... mislio sam da je to zaboravljeno. :(
[ mjanjic @ 22.04.2019. 23:23 ] @
Ma nije to država gurala, nego taj neki zaposleni nije znao ni za šta drugo, pa je gurao to svoje što zna.

Kao kad smo radili neku monografiju ovde, a čovek koji se od početka 80-ih bavi računarima 'ladno ispali da se koristi Times New Roman, pošto je STANDARD! Pošto mu na polici stajala gomila kompjuterske literature od CET-a i drugih domaćih izdavača, kao i par stranih knjiga, zamolim ga da nađe jednu u kojom je korišćen TNR, naravno, nije našao nijednu, pa se baš onako iznenadio ;)


Kad pomenusmo te domaće fontove, na Tipometru postoji 10-ak fontova, navodno je finansirao Sekretarijat za kulturu grada Beograda (pre podosta godina), ima nekoliko interesantnih fontova, a npr. Resavska BG ima u Serif i Sans-serif varijanti, dok postoje i 3 pisana/kaligrafska fonta, kao i font urađen po Teslinom rukopisu, itd.

Evo linka za 10. font, a na dnu teksta u tom frejmu su linkovi za prethodnih 9. Samo, Lovely BG su u stvari 3 pisana fonta (Lovely Audry, Lovely Grace, Lovely Sofia).

Pa, ako je neko raspoložen da napravimo temu sa diskusijom koji je od tih fonta najpogodniji npr. za pisanje knjige, ili zbirke pesama, i sl.