Latest Update
Siste oppdatering finner du her: https://varsel.it.ntnu.no/post/75/
Forløp og Oppdateringshistorikk
Hva er omfanget
Hjemmeområdet er en virksomhetskritisk tjeneste knyttet til en lengre liste tjenester som er avhengig av hjemmeområdet for å fungere. Dette vil si at hele NTNU er påvirket i varierende grad.
Flere er helt avhengig av å kunne kjøre remoteapps fra programfarm i arbeidsdagen.
Hvordan kan dette påvirke deg
Utilgjengelig lagring:
Ustabiliteten fører til at mange sliter med å koble til hjemmeområdet og nå filene sine. Dette vil også være synlig for de som kjører windows 10 med folder redirect, her kan en oppleve at filer på skrivebord og i dokumenter ikke er tilgjengelig eller ikke synlige om man ikke har kontakt med Hjemmeområdet.
Får ikke kjørt remoteapps fra farm:
Når en kjører de fleste remoteapps fra farm vil den forsøke å koble seg til hjemmeområdet for lagring, om denne tilkoblingen ikke blir fullført vil remoteapp vinduet lukke seg selv.
Treghet i pålogging til NTNU maskiner:
Når en logger på maskiner vil disse (i likhet med farm.ntnu.no) forsøke å koble opp hjemmeområde. Dette kan gjøre at maskinen blir hengende på ‘velkommen’ for windows 10 eller med svart skjerm for windows 7. En løsning for å komme inn her vil være å midlertidig fjerne nettilkoblingen enten ved å sette maskinen i flightmodus eller ta ut nettverkskabelen og sette denne inn når maskinen er logget på.
Tiltak for å sikre dagens tjeneste på kort sikt (dag til dag/time til time)
- Optimalisert I/O
- Snapshot redusert til hver annen time
- Opprydning i snapshots gjøres kun på kveld/natt
- Backup-jobber kjøres kun på kveld/natt
- Administrative jobber gjøres kun på kveld (eks. legge til mer plass for enkeltbrukere)
- Endret idle time-out for farm-sesjoner fra 24t til 1t
- Tiltak på klientsiden for å redusere trafikk mot lagringssystemet
- SMB signering slått av
- Deaktivert folder redirect av %appdata%
- Sjekket ut antivirus config for hjemmeområdene
- Åpnet for å kjøre ePhorte lokalt
- Last balansering – Enkelte områder med store mengder filer er håndtert og om nødvendig flyttet til annen løsning.
- Bremset win10 utrulling for å hindre økt last
Historikk
Oppdatering 20.09.2016
Ingen endring i situasjon. Vi ser fortsatt noen avvik, kl 14:00-14:10 hadde vi en kø som kan ha påvirket farm.
Oppdatering 19.09.2016 #2:
Systemet har løst køen.
Oppdatering 19.09.2016 #1:
Akkurat nå fra kl 14:00 -> ser vi en ganske stor kø på Hjemmeområdet, dette kan medføre at folk ikke får brukt relevante tjenester;
- Tilgang til Hjemmeområdet
- Windows 10 Folder redirect
- Farm
- Login på klienter kan ta tid.
Oppdatering 15-16.09.2016
Situasjonen er uendret.
Oppdatering 14.09.2016
Vi ser så langt ingen køing på Hjemmeområdet
Oppdatering 13.09.2016
Tjenesten kjører fortsatt noe ustabilt, men forutsigbart, med køer rundt hver hele time. Vi kommer med oppdatering når det trengs fremover. Foreløpig er fokus på hardware bytte og endring i backup rutiner for Hjemmeområdet. Vi ser også på mulighet for å redusere backupfunksjonen, men dette har stor konsekvens og er ikke vedtatt.
Oppdatering 12.09.2016
Tjenesten kjører så langt stabilt, fortsatt noe kø rundt hver hele time.
Oppdatering 09.09.2016 #2:
Tjenesten har vært stabil ut kjernetiden, vi har fortsatt sett køing på hele timer, men køantallet har vært lavt og forsvunnet raskt.
Oppdatering 09.09.2016 #1:
Tjenesten fungerer som normalt. Vi forventer at vi ser små topper på hver hele time hvor det kan danne seg køing i 1-3 minutter.
Oppdatering 08.09.2016 #2:
Tjenesten har stabilisert seg kl 16:00
Oppdatering 08.09.2016 #1:
Vi opplever stor kø på hjemmeområdet akkurat nå klokken 08:00
Klokken 09:30 - Vi ser ingen merkbar forbedring enda.
Dette vil påvirke en lang rekke relaterte tjenester som:
farm.ntnu.no (programfarm) kan oppleve treghet, starting av remoteapps kan avslutte seg selv.
pålogging NTNU maskiner, auditoriemaskiner, ansattmaskiner, publikumsterminaler
ephorte (kjøres nå lokalt for alle som ønsker)
windows 10 live-sync av filer
Oppdatering 07.09.2016:
Vi opplever forbigående køer særlig på hver hele time når snapshot backup tas, disse med kort varighet på 1-5 minutter.
Vi jobber med bakenforliggende grunn til dette, samt hvorfor køen noen dager kan låse seg på et høyt nivå uten å tilsynelatende klare å ta unna køen.
Oppdatering 06.09.2016 #2:
Stabiliteten har vært som forventet, vi ser klare mønster i når det er last på auth server, vi ser på hva grunnen er. Samtidig ser vi på hvorfor mandagene blir sterkt rammet og om dette kan motvirkes.
Oppdatering 06.09.2016 #1:
Vi ser en lik situasjon som forrige uke, Hjemmeområdet er i dag stabilt, men kan oppleve mindre topper (09:00-09:10), som kan gi små login problemer.
Vi forventer at dette holder seg stabilt ut dagen.
Oppdatering 05.09.2016 #2:
Vi har fortsatt stor pågang for Hjemmeområdet, og køen har holdt seg ut dagen. Vi jobber med alternative midlertidige løsninger for de som er avhengig av Ephorte og Maconomy.
Leverandør er fortsatt involvert og jobber med permanent løsning.
Oppdatering 05.09.2016 #1:
Vi ser en stor kø om morgenen mandag, dette så vi ikke i forrige uke, foreløpig ligger køen på nærmere 650 klienter og stiger. En kan regne med at tjenester som Farm vil slite mellom 08:00 og 09:00. Dette henger muligens sammen med at lasten er særlig stor mandag morgen, vi jobber med saken.
Oppdatering 02.09.2016 #2:
Vi kan tydelig se at vi har kø på de samme tidspunktene, om dette kan spores til spesifikke lagringsvolum gjenstår å se. Fra 09:00 til 09:30 hadde vi størst kø på 200 klienter. Dette er samme nivå som torsdag, men vi ser ut til å ha blitt truffet mer uheldig i dag enn foregående dag med tanke på hvilke klienter som ble satt i kø. Særlig farmbrukere er utsatt.
Klokken 11 hadde vi en liten stopp på 20 klienter, dette ville flydd under radaren for de aller fleste.
Vi har også fått flere tilbakemeldinger på at tjenesten har vært stabil i går og i dag, dette stemmer overens med kø-tall.
Noen tiltak som har blitt jobbet med i dag:
- Flytting av AppData til annen tjeneste
- Strupe inn unødvendig last ift. Windows 10 folder redirect
- Utforske køing på spesifike tider skyldes spesifike lagringsvolum og snapshots
- Hardware bytte
Oppdatering 02.09.2016 #1:
Vi ser de samme kø-periodene i dag, nå rundt kl 9 var det en kø på opptil 200 klienter, denne har på 15minutt sunket til 100 og går gradvis nedover. Vi ser på hva disse skyldes.
Oppdatering 01.09.2016 #2:
Vi har sett en betydelig økning i tilbakemeldinger på at hjemmeområdet i dag har vært stabilt.
Dette betyr ikke at vi har hatt en feilfri dag for tjenesten, vi har hatt noe køing, spesielt 08:30-09:00 og 11:05-11:15. Mellom 8 og 9 er nok fordi det genereres stor pågang når ansatte og studenter logger på om morgenen. Build-up i 11 tiden må vi se på. Tilbakemelding viser at når det var kø kunne det ta 5-15 sekunder før dette løste seg opp for hver enkelt bruker, dette gjaldt ca 100-200 klienter på det verste.
Grunnen til at dette tar litt tid er fordi det innføres tiltak jevnlig, men det må gis tid så vi kan se hva som påvirker tjenesten både positivt og negativt, spesielt nå som det er sårbart.
De største endringene er SMB signering som er deaktivert, session-tid for farm, refreshrate for farm.
Vi håper morgendagen blir enda mer stabil slik at brukere generelt slipper å bekymre seg for å bruke tjenesten fremover mens vi finner en god permanent løsning.
Oppdatering 01.09.2016 #1:
Vi overvåker lasten, noen nøkkeltall med en klype salt:
Mandag: 77% last
Onsdag: 40-60% last
Torsdag: 33% last enn så lenge, peak hours er 10-12
Videre vil vi innføre små endringer og håpet er at dette vil gi oss stabilitet nok til å begynne med hardware utbytte for permanent løsning.
Oppdatering 31.08.2016 #2:
Vi har utført en del tiltak på tjenesten, noen av tiltakene vil ta tid å se effekten av, og noen tiltak kan medføre ustabilitet ved innføring før det jobber seg ferdig. Scroll til bunnen for en teknisk oversikt.
Mandag 29.08.2016:
Ansatte fra NTNUIT og eksperter fra leverandøren jobbet ut kvelden for å finne rotårsak.
Ingen endelig konklusjon på hvor problemet ligger, men teorien vi jobber utifra nå er at en sentral enhet i lagringsløsningen kan være for hardt belastet.
Dagen i dag brukes på videre feilsøking og tiltak for avlasting til denne komponenten.
Oppdatering 30.08.2016:
Vi ser fortsatt ustabilitet ved nye oppkoblinger til M:\
Det er gjort flere tiltak fra vår side uten at problemet er løst, vi har en mistanke om hvor problemet ligger og har derfor bedt om bistand fra leverandøren for å se på dette med oss.
Teknisk personell fra leverandør er på plass tirsdag.
Oppdatering 29.08.2016:
Vi opplever treghet i oppkobling til hjemmeområdet (personlig lagring)