• Refere til prototyping som forskningsmetode (finne forskningstekst som beskriver dette og referere til dette for slik å vise at det er gyldig forskning)
  • Skrive om abstrakten - flyter dårlig (trenger ikke skrive IN ADDITION på siste avsnittet)
  • Må skrive om abstrakten flere ganger - mindre som en plan og mer som den logiske veien man gikk for å finne resultater etc, og hva som gjenstår. Drypp fra metode, resultat, diskusjon.
  • Ikke fokusere på diverse språkprosesseringsmetoder men heller hvilke som har vist seg å fungere for prosjektet etc.
  • Dropp "Teoretisk" fra "Teoretisk Bakgrunn" - kun bakgrunn. Trenger ikke distinksjoner mellom forskjellige bakgrunner om det bare finnes én.
  • METODE: Prototyping! Ikke beskrivelse av hvordan man går igjennom oppgaven sin, men hvordan man kan skal gjennomføre forskningen. (Tre typer: Grunnforskning, anvendt forskning og prototyping)
  • Pipeline som underkapittel i metode, som viser hvordan prototypen består av forskjellige 
  • TitleKeywords og Titlesuffixkeywords må kalles noe annet: Stopwords in titles? Filtering words. (Words used to filter away unrelevant titles). Uansett: Nåværende titler gir ikke riktig mening, antyder omvendt betydning. Fiks!
  • Introduction "This chapter states the background and motivation, the thesis research questions, the procedure of achieving states goals and thesis structure." Background er nå eget kapittel så det stemmer ikke. Ellers er andre del av setningen litt rar.
  • "In which ways is the Japanese Wikipedia suitable as the basis for building knowledge databases such as the one proposed?" <- Ta bort in which ways? How? Can the Japanese Wikipedia...?
  • OBJECTIVES beskriver mer målet med prototypingen enn OBJECTIVES til selve tesen. Kan ses på som Prototype Objectives heller enn Thesis Objectives. Hva oppnår vi med tesen?
  • Bra figur (smile), men flytt over til pipeline-beskrivelsen.
  • Finn en artikkel som forklarer prototyping og bruk til å forklare konseptet.
  • Kan enten ta inn i nytt kapittel eller evt. under 1.4 Research Approach.
  • 1.5 må oppdateres fortløpende underveis. Trenger 3,4,5 være egne kapitler? Manger også 6,7,8.
  • 2.1: "In fact, one of the many subsets of Kanjis is the set of number Kanjis." <- Enten forlenge eller kutte: Tall funker bra som eksempel på hvordan kanji fungerer, så gjerne forlenge til et avsnitt.
  • 2.1: Dele inn i to delkapitler, et om Onyomi, et om Kunyomi. Evt. la det stå siden de har en kontrast mellom seg. ??? Tenk på det.
  • "Since the introduction of" er et naturlig sted å ha linebreak.
  • Skrives "Kanton" på den måten?
  • "In addition, native Japanese words are subject to dialect differences to the degree that certain words are completely incomprehensible to speakers of respectively a northerner and a south-westerner [5]." <- rar setning, fiks.
  • 2.1.2: Due to these differences, <- Ikke bra. Begynn på nytt siden det er et nytt avsnitt. Forklar forskjellen på name readings uten å forklare kunyomi/onyomi en gang til.

 

  • Kapittel 3: Kombiner med kap 4 og 5. Fokuser mer på Metode, og la kapittel 4 være processing pipeline. Kap 4 blir da om hvordan alle elementene fungerer sammen
  • "The first step to solving, is of course to get the data" <- hvis det er selvsagt er det ikke nødvendig å skrive. Slett?
  • "Was used as basis for data set" og heller "Was used as data" etc.
  • "The first step to solving, is of course to get the data. During the development of the software, approximately 1/8th of the Japanese Wikipedia was used as basis for the data set, downloaded from the Wikimedia dump service 1" -> "During the development of the software, approximately 1/8th of the Japanese Wikipedia was used as data 1" Men filstørrelse kan være greit å ha med. Det kan evt være i figurer eller tabeller eller liknende.
  • Mer om i det nye kapittel 3. 
  • Tokenization hører hjemme i bakgrunnskapitlet, men ikke for mye fokus på dette med mindre det skal revolusjonere. Mer fokus på å skrive om ting som faktisk skal forbedres og dets status quo i bakgrunn (???).
  • Forklare med figur hvordan tokenization fungerer og ikke minst hvordan tokenization av japansk fungerer i bakgrunnskapitlet.
  • Få opp forklaring av hva hver kolonne i kuromoji betyr.
  • Maven og pom.xml hører kanskje hjemme i appendix heller enn selve teksten. Teksten skrives først og fremst for potensielle brukere heller enn de som skal reprodusere resultatene.
  • "Since the program developed by this thesis", er ikke selve rapporten som driver og skriver programmet, litt mer nøyaktig språk takk!
  • emphasis was put on efficiency in data retrieval. <- dette er vel ikke nødvendig?
  • Side 10: Kan begynne å se på om ting hører hjemme i resultater. 
  • For resultat kan man også inkludere resultater man oppnår underveis. For de som leser som er på jakt etter noen resultater vil først og fremst se der. 
  • Fikse på appendix: Tabeller, fjerne ken.
  • Fikse bibliografi. Slik at det starter på 1 kronologisk i artikkelen. Slik det er nå er det litt mye kaos.

 

  • No labels