Damit die Pipeline funktionieren kann, braucht sie die Evaluationsdaten. Du kannst zwar ändern, wo raw_data
, clean_data
und outputs
liegen, indem du die Anleitung in lib befolgst, kannst du aber nicht ohne weiteres die Struktur der Unterordner ändern.
raw_data
Alle Evaluationsdaten, welche noch nicht bereinigt wurden, liegen in diesem Ordner. Solltest du in constants.py
nichts geändert haben, muss dieser Ordner immer diese Struktur haben:
├── Bioinformatik
│ └── Bioinformatik_SoSe2019
│ ├── daten.csv
│ ├── kommentare.csv
│ ├── mittelwerte.csv
│ └── summen.csv
├── Informatik
│ └── Informatik_SoSe2019
│ ├── daten.csv
│ ├── kommentare.csv
│ ├── mittelwerte.csv
│ └── summen.csv
├── Mathematik
│ └── Mathematik_SoSe2019
│ ├── daten.csv
│ ├── kommentare.csv
│ ├── mittelwerte.csv
│ └── summen.csv
└── participation
└── SoSe2019.csv
clean_data
Die Struktur von diesem Ordner wird automatisch von cleanup.ipynb
generiert. Falls du diese ändert willst, kannst du das mit den letzten zwei Code Zellen im Notebook machen. Denk aber dran auch die Konstanten zu verändern, damit andere Dateien auf die Daten zugreifen können.
Falls nicht umprogrammiert, wird eine Struktur erstellt, die ähnlich zu raw_data
ist
├── Bioinformatik
│ └── WiSe2022-23
│ ├── LeKo.csv
│ ├── S.csv
│ ├── Ü.csv
│ ├── VL.csv
│ └── all.csv
├── Informatik
│ └── WiSe2022-23
│ ├── LeKo.csv
│ ├── S.csv
│ ├── Ü.csv
│ ├── VL.csv
│ └── all.csv
├── Mathematik
│ └── WiSe2022-23
│ ├── LeKo.csv
│ ├── S.csv
│ ├── Ü.csv
│ ├── VL.csv
│ └── all.csv
└── participation
└── WiSe2022-23.csv
outputs
Dieser Ordner wird nur von old-report.ipynb
genutzt. Ähnlich wie bei clean_data
kann die Stuktur verändert werden, wenn die letzte Code Zelle angepasst wird. Falls dies nicht geschieht, sieht der Ordner so aus:
├── WiSe2022-23.md
└── pdfs
└── WiSe2022-23.pdf
Die PDFs werden nicht automatisch generiert, diese kannst du aber ganz einfach mit pandoc aus den Markdown Dateien mit pandoc -o pdfs/output.pdf input.md
generieren.