Task 2: Lemmatization of proper names and multi-word phrases
Task definition
The task consists in developing a tool for lemmatization of proper names and multi-word phrases. The generated lemmas should follow the KPWr guidelines.
Training data
The training dataset (DOWNLOAD) contains documents from the KPWr corpus and an index of phrases with lemmas.
Document content with inline annotations (XML file):
<document id="100619">
Na finiszu obu <phrase id="420250">kampanii wyborczych</phrase> miały miejsce
wydarzenia, które mocno wpłynęły na emocje wyborców: wybuchy bomb w pociągach w
<phrase id="40465">Madrycie</phrase>, w wyniku których zginęło 191 osób, a ponad
1800 zostało rannych, oraz znalezienie 15 atrap bomb w <phrase
id="40464">Warszawie</phrase> na <phrase id="40497">Dworcu Centralnym</phrase>
i w metrze, co spowodowało sparaliżowanie na kilka godzin ruchu w <phrase
id="40463">Warszawie</phrase>.
[...]
</document>
Annotation index (TSV file):
[...] 420250 100619 kampanii wyborczych kampanie wyborcze 40465 100619 Madrycie Madryt 40464 100619 Warszawie Warszawa 40497 100619 Dworcu Centralnym Dworzec Centralny 40463 100619 Warszawie Warszawa [...]
Each line in the TSV contains the following columns:
- Phrase id
- Document id
- Phrase orthographic form
- Phrase lemma
Test data
Set of XML files with inline annotations. The test data is available here for DOWNLOAD.
Evaluation procedure
The goal is to generate a single TSV file. The file should contain a line for each inline annotation in the test dataset. In the evaluation the annotations will be the value of lemma (4th column in the TSV file) in two variant: case sensitive comparison (AccCS) and case insensitive evaluation (AccCI).
Acc = POS/N
Score = 0.2 *AccCS+0.8*AccCI