• Nie Znaleziono Wyników

Language Transfer Learning

N/A
N/A
Protected

Academic year: 2021

Share "Language Transfer Learning"

Copied!
27
0
0

Pełen tekst

(1)

2019

Language Transfer Learning

13 października 2019

(2)

Outline

1 BPE

2 Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

3 Cross-lingual Language Model Pretraining

(3)

Byte Pair Encoding

Neural Machine Translation of Rare Words with Subword Units

(Sennrich et al. 2015)

(4)

Byte Pair Encoding

(5)

Outline

1 BPE

2 Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

3 Cross-lingual Language Model Pretraining

(6)

Massively Multilingual Sentence Embeddings for Zero-Shot

Cross-Lingual Transfer and Beyond (2018, Artetxe et al.)

(7)

Motywacja

1

wszystkie obecne modele są ”data hungry”

2

warto zrobić transfer learning z angielskiego do innych języków

3

pierwsza praca, która pracuje na 93 językach (z low-resource

jezykami)

(8)

Sposoby ewaluacji

Nie ma ugruntowionych zbiorów do tego zadania. Ewaluacja na:

I

cross-lingual natural language inference XNLI Dataset (15 jezykow + ang)

I

cross-lingual classification MLDoc Dataset

I

bitext Mining (BUCC dataset)

I

nowy task - multilingual similarity search na Tatoeba corpus

(9)

Architektura

wspolny BPE 50k, enkoder nie ma informacji o jezyku

ENKODER stacked-bilstm 1-5 layers, 512 dim (1024 ostatecznie)

DEKODER lstm 1 layer, 2048 dim, jezyk: embedding 32 dim

(10)

Trenowanie

I

wczesniej korpus rownolegly jezyk-jezyk (problem zlozonosci kwadratowej)

I

teraz tylko 2 jezyki ze wszystkimi tłumaczeniami (starczy nawet 1)- angielski i hiszpański

I

bez rownoleglych (autoencoding) daje kiepskie wyniki

I

korpusy: Europarl, United Nations, OpenSubtitles2018, Global

Voices, Tanzil and Tatoeba (93 języki)

(11)

XNLI

I

NLI - 2 zdania i wybrać (entailment, contradiction, neutral)

I

2500 dev zdan (wszystkie przetlumaczone)

I

5000 test zdan

I

trenowanie tylko na angielskim!

I

wejscie- (p, h, ph, |p − h|)

I

wytrenowany liniowy klasyfikator na enkoderze

(12)

wyniki na XNLI

(13)

MLDoc

I

1000 train i dev dokumentow

I

4000 test doc

I

4 kategorie

I

tak samo- trenowane tylko na angielskim

I

klasyfikator ff, jedna ukryta 10 units

(14)

MLDoc-wyniki

(15)

BUCC: bitext mining

I

dwa korpusy w roznych jezykach

I

nalezy znalezc zdania ktore sa tlumaczeniami

I

x- source language, y- target language

I

N N

k

(x)- k- najblizszych sasiadow x w drugim jezyku

I

rozne ratio margin(a, b) =

ab

(16)

BUCC- wyniki

(17)

Tatoeba

I

autorzy wprowadzili

I

112 jezykow

I

do 1000 par zdan na kazdy jezyk- ang

I

ewaluacja - szukanie najblizszego sąsiada w drugim języku

(18)

Tatoeba- wyniki

(19)

Outline

1 BPE

2 Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

3 Cross-lingual Language Model Pretraining

(20)

Cross-lingual Language Model Pretraining

Cross-lingual Language Model Pretraining (2019, Lample et al.)

(21)

shared BPE

I

rozkład wielomianowy

I

n

i

- i-ty język

I

α = 0.5

Zwiększa nakład na low-resource języki

(22)

zadania przy trenowaniu

I

Causal Language Modeling (CLM)- standardowo przekazuje się poprzedni hidden state, ale tutaj tego nie robią

I

Masked Language Modeling (MLM)- losowej dlugości text stream zamiast par jak w orginalnym BERTcie

I

Translation Language Modeling (TLM) - korpus bilingualny

(23)

MLM, TLM

(24)

XNLI

(25)

unsupervised machine translation

(26)

supervised machine translation

(27)

language modelling

Cytaty

Powiązane dokumenty

Wprawdzie nie pretenduje on do roli pełnej syntezy dziejów Kościoła średnio­ wiecznego, zajm ując się tylko stroną organizacyjną Kościoła i po­ zostawiając

bliższe dane o pracy adw okata Karpińskiego „patron a wydawców orzecznictwa sądowego” , o Adolfie Pe- płowskim, którego powszechnie uw a­ żano za najwybitniejszego

When temperature differences are introduced, (for example in the case of a hot body placed in the flow), the heat flux between boundaries and the flow can be well represented with

Sądzę, że ulokowanie w powieści takich gatunków (realistycznych) jako gwa- rantów pewności jest istotne: bez tych gwarancji Kosmos rozpadłby się na szereg niczym nie umotywowanych

Polonistyka wrocławska, mimo że jest oficjalnie najmłodszym w Polsce instytutem historii literatury polskiej, posiada jednak bogatą tradycję naukową sięgającą

Każdy przedmiot badania wyznacza, wobec przyjętego celu oraz metod i techniki obserwacji, określone możliwości poznawcze. Sfera obrotu towarowego wśród całokształtu zjawisk

Given this transfer time and a travelling speed of 80 kilometres an hour, a goods train can travel 800 kilometres during the night, which takes it a fair distance into Germany

sji gazów cieplarnianych (CO 2 , N 2 O i CH 4 ) dla poszczegól- emisji GHG w cyklu życia etanolu jest również rodzaj na- wozów (producent, wskaźnik emisji GHG) stosowanych na