{"id":1970,"date":"2022-10-06T22:54:10","date_gmt":"2022-10-06T20:54:10","guid":{"rendered":"https:\/\/mxth.dk\/?page_id=1970"},"modified":"2022-10-25T13:41:00","modified_gmt":"2022-10-25T11:41:00","slug":"word2vec","status":"publish","type":"page","link":"https:\/\/mxth.dk\/?page_id=1970","title":{"rendered":"word2vec"},"content":{"rendered":"\n<p class=\" eplus-wrapper\">Vi skal i dette projekt se lidt n\u00e6rmere p\u00e5 brugen af vektorer, n\u00e6rmere bestemt til at analysere semantikken af en tekst.<\/p>\n\n\n\n<p class=\" eplus-wrapper\">Semantik kommer fra det gr\u00e6ske ord semantikos som betyder &#8220;<em>betydningsfuld, som inderholder betydning<\/em>&#8220;. Semantikken er den gren inden for sprogvidenskab der besk\u00e6ftiger sig med sproglige udtryks betydning. <a href=\"#footnote-1-1970\" id=\"note-1-1970\" rel=\"footnote\">1<\/a><\/p>\n\n\n\n<p class=\" eplus-wrapper\">Analysen er en klassifikation eller en dekomposition af ordet, det vil sige den betydning som der er indkodet i orden p\u00e5 et bestemt sprog. <\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large eplus-wrapper\"><a href=\"https:\/\/unsplash.com\/@janmeeus?utm_source=unsplash&amp;utm_medium=referral&amp;utm_content=creditCopyText\" target=\"_blank\" rel=\"noreferrer noopener\"><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"682\" src=\"https:\/\/i0.wp.com\/mxth.dk\/wp-content\/uploads\/2022\/10\/jan-meeus-xV7Fxi5xjJM-unsplash.jpg?resize=1024%2C682&#038;ssl=1\" alt=\"\" class=\"wp-image-2003\" srcset=\"https:\/\/i0.wp.com\/mxth.dk\/wp-content\/uploads\/2022\/10\/jan-meeus-xV7Fxi5xjJM-unsplash-scaled.jpg?resize=1024%2C682&amp;ssl=1 1024w, https:\/\/i0.wp.com\/mxth.dk\/wp-content\/uploads\/2022\/10\/jan-meeus-xV7Fxi5xjJM-unsplash-scaled.jpg?resize=300%2C200&amp;ssl=1 300w, https:\/\/i0.wp.com\/mxth.dk\/wp-content\/uploads\/2022\/10\/jan-meeus-xV7Fxi5xjJM-unsplash-scaled.jpg?resize=768%2C512&amp;ssl=1 768w, https:\/\/i0.wp.com\/mxth.dk\/wp-content\/uploads\/2022\/10\/jan-meeus-xV7Fxi5xjJM-unsplash-scaled.jpg?resize=1536%2C1023&amp;ssl=1 1536w, https:\/\/i0.wp.com\/mxth.dk\/wp-content\/uploads\/2022\/10\/jan-meeus-xV7Fxi5xjJM-unsplash-scaled.jpg?resize=2048%2C1364&amp;ssl=1 2048w\" sizes=\"auto, (max-width: 1000px) 100vw, 1000px\" \/><\/a><figcaption>R\u00f8dhals ogs\u00e5 kendt som r\u00f8dk\u00e6lk. Photo by <a rel=\"noreferrer noopener\" href=\"https:\/\/unsplash.com\/@janmeeus?utm_source=unsplash&amp;utm_medium=referral&amp;utm_content=creditCopyText\" target=\"_blank\">Jan Meeus<\/a> on <a rel=\"noreferrer noopener\" href=\"https:\/\/unsplash.com\/?utm_source=unsplash&amp;utm_medium=referral&amp;utm_content=creditCopyText\" target=\"_blank\">Unsplash<\/a><\/figcaption><\/figure>\n\n\n\n<p class=\" eplus-wrapper\">For eksempel s\u00e5 kaldes fuglen p\u00e5 billedet for en r\u00f8dhals, af mange kendt som en r\u00f8dk\u00e6lk. Begge ord er navnet p\u00e5 samme fugl og det er derfor et sp\u00f8rgm\u00e5l om semantik om man v\u00e6lger at bruge det ene navn frem for det andet, betydningen er ens. <a href=\"#footnote-2-1970\" id=\"note-2-1970\" rel=\"footnote\">2<\/a><\/p>\n\n\n\n<p class=\" eplus-wrapper\">Hvis vi skal have en computer til at afkode sematikken bliver vi n\u00f8d til at omdanne tekst til tal, da computeren ikke umiddelbart forst\u00e5 de sprog vi mennesker skriver eller taler. <\/p>\n\n\n\n<p class=\" eplus-wrapper\">Sprogteknologi som er en gren inden for kunstig intelligens besk\u00e6ftiger sig med teknikker til netop at overs\u00e6tte tekst til matematik.<\/p>\n\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\">WORD EMBEDDINGS <\/h4>\n\n\n\n<p class=\" eplus-wrapper\">N\u00e5r vi gerne vil omdanne tekst til matematik vil vi gerne tildele ord en talv\u00e6rdi. En s\u00e5dan tildeling af v\u00e6rdier til forskellige ord kaldes for <em>word embedding<\/em>. Lad os se p\u00e5 et eksempel. Ord har forskellig associationer eller egenskaber. For eksempel s\u00e5 vil ordet konge f\u00e5 en til at t\u00e6nke p\u00e5 k\u00f8n, autoritet, m\u00e5ske rig eller velstillet, men man vil nok ikke t\u00e6nke p\u00e5 ord som vinger, hale eller begivenhed. Hver af disse egenskaber giver vi en talv\u00e6rdi. I skemaet herunder ses de forskellige egenskaber og en talv\u00e6rdi for de egenskaber for forskellige ord.<\/p>\n\n\n\n<figure class=\"wp-block-table eplus-wrapper\"><table><tbody><tr><td><\/td><td>konge<\/td><td>dronning<\/td><td>hest<\/td><td>koncert<\/td><td>mand<\/td><td>kvinde<\/td><td>&#8230;<\/td><td>fugl<\/td><\/tr><tr><td>k\u00f8n<\/td><td>-1<\/td><td>1<\/td><td>1<\/td><td>0<\/td><td>-1<\/td><td>1<\/td><td>&#8230;<\/td><td>1<\/td><\/tr><tr><td>autoritet<\/td><td>1<\/td><td>1<\/td><td>0.01<\/td><td>0<\/td><td>0.2<\/td><td>0.3<\/td><td>&#8230;<\/td><td>0.01<\/td><\/tr><tr><td>rig<\/td><td>1<\/td><td>1<\/td><td>0.01<\/td><td>0<\/td><td>0.3<\/td><td>0.3<\/td><td>&#8230;<\/td><td>0.01<\/td><\/tr><tr><td>vinger<\/td><td>0<\/td><td>0<\/td><td>0<\/td><td>0<\/td><td>0<\/td><td>0<\/td><td>&#8230;<\/td><td>1<\/td><\/tr><tr><td>hale<\/td><td>0<\/td><td>0<\/td><td>1<\/td><td>0<\/td><td>0<\/td><td>0<\/td><td>&#8230;<\/td><td>1<\/td><\/tr><tr><td>begivenhed<\/td><td>0<\/td><td>0<\/td><td>0<\/td><td>1<\/td><td>0<\/td><td>0<\/td><td>&#8230;<\/td><td>0<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\" eplus-wrapper\">Tabellen herover viser at forskellige ord har forskellige engenskaber, for eksempel s\u00e5 kan ordet konge beskrives ud fra tals\u00e6ttet<\/p>\n\n\n\n<p class=\"has-text-align-center eplus-wrapper\">$konge = \\begin{bmatrix}-1\\\\ 1\\\\ 1\\\\ 0\\\\ 0\\\\ 0\\end{bmatrix}$<\/p>\n\n\n\n<p class=\"has-text-align-left eplus-wrapper\">n\u00e5r vi nu har at ordene er udtryk med talv\u00e6rdier s\u00e5 kan vi begynde at lave regneoperationer med dem. Det vil sige, vi kan for eksempel sp\u00f8rge hvad er<\/p>\n\n\n\n<p class=\"has-text-align-center eplus-wrapper\">$konge &#8211; mand + kvinde$?<\/p>\n\n\n\n<p class=\" eplus-wrapper\">hvis vi udtrykker det med talv\u00e6rdier s\u00e5 har vi at<\/p>\n\n\n\n<p class=\"has-text-align-center eplus-wrapper\">$\\begin{bmatrix}-1\\\\ 1\\\\ 1\\\\ 0\\\\ 0\\\\ 0\\end{bmatrix}-\\begin{bmatrix}-1\\\\ 0.2\\\\ 0.3\\\\ 0\\\\ 0\\\\ 0\\end{bmatrix}+\\begin{bmatrix}1\\\\ 0.3\\\\ 0.3\\\\ 0\\\\ 0\\\\ 0\\end{bmatrix}=\\begin{bmatrix}1\\\\ 1.1\\\\ 1\\\\ 0\\\\ 0\\\\ 0\\end{bmatrix}$<\/p>\n\n\n\n<p class=\" eplus-wrapper\">Den talserie vi for svare til den serie vi har for ordet dronning (det er i alt fald t\u00e6t p\u00e5). Vi har derfor mulighed for at ords betydning ud fra andre ord.<\/p>\n\n\n\n<p class=\" eplus-wrapper\">Ord kan have 6, 10, 50, 1000 egenskaber som der skal gives en talv\u00e6rdi for. Vi vil dog her i opgaven begr\u00e6nse os til kun to egenskaber da talserien for ordene kommer til at minde om vektorkoordinater i to dimensioner.<\/p>\n\n\n\n<p class=\" eplus-wrapper\">Lad os se p\u00e5 et eksempel med fire ord (droning, konge, kvinde og mand) og p\u00e5 to egenskaber (k\u00f8n og royalitet).<\/p>\n\n\n\n<figure class=\"wp-block-table eplus-wrapper\"><table><tbody><tr><td><\/td><td>Kvinde<\/td><td>mand<\/td><td>dronning<\/td><td>konge<\/td><\/tr><tr><td>K\u00f8n<\/td><td>1<\/td><td>-1<\/td><td>1<\/td><td>-1<\/td><\/tr><tr><td>Royalitet<\/td><td>-1<\/td><td>-1<\/td><td>1<\/td><td>1<\/td><\/tr><\/tbody><\/table><figcaption>tabel over ordene kvinde, mand, dronning og konge med talv\u00e6rdier for egenskaberne k\u00f8n og royalitet, hvor k\u00f8nv\u00e6rdien -1 er maskulin og 1 er feminin og for v\u00e6rdien for royalitet betyder -1 almindelig borger mens 1 svare til adelig. <\/figcaption><\/figure>\n\n\n\n<p class=\" eplus-wrapper\">Vi kan nu se at vi kan udtrykke de fire ord med vektorer, for eksempel<\/p>\n\n\n\n<p class=\"has-text-align-center eplus-wrapper\">$\\overrightarrow{kvinde}=\\begin{pmatrix}1\\\\ -1\\end{pmatrix}$<\/p>\n\n\n<ol class=\"eplus-wrapper wp-block-list eplus-styles-uid-a0fea2\"><li>hvad er vektorkoordinaterne for de andre tre ord?<\/li><li>beregn vektorerne $\\overrightarrow{kvinde}-\\overrightarrow{mand}$ og $\\overrightarrow{dronning}-\\overrightarrow{konge}$. Er der noget p\u00e5faldende som du observere?<\/li><\/ol>\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\">ANALOGIER MELLEM ORD<\/h4>\n\n\n\n<p class=\" eplus-wrapper\">AT forskellen mellem to s\u00e6t af vektorer er ens (eller n\u00e6sten ens) udtrykker en form for analogi. Du har m\u00e5ske set opgaver hvor man skal inds\u00e6tte et ord der passer. For eksempel<\/p>\n\n\n\n<p class=\" eplus-wrapper\">&#8220;<em>Danmark <\/em>forholder sig til <em>K\u00f8benhavn <\/em>og <em>England <\/em>forholder sig til ________&#8221;<\/p>\n\n\n\n<p class=\" eplus-wrapper\">Her kan de fleste nok g\u00e6tte, at det manglende ord er London, idet sammenh\u00e6ngen handler om lande og deres hovedstader. Den type forhold mellem ord kaldes en analogi. Med word embeddings kan man formulere en analogi p\u00e5 vektorform<\/p>\n\n\n\n<p class=\"has-text-align-center eplus-wrapper\">&#8220;<em>Mand <\/em>forholder sig til <em>kvinde<\/em>, som <em>konge <\/em>forholder sig til <em>dronning<\/em>&#8220;<\/p>\n\n\n\n<p class=\"has-text-align-center eplus-wrapper\">$\\overrightarrow{kvinde}-\\overrightarrow{mand}\\approx\\overrightarrow{dronning}-\\overrightarrow{konge}$<\/p>\n\n\n<ol start=\"3\" class=\"eplus-wrapper wp-block-list eplus-styles-uid-1bce6e\"><li>beregn vektorerne $\\overrightarrow{kvinde}-\\overrightarrow{mand}$ og $\\overrightarrow{dronning}-\\overrightarrow{konge}$<\/li><li>udtryk konklusionen man kan drage af sp\u00f8rgsm\u00e5l 2<\/li><\/ol>\n\n\n<p class=\" eplus-wrapper\">P\u00e5 hjemmesiden <a rel=\"noreferrer noopener\" href=\"http:\/\/labs.statsbiblioteket.dk\/dsc\/\" target=\"_blank\">http:\/\/labs.statsbiblioteket.dk\/dsc\/<\/a> kan du under &#8220;Analogy&#8221; finde ud af hvilke ord der passer bedst ind i en analogi. Husk at v\u00e6lge &#8220;Danisk Newspapers 1900-2016&#8221; under &#8220;Select corpus&#8221; for at f\u00e5 danske ord (du vil l\u00e6re mere om hvad ordet &#8220;corpus&#8221; betyder i n\u00e6ste afsnit).<\/p>\n\n\n<ol start=\"5\" class=\"eplus-wrapper wp-block-list eplus-styles-uid-795e61\"><li>hvilke tre ord passer if\u00f8lge siden bedst ind i analogien: &#8220;<em>Hammer <\/em>forholder sig til <em>s\u00f8m<\/em>, som <em>sav <\/em>forholder sig til_____________&#8221;<\/li><li>find selv p\u00e5 nogle andre analogier, og skriv et par af de bedste (eller m\u00e5ske v\u00e6rste &#8211; modellen er ikke altid lige imponerende) ned.<\/li><\/ol>\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\">MANGEL P\u00c5 ANALOGI<\/h4>\n\n\n\n<p class=\" eplus-wrapper\">Ovenst\u00e5ende viser hvordan man kan konstatere en analogi mellem ord. Tilsvarende vil man kunne vise en mangel p\u00e5 analogi hvis de to relevante vektorer er (meget) forskellige.<\/p>\n\n\n<ol start=\"7\" class=\"eplus-wrapper wp-block-list eplus-styles-uid-eabf90\"><li>unders\u00f8g om f\u00f8lgende analogi holder i vores oprindelige eksempel: &#8220;<em>Mand <\/em>forholder sig til <em>dronning<\/em>, som <em>konge <\/em>forholder sig til <em>kvinde<\/em>&#8220;<\/li><\/ol>\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\">HVORDAN FINDER MAN WORD EMBEDDINGS? ALGORITMER!<\/h4>\n\n\n\n<p class=\" eplus-wrapper\">I praksis kan man ikke sidde og lave embeddings for alle ord i ordbogen i h\u00e5nden. I stedet bruger man forskellige algoritmer, alts\u00e5 en slags &#8220;opskrifter&#8221; for computere. Algoritmerne virker ved at tage en stor m\u00e6ngde tekster og kigge p\u00e5 hvordan de forskellige ord forekommer i forhold til hinanden.<\/p>\n\n\n\n<p class=\" eplus-wrapper\">En s\u00e5dan m\u00e6ngde af tekster kaldes et <em>korpus <\/em>(engelsk: <em>corpus<\/em>). P\u00e5 hjemmesiden ovenfor var der mulighed ofr at v\u00e6lge mellem modeller tr\u00e6net p\u00e5 tre forskellige korpusser. Algoritmen der er benyttet hedder <strong>word2vec<\/strong>, men det er ikke s\u00e5 vigtigt i denne smamenh\u00e6ng.<\/p>\n\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\">ENDNU ET SIMPELT EKSEMPEL<\/h4>\n\n\n\n<p class=\" eplus-wrapper\">Man er dog sj\u00e6ldent s\u00e5 heldig, at v\u00e6rdierne er s\u00e5 enmme at fortolke som ovenfor; der vil sj\u00e6ldent v\u00e6re et enkelt tal der beskriver k\u00f8n, for eksempel. Det g\u00f8r det sv\u00e6rere for et menneske at overskue hvad der egentlig foreg\u00e5r, og hvad der betyder hvad, mens computeren intet problem har.<\/p>\n\n\n\n<p class=\" eplus-wrapper\">Vi forestiller os nu at vi har sat en algoritme til at tr\u00e6ne en m\u00e6ngde tekster. Tabellen nedenfor viser dens to-dimensionele embeddings for seks forskellige ord<\/p>\n\n\n\n<figure class=\"wp-block-table eplus-wrapper\"><table><tbody><tr><td>Ord<\/td><td>x<\/td><td>y<\/td><\/tr><tr><td>mand<\/td><td>-0,72<\/td><td>0,85<\/td><\/tr><tr><td>kvinde<\/td><td>0,84<\/td><td>-0,48<\/td><\/tr><tr><td>konge<\/td><td>-1,08<\/td><td>0,79<\/td><\/tr><tr><td>dronning<\/td><td>0,45<\/td><td>-0,57<\/td><\/tr><tr><td>bl\u00e5<\/td><td>1,84<\/td><td>2,27<\/td><\/tr><tr><td>pink<\/td><td>3,32<\/td><td>0,72<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\" eplus-wrapper\">L\u00e6g igen m\u00e6rke til, at vi umiddelbart ikke med hvad de to koordinater betyder, s\u00e5 derfor kar vi blodt kaldt dem x og y. Figuren herunder viser hvordan de seks ords embeddings ligger i planen<\/p>\n\n\n\n<figure class=\"wp-block-image size-large eplus-wrapper\"><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" width=\"884\" height=\"1024\" src=\"https:\/\/i0.wp.com\/mxth.dk\/wp-content\/uploads\/2022\/10\/geogebra-export7-884x1024.png?resize=884%2C1024&#038;ssl=1\" alt=\"\" class=\"wp-image-1979\" srcset=\"https:\/\/i0.wp.com\/mxth.dk\/wp-content\/uploads\/2022\/10\/geogebra-export7.png?resize=884%2C1024&amp;ssl=1 884w, https:\/\/i0.wp.com\/mxth.dk\/wp-content\/uploads\/2022\/10\/geogebra-export7.png?resize=259%2C300&amp;ssl=1 259w, https:\/\/i0.wp.com\/mxth.dk\/wp-content\/uploads\/2022\/10\/geogebra-export7.png?resize=768%2C890&amp;ssl=1 768w, https:\/\/i0.wp.com\/mxth.dk\/wp-content\/uploads\/2022\/10\/geogebra-export7.png?resize=1326%2C1536&amp;ssl=1 1326w, https:\/\/i0.wp.com\/mxth.dk\/wp-content\/uploads\/2022\/10\/geogebra-export7.png?resize=1768%2C2048&amp;ssl=1 1768w, https:\/\/i0.wp.com\/mxth.dk\/wp-content\/uploads\/2022\/10\/geogebra-export7.png?w=2000&amp;ssl=1 2000w, https:\/\/i0.wp.com\/mxth.dk\/wp-content\/uploads\/2022\/10\/geogebra-export7.png?w=3000&amp;ssl=1 3000w\" sizes=\"auto, (max-width: 884px) 100vw, 884px\" \/><\/figure>\n\n\n<ol start=\"8\" class=\"eplus-wrapper wp-block-list eplus-styles-uid-8ac412\"><li>overvej hvorfor nogle ord ligger t\u00e6t p\u00e5 hinanden, mens andre ikke g\u00f8r.<\/li><\/ol>\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\">LIGHEDER MELLEM ORD<\/h4>\n\n\n\n<p class=\" eplus-wrapper\">En m\u00e5de at give et m\u00e5l for hvor ens eller forskellige to ord er fra hinanden, bruger man ofte det der kaldes cosinus-similaritet (engelsk: cosine similarity). Det er ikke s\u00e5 indviklet som det lyder. Man bruger den almindelige form for vinklen mellem to vektorer, men i stedet for at beregne selve vinklen med $\\cos^{-1}$ til sidst, bruger vi $\\cos(v)$ som et m\u00e5l for afstand.<\/p>\n\n\n\n\n\n\n\n\n\n<p class=\" eplus-wrapper\">Hvis vi for eksempel vil beregne cosinus-similariteten mellem ordene mand og konge kan vi g\u00f8re det p\u00e5 f\u00f8lgende m\u00e5de. Formlen for vinklen mellem to vektorer er<\/p>\n\n\n\n<p class=\"has-text-align-center eplus-wrapper\">$\\cos(v)=\\frac{\\vec{a}{\\Large\\bullet}\\vec{b}}{|\\vec{a}|\\cdot |\\vec{b}|}$<\/p>\n\n\n\n<p class=\" eplus-wrapper\">I dette tilf\u00e6lde betyder det<\/p>\n\n\n\n<p class=\"has-text-align-center eplus-wrapper\">$\\cos(v)=\\frac{-0,72\\cdot (-1,08)+0,85\\cdot 0,79}{\\sqrt{(-0,72)^2+ 0,85^2}\\cdot \\sqrt{(-1,08)^2+ 0,79^2}}=0,97$<\/p>\n\n\n\n<p class=\" eplus-wrapper\">I stedet for at beregne vinklen v bruges nu tallet 0,97 som et m\u00e5l for ligheden. Dette er cosinus-similariteten mellem mand og konge.<\/p>\n\n\n<ol start=\"9\" class=\"eplus-wrapper wp-block-list eplus-styles-uid-2c3abc\"><li>beregn cosinus-similariteten mellem f\u00f8lgende par af ord:<ul><li>mand &#8211; kvinde<\/li><li>mand &#8211; bl\u00e5<\/li><li>droning &#8211; pink<\/li><\/ul><\/li><li>mellem hvilke to tal kan v\u00e6rdien af cosinus-similariteten ligge? <\/li><li>hvad betyder det, at to ord har en cosinus-similaritet t\u00e6t p\u00e5 1?<\/li><li>hvad betyder det, at to ord har en cosinus-similaritet t\u00e6t p\u00e5 -1?<\/li><li>hvad betyder det, at to ord har en cosinus-similaritet t\u00e6t p\u00e5 0?<\/li><\/ol>\n\n\n<p class=\" eplus-wrapper\"><strong>Tekniske begr\u00e6nsninger<\/strong>: dette ligheds-m\u00e5l kommer ikke helt til sin ret her, da antallet af dimensioner er s\u00e5 lavt (2). I h\u00f8jere dimensioner vil langt de fleste par af ord have cosinus-similariteter t\u00e6t p\u00e5 nul, da der i en vis forstand er &#8220;mere plads&#8221; i rum med h\u00f8j dimension. I vores eksempel f\u00e5r urelaterede ordpar som <em>dronning <\/em>og <em>pink <\/em>en kunstig h\u00f8j cosinus-similaritet af denne grund. Ordparret <em>mand <\/em>og <em>kvinde<\/em>, der her ser ud til at v\u00e6re mods\u00e6tninger, ville tilsvarende havde en cosinus-similaritet t\u00e6t p\u00e5 1, da de begge er navneord, angiver personer osv. De adskiller sig faktisk kun p\u00e5 \u00e9t punkt: k\u00f8n.<\/p>\n\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\">HVILKE ORD MINDER MEST OM HINANDEN?<\/h4>\n\n\n\n<p class=\" eplus-wrapper\">Hvis man har givet et ord kan man v\u00e6re interesseret i hvilke andre ord der ligner det mest, alts\u00e5 har egenskaber der er t\u00e6ttest p\u00e5. Hvis man har en lang r\u00e6kke embeddings for forskellige ord, kan man sammenligne cosinus-similariteterne mellem det givne ord og alle de andre ord i ordbogen. Herefter udv\u00e6lger man det\/de ord der havde h\u00f8jest cosinus-similaritet.<\/p>\n\n\n<ol start=\"14\" class=\"eplus-wrapper wp-block-list eplus-styles-uid-427f43\"><li>hvilke ord minder mest om mand i eksemplet ovenfor? <em>Konge<\/em>, <em>kvinde <\/em>eller <em>bl\u00e5<\/em>?<\/li><\/ol>\n\n\n<p class=\" eplus-wrapper\">Hjemmesiden vi s\u00e5 tidligere (<a rel=\"noreferrer noopener\" href=\"http:\/\/labs.statsbiblioteket.dk\/dsc\/\" target=\"_blank\">http:\/\/labs.statsbiblioteket.dk\/dsc\/<\/a>) har ogs\u00e5 mulighed ofr at lave en s\u00e5dan s\u00f8gning. Dette foreg\u00e5r i feltet &#8220;Nearest words&#8221;.<\/p>\n\n\n<ol start=\"15\" class=\"eplus-wrapper wp-block-list eplus-styles-uid-c9fccd\"><li>hvilke tre ord er t\u00e6ttest p\u00e5 hest i f\u00f8lge modellen p\u00e5 siden?<\/li><li>find selv p\u00e5 flere ord at pr\u00f8ve med, og skriv de bedste\/sjoveste resultater ned.<\/li><\/ol>\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\">ANALOGIER I EKSEMPLET<\/h4>\n\n\n\n<p class=\" eplus-wrapper\">Vi vender nu tilbage til eksemplet fra f\u00f8r, og \u00f8nsker at finde analogier mellem ord. Unders\u00f8g ved hj\u00e6lp af word embeddings om f\u00f8lgende analogier g\u00e6lder og kommenter resultaterne<\/p>\n\n\n<ol start=\"17\" class=\"eplus-wrapper wp-block-list eplus-styles-uid-0fa0ab\"><li>&#8220;<em>Mand <\/em>forholder sig til <em>kvinde<\/em>, som <em>konge <\/em>forholder sig til <em>dronning<\/em>&#8220;<\/li><li>&#8220;<em>Mand <\/em>forholder sig til <em>kvinde<\/em>, som <em>konge <\/em>forholder sig til <em>bl\u00e5<\/em>&#8220;<\/li><li>&#8220;<em>Mand <\/em>forholder sig til <em>kvinde<\/em>, som <em>bl\u00e5<\/em>forholder sig til <em>pink<\/em>&#8220;<\/li><\/ol>\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\">BIAS SKABER PROBLEMER<\/h4>\n\n\n\n<p class=\" eplus-wrapper\">Den sidste analogi ser potentielt problematisk ud! I en moderne, ligestillet verden skulle m\u00e6nd og kvinder helst ikke identificeres med forskellige farvekoder. Dette er et eksempel p\u00e5 bias i modellen, alts\u00e5 en type <em>forudindtagethed<\/em>.<\/p>\n\n\n\n<p class=\" eplus-wrapper\">Dette kan synes harml\u00f8st n\u00e5r det handler om farver, men det kan g\u00e5 grueligt galt hvis der er andre biases i modellen.<\/p>\n\n\n<ol start=\"20\" class=\"eplus-wrapper wp-block-list eplus-styles-uid-77aec8\"><li>unders\u00f8g historien om Microsofts Twitter-chatbot Tay, og forklar hvad der gik galt.<\/li><\/ol>\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\">HVOR KOMMER BIAS FRA?<\/h4>\n\n\n\n<p class=\" eplus-wrapper\">Som du m\u00e5ske fandt ud af i historien om Tay, er sprogteknologiske modeller kun s\u00e5 gode som de data man baserer dem p\u00e5. Hvis det korpus man bruger til at tr\u00e6ne modellen er rasistisk eller sexistisk vil det ogs\u00e5 afspejle sig i de word embeddings den producerer. <\/p>\n\n\n\n<p class=\" eplus-wrapper\">Probelemt kunne derfor l\u00f8ses ved at brige et andet korpus der ikke indeholder de biases man \u00f8nsker at undg\u00e5. I praksis kan det dog v\u00e6re sv\u00e6rt eller kostbart at finde s\u00e5dan et korpus. Men der er ogs\u00e5 andre muligheder som vi skal se i n\u00e6ste afsnit.<\/p>\n\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\">DE-BIASING<\/h4>\n\n\n\n<p class=\" eplus-wrapper\">Nu hvor vi ved at der er et problem med analogien mellem k\u00f8n og farve i vores model, kan vi aktivt fors\u00f8ge at fjerne denne sammeng\u00e6ng. Denne proces kaldes <em>de-biasing<\/em>, idet vi pr\u00f8ver at reducere bias i modellen.<\/p>\n\n\n\n<p class=\" eplus-wrapper\">F\u00f8rst sp\u00f8rger vi os selv: Hvordan udtrykkes k\u00f8n i modellen? N\u00e5r vi kigger p\u00e5 de fire ord der har tydeligt k\u00f8n ser vi, at de i store tr\u00e6k ligger p\u00e5 en lige linje. I mods\u00e6tning til vores f\u00f8rste leget\u00f8jseksempel, hvor k\u00f8n kunne afl\u00e6ses p\u00e5 x-aksen er k\u00f8ns-elementet her tilsyneladende udtrykt ved hvor vi befinder os langs en linje der g\u00e5r fra 2 kvadrant til 4 kvadrant.<\/p>\n\n\n<ol start=\"21\" class=\"eplus-wrapper wp-block-list eplus-styles-uid-3e0732\"><li>Find en retningsvektor $\\overrightarrow{r_{k\u00f8n}}$ for denne linje ved at tage gennemsnittet af de fire k\u00f8nnede ords embeddings.<\/li><\/ol>\n\n\n<p class=\" eplus-wrapper\">Vi kigger nu p\u00e5 de to ord vi \u00f8nsker at fjerne k\u00f8ns-elementet fra, alts\u00e5 bl\u00e5 og pink.<\/p>\n\n\n\n<p class=\" eplus-wrapper\">Hvilken del at disse ords embedding er parallel med $\\overrightarrow{r_{k\u00f8n}}$? Svaret er, at det er <em>projektionen <\/em>p\u00e5 $\\overrightarrow{r_{k\u00f8n}}$.<\/p>\n\n\n<ol start=\"22\" class=\"eplus-wrapper wp-block-list eplus-styles-uid-aaead4\"><li>beregn $\\overrightarrow{bl\u00e5_{v_{k\u00f8n}}}$, alts\u00e5 projektionen af $\\overrightarrow{bl\u00e5}$ ned p\u00e5 $\\overrightarrow{v_{k\u00f8n}}$.<\/li><\/ol>\n\n\n<p class=\" eplus-wrapper\">Det er denne del af <em>bl\u00e5<\/em>&#8216;s embedding vi \u00f8nsker at slippe af med. Derfor kan vi finde den <em>de-biasede<\/em> embedding ved at tr\u00e6kke projektionen fra<\/p>\n\n\n<ol start=\"23\" class=\"eplus-wrapper wp-block-list eplus-styles-uid-a28549\"><li>beregn $\\overrightarrow{bl\u00e5_{debiased}}$<\/li><li>lav en skitse af den tilsvarende geometri for <em>pink<\/em>. Beregn den de-biasede embedding $\\overrightarrow{pink_{debiased}}$<\/li><li>hvad betyder det, at de to debiasede embeddings nu er t\u00e6t p\u00e5 hinanden?<\/li><li>Undes\u00f8g analogien &#8220;<em>mand <\/em>forholder sig til <em>kvinde<\/em>, som <em>bl\u00e5 <\/em>forholder sig til <em>pink<\/em>&#8221; med de nye, de-biasede embeddings<\/li><\/ol><div class=\"footnotes\"><hr \/><ol><li id=\"footnote-1-1970\" class=\"footnote\"><p> kilde: <a href=\"https:\/\/ordnet.dk\/ddo\/ordbog?query=semantik\">ordnet.dk<\/a> <a href=\"#note-1-1970\" class=\"footnote-return\">&#8617;<\/a><\/p><\/li><!--\/#footnote-1.footnote--><li id=\"footnote-2-1970\" class=\"footnote\"><p> ordet r\u00f8dk\u00e6lk kommer fra det tyske ord rotkehlchen, hvor kelchen betyder strube &#8211;  <a rel=\"noreferrer noopener\" href=\"https:\/\/dofbasen.dk\/danmarksfugle\/art\/10990\" target=\"_blank\">Dansk Ornitologisk Forening<\/a><a href=\"#note-2-1970\" class=\"footnote-return\">&#8617;<\/a><\/p><\/li><!--\/#footnote-2.footnote--><\/ol><\/div><!--\/#footnotes-->","protected":false},"excerpt":{"rendered":"<p>Vi skal i dette projekt se lidt n\u00e6rmere p\u00e5 brugen af vektorer, n\u00e6rmere bestemt til at analysere semantikken af en tekst. Semantik kommer fra det gr\u00e6ske ord semantikos som betyder &#8220;betydningsfuld, som inderholder betydning&#8220;. Semantikken er den gren inden for sprogvidenskab der besk\u00e6ftiger sig med sproglige udtryks betydning. Analysen er en klassifikation eller en dekomposition [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"ub_ctt_via":"","editor_plus_copied_stylings":"{}","footnotes":""},"categories":[3,4],"tags":[],"class_list":["post-1970","page","type-page","status-publish","hentry","category-matematik","category-opgave"],"featured_image_src":null,"jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/mxth.dk\/index.php?rest_route=\/wp\/v2\/pages\/1970","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/mxth.dk\/index.php?rest_route=\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/mxth.dk\/index.php?rest_route=\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/mxth.dk\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/mxth.dk\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=1970"}],"version-history":[{"count":27,"href":"https:\/\/mxth.dk\/index.php?rest_route=\/wp\/v2\/pages\/1970\/revisions"}],"predecessor-version":[{"id":2009,"href":"https:\/\/mxth.dk\/index.php?rest_route=\/wp\/v2\/pages\/1970\/revisions\/2009"}],"wp:attachment":[{"href":"https:\/\/mxth.dk\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=1970"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/mxth.dk\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=1970"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/mxth.dk\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=1970"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}