A Gravity nevű magyar csapat is tagja annak az együttműködésnek, amely a nem hivatalos végeredmény szerint megnyerte a Netflix nevű amerikai dvd-kölcsönző által kiírt versenyt, ám győztest még nem hirdettek, mert az eredmény nagyon szoros. A 2006 óta tartó Netflix Prize tétje egymillió dollár, célja pedig a kölcsönző ajánlórendszere teljesítményének legalább 10 százalékos javítása volt. A magyar programozókból álló csapat időközben céggé alakult, és a piacon is ajánlórendszereket fejlesztenek.
Mátrixfaktorizáció egymillió dollárért
Megosztás:
2009.08.04. 18:55
29 komment
Címkék: netflix gravity scarab ajánlórendszerek
A bejegyzés trackback címe:
https://bodoky.blog.hu/api/trackback/id/tr831288840
Kommentek:
A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.
dark future · http://www.andocsek.hu 2009.08.07. 02:01:34
Érdekes probléma ez. Nálam pl. attól is függ, hogy mennyire tetszik egy film, hogy milyen a pillanatnyi hangulatom, mennyire vagyok fáradt, tudok-e koncentrálni, rátudok-e hangolódni a témára és a film ritmusára.
Igazán jók ebben azok lehetnek, akik alaposan, más területről is ismerik a felhasználók szokásait, azaz kellően nagy adatbázissal rendelkeznek. A google és társai előbb-utóbb majd erre a piacra is betoppannak...
Igazán jók ebben azok lehetnek, akik alaposan, más területről is ismerik a felhasználók szokásait, azaz kellően nagy adatbázissal rendelkeznek. A google és társai előbb-utóbb majd erre a piacra is betoppannak...
algi 2009.08.07. 02:08:38
Tehát, ha jól értem, a programozói tudásuk csak a verseny első szakaszában számított, később az volt az érdekes, hogy ki tudd jobb kapcsolatokat építeni a világ minden táján induló csapatokkal.
atleta.hu · http://www.atleta.hu 2009.08.07. 02:10:10
@dark future: Ha eleg sok ertekelest adsz, akkor ezek az ingadozasok kevesbe fognak szamitani. Amt irsz (google) az azert lehet erdekes, mert ha mindenutt elkezdenek hasznalni ezeket az ajanlo rendszereket - vagy legalabbis sok helyen - akkor baromira nem mukodne az a modszer, hogy majd a felhasznalo visszajelzest ad. Mert egy-ket kedvenc teruleten nyilvan szivesen meteszi az ember (sot, meg jo erzes is), de 4-5-6 temaban mar eleg faraszto, ezert az automatikusan, kulon munka nelkul generalt adatok lesznek egy ido utan az erdekesek (amiben a google pl. konyekig turlak, lasd gmail...) De az is igaz, hogy ez azert mindig sokkal kevesbe lesz pontos, mint egy jo nagy szamhalmaz.
atleta.hu · http://www.atleta.hu 2009.08.07. 02:11:40
@algi: Nem jol erted. Ez a tortenet arrol szol, hogy egy megfeleloen kemeny problema megoldasahoz meg kell talalni a megfelelo csapatot. Es neha erdemesebb osszefogni es megosztani a nyereseget, mint minden hataron tul versengeni (es kockaztatni).
GO!photo · http://microstockphoto.blog.hu/ 2009.08.07. 02:42:58
Meg regebben, kb mikor beszallt a Gravity a NetFlixbe, hallottam errol a dijrol, akkori jatekosoktol. Takacs Gaborek mindenkeppen kalapszalagszaggato kalaplengetest erdemelnek, igen kemeny legenyekkel versenyeztek: fuggetlenul attol ,hgoy elso, vag masodik a helyezes, ez brutalisan szep eredmeny. Szurkolok, hogy a dijon tul is tudjak kamatoztatni mind a tudast, mind a marketingerteket. (sot, remelem, hogy itthon is lesz piaca a termekuknek). Grat.
Meridian74 2009.08.07. 02:43:47
Azé az látszik, hogy arrafelé a posta az Posta. Megbízható és gyors.
Nem úgy, mint nálunk...
Nem úgy, mint nálunk...
MakkosMaria 2009.08.07. 02:47:56
@atleta.hu: Szerintem Te sem erted jol. A tortenet sokkal inkabb arrol szol, hogy nagy, komplex, zajos, 'real-life' problemakra ritkak az egyszeru, sima megoldasok; leginkabb tobb modszer ugyes/okos/szerencses keverekevel lehet a legjobb eredmenyt elerni. Ennek alatamasztasara nezd meg a veg(?)eredmeny tablazatot: www.netflixprize.com//leaderboard?limit=50
Ha megnezed alaposan, a legtobb elokelo eredmeny az elso ket helyezett csapat resztagjainak kulonfele permutacioju elrendezeseitol szarmazik. Es hamar ott vagy, olvasd el az Ensamble utolso eredmenyenek benyujtasarol keszult log-ot, 'dramai' :-)
Ha megnezed alaposan, a legtobb elokelo eredmeny az elso ket helyezett csapat resztagjainak kulonfele permutacioju elrendezeseitol szarmazik. Es hamar ott vagy, olvasd el az Ensamble utolso eredmenyenek benyujtasarol keszult log-ot, 'dramai' :-)
GO!photo · http://microstockphoto.blog.hu/ 2009.08.07. 02:56:41
@MakkosMaria: Nem vagyok teljesen biztos a kerdesben, de ha jol emlekszem a DARPA challenge eseteben egy valo-vilag, zajos, komplex problemara egy pragmatikusan egyszeru modelleket hasznaltak. Persze abban az esetben az is megkotes volt, hogy az adatokbol on-line kellett inferalni, de ettol fuggetlenul a kriteriumrendszerednek megfelelt a problema.
OK, persze ettol fuggetlenul jovahangyhato amit mondasz, s itt nyilvanvaloan elsodleges elveket hatuk mogott hagyva otvoztek mindent, mi kezuk ugyebe kerult.
OK, persze ettol fuggetlenul jovahangyhato amit mondasz, s itt nyilvanvaloan elsodleges elveket hatuk mogott hagyva otvoztek mindent, mi kezuk ugyebe kerult.
Derlon_Webb 2009.08.07. 03:01:18
Klassz a cikk és elég érdekes is ahhoz, hogy felkeltse a figyelmemet.
A benne említett példa alapján (bookline) értékelni is tudom, mert azt rendszeresen használom.
Hajrá magyarok!
Csak nehogy vmi bankos, politikus, hálós csapdába keveredjetek...!
A benne említett példa alapján (bookline) értékelni is tudom, mert azt rendszeresen használom.
Hajrá magyarok!
Csak nehogy vmi bankos, politikus, hálós csapdába keveredjetek...!
GYUSZI BACSI · http://www.fizetesem.com 2009.08.07. 03:12:45
én csak azt nem értem, hogy miért számolsz a cikkben úgy, hogy "az a havi 15 dolláros előfizetési díjjal számolva", mikor ott virít a képen, hogy "for only $8,99 a month"
tnsnames.ora 2009.08.07. 07:28:22
WoW!
- Először is gratula a posthoz, meg egyáltalán a bloghoz. Tamás, toronymagasan a legjobb újságíró vagy az indexnél, a legjobb témaválasztásokkal: ez most már semmiképpen nem lehet kérdés a számomra! :o)
- Ez nekem nagyon kedves téma, és tapasztalatból mondom nagyon könnyen függővé tudja tenni az embert, ha belebotlik: nem véletlen, hogy a terveimmel ellentétben végül sokkal többet foglalkoztam vele, mint szerettem volna. Sajnos a talán 1500-as dicsőségtáblára végül nem sikerült feljutnom.
Pár kiegészítés:
- Talán érdemes megemlíteni, hogy a szakzsargonban a feladat "collaborate filtering" néven fut (ha csak pusztán az ajánlások alapján dolgozik az ember). Ha filmcímek text-miningját is beveti eszközként, akkor az már "content filtering".
- Igem, óriási erő van az ajánlásokban. A Netflix Cinematch rendszere is csak collaborate filteringet használt, noha megadták a filmcímeket, hogy hátha más talál benne plusz potenciált (és engedték a kiírásban, az internetes adatbázisokhoz csatlakozást). Érdemes belegondolni, hogy végül az adatgazdagítás lehetősége önmagában nem vezet - garantáltan - jobb eredményre, pedig józan aggyal így gondolná az ember.
- Én szkeptikus vagyok, hogy a Netflix a verseny (+győztes know-how) révén könnyedén fogja tudni javítani az ajánlórendszerét 10%-kal. Üzemszerű körülmények között naponta ekkora gigantikus mátrixot faktorizálni szerintem távolról sem triviális. Számomra a verseny a prediktálási pontosságról szólt, kvázi végtelen erőforrások mellett. BTW: pusztán csak 10% javulásért majd' három évet küzdött a világ, azért ez nem semmi, szvsz.
- Én furcsállom, hogy miért nem hirdettek győztest eddig (aki először lépte át 10%-ot, aki ugye sajnos nem a magyar csapat lenne). Én ha jól értettem félszavakból, explicit reprodukálni kell az eredményt, kizárva például mindenféle randomizálást, ezért tart most a kontroll-fázis.
- Szerintem MakkosMaria is, Atléta is jót mondott. Valóban az együttműködés mint lehetőség, óriási adatbányászati technológiai potenciált jelent például a különböző "voting strategy" kialakításakor. Ugyanúgy hatalmas lehetőség van benne, mint az ajánlásokban (ahogy eddig is beszéltük). De talán az sem mindegy, hogy kivel társul az ember. Úgy is fel lehet tenni a kérdést, hogy a voting strategy kialakítása (minőségi partner), vagy a minél több szavazás beérkezése (mennyiség) a cél. Azt hiszem ezt mi most itt a blogban nem fogjuk eldönteni :o), mindenki az intuiciója alapján tudja megadni saját véleményét.
- Végül talán megadható két link, amiben bővebben beszélek erről a Netflix-feladatról, hogy én hogyan dolgoztam benne. Ha valakit érdekelnek (egyéb) részletek, ott (is) tudunk beszélgetni a témáról.
forum.index.hu/Article/viewArticle?a=91973458&t=9168807
forum.index.hu/Article/viewArticle?a=91555573&t=9168807
- Először is gratula a posthoz, meg egyáltalán a bloghoz. Tamás, toronymagasan a legjobb újságíró vagy az indexnél, a legjobb témaválasztásokkal: ez most már semmiképpen nem lehet kérdés a számomra! :o)
- Ez nekem nagyon kedves téma, és tapasztalatból mondom nagyon könnyen függővé tudja tenni az embert, ha belebotlik: nem véletlen, hogy a terveimmel ellentétben végül sokkal többet foglalkoztam vele, mint szerettem volna. Sajnos a talán 1500-as dicsőségtáblára végül nem sikerült feljutnom.
Pár kiegészítés:
- Talán érdemes megemlíteni, hogy a szakzsargonban a feladat "collaborate filtering" néven fut (ha csak pusztán az ajánlások alapján dolgozik az ember). Ha filmcímek text-miningját is beveti eszközként, akkor az már "content filtering".
- Igem, óriási erő van az ajánlásokban. A Netflix Cinematch rendszere is csak collaborate filteringet használt, noha megadták a filmcímeket, hogy hátha más talál benne plusz potenciált (és engedték a kiírásban, az internetes adatbázisokhoz csatlakozást). Érdemes belegondolni, hogy végül az adatgazdagítás lehetősége önmagában nem vezet - garantáltan - jobb eredményre, pedig józan aggyal így gondolná az ember.
- Én szkeptikus vagyok, hogy a Netflix a verseny (+győztes know-how) révén könnyedén fogja tudni javítani az ajánlórendszerét 10%-kal. Üzemszerű körülmények között naponta ekkora gigantikus mátrixot faktorizálni szerintem távolról sem triviális. Számomra a verseny a prediktálási pontosságról szólt, kvázi végtelen erőforrások mellett. BTW: pusztán csak 10% javulásért majd' három évet küzdött a világ, azért ez nem semmi, szvsz.
- Én furcsállom, hogy miért nem hirdettek győztest eddig (aki először lépte át 10%-ot, aki ugye sajnos nem a magyar csapat lenne). Én ha jól értettem félszavakból, explicit reprodukálni kell az eredményt, kizárva például mindenféle randomizálást, ezért tart most a kontroll-fázis.
- Szerintem MakkosMaria is, Atléta is jót mondott. Valóban az együttműködés mint lehetőség, óriási adatbányászati technológiai potenciált jelent például a különböző "voting strategy" kialakításakor. Ugyanúgy hatalmas lehetőség van benne, mint az ajánlásokban (ahogy eddig is beszéltük). De talán az sem mindegy, hogy kivel társul az ember. Úgy is fel lehet tenni a kérdést, hogy a voting strategy kialakítása (minőségi partner), vagy a minél több szavazás beérkezése (mennyiség) a cél. Azt hiszem ezt mi most itt a blogban nem fogjuk eldönteni :o), mindenki az intuiciója alapján tudja megadni saját véleményét.
- Végül talán megadható két link, amiben bővebben beszélek erről a Netflix-feladatról, hogy én hogyan dolgoztam benne. Ha valakit érdekelnek (egyéb) részletek, ott (is) tudunk beszélgetni a témáról.
forum.index.hu/Article/viewArticle?a=91973458&t=9168807
forum.index.hu/Article/viewArticle?a=91555573&t=9168807
redhotchili 2009.08.07. 08:03:58
Minden elismeres a magyar teamnek !!!!!
persicsbalint 2009.08.07. 08:13:05
Elismeres, szep munka volt, es a cikk is jo.
Viszont a kovetkezok kimaradtak a cikkbol:
A The Ensemble (a magyarok csapata) a Qualifying Set adatmintával valóban jobb eredményt ért el, mint a BellKor, és mindketten 10% felett voltak, de ez csak arra jó, hogy az eredményeiket a Test Set adatmintán is futtassák. Itt azonban a BellKor teljesített jobban (www.netflixprize.com/community/viewtopic.php?pid=9237#p9237).
Masreszt addig nem irnam le, hogy a magyarok vezette csapat nyert, amit tenylegesen ki nem hirdetik az eredmenyt, es lehet latni a Test Set eredmenyeit is.
Viszont a kovetkezok kimaradtak a cikkbol:
A The Ensemble (a magyarok csapata) a Qualifying Set adatmintával valóban jobb eredményt ért el, mint a BellKor, és mindketten 10% felett voltak, de ez csak arra jó, hogy az eredményeiket a Test Set adatmintán is futtassák. Itt azonban a BellKor teljesített jobban (www.netflixprize.com/community/viewtopic.php?pid=9237#p9237).
Masreszt addig nem irnam le, hogy a magyarok vezette csapat nyert, amit tenylegesen ki nem hirdetik az eredmenyt, es lehet latni a Test Set eredmenyeit is.
tnsnames.ora 2009.08.07. 08:16:08
Egy apró további kiegészítés a postcím magyarázatához, ami adhat esetleg félreértésre okot. Kétféleképpen is lehet ugyanis érteni azt, hogy "Mátrixfaktorizáció egymillió dollárért"
(1). Annyira nehéz matematikai probléma a mátrixfaktorizáció (nagy méretekben), mint mondjuk a prímfaktorizáció, és az egy milla ezért jár.
(2) Az egy milla dollárhoz vezető úton a mátrixfaktorizáció mint egy fontos lépés. Azt gondolom, erről a második esetről beszélünk: az SVD, NNMF és társai régóta léteznek, régóta tudjuk jóságukat, nagy méretekre is. Önmagukban nem érnek egy milla dollárt. 2.8 millió ratinget eltalálni, na az igen. ;)
(1). Annyira nehéz matematikai probléma a mátrixfaktorizáció (nagy méretekben), mint mondjuk a prímfaktorizáció, és az egy milla ezért jár.
(2) Az egy milla dollárhoz vezető úton a mátrixfaktorizáció mint egy fontos lépés. Azt gondolom, erről a második esetről beszélünk: az SVD, NNMF és társai régóta léteznek, régóta tudjuk jóságukat, nagy méretekre is. Önmagukban nem érnek egy milla dollárt. 2.8 millió ratinget eltalálni, na az igen. ;)
tnsnames.ora 2009.08.07. 08:43:38
@persicsbalint:
Hopp! Erről a qualifying-dataset melletti teszt-datasetről nem is tudtam. Így már abszolút érthető; miért az elhúzódó versenyvégeredmény-kihirdetés.
Ráadásul abszolút logikus, hiszen, a qualifying dataset publikálásával az algoritmusokba beépíthető volt az az információ, hogy ki mit _nézett_ meg (100 milla customer-film-id párosokon felül), még ha a konkrét ratingek nem is tudhatók. Egy publikálatlan teszt-datasetnél ez jól szűrhető.
Hopp! Erről a qualifying-dataset melletti teszt-datasetről nem is tudtam. Így már abszolút érthető; miért az elhúzódó versenyvégeredmény-kihirdetés.
Ráadásul abszolút logikus, hiszen, a qualifying dataset publikálásával az algoritmusokba beépíthető volt az az információ, hogy ki mit _nézett_ meg (100 milla customer-film-id párosokon felül), még ha a konkrét ratingek nem is tudhatók. Egy publikálatlan teszt-datasetnél ez jól szűrhető.
zsidó részvénytársaság · http://www.youtube.com/watch?v=39Jk25JQo4g 2009.08.07. 09:26:16
.
leszarom a reklámipart
azokat is, akik építik
leszarom a reklámipart
azokat is, akik építik
Piréz Vitéz 2009.08.07. 09:27:21
Örülök, hogy írt erről az index, részben mert érdekes téma, részben mert megérdemli a gravity, hogy itthon is halljanak róluk. De ahogy fentebb is írták, az alapján, amit eddig tudni lehet, úgy néz ki nem az Ensemble nyert, hanem a BellKor-Pragmatic-BigChaos. Egyébként habár nyilván óriásit alakítottak a magyarok, szerintem maximálisan megérdemli a másik csapat is a győzelmet. Nem csak hogy ők kevesebben vannak (7 fő vs. kb. 30) és így értek el jobb eredményt, de a BellKor ráadásul folyamatosan a publikálta a módszereiket és a fórumon segítette azokat, akik azokat használni akarták. (habár pár lényeges részletet kihagytak a leírásokból :) )
És juhhéé, lesz Netflix Prize 2, mégis lehet, hogy befejezem valaha az egyik végül félbehagyott algoritmusom, és megint elcseszhetek egy csomó időt :)
És juhhéé, lesz Netflix Prize 2, mégis lehet, hogy befejezem valaha az egyik végül félbehagyott algoritmusom, és megint elcseszhetek egy csomó időt :)
navigon 2009.08.07. 11:46:19
tnsnames.ora: collaboratIVE filtering
Egy erdekes, de tudomanyos szempontbol nemileg csalodast kelto jelenseg, hogy az utobbi idoben a legtobb adatbanyaszati versenyt a kovetkezo sematikus algoritmussal nyerik:
1) Futtassunk le egy csomo (legtobbszor gepi tanulasi) algoritmust, kulonbozo parameterbeallitasokkal.
2) Kombinaljuk ugyesen a kapott eredmenyeket.
Ld. pl kddcup: www.kddcup-orange.com/results.php, de a netflix eredmeny is ebbe a trendbe illeszkedik. Persze ahhoz, hogy valaki gyozzon, mindket lepest ugyesen kell csinalni, de viszonylag "buta" modszerekkel is nagyon jo eredmenyeket lehet mar elerni.
Egy erdekes, de tudomanyos szempontbol nemileg csalodast kelto jelenseg, hogy az utobbi idoben a legtobb adatbanyaszati versenyt a kovetkezo sematikus algoritmussal nyerik:
1) Futtassunk le egy csomo (legtobbszor gepi tanulasi) algoritmust, kulonbozo parameterbeallitasokkal.
2) Kombinaljuk ugyesen a kapott eredmenyeket.
Ld. pl kddcup: www.kddcup-orange.com/results.php, de a netflix eredmeny is ebbe a trendbe illeszkedik. Persze ahhoz, hogy valaki gyozzon, mindket lepest ugyesen kell csinalni, de viszonylag "buta" modszerekkel is nagyon jo eredmenyeket lehet mar elerni.
atleta.hu · http://www.atleta.hu 2009.08.07. 12:19:01
@MakkosMaria: > Szerintem Te sem erted jol. A tortenet sokkal
> inkabb arrol szol, hogy nagy, komplex, zajos, 'real-life'
> problemakra ritkak az egyszeru, sima megoldasok; leginkabb
> tobb modszer ugyes/okos/szerencses keverekevel lehet a
> legjobb eredmenyt elerni.
Bocs, de nem ertem az oltogatast. En nem azert irtam, amit irtam, hogy okosabbnak latszak alginal, csak helyretettem a fikazodasat. Ezen kivul te a mernoki/technologiai oldalarol irtal en pedig az emberirol. Es a ketto relativ lazan kapcsolodik egymashoz. Az, hogy megfelelo csapat kell a porblema megoldasahoz nem mond ellent annak, hogy tobb otletet kell vegyiteni amit - meg fogsz lepondi -, de en is pontosan tudok. Sot, tegyuk fel, hogy az egyes csapatok is tudtak, vagyis a szovetkezes egyaltalan nem volt szukseges feltetele a tobb otletre tamaszkodo megoldasnak. Arra azert volt szukseg, hogy a mar meglevo eleg jo megoldasokat egyuttesen tudjak felhasznalni es ne mindenki maganak kuzkodjon tovabb meg esetleg igen sok ideig.
> inkabb arrol szol, hogy nagy, komplex, zajos, 'real-life'
> problemakra ritkak az egyszeru, sima megoldasok; leginkabb
> tobb modszer ugyes/okos/szerencses keverekevel lehet a
> legjobb eredmenyt elerni.
Bocs, de nem ertem az oltogatast. En nem azert irtam, amit irtam, hogy okosabbnak latszak alginal, csak helyretettem a fikazodasat. Ezen kivul te a mernoki/technologiai oldalarol irtal en pedig az emberirol. Es a ketto relativ lazan kapcsolodik egymashoz. Az, hogy megfelelo csapat kell a porblema megoldasahoz nem mond ellent annak, hogy tobb otletet kell vegyiteni amit - meg fogsz lepondi -, de en is pontosan tudok. Sot, tegyuk fel, hogy az egyes csapatok is tudtak, vagyis a szovetkezes egyaltalan nem volt szukseges feltetele a tobb otletre tamaszkodo megoldasnak. Arra azert volt szukseg, hogy a mar meglevo eleg jo megoldasokat egyuttesen tudjak felhasznalni es ne mindenki maganak kuzkodjon tovabb meg esetleg igen sok ideig.
bunko_jobbos 2009.08.07. 13:34:17
@zsidó részvénytársaság:
"leszarom a reklámipart
azokat is, akik építik "
Az az igazság, hogy erkölcsileg nagyon aggályos ez a probléma. Biztos érdekes feladat matematikailag, én is szívesen megpróbálnám megoldani. Viszont mi a cél? Hogy minél több valamit adjunk el. Mert valójában a nézőknek nincs szükségük a sok hülye film megnézésére, -ami a tizedik után már rohadt unalmas, és kiderül, hogy valójában mindegyik ugyanarról szól, azaz az elején már tudod is a végét. És ebben kell közreműködni?
Kezdek rájönni, hogy a sok tudás, amit összeszedtem az egyetemeken egy kalap szart sem ér.
Ja, a cikkben szereplő Tikk Domi mondta egyszer, hogy "Kipróbáltam a munkát, nem nekem való". (Egy kétónapos munkavállalás után) Az összes egyetemenragadt tanár ilyen hozzáállású emberekből tevődik össze. (Egyetemi szlengben=faszverő)
"leszarom a reklámipart
azokat is, akik építik "
Az az igazság, hogy erkölcsileg nagyon aggályos ez a probléma. Biztos érdekes feladat matematikailag, én is szívesen megpróbálnám megoldani. Viszont mi a cél? Hogy minél több valamit adjunk el. Mert valójában a nézőknek nincs szükségük a sok hülye film megnézésére, -ami a tizedik után már rohadt unalmas, és kiderül, hogy valójában mindegyik ugyanarról szól, azaz az elején már tudod is a végét. És ebben kell közreműködni?
Kezdek rájönni, hogy a sok tudás, amit összeszedtem az egyetemeken egy kalap szart sem ér.
Ja, a cikkben szereplő Tikk Domi mondta egyszer, hogy "Kipróbáltam a munkát, nem nekem való". (Egy kétónapos munkavállalás után) Az összes egyetemenragadt tanár ilyen hozzáállású emberekből tevődik össze. (Egyetemi szlengben=faszverő)
navigon 2009.08.07. 14:57:32
bunko_jobbos: A collaborative filteringnek pont az ellenkezo az eredmenye: szonyegbombazas-szeru tomegreklam helyett elkezdesz olyan termekekrol (film, cd, konyv, akarmi) infokat kapni, amelyek tenyleg erdekelnek. Aztan csak csettintesz: ezt meg hogy talaltak ki, hogy ez nekem tetszeni fog. Tulajdonkeppen a "word of mouth"-fele "reklam"-nak a nagyipari megvalositasarol van szo.
Hasznalni meg nem muszaj az ajanlatokat, nem ugy mint a tevereklamokat, amelyeket muszaj megnezni.
Az egyetemi ember elete tenyleg fantasztikus: nincs fonok, az ember kerdeseket tesz fol maganak, majd megoldja oket. Jo, kell egy kicsit tanitani, meg palyazatokat irni, de jobb helyeken ez nem tobb mint 50%. Nem csoda, hogy nagy harc megy a rendszerbe torteno bekerulesert, foleg kulfoldon, ahol mondjuk a felso 10%-ban anyagilag is benne vagy. Eloszor az ot ev egyetem utan meg szivsz 4-5 evet a PhD-vel. Anyagilag csod, es rizikos befektetes, senki sem garantalja, hogy sikerul utana allast kapni. Aztan jo esetben 2-3 ev postdoc, amikor jol meg kell hajtani: ilyenkor mar tudsz publikalni, es egyelore mas dolgod nincs, mint kutatni. Kozben palyazgatsz allasokra. Sok a szerencse elem, konjunkturalis dolgok, jo idoben kell jo helyen es jonak lenni. Ha csaladod is van, es mondjuk ketten vagytok a rendszerben, akkor szinte lehetetlen egy varosban jo allast kapni mindkettotoknek. Arra is fel kell keszulni, hogy a vilag barmelyik pontjan meg kell tanulni elni. Ha nem, akkor mashol kell kompromisszumokat kotni. De a vege tenyleg az, amit az elso mondatban irtam. Lehet minket irigyelni, sot, csatlakozni hozzank.
Hasznalni meg nem muszaj az ajanlatokat, nem ugy mint a tevereklamokat, amelyeket muszaj megnezni.
Az egyetemi ember elete tenyleg fantasztikus: nincs fonok, az ember kerdeseket tesz fol maganak, majd megoldja oket. Jo, kell egy kicsit tanitani, meg palyazatokat irni, de jobb helyeken ez nem tobb mint 50%. Nem csoda, hogy nagy harc megy a rendszerbe torteno bekerulesert, foleg kulfoldon, ahol mondjuk a felso 10%-ban anyagilag is benne vagy. Eloszor az ot ev egyetem utan meg szivsz 4-5 evet a PhD-vel. Anyagilag csod, es rizikos befektetes, senki sem garantalja, hogy sikerul utana allast kapni. Aztan jo esetben 2-3 ev postdoc, amikor jol meg kell hajtani: ilyenkor mar tudsz publikalni, es egyelore mas dolgod nincs, mint kutatni. Kozben palyazgatsz allasokra. Sok a szerencse elem, konjunkturalis dolgok, jo idoben kell jo helyen es jonak lenni. Ha csaladod is van, es mondjuk ketten vagytok a rendszerben, akkor szinte lehetetlen egy varosban jo allast kapni mindkettotoknek. Arra is fel kell keszulni, hogy a vilag barmelyik pontjan meg kell tanulni elni. Ha nem, akkor mashol kell kompromisszumokat kotni. De a vege tenyleg az, amit az elso mondatban irtam. Lehet minket irigyelni, sot, csatlakozni hozzank.
Ewop78 2009.08.07. 15:54:06
Valóban elég sokat számít nyereség szempontjából egy egyszerű videotékánál is az ajánlás...
Anno még mikor egy ilyen helyen dolgoztam volt egy jó programunk, amivel le lehetett szűrni pár szempont szerint ki miket vett ki (és hányszor), kik vették még ki (és hányszor) a filmeket. Ezek alapján, meghogy éppen milyen filmet szeretne nézni viszonylag könnyen lehetett 3000 filmből is bárkinek ajánlani olyat, amit szívesen megnézett... és jól is kerestünk vele :)
Némelyik embernek már az is sokat számított, hogy XY meg XZ is megnézte többször... :)
Ilyesmi ajánlási rendszereket készíteni tényleg érdekes lehet és nagy kihívás.
Sok sikert a magyar csapatnak !
Anno még mikor egy ilyen helyen dolgoztam volt egy jó programunk, amivel le lehetett szűrni pár szempont szerint ki miket vett ki (és hányszor), kik vették még ki (és hányszor) a filmeket. Ezek alapján, meghogy éppen milyen filmet szeretne nézni viszonylag könnyen lehetett 3000 filmből is bárkinek ajánlani olyat, amit szívesen megnézett... és jól is kerestünk vele :)
Némelyik embernek már az is sokat számított, hogy XY meg XZ is megnézte többször... :)
Ilyesmi ajánlási rendszereket készíteni tényleg érdekes lehet és nagy kihívás.
Sok sikert a magyar csapatnak !
tnsnames.ora 2009.08.07. 21:27:01
@navigon:
>...collaboratIVE filtering
Jogos és sajnálom; köszi a helyesbítést.
>>>>>>>>
Egy erdekes, de tudomanyos szempontbol nemileg csalodast kelto jelenseg, hogy az utobbi idoben a legtobb adatbanyaszati versenyt a kovetkezo sematikus algoritmussal nyerik:
>>>>>>>>
Nekem ambivalens érzéseim vannak az ügyben. Én azt mondom az adatbányászversenyekben annyi, de annyi kifogásolnivaló van, miközben ez, amit írsz legalább már _szakma_, nem pedig valami hülyeség (beszédes ID-k, mint magyarázó változó) és/vagy szivatás (random idősorok osztályozása).
Azt gondolom az adatbányászat is olyan, mint más, vannak gyönyörűszép kreatív részei és van benne csomó favágás is. Ahogy egyes versenyeken nem túl releváns (tíz)ezredekért megy - az olykor felesleges(?) - küzdelem, míg más versenynél tanítanivalóan gyönyörűszép megoldás nyer esetleg.
Ami még idetartozhat a domain-függő és -független adatbányászati versenyekhez való hozzáállás, de ez már végképp kivezet innen a threadből.
Én egy időben nagyon lelkes voltam az adatbányászversenyek irányába, de ma már sokkal szkeptikusabb és visszafogottabb vagyok az ügyben, és ennyiben feltétlenül igazat adok neked.
>>>>>>>>
Futtassunk le egy csomo (legtobbszor gepi tanulasi) algoritmust, kulonbozo parameterbeallitasokkal.
>>>>>>>>
SVM-eknél lehet jóízűeket paraméterezni, olykor meglehetősen intuítiv alapokon. :o)))
>Ld. pl kddcup: www.kddcup-orange.com/results.php
Számomra fontos verseny volt, én úgy vélem (meglehet tévedek), hogy a feature selectionben óriási fejlődési lehetőség van még mindig.
>>>>>>>>
...de a netflix eredmeny is ebbe a trendbe illeszkedik. Persze ahhoz, hogy valaki gyozzon, mindket lepest ugyesen kell csinalni, de viszonylag "buta" modszerekkel is nagyon jo eredmenyeket lehet mar elerni.
>>>>>>>>
- Ez azért szerintem dataset függő is. Sőt már az nem mindegy, hogy a (Q)ualifying datasetet hogyan állítjuk össze -> mert ez perdöntő hatással van az elérhető RMSE-re (az én számolásaim szerint).
A Netflix-verseny legcsúnyább pontja számomra, hogy egy túrót volt igaz, hogy aki (P)robe halmazon jól teljesített, az a (Q)ualifyingon is jól fog teljesíteni. Az egész (P)robe-dataset szerintem egy hatalmas - inkorrektség határát súroló - megtévesztés. Magyarán más dataseten relevánsan teljesen más RMSE-érték lehetett volna a cél.
- Ami viszont ennél is fontosabb és mutatja, hogy én is azon a véleményen vagyok amit írsz (csak más megfogalmazásban), hogy minden feladatnak megvan a maga sajátja, hogy mit lehet belőle kihozni. Nyílván egy lottóhúzásos adatbázisból beláthatóan sokkal kevesebb értékes információ csűrhető ki a jövendőbeli lottószámok mibenlétét illetően, mint egy Netflixes adatbázisból. (Sőt ajánlórendszer és ajánlórendszer között is különbségek vannak, akárcsak adattisztaság ügyben is)
Persze ezt a "potenciált" meghatározni nagyon nehéz feladat. Viszont nem lehetetlen: a Netflix Corporation matematikusa nagyon jól belőtte például a feladatot. Még ha nem is tudható, hogy mennyire fáj nekik az 1 milla dollár kifizetése.
>...collaboratIVE filtering
Jogos és sajnálom; köszi a helyesbítést.
>>>>>>>>
Egy erdekes, de tudomanyos szempontbol nemileg csalodast kelto jelenseg, hogy az utobbi idoben a legtobb adatbanyaszati versenyt a kovetkezo sematikus algoritmussal nyerik:
>>>>>>>>
Nekem ambivalens érzéseim vannak az ügyben. Én azt mondom az adatbányászversenyekben annyi, de annyi kifogásolnivaló van, miközben ez, amit írsz legalább már _szakma_, nem pedig valami hülyeség (beszédes ID-k, mint magyarázó változó) és/vagy szivatás (random idősorok osztályozása).
Azt gondolom az adatbányászat is olyan, mint más, vannak gyönyörűszép kreatív részei és van benne csomó favágás is. Ahogy egyes versenyeken nem túl releváns (tíz)ezredekért megy - az olykor felesleges(?) - küzdelem, míg más versenynél tanítanivalóan gyönyörűszép megoldás nyer esetleg.
Ami még idetartozhat a domain-függő és -független adatbányászati versenyekhez való hozzáállás, de ez már végképp kivezet innen a threadből.
Én egy időben nagyon lelkes voltam az adatbányászversenyek irányába, de ma már sokkal szkeptikusabb és visszafogottabb vagyok az ügyben, és ennyiben feltétlenül igazat adok neked.
>>>>>>>>
Futtassunk le egy csomo (legtobbszor gepi tanulasi) algoritmust, kulonbozo parameterbeallitasokkal.
>>>>>>>>
SVM-eknél lehet jóízűeket paraméterezni, olykor meglehetősen intuítiv alapokon. :o)))
>Ld. pl kddcup: www.kddcup-orange.com/results.php
Számomra fontos verseny volt, én úgy vélem (meglehet tévedek), hogy a feature selectionben óriási fejlődési lehetőség van még mindig.
>>>>>>>>
...de a netflix eredmeny is ebbe a trendbe illeszkedik. Persze ahhoz, hogy valaki gyozzon, mindket lepest ugyesen kell csinalni, de viszonylag "buta" modszerekkel is nagyon jo eredmenyeket lehet mar elerni.
>>>>>>>>
- Ez azért szerintem dataset függő is. Sőt már az nem mindegy, hogy a (Q)ualifying datasetet hogyan állítjuk össze -> mert ez perdöntő hatással van az elérhető RMSE-re (az én számolásaim szerint).
A Netflix-verseny legcsúnyább pontja számomra, hogy egy túrót volt igaz, hogy aki (P)robe halmazon jól teljesített, az a (Q)ualifyingon is jól fog teljesíteni. Az egész (P)robe-dataset szerintem egy hatalmas - inkorrektség határát súroló - megtévesztés. Magyarán más dataseten relevánsan teljesen más RMSE-érték lehetett volna a cél.
- Ami viszont ennél is fontosabb és mutatja, hogy én is azon a véleményen vagyok amit írsz (csak más megfogalmazásban), hogy minden feladatnak megvan a maga sajátja, hogy mit lehet belőle kihozni. Nyílván egy lottóhúzásos adatbázisból beláthatóan sokkal kevesebb értékes információ csűrhető ki a jövendőbeli lottószámok mibenlétét illetően, mint egy Netflixes adatbázisból. (Sőt ajánlórendszer és ajánlórendszer között is különbségek vannak, akárcsak adattisztaság ügyben is)
Persze ezt a "potenciált" meghatározni nagyon nehéz feladat. Viszont nem lehetetlen: a Netflix Corporation matematikusa nagyon jól belőtte például a feladatot. Még ha nem is tudható, hogy mennyire fáj nekik az 1 milla dollár kifizetése.
kender 2009.08.08. 00:23:16
Valaki el tudná nekünk, halandóknak magyarázni, hogy tulajdonképpen mit ért el ez a rengeteg csapat 3 év alatt és kb mit tud a nyertes ajánló rendszere?
Tehát mondjuk ha én egy Netflix user vagyok és megnéztem 50 filmet, akkor az én korábbi osztályzataimból milyen találati eséllyel tippeli meg egy ilyen rendszer egy random film esetén a várható osztályzatomat? Vagy másképpen: a rendszer által 'ötösre' tippelt filmeket a userek kb milyen arányban osztályozzák ténylegesen ötösre?
Plusz az is érdekelne, hogy az a bizonyos +10% eredmény a gyakorlatban mennyit javít a fentieken? Ténylegesen érzékelhető a userek számára vagy ha bevezetik az új rendszert észre se vennék, annyira jó volt már az eredeti is?
Tehát mondjuk ha én egy Netflix user vagyok és megnéztem 50 filmet, akkor az én korábbi osztályzataimból milyen találati eséllyel tippeli meg egy ilyen rendszer egy random film esetén a várható osztályzatomat? Vagy másképpen: a rendszer által 'ötösre' tippelt filmeket a userek kb milyen arányban osztályozzák ténylegesen ötösre?
Plusz az is érdekelne, hogy az a bizonyos +10% eredmény a gyakorlatban mennyit javít a fentieken? Ténylegesen érzékelhető a userek számára vagy ha bevezetik az új rendszert észre se vennék, annyira jó volt már az eredeti is?
tnsnames.ora 2009.08.08. 06:59:24
@kender:
Az én válaszkísérletem:
>...és kb mit tud a nyertes ajánló rendszere?
A győztesnek alapvetően és jellemzően csak _algoritmusai_ meg _konkrét számolásai_ voltak adott konkrét 2.8 millió néző & film páros ratingjének előrejelzésére. [E ratingek eltalálási pontosságának mérésére van a nagyon egyszerű mérőszám RMSE(=Root Mean Square Error)].
Az algoritmusok ( + egyéb például üzemeltetési követelmények) aztán persze elvezethetnek az igazi teljes ajánlórendszerhez is.
- Ha user-szintre megyünk le; nagyon fontos, hogy milyen stratégiával minősíted a filmeket. Ha "poénból" pont fordítva, mint érzed, hogy az anarchiát/ káoszt segítsd, akkor az ajánlórendszer is gyengébb ajánlatokkal fog kiszolgálni. Ha korrekten odafigyelsz meg rendesen használod is mind az 5 rating lehetőséget, sőt mondhatni minél korrektebben és valósághűbben tudsz értékelni, annál jobb lesz az ajánlórendszer ajánlatainak a minősége.
Ha mondjuk van 50 db 5-ösre értékelt film, ami nálad szóbajöhetne, azzal még nincs megoldva a probléma, hogy mi legyen amit "megnézzél" következőnek, mert hiszen fontos szempont, hogy azok az 5-ös ratingek _mikor_ születtek például.
Én úgy szoktam fogalmazni, hogy az a jó ajánlórendszer, amikor a rád legjobban hasonlító userek a _jelenben_ a legnagyobb mértékben viselkednek azonosan egy olyan filmnél, amit te még nem láttál. És így azért már nagyon jól leszűkíthető az ajánlathalmaz a legjobb ajánlatra.
Én azt állítom, hogy jó ajánlórendszer nagyon jó eséllyel tippeli meg mire van szükséged. De ilyen tapasztalatokat te is szerezhetsz, hiszen nemcsak a Netflixnek van ilyen ajánlórendszere.
Azt is állítom, hogy a Netflix-verseny datasetje végtelenül speciális, mondhatni komplett "zaj" volt, végtelenül extrém esetek öszeválogatásával. A valóságban sokkal jobb RMSE-érhető el, hiszen többen vagyunk normális nézők, mint extravagáns különcök. :o) A Netflixes ajánlórendszer is olyan jó már, hogy most már fókuszba kerülhet az extrém ratingek előrejelzése is.
>>>>>>>>>
Plusz az is érdekelne, hogy az a bizonyos +10% eredmény a gyakorlatban mennyit javít a fentieken?
>>>>>>>>>
Na ezek bizony nagyon fontos alapkérdések. Az a 10% engem is szíven ütött.
Én azt gondolom, hogy lehet törekedni a legjobb ajánlat megtalálására (optimalizálási feladatként), tehát ne csak 50 legesélyesebb filmből sorsoljanak neked. A 10% javulás itt is releváns és általad is érzékelhető lehet.
Egyfelöl ennél a konkrét verseny-datasetnél nagyon nehéz volt még a Netflixes ajánlórendszeri eredményt is elérni. Ha rosszindulatú/szkeptikus vagyok akár kétségbe is vonhatom -> hiszen nem volt módom ellenőrizni a Netflixes ajánlórendszeri eredményeket, azokat kész tényként kellett elfogadnom. 10%-ot javítani meg különösen nagyon nehéz feladat.
Másfelöl, még nagyon hosszú az út most a verseny végétől(?) az ajánlórendszer javulásig, hiszen ott más szempontok is vannak: dőlnek be az újabb userek, újabb filmek, újabb ratingek, azaz távolról sem konstans az adatbázis pláne nem majd' három évig, mint volt most a verseny alatt. Nekem az rémlik, hogy a Netflix már most milliárdnyi ratinggel bír rendelkezni.
Összefoglalva, most még bőven van lehetőség az ajánlórendszerek javulására, ami javulás még akár egyedi személyi szinten is érzékelhető lehet (persze nemfeltétlen triviálisan könnyedén), de aki igazán p-r-o-f-i-t-á-l-h-a-t a tömeges méretek révén, az persze a Netflix típusú ajánlórendszerek üzemeltető/fenntartó cégek.
A felszínen a userért van minden, de a mélyben persze a profitért. ;)
Az én válaszkísérletem:
>...és kb mit tud a nyertes ajánló rendszere?
A győztesnek alapvetően és jellemzően csak _algoritmusai_ meg _konkrét számolásai_ voltak adott konkrét 2.8 millió néző & film páros ratingjének előrejelzésére. [E ratingek eltalálási pontosságának mérésére van a nagyon egyszerű mérőszám RMSE(=Root Mean Square Error)].
Az algoritmusok ( + egyéb például üzemeltetési követelmények) aztán persze elvezethetnek az igazi teljes ajánlórendszerhez is.
- Ha user-szintre megyünk le; nagyon fontos, hogy milyen stratégiával minősíted a filmeket. Ha "poénból" pont fordítva, mint érzed, hogy az anarchiát/ káoszt segítsd, akkor az ajánlórendszer is gyengébb ajánlatokkal fog kiszolgálni. Ha korrekten odafigyelsz meg rendesen használod is mind az 5 rating lehetőséget, sőt mondhatni minél korrektebben és valósághűbben tudsz értékelni, annál jobb lesz az ajánlórendszer ajánlatainak a minősége.
Ha mondjuk van 50 db 5-ösre értékelt film, ami nálad szóbajöhetne, azzal még nincs megoldva a probléma, hogy mi legyen amit "megnézzél" következőnek, mert hiszen fontos szempont, hogy azok az 5-ös ratingek _mikor_ születtek például.
Én úgy szoktam fogalmazni, hogy az a jó ajánlórendszer, amikor a rád legjobban hasonlító userek a _jelenben_ a legnagyobb mértékben viselkednek azonosan egy olyan filmnél, amit te még nem láttál. És így azért már nagyon jól leszűkíthető az ajánlathalmaz a legjobb ajánlatra.
Én azt állítom, hogy jó ajánlórendszer nagyon jó eséllyel tippeli meg mire van szükséged. De ilyen tapasztalatokat te is szerezhetsz, hiszen nemcsak a Netflixnek van ilyen ajánlórendszere.
Azt is állítom, hogy a Netflix-verseny datasetje végtelenül speciális, mondhatni komplett "zaj" volt, végtelenül extrém esetek öszeválogatásával. A valóságban sokkal jobb RMSE-érhető el, hiszen többen vagyunk normális nézők, mint extravagáns különcök. :o) A Netflixes ajánlórendszer is olyan jó már, hogy most már fókuszba kerülhet az extrém ratingek előrejelzése is.
>>>>>>>>>
Plusz az is érdekelne, hogy az a bizonyos +10% eredmény a gyakorlatban mennyit javít a fentieken?
>>>>>>>>>
Na ezek bizony nagyon fontos alapkérdések. Az a 10% engem is szíven ütött.
Én azt gondolom, hogy lehet törekedni a legjobb ajánlat megtalálására (optimalizálási feladatként), tehát ne csak 50 legesélyesebb filmből sorsoljanak neked. A 10% javulás itt is releváns és általad is érzékelhető lehet.
Egyfelöl ennél a konkrét verseny-datasetnél nagyon nehéz volt még a Netflixes ajánlórendszeri eredményt is elérni. Ha rosszindulatú/szkeptikus vagyok akár kétségbe is vonhatom -> hiszen nem volt módom ellenőrizni a Netflixes ajánlórendszeri eredményeket, azokat kész tényként kellett elfogadnom. 10%-ot javítani meg különösen nagyon nehéz feladat.
Másfelöl, még nagyon hosszú az út most a verseny végétől(?) az ajánlórendszer javulásig, hiszen ott más szempontok is vannak: dőlnek be az újabb userek, újabb filmek, újabb ratingek, azaz távolról sem konstans az adatbázis pláne nem majd' három évig, mint volt most a verseny alatt. Nekem az rémlik, hogy a Netflix már most milliárdnyi ratinggel bír rendelkezni.
Összefoglalva, most még bőven van lehetőség az ajánlórendszerek javulására, ami javulás még akár egyedi személyi szinten is érzékelhető lehet (persze nemfeltétlen triviálisan könnyedén), de aki igazán p-r-o-f-i-t-á-l-h-a-t a tömeges méretek révén, az persze a Netflix típusú ajánlórendszerek üzemeltető/fenntartó cégek.
A felszínen a userért van minden, de a mélyben persze a profitért. ;)
misikeh[jogsértő módon félelmet keltve fotózott] ( · http://video.google.com/videoplay?docid=-8266131592631747056&hl=en 2009.08.10. 13:00:07
off, de ez hova lett?
index.hu/tudomany/kornyezet/2009/08/10/a_rendszernek_le_kell_nullazodnia/
Kint volt kb 10 percig (a link a tud. szeksönben), mire elolvastam egy másik cikk, tova is tűnt a meatrixban...
index.hu/tudomany/kornyezet/2009/08/10/a_rendszernek_le_kell_nullazodnia/
Kint volt kb 10 percig (a link a tud. szeksönben), mire elolvastam egy másik cikk, tova is tűnt a meatrixban...
tnsnames.ora 2009.08.10. 13:59:41
A cikk továbbra sem érhető el, de beszélgetni már lehet róla: ott előbb-utóbb lesz hír is a fejleményekről, bár a cikkíró ezt írta.
"Hát kedves emberek, ezt az interjút még mindig nem tudtam megjelentetni sehol, több mint két hónapja. De még próbálkozom :)"
bodoky.blog.hu/2009/05/04/a_rendszernek_le_kell_nullazodnia#c6734659
"Hát kedves emberek, ezt az interjút még mindig nem tudtam megjelentetni sehol, több mint két hónapja. De még próbálkozom :)"
bodoky.blog.hu/2009/05/04/a_rendszernek_le_kell_nullazodnia#c6734659
buzoganylaszlo · http://www.weblap.ro 2009.10.19. 11:33:03
Így kell egymillió dollárt keresni: www.weblap.ro/millio-dollaros-otlet