觉得人机交互孩子跟机具上犇们眼中之人头肉总括依然要命不一样的www.888000ff.com,迁移学习专题分享

扣押小说看出鸡皮疙瘩是如出一辙项大掉价的政工,但这个被人口第一不佳看以为感动兴奋之研商,每一天给几单月将来,逐渐麻痹又为人口看心痛。一先导只是怀恋管自己的记和那么份兴奋以重新好之格式保存一下,但写了后受各类亲友同学圈,发现我们看了还兴索然。
各国一样首随笔都冲很多先行者之做事,每一样首随想还发出个其它萌点(contribution)。假使疏忽那个萌点,就会师发现就首著作与前边的干活并从未分。出现在这里的随笔,里面的萌点都曾经经击中了我。
如果没相关背景知识和读论文的打算,还是不要浪费时间了。

导读

夜晚晃天涯论坛看到大神写的《人肉总括》,觉得人机交互孩子及机具上犇们眼中之丁肉总计还是好不平等的,于是决定于睡眠前写了这篇小说。

ACM CIKM 2017咸称是The 26th ACM International Conference on Information
and Knowledge
Management,是国际统计机学会(ACM)主办的数据库、知识管理、音信寻找领域的要学术会议。

处理器要化解之题目由电脑,人脑要缓解的问题由人脑。

参会归来后,小编邀请了参会的同班和各位读者们第一时间分享了CIKM的参会感受。在连接下的CIKM系列分享着,你拿会看到:CIKM最佳杂文分享,Network
Embedding专题和迁移学习专题。本篇著作是CIKM系列分享的老三篇:CIKM
迁移学习专题分享。(CIKM其他一体系分享要参见本周次、周三的推送。)

以此是都的human computing的定义,比如最知名的
reCAPTCHA。可是随着supervised
learning的隆起,现在脑子有了额外的职责: 咋样带电脑解决问题。

Transfer learning (迁移学习,以下简称TL),有时也号称domain
adaptation,是机上主流的技艺之一。TL的核心思想是由一个生出好多号数据的自领域里学习有学问来提携一个标明数据不多之对象领域。TL在工业界有好老的需,因为大气新的运场景不断涌现。传统的机器上要针对每个现象积累大量训多少,这将相会吃大量底人力和物力。如果大家能够应用好现有的训多少去帮学习新的意况的读任务将会大大收缩标注的资源。香江体育大学教书、人工智能与数码挖掘专家杨强于TL领域有特别酷的献,这一次他的CIKM2017
keynote就是关于TL怎么与近几年大火的DL(深度上)结合的。

Supervised learning is the machine learning task of inferring a
function from labeled training data.

值得一提的凡,复旦的讲解吴恩达(安德鲁Ng)认为生一个机械上成功之动将凡由于TL来教的:「TL will be the next
driver of ML sucess」。

《人肉统计》
中研商的,由人肉(crowd)标注有数被机器来学习,是无与伦比广泛的得到labeled
training data的措施。

Why TL is hard?
TL的绝要命挑衅是何许学习出源领域及对象领域并之knowledge(知识),这些knowledge需要具备异常好的园地的适应性。

倘有关crowd的定义,我然而喜欢 Jeffrey P.
Bigham

的版本。

普普通通来说有以下四类TL算法:

the crowd is a dynamic pool of possibly anonymous workers of varying
reliability that can be recruited on-demand.

样本迁移(Instance based TL)

由此什么为匪因谱的人口来开靠谱的生活,不丰盛信任crowd,又使依赖crowd,最后所以廉价的多少来堆放出质量。钱花得有些,人有差不多未借助于谱,活来多麻烦,质地暴发多胜,感觉是人肉总结各类玩法极其广泛的衡量标准。

这边要以源域中找到与目的域相似的数量,然后调整之数的权重在同目的域混合磨练。那里的使是,源域和目的域可能发一些重叠,找来那么些重叠的有可以扶持学习目标域。下只例子就是找到源域的例证3来赞助目的域的上学。这些点子相比较简单,但是不切合源域与目的域分布不相同的景观。

《人肉总计》里干了Microsoft
COCO
和 Feifei Li的
ImageNet
因为和ImageNet的几乎独作者共事,也听她们讲过因为高昂的题目而望洋兴叹凭界定地扩大下。总括机视觉的标三独品种,classification,
detection,
localization,价钱一样比同贵,操作一样比同难。同时以保证无因谱的人口能标注有乘谱的结果,所以标注里面有很多复,要几人的标号结果统一才会晤给受。另一方面近年更进一步火之吃水上对标注数据的需吗尤为深,标注单价便宜也架不停歇多少多。

特征迁移(Feature based TL)

比叫这般大面积的数据标注,和HCI相关的品种范围小多倒再幽默。大约几百块及几千片钱的budget,被大牛们变着法儿玩出各样花样。

此地要源域和目标域有一部分交叉特征,通过炫耀可以管源域和目的域放到相同的上空,在此新的上空里还举办传统的机器上。这么些优点是措施较通用,效果也没错,不过特征映射相比较难,容易了拟合。下图1即使是得起零星栽档次的狗里面抽象出狗的有的特征,用来增援对象领域的学。

Active learning: 怎么用机器上挑来大锅粥中的老鼠屎?

www.888000ff.com 1

beat_the_machine_2011.png

Beat the Machine: Challenging Workers to Find the Unknown
Unknowns
,
这是 aaai 二〇一一年之一律篇短文,探究之凡何等用人口肉总计协理“hate speech
detection”。第一赖看这首杂文的时,看得我热泪盈眶(你当我是浮夸吧,
夸张只因我很怕
)。作者文笔也好,杂文写得与诗篇一样。

We don’t know what we don’t know.

机器并不知道他什么日期会识别错误。识别错误并无永远有在边界处,很多时候预测confidence
score很高,但尚是蹭了。

重临这首杂文,里面优雅地描述了于大锅粥里挑老鼠屎 (互联网中筛选爆发“hate
speech detection”)
的故事。大锅粥里可能发老鼠屎,甚至只发同样粒。尽管不失挑,这么多口吃总是会有人中奖,所以只能挑。

A supervised learning algorithm analyzes the training data and
produces an inferred function, which can be used for mapping new
examples.

机要表现了丰硕多的老鼠屎和饭粒,才会明了老鼠屎和饭粒长得无极端一致跟乌长得不等同。米粒易得可老鼠屎难求。假若至少要扣押罢100粒老鼠屎才可以锻炼有足足代表老鼠屎这一个群体模型,这样传统的计得烧100锅子有老鼠屎嫌疑的稀饭才能够存足老鼠屎。

顿时篇小说就提议了一个新的方。他们事先练习出一个模子在网络及,然后被crowd主动寻找数据来调戏。相比机器,我们总是有各种措施找到各类老鼠屎的,就如怎么为忘怀不了有1024网站的地方。我们先导相会积极交一些增长相特别明确的老鼠屎和饭粒,要是现有的型能轻轻松松识别,participant就将不至钱。实验鼓励大家找找有含蓄点的例证:
虽然现有的模子识别错误了,participant就得到钱。如果现有的范特别自信地辨认错了(unknown
unknown),participant就能用到大半几加倍的钱。经过这么几轱辘过后,收集起来的老鼠屎就越周全。

其余一面,找错误案例之总人口以品尝得经过遭到,也会见意识现有模型的局限性,就比如当年我们发现绿坝其实就是是依靠识别褐色来甄别色情图片。当participant不截至地积极交这些瞄准 局限性
错误的例子,模型呢会师逐年学习这么些规则,逐渐弥补了这个局限性。这为是
active learning 的老梗,快译通点读机,哪儿不会师硌哪。

范迁移(Parameter based TL)

Game-like framework: You can you up, no can no bb.

Find It If You Can: A Game for Modeling Different Types of Web Search
Success Using Interaction
Data.

是sigir 二〇一一年的best paper。 探讨之是一个特别接地气的题目:
为何有些人找引擎用的好,什么都能找到?这片作品发现如在探寻过程遭到点错链接少进坑里,可能就是再为暴发无来了。(又是自家特别爱的作品,为何自己就是描写不闹这么精美到为人激动的杂谈。)

眼看篇稿子为筹划了一个专程经典的实验

叫参预者一个题目及一个先河query,让参加者尽可能快得经过搜寻引擎找到答案。找得越来越快更规范,得到的嘉奖呢进一步多。

试行的问题莫过于都并无麻烦,不过因为生角之义,仍旧特别易分出高低玩家。

1. 新ipad上有几个dead pixel就可以去apple store无条件更换?
2. 从a地去b地需要转车若干次,每个车运营时间不一样,最晚需要几点前出发?
3. 美国历史上最严重的干旱是哪一次?
........

每当是实验里,收集了汪洋底网页跳反音讯及用户搜索query的变型过程,以及最终找到结果的准确度和花的流年。

www.888000ff.com 2

State transition probabilities estimated for users with HIGH and LOW
search success ratings. The transition probabilities are indicated by
the line weight; transitions with probabilities of less than 0.1 are not
shown.

生通晓发现,有些链接就是跟通货膨胀主席同,引导大家上迈进。也发头猪队友链接,就..呵..了。

切莫是特别喜game-like
study,总觉得有剥削crowd的猜疑。有相同潮走类似之study,刚好是饭点,约了人赶在去就餐。一个童鞋因为找不至答案怎么为无甘于放任,饿了我一半时,才找到答案
-_-。

自身无是以胜负,我就是是认真。

那边平常是拿一个世界磨练好的模型用到新的圈子,这么些时或要新的世界的范本就较少。再有的图纸的归类场景,我们用imagenet练习好之模子来finetune,平时finetune最终几层即好直达对的听从。这多少个点子可以丰裕利用模型中的相似性,可是关键问题是匪易于流失。

Realtime Crowdsourcing: 人力siri

记siri刚出去的时,美利坚合众国即使时有发生媒体开玩笑,其实你们不知道,apple在印度时有发生一个call
center,专门handle你们这一个口无聊的”who are you?”。当时就想,你以为call
center那么好建么?你们感受过天向114数码百事通么?先播音乐,再播人工广告,折腾7,8分钟,然后…….然后若即便挂机了。

盘这么一个call
center比开发使麻烦多了,伟大的人机交互科学家等到底有没有暴发研讨过此问题?一搜google……bravo
hci research! Realtime Crowdsourcing.

crowd sourcing本身并无流行,web2.0一时几乎每家都沾点这么些,Yelp,
点评,知乎等等之类的仍能算是上。不过将crowd sourcing做到real
time就需要想像力了。想像一下果壳网上领取个问题,3秒内即暴发10只1000配之衷心回答(丢出骨头给大狼狗的即视感,收不到专栏邀请,黑泥不犹豫)。开端提到的
Jeffrey P.
Bigham

就是此道大牛,因为real
time没穿中本身之萌点,感兴趣的可以协调失去网上搜。戳中本人萌点的是大牛在化解完real
time将来踏上的同等段落新旅程。

Chorus: Letting the Crowd Speak with One
Voice

如若真暴发诸如此类一个call
center存在,如若发生充分的人头,来来往往,延迟也非会见是题材。不过假设对话过程中,因为大家都不可靠。在此之前的口撩挑子,怎样将工作交接给下一个同桌?顺利接力的还要,还免受调戏siri的总人口备感其实乃的前戏已经还浪费了。

钻探大神都曾倒得这么远了,觉得如故大感动之,这将尼玛人工智能,最牛b的“人工”智能已经闹矣….所以若是管罪犯都放call
center, 赐予披甲人为奴,
世世代代。。。不公正,没人权。默默收于了这多少个想法,如故为代码来开奴隶吧。

直到……
前面几乎天看到
BeMyEyes,不要钱吗可以将当下从为喜欢及时地做了。。。

看得见的人头经过手机录像头帮助押无显示底口。最简易一个例就是是牛奶过期,盲人很不便通过气味知道,盲人可以经过手机视频头拍视频和常人互换,正常人告诉盲人具体日子。诸如此类等等。

www.888000ff.com 3

BeMyEyes

42k sighted, 512 blind, 我非会合告知你自我刷了同一到才起同一浅机遇与丁说: “
莫用谢,我受雷锋

哪位说crowd
computing要花钱的?我才免使钱,我一旦账户里的多少红花,因为自身是红领巾!

论及迁移(Relation based TL)

Everywhere: Mobile Lockscreen

Slide to X: unlocking the potential of smartphone
unlocking

老是解锁时,顺手标注个数据。(P.S. 乱入:
解手的时候,顺锁标注个数据。南方人的冷笑话。
)解锁时得划1分米,2毫米,3分米,顺手就将接纳吃开了。

www.888000ff.com 4

The Slide to X interface. Left shows the three parts to the unlock
screen: a clock, the question with an optional image, and a slide to
unlock widget. Right shows three possible variations of the slide to
unlock widget: multiple choice answers, a Likert scale, and a rating
bar.

传说手机用户每一日解锁手机10-200潮(想想地铁里这一个不截止拿动手机破个锁再度推广回兜里的孩子,觉得仍然因谱的),然后是世界上每一日生130亿不好解锁动作,假诺老是解锁手势移动三分米,手指一上活动390,000
km , 地球到嫦娥。天天……香飘飘….

Twitch Crowdsourcing: Crowd Contributions in Short Bursts of
Time

斯小看似,把耗时专程少的标号工作分离出来,用我们之年华碎片来好。

此而源域和目标域是相似之,可以用源域学到的局部逻辑关系用到目的域。

哪个说标注数据只好标注结果?

最后一节献给偶像。

Flock:Hybrid Crowd-Machine Learning
Classifiers

CSCW 2015,这是近来盼最有想像力的人数肉统计工作了。平素知道大神 Michael
S. Bernstein

很睿智,但因为方向不同,蝼蚁傲娇地维持正骨气。下午读了这首作品,直接把笔者划入偶像行列,俘获蝼蚁心。

章最美的触发在不是受人失去标注结果,而是去标注特征。想标注什么标号什么,想假设什么特色选什么特色。给了crowd自由去摘特征,提取特征。而在这前面选用特征跟提取特征因为做事之重复性,一直于看唯有经过编程才可以落实。其实若人大半,人肉提取也是卓有效能的,有种
人列总计机
的即视感。

以随想中提到的一个事例,让丁认识别视频中之丁是否在撒谎?我们纷纷开首发表从
《Lie To
Me》里面看到底有些知识,撒谎的人数眼忽闪得快,撒谎的人头逃眼神接触,撒谎的人口脸上会抖动,….
看到这么些feature
proposal的上,觉得这是一旦逼疯工程师的音频。识别个脸的角度还时有暴发或,那尼玛怎么分辨撒谎的食指逃眼神接触。这篇稿子的做法就是是,让丁手工标注在视频中目的的眸子是不是眨的特别快,有没有出规避眼神接触,脸颊有没发震动,….
之后再行就此这一个 feature 和 labeled data
训练模型。最终发现经过这样的得到判断比人们直接判断更加可靠,那样好像可以比直觉更好地规定feature的权重。

事实上,文中Machine learning fast
prototyping的story并无专门感动自己,最感动自己的尚是 这是 我看出的第一首
一定程度及解决了 “democratizing machine learning”
的杂文。现在唯有数学家和工程师于嬉戏机上,什么时可以为老百姓为投入到机械上着错过,而非是永恒给你们进行蝼蚁标注数据,这才是解放全世界。

目前随着DL(深度上)的暑,越来越多的钻研始于关注DL和TL的成。深度上,也被称作representation
learning,是个老有效之feature
representation方法。所以DL和TL的咬合很当然之是于feature based
TL的底子及的。上边我们会晤要讲述一下立马几像样工作:supervised TL,
unsupervised TL,和Transitive Transfer Learning。

总结

最终国际惯例,结尾就是客气的时。我是只外行,从来不曾混了cscw,
只是胡七八软爱看杂文。

Supervised TL: Feature learning

[Deep Adaptation Networks (DAN) Long et al. 2015]
那个杂谈呈现了一个fully-shared的TL模型,也是无限常用之均等种TL模型,基本idea是用一个NN学一个shared
representation,然后对来领域以及目的领域各自磨练一个分类器来学习各自的label。他们还指出了一个MK-MMD来上学最终一重叠的domain
difference。全部布局如下:

[Yosinski, Jason, et al. “How transferable are features in deep neural
networks?.”NIPS. 2014.]
这篇稿子详细的剖析了于DL来说,哪些特征是可transfer的,哪些特点是不可以transfer的。基本的idea是,对于DL来说,底层学习的凡一对通用或者基础之特色,高层学的特色相比较高级,抽象,平时来说更高层学到之消息更是与domain相关。所以对DL来说,我们常常将脚的特征share,最后的几乎重合的特点分开学。那么些与点讲的fully-shared
TL模型的笔触是一模一样的。

Unsupervised Deep TL

霎时仿佛情势而没有对象领域的标注。这里需要优化的是缘于领域的loss(有标注)和目标领域的反差(目标领域和来源领域的别),然后将自领域的型直接用在对象领域。全部的优化目的如下:

设想domain loss常用的章程是算domain间的相似度,有以下几单干活:

除此以外,也可就此一个domain
discrimninator去分别不同domains,同时用adversarial loss去念一个common
features。详见即几乎独干活: [Ganinetal.2015, Tzengetal.2015, Liu and
Tuzel2016, Tzeng et al.2017]. 还有同栽是build一个reconstruction loss,
极度给加了一个autoencoder,详见[Ghifaryet al. 2016,Bousmaliset
al.2016]。

Transitive Transfer Learning

Transitive TL
(传递性迁移学习)是因,假若个别独domain之间一旦隔得无比远,那么我们尽管栽一些intermediate
domains,一步步举行动迁。传统迁移学习就好比是踩在同等片石过江,传递迁移学习就好比是踩在连连的星星块石头。更进一步,远领域迁移学习Distant
domain transfer
learning,这便好比是踩在千家万户石块过河。传统迁移学习就来星星点点只世界充足相似才可就,而当半独世界不一般时,传递迁移学习也可以运用处于这半单世界内的多世界,将知识传递式的好搬迁。

[Distant Domain TL, Ben Tan, et al., AAAI 2017]
这篇稿子核心的idea就是透过reconstruction
loss来摘取来好之source和intermediate data,然后将source, intermediate,
target三独领域的数据合起来用一个shared的范来拟合结果。这里的reconstruction是经autoencoder来开的。Instance
selection loss:

这是instance selection需要优化的loss,其中:

        v是binary的,表示该多少有无发出吃选中。

        第一码与次起表示的凡选中的source和intermediate数据的reconstruction
loss。

        第三项是target的reconstruction loss。

        最终一码是为着是的挑的source和intermediate数据越多越好,具体总结公式如下。

Incorporation of Side Information:
通过J1可以选出好之source和intermediate数据,然后reconstruction没有考虑source和target的labels,所以接纳J2来测算这有的loss。

        第一件是source data的classification loss,第二件是target的。

        第三宗是intermediate的,由于当时片尚无label,第三项是为此来选出高置信度的intermediate
data。

说到底J1同J2方可经block coordinate descent
(BCD)来优化,简单的话就是是连重复下面两步:

        fix v,用BP优化模型参数。

        fix模型参数,优化v。

型的框架如下:

作品来源: 蚂蚁金服科技

相关文章