Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags
    1. Home
    2. 153****2211
    • Profile
    • Following 0
    • Followers 1
    • Topics 296
    • Posts 327
    • Best 187
    • Groups 0

    153****2211

    @153****2211

    248
    Reputation
    40
    Profile views
    327
    Posts
    1
    Followers
    0
    Following
    Joined Last Online

    153****2211 Unfollow Follow

    Best posts made by 153****2211

    • “Salute!” Object Detection 20年 前三章小结

      Object Detection 20年

      30140e2e-726b-43bb-a501-53e26a1b5de2-image.png
      这是19年末发表的一篇文章,里面提到的有些技术以现在眼光来看可能有些过时,但是我个人认为依然是一篇很好的启蒙时读物。倘若将里面每个知识点掰开嚼碎,一点点吸收。这有助于你对目标检测有一个系统性了解。

      第一章 目标检测的里程碑

      可以用一张很经典的图来表示目标检测的发展史
      210d164e-502b-41d8-9d5c-a7884affaee9-image.png

      1.概要

      2012年是深度学习的元年,那一年AlexNet使用卷积神经网络,打破机器学习的极限。从此开启深度学习年代。

      2.技术总结

      2014年RCNN的发布开启了目标检测的时代,然后目标检测开启三分天下的局面,一是以RCNN为代表的 two-stage detector,一是以yolo为代表的one-stage detector,最后是以ssd为代表的中间派,准确度介于两者之间。

      名称 准确度 识别速度
      RCNN 高 慢
      SSD 中 中
      YOLO 低 快

      而后几年特别是最近几年技术都是在这几个基础上发展的,但是2020年-至今,研究人员突破方向放在无先验框上,趋势朝着无监督学习上去。(仅个人观点,如有异议欢迎讨论)

      第二章

      2.1.1 传统检测器

      N. Dalal和B. Triggs [12]最初于2005年提出了定向梯度直方图(HOG)特征描述器。 HOG可被认为是其时间尺度不变特征变换[33,34]和形状上下文[35]的重要改进。为了平衡特征不变性(包括平移,缩放,照度等)和非线性(区分不同的对象类别),将HOG描述符设计为在均匀间隔的像元的密集网格上进行计算,并使用重叠的局部对比度归一化(在“块”上)以提高准确性。尽管HOG可用于检测各种对象类别,但它主要是由行人检测问题引起的。为了检测不同大小的物体,HOG检测器会多次缩放输入图像,同时保持检测窗口的大小不变。多年来,HOG检测器一直是许多对象检测器[13、14、36]和各种计算机视觉应用的重要基础。
      HOG (转至https://zhuanlan.zhihu.com/p/40960756)

      2.1.2 Milestones: CNN based Two-stage Detectors

      在2012年,世界见证了卷积神经网络的重生[40]。由于深度卷积网络能够学习图像的鲁棒(鲁棒性代表这该模型的稳定性以及扛干扰性,如果在迁移学习中还可以代表该模型的可迁移性)。有一个例子可以加深理解且高级的特征表示,因此自然而然的问题是,我们是否可以将其用于对象检测? R. Girshick等通过提出Regions with CNN features(RCNN)来检测物体,率先打破了僵局。从那时起,物体检测开始以前所未有的速度发展。
      在深度学习时代,对象检测可以分为两类:“Two-stage检测”和“One-stage检测”,其中前者将检测过程称为“从粗到精”过程,而后者则将其视为“一步完成”。
      RCNN背后的思想很简单:它始于通过selective search提取一组object proposals(object candidate boxes)[42]。 然后将每个proposal重新缩放为固定大小的图像,并输入到ImageNet上训练的CNN模型中(例如AlexNet [40])以提取特征。 最后,线性SVM分类器用于预测每个区域内对象的存在并识别对象类别.
      尽管RCNN取得了长足的进步,但它的缺点也很明显:对大量重叠的proposals(从一张图像中提取2000多个框)进行冗余特征计算会导致极慢的检测速度(使用GPU,每张图像14s)。 同年晚些时候,SPPNet 提出并克服了这个问题。
      总结:
      selective search ——> rescale proposal ——> CNN提取特征 ——> SVM分类
      参考:
      目标检测(1)Selective Search

      ————————————————
      版权声明:本文并不都是原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明,如有侵权,可联系删除。

      posted in CV领域
      153****2211
      153****2211
    • “Salute!”从零开始softmax的实现-tensorflow

      1.softmax的数学公式

      1.1softmax的公式

      在这里插入图片描述

      1.2softmax的损失函数

      softmax使用是损失函数是交叉熵(cross entropy),数学公式表现如下
      在这里插入图片描述
      也就是说,交叉熵只关心对正确类别的预测概率,因为只要其值足够大,就可以确保分类结果正确。当然,遇到一个样本有多个标签时,例如图像里含有不止一个物体时,我们并不能做这一步简化。但即便对于这种情况,交叉熵同样只关心对图像中出现的物体类别的预测概率。

      假设训练数据集的样本数为nn,交叉熵损失函数定义为
      在这里插入图片描述

      1.3小结

      总而言之,softmax是将最后一层所得到的结果,进行转换成总和为1的概率问题。

      2.softmax的python代码

      2.1 导入库

      import tensorflow as tf
      import numpy as np
      print(tf.__version__)
      

      ↑基本模块tensorflow跟numpy的导入

      from tensorflow.keras.datasets import fashion_mnist
      
      batch_size=256
      (x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
      x_train = tf.cast(x_train, tf.float32) / 255 #在进行矩阵相乘时需要float型,故强制类型转换为float型
      x_test = tf.cast(x_test,tf.float32) / 255 #在进行矩阵相乘时需要float型,故强制类型转换为float型
      train_iter = tf.data.Dataset.from_tensor_slices((x_train, y_train)).batch(batch_size)
      test_iter = tf.data.Dataset.from_tensor_slices((x_test, y_test)).batch(batch_size)
      
      

      ↑这里很好理解就是定义train 跟 test 的数据来源与类型

      num_inputs = 784
      num_outputs = 10
      W = tf.Variable(tf.random.normal(shape=(num_inputs, num_outputs), mean=0, stddev=0.01, dtype=tf.float32))
      b = tf.Variable(tf.zeros(num_outputs, dtype=tf.float32))
      

      ↑初始化模块参数,因为minst-fashion的图像都是28x28的所以作为为全连接层,就是784个节点,output就是指最后输出的10个类别的参数。

      def softmax(logits, axis=-1):
          return tf.exp(logits)/tf.reduce_sum(tf.exp(logits), axis, keepdims=True)
      
      

      ↑定义softmax的运算:为了更好理解代码就将上面公式拿过来
      在这里插入图片描述
      tf.exp(logits):是给logic进行exp运算就是log
      tf.reduce_sum()在这里插入图片描述
      在这里插入图片描述
      我们可以得知就是进行上面式子的操作

      def net(X):
          logits = tf.matmul(tf.reshape(X, shape=(-1, W.shape[0])), W) + b
          return softmax(logits)
      
      

      ↑定义模型:tf.reshape 是将X,转换成W的行数,前面的-1表示函数自动计算列数。这一步是为了消除x与w矩阵不匹配的问题。
      shape[0] = = >行数

      shape[1] = =>列数
      而tf.matmul函数就是进行X*W的矩阵运算。

      def cross_entropy(y_hat, y):
          y = tf.cast(tf.reshape(y, shape=[-1, 1]),dtype=tf.int32)
          y = tf.one_hot(y, depth=y_hat.shape[-1])
          y = tf.cast(tf.reshape(y, shape=[-1, y_hat.shape[-1]]),dtype=tf.int32)
          return -tf.math.log(tf.boolean_mask(y_hat, y)+1e-8)
      
      

      ↑定义损失函数:
      假设y=[0,2] 一行两列 y_hat=[[0.1,0.3,0.6] [0.3,0.2,0.5]] 两行三列
      第一步
      先进行数据类型的转换,转换成int类型,并且用reshape(-1,1)函数将y变成N行一列的矩阵。 y=[[0],[2]]两行一列
      第二步
      进行one_hot,首先进行depth的计算,y_hat.shape[-1]指定是列数就是3所以depth=3。式子就变成了y=th.one_hot(y,3)
      而 one_hot是返回一个张量,这里如果不好理解可以查阅该函数的解释。这里就不多介绍了
      所以y就变成一个2x1x3的矩阵,并进行了热编码为[[1,0,0][0,0,1]],==这是二维的向量==
      第三步
      shape=[-1, y_hat.shape[-1]])中y_hat.shape[-1]为3,所以最后将y变成n行3列,用我假设的矩阵的话y就是([1,0,0][0,0,1])==这是一维的向量==
      第四步
      进行计算tf.boolean_mask(y_hat, y),这里可以理解为矩阵运算,得到的结果就是([0.1][0.5]),然后再+1e-8,在进行log计算

      def accuracy(y_hat, y):
          return np.mean((tf.argmax(y_hat, axis=1) == y))
      
      

      ↑这里是进行数据预测,最后的结果与实际结果是否相吻合。简而言之那上述举得例子。y=[0,2] 一行两列 y_hat=[[0.1,0.3,0.6] [0.3,0.2,0.5]] 两行三列
      那么得到的结果就是0.5的准确率应为y_hat 的最大之因该为[2,2]。

      # 描述,对于tensorflow2中,比较的双方必须类型都是int型,所以要将输出和标签都转为int型
      def evaluate_accuracy(data_iter, net):
          acc_sum, n = 0.0, 0
          for _, (X, y) in enumerate(data_iter):
              y = tf.cast(y,dtype=tf.int64)
              acc_sum += np.sum(tf.cast(tf.argmax(net(X), axis=1), dtype=tf.int64) == y)
              n += y.shape[0]
          return acc_sum / n
      
      

      ↑这里是我们可以评价模型net在数据集data_iter上的准确率。

      #完整的训练数据集
      num_epochs, lr = 5, 0.1
      def train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, params=None, lr=None, trainer=None):
          for epoch in range(num_epochs):
              train_l_sum, train_acc_sum, n = 0.0, 0.0, 0
              for X, y in train_iter:
                  with tf.GradientTape() as tape:
                      y_hat = net(X)
                      l = tf.reduce_sum(loss(y_hat, y))
                  grads = tape.gradient(l, params)
                  if trainer is None:
                      # 如果没有传入优化器,则使用原先编写的小批量随机梯度下降
                      for i, param in enumerate(params):
                          param.assign_sub(lr * grads[i] / batch_size)
                  else:
                      # tf.keras.optimizers.SGD 直接使用是随机梯度下降 theta(t+1) = theta(t) - learning_rate * gradient
                      # 这里使用批量梯度下降,需要对梯度除以 batch_size, 对应原书代码的 trainer.step(batch_size)
                      trainer.apply_gradients(zip([grad / batch_size for grad in grads], params))  
      
                  y = tf.cast(y, dtype=tf.float32)
                  train_l_sum += l.numpy()
                  train_acc_sum += tf.reduce_sum(tf.cast(tf.argmax(y_hat, axis=1) == tf.cast(y, dtype=tf.int64), dtype=tf.int64)).numpy()
                  n += y.shape[0]
              test_acc = evaluate_accuracy(test_iter, net)
              print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f'% (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc))
      
      trainer = tf.keras.optimizers.SGD(lr)
      train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, batch_size, [W, b], lr)
      
      

      ↑

      #预测结果
      import matplotlib.pyplot as plt
      X, y = iter(test_iter).next()
      
      def get_fashion_mnist_labels(labels):
          text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat', 'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
          return [text_labels[int(i)] for i in labels]
      
      def show_fashion_mnist(images, labels):
          # 这⾥的_表示我们忽略(不使⽤)的变量
          _, figs = plt.subplots(1, len(images), figsize=(12, 12)) # 这里注意subplot 和subplots 的区别
          for f, img, lbl in zip(figs, images, labels):
              f.imshow(tf.reshape(img, shape=(28, 28)).numpy())
              f.set_title(lbl)
              f.axes.get_xaxis().set_visible(False)
              f.axes.get_yaxis().set_visible(False)
          plt.show()
      
      true_labels = get_fashion_mnist_labels(y.numpy())
      pred_labels = get_fashion_mnist_labels(tf.argmax(net(X), axis=1).numpy())
      titles = [true + '\n' + pred for true, pred in zip(true_labels, pred_labels)]
      
      show_fashion_mnist(X[0:9], titles[0:9])
      
      

      ↑

      3.softmax的keras代码

      import tensorflow as tf
      from tensorflow import keras
      fashion_mnist = keras.datasets.fashion_mnist
      (x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
      x_train = x_train / 255.0
      x_test = x_test / 255.0
      model = keras.Sequential([
          keras.layers.Flatten(input_shape=(28, 28)),
          keras.layers.Dense(10, activation=tf.nn.softmax)
      ])
      model.compile(optimizer=tf.keras.optimizers.SGD(0.1),
                    loss = 'sparse_categorical_crossentropy',
                    metrics=['accuracy'])
      
      model.fit(x_train,y_train,epochs=5,batch_size=256)
      
      test_loss, test_acc = model.evaluate(x_test, y_test)
      print('Test Acc:',test_acc)
      

      这里代码就不进行过多的叙述,用kreas这种高度集合的框架确实方便。但是这种对日后代码具体调试是极为不利的。
      这是自己很早之前写的,copy过来偷个懒

      posted in CV领域
      153****2211
      153****2211
    • Salute!CE-FPN: Enhancing Channel Information forObject Detection

      声明:该论文本人也只是结合自身理解与翻译软件进行结合,难免会囫囵吞枣或者对原词义表达的南辕北辙,这里我提议一下,对任何paper都要自身亲自结合原文去阅读一篇,以免被翻译者带偏。

      CE-FPN: Enhancing Channel Information forObject Detection
      000881e0-14d2-4cc2-8a04-edf785eb7e8b-image.png

      摘要

      作者提出一种新的特征金字塔,用于改进特征提取。开头依旧是常规的对现有的FPN结构进行缺点说教,从而引出作者的CE-FPN结构。而这里面着重提到一个概念Sub-piexl亚像素卷积,这个概念我也是第一次接触,所以直接转载别人的链接,如果不理解的可以点击链接查看一下。总得来说,受亚像素卷积的启发,作者提出了一种"亚像素跳跃"( a sub-pixel skip fusion)融合方法来实现信道增强和上采样。它取代了原来的1×1卷积和上采样,减少了信道缩减带来的信息损失。在此基础上,提出了一种子像素上下文增强模块( a sub-pixelcontext enhancement module)来提取更多的特征表示,由于子像素卷积利用了丰富的通道信息,因此优于其他上下文方法。此外,引入通道注意力引导模块来优化每个层次上的最终综合特征,只需很少的计算量就可以消除混叠效果。我们的实验表明,CE-FPN在MS Coco基准上与最先进的FPN相比获得了很好的性能。

      第一章,简介

      前面就不做过多描述,无非就是千遍一律的介绍FPN的历史。不过值得注意的就是这里作者提到几种有代表性的FPN结构,感兴趣的可以自行阅读。
      [PAFPN](S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, “Path aggregation network forinstance segmentation,” inProceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition, 2018, pp. 8759–8768.)
      [Libra R-CNN](. Pang, K. Chen, J. Shi, H. Feng, W. Ouyang, and D. Lin, “Libra r-cnn: Towards balanced learning for object detection,” inProceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019, pp. 821–830.)
      [AugFPN](C. Guo, B. Fan, Q. Zhang, S. Xiang, and C. Pan, “Augfpn: Improvingmulti-scale feature learning for object detection,” inProceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition,2020, pp. 12 595–12 604)

      另外提到了三个tips:

      • Information loss of channel reduction
        f0d486f6-5ad2-489b-bdc6-1342333dc782-image.png
        如图(a)所示,FPN的方法是采用1×1卷积层来降低输出特征图Ci的通道维数,但是同时这也丢失了通道信息,通常Ci中提取数千个通道,但是到Fi这就是有十几或者几百。(如2048到256)
        11160114-60da-42e9-9145-a9243d54eccc-image.png 73d5e751-0d94-41f4-858c-a289d186c9d9-image.png
        现有的方法是(b)(c)两种,再格外的添加模块用来增强Fi信息,但是增加额外的模块又进行复杂连接,会大大增加计算量,这也会导致信息的丢失。所以作者们就提出了(d)。
        ad0532a6-cec0-4e4c-85a3-1cde1042535b-image.png

      • Information decay during fusion
        低维度信息和高维度信息对于目标检测来说是互补的,而语义信息在自上而下的特征融合过程中则会被稀释,PAFPN和Libra R-CNN提出了创新的融合方法,以充分利用每个层次上的特征。然而,高层语义任未得到最大程度的利用。利用上下文信息是改进特征表示的一种合适方法,它避免了直接增加更深的卷积层而增加机器的计算量。

      • Aliasing effects in cross-scale fusion
        跨尺度融合和跳跃连接被广泛用于提高性能。然而,跨尺度特征映射在语义上存在差异,因此插值后的直接融合可能会造成混合效应。而繁杂的集成特征可能会对定位和识别不准。

      作者提出三大改进。

      1.受到亚像素卷积的启发,提出来一种亚像素跳跃融合方法,利用原始通道信息进行跨尺度输出。
      973eb889-f2f7-4adf-9e94-84d821af3c9c-image.png
      2.我们提出了一种亚像素上下文增强模块,用于从最高层特征图中提取和整合不同的文本信息。亚像素卷积是一种先增加低分辨率图像信道维数的上采样方法,会带来额外的计算量和不可靠性。值得注意的是,FPN 中的高级特征已经获得了足够的信道量,从而可以直接使用亚像素卷积。该方法取代了原来的1×1卷积和上采样,可以减轻信道信息损失。因此,我们扩展了原有的亚像素卷积上采样函数来融合通道信息,这不同于Carafe。
      3.我们提出了一个简单又高效的通道注意力模块,以优化各个层次上的最终特征。注意力模块只用了少量的计算量就减轻了混淆效应。我们将整个模型命名为(CE-FPN),该模型对各种基于FPN的检测器具有灵活性和通用性。
      这一段我直接贴原文吧,感觉理解不到位。94ba09df-29f5-4e6c-8211-82a8449e7531-image.png

      第二章 相关工作

      紧接着引出了,FPN的历史,FPN是一种自上而下的特征提取,经过PANet改进,添加了一种额外的自下而上的途径,以进一步增加深层中的低级信息。Libra R-cnn引入了平衡特征金字塔,融合和提炼多尺度特征要素。NAS-FPN采用神经结构搜索来学习所有跨尺度连接以达到更好的融合。EfficientDet提出了一种加权的双向FPN来进行简单快速的特征融合,AugFPN提出了一系列的FPN增强方法。(反正就是各比各的好呗)
      另外在特征增强方面,上下文信息可以促进定位和分类的执行。PSPnet利用金字塔池来提取全局各层之间的上下文。并提出一种上下文提炼的方法。同时,在各种视觉任务中,通常采用注意机制来增强特征表征。
      在上述方法的基础上,重点研究了如何减少FPN构建过程中信道衰落带来的信息损失,并对复杂集成化的层的最终特征进行了优化。

      第三章 方法与建议

      在这一部分中,我们介绍了一种信道增强特征金字塔网络(CE-FPN),以减轻信道信息损失,优化综合特性。在CE-FPN中,提出了三个组成部分:亚像素跳跃融合(SSF)、亚像素上下文增强(SCE)和信道注意引导模块(CAG)。我们将在下面对它们进行详细描述。
      ded5851c-6eaf-4798-add1-b8c642caa801-image.png

      overall

      我们将主干的输出表示为{ C2,C3,C4,C5} ,它们相对于输入图像具有{4,8,16,32}的像素。
      {F2,F3,F4}是经过1×1卷积后具有相同通道数的特征层(256)。
      特征金字塔FPN由{P2,P3,P4}自上而下生成。
      我们去掉了F5和P5的节点,它们是原始的具有语义信息的FPN的最高层特征。因为我们提出的方法有效地利用了C5的信道信息。重复特征融合不仅会造成更严重的混叠效应,而且会带来不必要的计算负担。这一过程的效果会在第四节中进行了分析。集成映射 I是通过 interpolation和 max-pooling 生成的。并且在所有最终结果{ R2,R3,R4,R5} 上独立地执行预测,这与原始 FPN 的特征金字塔相对应。

      sub-pixel skip fusion

      在FPN中,残差网络被广泛用作骨架,输出通道为{256,512,1024,2048},其中高层特征{C4,C5}包含丰富的语义信息。如图所示(a),为了提高计算效率,采用1×1卷积层来降低信道维数,造成信道信息的严重丢失。进一步研究的基于FPN的方法一般集中在{256}就是C2通道的特征金字塔上开发有效的模块,而Ci 丰富的通道信息没有得到充分利用。
      82dbe50a-0d73-44dd-bd14-5360d9e5f58a-image.png
      基于这一结果,我们希望可以开发丰富的通道特征{C4,C5}来改善所得到的特征金字塔的性能。为此,我们引入了一种直接融合方法,将低分辨率(LR)特征融合到高分辨率(HR)中,这是一种受亚像素卷积启发的上采样方法,它通过在通道维度上像素混淆来处理宽度和高度维度。像素混洗(The pixel shuffle),是指将H,W进行重新定义。
      7855f91f-79d1-4acc-911c-14cae1a5c248-image.png
      其中r表示放大比例,F使输入特征,PS(F)xyc表示坐标(x,y,c)上的输出特征像素。
      7cdc89cb-3ef3-4ccb-a3db-ff84c4e88cf2-image.png
      如(b)所示,当使用亚像素卷积作为上采样时,需要首先增加LR图像信道的维数,这带来了额外的计算。并且HR图像不准确,还需要进行额外的训练,因此FPN采用最近邻上采样以简化操作。然而,我们观察到{ C4,C5}(1024,2048)中的通道数量足以进行亚像素卷积,因此,如图©所示,
      f6196536-7ad8-49c3-a285-bdcc966c213c-image.png 我们引入了亚像素跳过融合(SSF)对LR图像直接进行上采样,而无需减少通道。SSF利用{C4,C5}丰富的信道信息,将它们合并到Fi中,描述为
      d47bf5e1-8222-4ef0-a768-49d3e34f2361-image.png
      48699766-acd3-4485-b0a2-8e9ddb043e21-image.png ca626c55-5c39-4002-9af8-f383b569e72d-image.png

      sub-pixel Context Enhancement

      在传统的FPN中,通过融合高层的信息,低层的特征地图自然地被赋予了不同的上下文信息。但是最高级别的特征只包含单个尺度的上下文信息,不能从其他特征中受益。另一方面,更高分辨率的输入图像(例如,800像素的较短尺寸)需要具有更大接收野的神经元来获取更多的语义信息来捕获大对象。为了缓解这两个问题,我们采用了集成MAP的框架,并引入了亚像素上下文增强(SCE),以利用C5上更大的接受域来挖掘更多的上下文信息。SCE的核心思想是融合大域局部信息和全局上下文信息,以生成更具区分性的特征。假设输入特征图C5的形状为2w×2h×8C,输出积分图为4w×4h×C.C为256。我们通过如图所示的并行路径执行三级上下文特征。98a7ece0-0a25-4744-83b8-ac45cee243b3-image.png
      首先,我们在C5上应用3×3卷积来提取局部信息。同时,将通道维数变换为亚像素上采样。然后采用亚像素卷积形成双尺度上采样,类似于SSF。其次,通过3 × 3最大池化将输入特征下采样到 w × h,经过1 × 1卷积层扩展信道尺寸。然后采用4 × 上采样的亚像素卷积算法。该通道为较大的感受野获得丰富的语境信息。
      第三,我们在C5上执行全局平均池化,以获取全局上下文信息。然后,将1×1×8C的全局特征压缩到1×1×C,并放大到4w×4h的大小。第一条通道和第三条通道分别提取局部和全局上下文信息。
      最后,将生成的三个特征图按映射的方式累加成图 I。SCE通过扩展三个尺度的特征表征,有效地扩大了C5的接受域,细化了 I 的表征能力。因此,FPN充分利用了最高层特征中的语义信息。为简单起见,删除了F5和P5的节点。

      posted in CV领域
      153****2211
      153****2211
    • 【2021中国华录杯·数据湖算法大赛】火热报名中,丰厚大赛奖金等你来拿!

      -----------------------------------------------

      !
      【比赛赛题】本届比赛均为定向算法赛:
      共设置
      1.语音识别
      2.特殊车辆识别
      3.自然语言处理
      4.图像摘要生成及应急五大赛道

      【大赛奖金】每个赛道15支获奖团队,奖金共计69.5万,冠军可获得“3w现金+1.8w华录未来科技园入驻券”。除赛事奖金外,优秀参赛团队还将获得入驻“易华录科技企业孵化器”机会;晋级决赛选手将获得华录集团旗下企业“人才录用直通车”资格!

      【比赛时间】2021.5.21—2021.10.17

      【报名地址】https://sourl.cn/BRBgZT

      posted in 竞赛赞助
      153****2211
      153****2211
    • 极市项目|加油站巡检算法需求(第二弹)

      ⏩ 项目一:加油站巡检算法需求⛽

      ▶ 一、背景描述
      🛢 1、项目背景:加油站客户有巡检需求,需要识别在‘加油现场’巡检业务中的四个部分内容用于管理端二次确认,分别涵盖:灭火器箱、防火毯、灭火器、灭火器压力值情况检查。

      2、项目算法要达到的目的:

      • 识别特定位置是否有正确放置灭火器箱/防火毯;

      • 灭火器箱内是否有正确放置两台灭火器;

      • 灭火器压力表指针是否指向表盘绿色正常区域;
        共计四种情况检查。(注意本项目当前能够提供的数据量较少,初步只要求demo制作)

      ▶ 二、目标描述
      1、需求边界定义:
      🔽 灭火器箱与防火毯检查——识别规定位置是否有放置灭火器箱和防火毯、防火毯是否有正确放置在灭火器箱上。
      ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬

      ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫

      🔽防火毯检查——规定位置是否摆放防火毯

      ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬

      ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫

      🔽灭火器检查——识别灭火器箱内是否有正确放置灭火器

      ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬

      ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫

      🔽灭火器压力值检查——识别灭火器压力表上的指针所在颜色区域(红、黄、绿)

      ⏬ ⏬ ⏬ ⏬ ⏬ ⏬

      ⏫ ⏫ ⏫ ⏫ ⏫ ⏫

      1、算法报警的业务逻辑:
      巡检流程为:巡检人员在‘加油现场’巡检记录的同时,通过专用防爆手持设备对对应巡检点位进行拍摄,将拍摄结果上传后:

      1)当识别到对应物品正确放置,则不报警,或反馈正常

      2)当识别到对应物品未正确放置(可能是灭火器箱内只有一个灭火器、防火毯不在灭火器箱上等)或未识别到对应物品,则产生报警。

      2、识别场景:加油站场景、禁烟禁火的仓储场景等

      3、识别对象:灭火器箱、防火毯、灭火器、灭火器压力表盘指针

      环境: 室外白天/夜间光照良好的情况。

      ▶ 三、算法内容

      1、算法输入:图片
      2、算法输入设备:专用防爆手机
      3、算法输出:图片/callback
      4、算法最大/最小识别像素:无限制
      5、算法实时性:可巡检实时识别或巡检后批量识别
      6、算法部署:云部署

      ▶ 四、数据来源:

      提供真实场景数据集

      ▶ 五、软硬件要求

      1、软件要求

      a.运行在X86架构(酷睿i系列芯片和至强系列芯片,显卡支持RTX、GTX、Tesla)

      b.需求为Linux SDK(C++实现)

      c.算法部署:支持私有化部署

      2、硬件要求

      a.英伟达显卡(默认)

      b.其他类型显卡(若非英伟达显卡,在此处填写客户提出的显卡要求)

      3、开发规范:https://github.com/ExtremeMart/dev-docs

      4、开发周期:25天

      🌐

      报名网址:极市平台

      📝 🌞

      posted in 校招社招
      153****2211
      153****2211
    • RE: 【6.18-6.24签到抽奖-已结束】2张200元代金券,请po签到截图!


      许愿!!

      posted in 福利活动
      153****2211
      153****2211
    • RE: “Salute!” Object Detection 20年 前三章小结

      @153-2211

      posted in CV领域
      153****2211
      153****2211
    • 博士申请 | 香港科技大学(广州)王林助理教授招收计算机视觉博士生


      香港科技大学是世界发展最快的大学之一,在 2021 年,科大位列 QS 世界大学排名第 34 位和泰晤士高等教育世界年轻大学排名第 3 位。在 2022 年 9 月,作为港科大新启用的校园,广州校园将不会重叠清水湾校园已提供的学科,而将重点发展交叉学科,以相互补足。广州校园的老师一部分由清水湾转聘过来,另一部分为新入职教授。这两个校区地位平等,学位证、学生待遇均保持一致。同时,与香港校区相比,广州校园政策灵活(提供双导师制、双博士学位制度),交通便利,生活舒适。目前广州校园已招收三届学生并在香港校园培养,2022 fall 是第四批招生。广州校园将开启港科大的新篇章,探索新的教育模式。

      实验室主页:
      https://addisonwang2013.github.io/vlislab/

      Addison Lin Wang (王林) 博士将于今年 12 月份加入香港科技大学广州校园,担任人工智能学域助理教授。王老师毕业于韩国科学技术院 (KAIST)(获得院级最佳博士毕业生奖)。他现在在 KAIST 视觉智能实验室从事博后研究。他的主攻方向是基于新型相机的视觉(event camera, infrared camera, 360 camera, etc.)。这些研究目前在内地及香港处于研究的最前沿,旨在打破传统视觉的局限性。他也同时研究针对视觉智能系统(自动驾驶,机器人)的深度学习方法,例如知识蒸馏,半监督,自监督学习。王老师同时也在研究基于视觉的增强现实/Metaverse 方法并致力于用于视觉智能系统。

      王老师在近三年半内以第一作者在 TPAMI (3 篇), CVPR, ICCV, TIP, AAAI, PR, RAL, ICRA 等顶尖视觉和机器人会议期刊发表共超过 10 篇文章。他与很多研究机构、人员都有广泛的合作。他曾获得 CVPR 最佳审稿人并且受邀参加 CVPR 博士论坛,同时受邀在三星,Naver Labs 等公司做技术报告。王老师的研究现在正在于华为,中兴等企业建立合作,旨在于把新型视觉,计算成像,以及 metaverse 等的研究用于实际问题中。

      导师主页:
      https://addisonwang2013.github.io/vlislab/linwang.html

      王老师是一个非常开放的人,王老师有在三个系 (机械,工业工程,计算机)学习研究的经验,非常熟悉多学科融合以及研究。他对如何突破科研瓶颈,创新,以及论文写作都有一定的见解。王老师的实验室一切以 co-work 的形式相互学习。王老师非常尊重学生的想法。王老师旨在于帮助学生成长收获,期待学生积极思考,与老师积极沟通。王老师的实验室同时也会有家的温暖。王老师会与学生成为探索新知识的朋友,用爱与包容去打造一个好的研究团队。知识的探索虽然难,但是爱与共同进步的力量可以克服研究中的一起困难。实验室以英语为主并以 seminar 的形式锻炼学生在国际舞台的发表演讲能力,帮助学生创建更好的 international mind.

      王老师现在与华为,中兴等公司打造合作的机会,学生在读期间会有很多实习机会。实验室也会提供去 Facebook AI/Reality Labs, Google, Adobe Research 等实习的机会。王老师的研究与 Facebook Reality Labs 有很多相关,有兴趣的学生可以帮忙介绍。港科大广州校园也会为学生提供去其他大学去交流访学的机会。

      除此之外,港科大广州校园采用双导师制、双博士学位制,如果你对也此感兴趣,欢迎提前联系,王老师会帮忙指导撰写研究计划以及联系第二位导师。王老师与 AI 学域熊辉教授等保持深度合作,同时与山东大学,KAIST,清华深圳院都有密切的合作。录取学生也可以选择感兴趣的教授作为第二导师进行联合指导。

      研究方向

      1. 基于新型相机的视觉(event camera, infrared camera, 360 camera, etc.);
      2. 低端视觉于计算成像用于相机性能改善(尤其是 HDR imaging, motion beblurring, SR 等);
      3. night-scene vision(用于智能系统);
      4. 3D 视觉 (depth estimation, optical flow estimation)以及 pixel-level 语义分割问题(智能系统方向);
      5. 用于视觉智能的深度学习方法(Transfer learning, semi-/self-supervised learning, GANs, few-shot learning);
      6. 对抗攻击与视觉算法的 robustness(智能系统方向);
      7. 基于是视觉的增强现实、Metaverse 研究(智能系统方向)。

      招生要求

      1. 对于新型视觉问题(以及相关深度学习问题)、基于视觉的交互,以及智能系统有想探索的好奇心。这些研究现在还处于发展期,未来前景可期;
      2. 有一定的编程基础,有主动去探索新知识的积极性;
      3. 敢于挑战自己,有爱心,有忍耐力,愿意包容并积极合作;
      4. 研究经验或者论文的要求 (至少满足一项):
        有一定的研究经验和项目经验

      作为主要作者在顶级会议或者期刊发表过论文

      在公司实习经验的学生

      1. 对于 undergraduate student、或者缺少的研究经验的同学,只要积极向学,敢于探索,也欢迎以 Research Intern 的形式加入我们研究团队;

      2. 有好的英语发表于写作基础(至少满足港科大英语招生要求)。
        薪资待遇

      3. 博士生会提供丰厚的待遇, 具体细节可以咨询王老师;

      4. 会为 Research Intern 提供充足的 funding,对于想为读博士预备的同学,也可以先考虑加入 Research Intern,研究成果可以与博士毕业联系;

      5. Research Assistant 也会提供丰厚的薪资。
        申请方式

      请发送简历,研究计划以及代表论文(若有)给王老师:addisonwang2013@gmail.com

      posted in 校招社招
      153****2211
      153****2211
    • RE: 【有奖话题NO.9】这一句话,就让炼丹师破防了?

      不会跑代码…
      你不是学计算机?

      posted in 有奖话题
      153****2211
      153****2211
    • RE: 【2张100元代金券】晒出你的昵称吧~~

      梭哈梭哈,重仓蔡神。(不构成任何有效建议😀 )

      posted in 聊一会吧
      153****2211
      153****2211

    Latest posts made by 153****2211

    • 香港城市大学赵翔宇老师招收人工智能全奖博士/联培博士/博后/RA

      香港城市大学是一所坐落于香港九龙塘的公立研究型大学。2022年QS世界大学排名第53名,QS建校未满50年最佳大学第4名,ARUW工程/技术/计算机科学香港地区第1名,泰晤士全球最国际化大学第1名。校园地处九龙塘商业区,港铁九龙塘站,背靠狮子山,眺望九龙半岛和维多利亚港。

      导师简介

      赵翔宇是香港城市大学 (CityU) 数据科学学院长聘轨助理教授、博导,深圳研究院副研究员。他目前的研究方向为人工智能、数据挖掘、机器学习及其在推荐系统(信息检索,计算广告及搜索引擎),城市计算(智慧城市和时空数据),社交网络,金融,教育,能源,健康医疗等领域的应用,以及深度强化学习、自动机器学习、可信人工智能、多模态学习等。

      他在顶级会议KDD、WWW、AAAI、IJCAI、SIGIR、ICDE、ICLR等发表论文50余篇。曾获ICDM’22和ICDM’21 Best-ranked Papers,CCF-蚂蚁科研基金,CCF-腾讯犀牛鸟基金,全球AI华人新星,Bytedance研究合作奖,Criteo研究奖,AAAI/ACM SIGAI 联合博士论文奖提名等奖项。指导团队获得多次国际级大赛特等奖、金奖、微软杰出人工智能影响力奖等。

      他多次担任顶级会议KDD、WWW、SIGIR、IJCAI中研讨会和教学讲座的组织者和演讲者,获得大量关注和广泛好评。他担任了超过100次顶级会议和期刊的(高级)程序委员或评审,和知名AI社区MLNLP (机器学习算法与自然语言处理)的创始学术委员会成员。他曾在多家中美互联网企业从事研究工作,他的算法模型在多家公司上线 (亚马逊谷歌脸书领英TikToc京东百度腾讯头条快手等),拥有和提交多项专利,并保持紧密合作关系,实验室学生有大量实习和工作机会。实验室计算资源丰富,资金充足。

      个人主页:

      https://zhaoxyai.github.io/

      招生简介

      CityU全奖博士生:计划招收多名2023年秋季入学学生,读博期间获发奖学金18500港币/月,优秀同学可申请港府奖学金。要求本科或硕士为计算机、统计、数学等理工科专业,有较强的数学和编程能力,发表过优秀论文的同学优先考虑。需要英语成绩托福79或雅思6.5。

      港府奖学金 (HKPFS):优秀同学可申请港府奖学金,奖学金26900港币/月、旅费津贴13500港币/年、免学费及校内宿舍。官方评价标准包括GPA、国奖、英语、论文、推荐信、留学/访学经历等。

      CityU联合培养博士项目:内地高校(双一流A类+国科大+南科大)准备读博/转博/博一二的同学,欢迎申请此项目。可以同时获得CityU博士学位,是留学基金委认可的海外学位,享受留学生各类福利,如人才引进政策等。学生无需支付任何费用,在CityU期间获发奖学金17500港币/月 。每年12月向所在内地学校提交申请。需要英语成绩托福79或雅思6.5,一般可在次年2月补交英语成绩。

      研资局博士后奖学金计划 (PDFS):每年提供43万港币基本工资及会议津贴,2020/1/1-2024/8/31毕业博士可以申请。

      申请方式

      xy.zhao@cityu.edu.hk (请附上你的CV,详见 https://aml-cityu.github.io/openings)

      posted in 校招社招
      153****2211
      153****2211
    • 伊利诺伊理工大学舒凯老师招收数据挖掘/机器学习/NLP方向全奖博士生

      伊利诺伊理工大学是美国研究性私立大学。该校教学团队及校友中曾先后涌现出4位诺贝尔奖得主, 1位图灵奖得主(2021年的图灵奖得主Jack Dongarra)。此外,磁记录技术之父Marvin Camras,无线电天文学先驱Grote Reber,摩托罗拉创始人Paul Galvin与手机之父Martin Cooper等也毕业于该校。校园坐落于美国第三大城市芝加哥的市区,距离中国城非常近,校园生活充满活力,交通便利,可以充分享受美国大城市的资源。

      导师简介

      舒凯 (Kai Shu) 博士于2020年入职是伊利诺伊理工大学 (Illinois Institute of Technology) 担任计算机科学系讲席助理教授。舒凯的研究方向包括但不限于数据挖掘,机器学习,自然语言处理,人工智能等领域,他于2020年在亚利桑那州立大学 (Arizona State University) 获得计算机博士学位,师从Dr. Huan Liu (ACM/IEEE/AAAI/AAAS Fellow)。他在KDD, WWW, SIGIR, WSDM, AAAI, IJCAI, NACCL, TKDE等数据挖掘/机器学习/自然语言处理/人工智能领域顶级会议和期刊发表80余篇,曾担任ASONAM 2021的PC Chair。

      他博士期间获得2020 ASU Engineering Dean’s Dissertation Award, Finalist of the 2021 BenchCouncil Distinguished Doctoral Dissertation Award等多项奖项;除此之外,他博士期间出版了多个关于Fake News的书籍。

      他教职期间获AAAI-2023 New Faculty Highlights, Cisco Research Faculty Award, Google Cloud Research Credits Award, Finalist of Facebook (Meta) Research Faculty Award等奖项。他入选百度发布的首份全球高潜力AI华人青年学者百强榜单和Aminer发布的2022年AI 2000人工智能最具影响力学者。他的Google Scholar引用(自从2018)为7475,h-index=32,i10-index=46,单篇最高引用2500(到2023年1月16日)。

      个人主页:

      http://www.cs.iit.edu/~kshu/ Google Scholar主页:

      Google Scholar:
      https://scholar.google.com/citations?user=-6bAV2cAAAAJ&hl=en

      招生简介

      舒老师研究经费充足,来源广泛。除了启动科研基金,还有美国政府机构 (NSF, DARPA, IARPA) 和工业界 (Cisco, Google) 的多项经费支持。现在可以招多个博士生,2023年Fall还没到截至日期(2023年1月31日截止),大家不要错过机会。

      申请方式

      感兴趣的学生请发送简历+成绩单至 kshu@iit.edu

      posted in 校招社招
      153****2211
      153****2211
    • 西交利物浦大学属于中外合办大学,坐标苏州,颁发全球认可的英国利物浦大学(世界大学排名Top200)博士学位证书,该证书可以在中国教育部得到认证。

      招生简介

      西交利物浦大学计算机系张杰研究组招收博士研究生1-2名,提供免除学费+6个月免费英国交流+根据学生能力的研究津贴,并全额资助多次出国参加国际会议的机会。博士研究领域:密码学,区块链及其应用,物联网及边缘计算,隐私计算等。

      导师主页:

      https://www.xjtlu.edu.cn/en/departments/academic-departments/communications-and-networking/staff/jie-zhang01

      https://scholar.google.com.hk/citations?user=NVdWSwoAAAAJ

      招生要求

      1. 学位要求:申请人应至少拥有计算机科学或相关学科的 2:1 荣誉学位(或同等学历);

      2. 英语水平:雅思6.5 小分不低于 5.5;申请人无需出示托福或雅思成绩,如果他们的第一语言是英语,或他们从以英语为教学语言的机构获得学士或硕士学位(或同等学历)。

      申请方式

      有意向者请将简历,成绩单和科研成果发送至 jie.zhang01@xjtlu.edu.cn

      春季入学申请截止时间:2023年2月1日

      posted in 校招社招
      153****2211
      153****2211
    • 新加坡科技设计大学林媚霞老师招收最优化方向全奖博士生

      新加坡科技设计大学(Singapore University of Technology and Design,英文简称SUTD,中文简称“新科大”)创立于2010年,是新加坡第四所公立大学,也是世界上第一所集设计创新于研究与工程中的大学。新科大创校校长为麻省理工学院工学院院长托马斯.L.马尼安提(Thomas L. Magnanti)教授。在创校初期,该校与美国麻省理工深度合作,尤其是在学科建设、教学管理上与麻省理工保持密切地交流与合作。新科大除了与麻省理工建立了密切的合作关系,同时也与浙江大学开展了深度合作。

      新科大作为一所领先的研究型全球性大学,其办学的目的是为了提高知识和培养有技术基础的领导者和创新者来服务社会。虽然新科大的建校时间很短,但其在国际上的专业排名上已经崭露头角。根据汤森路透旗下的学术排名机构Clarivate Analytics 2017年9月发布的全球创新报告,新加坡科技设计大学在 “通信领域全球最具影响力研究机构”中超过普林斯顿大学和卡耐基梅隆大学位列全球第五,是前十名中仅有的一所非美国的研究机构。根据2018年MIT发布的“全球前沿工程教育”报告,新加坡科技设计大学在“全球十大工程教育新兴领袖”中取得第一。此外,在计算机科学与工程中的世界一流学科排名中,新科大位列前一百行列之中。

      导师简介

      林媚霞博士目前在新加坡科技设计大学工程系统与设计学院(Engineering Systems and Design Pillar) 担任助理教授。林媚霞博士毕业于新加坡国立大学(National University of Singapore, NUS) 数学系 (Department of Mathematics)。她的主要研究方向为数据科学中的模型与算法研究,特别是机器学习,统计估计,运筹学中的大规模优化问题的理论分析,算法设计和各种应用场景。林媚霞博士的研究成果主要发表在最优化与机器学习领域的顶级期刊(如SIAM Journal on Optimization,IEEE Transactions on Signal Processing,Mathematical Programming Computation)和顶级会议(如NeurIPS)。

      个人主页:

      https://linmeixia.github.io/

      招生信息

      林媚霞博士目前招收最优化方向全奖博士生(2023年秋/2024年春)。申请要求如下:

      1. 本科或硕士为数学,统计,计算机或者相关专业,成绩优异;

      2. 有较强的编程基础(如C,C++,Python,Matlab);

      3. 在最优化或者机器学习方向有一定的研究经历,有相关科研论文者优先;

      4. 有良好的英语读写和口头沟通能力。SUTD博士入学英语大致要求:TOEFL>=90, IELTS>=6。

      博士奖学金

      1. SUTD Graduate Fellowship,2023年秋季入学申请截止时间2023年2月28日。详见:

      https://sutd.edu.sg/Admissions/Graduate/Scholarships

      1. SINGAScholarship,2024年春季入学申请截止时间约为2023年6月1日。详见:

      https://www.a-star.edu.sg/Scholarships/for-graduate-studies/singapore-international-graduate-award-singa

      申请方式

      请将英文简历及成绩单发送至 meixia_lin@sutd.edu.sg,并用英文撰写1-2页Research Proposal (非必需) 陈述已有的研究经历和感兴趣的最优化相关的研究课题。如有其它问题欢迎邮件咨询。

      posted in 校招社招
      153****2211
      153****2211
    • 格灵深瞳合肥研发中心招聘计算机视觉算法工程师

      格灵深瞳是一家行业领先的人工智能A股上市公司(股票代码:688207)。公司以“让计算机看懂世界,让AI造福人类”为愿景,专注于将先进的计算机视觉、大数据分析、人机交互和机器人技术与应用场景深度融合,提供面向智慧金融、城市管理、商业零售、体育健康、轨交运维等领域的人工智能产品及解决方案。

      公司成立于2013年,是国内计算机视觉行业和算法技术的早期探索者和实践者,并于2022年3月在上海交易所科创板挂牌上市。

      计算机视觉算法工程师

      坐标:合肥高新区创新产业园2期J2栋C座

      福利待遇

      人工智能行业富有竞争力的薪酬,此外,还包括七险一金(社会保险、补充医疗、意外保险、全额公积金)、弹性双休、午餐补贴、带薪年假、带薪病假、技术分享、多彩团建、节日惊喜,等等。

      学历要求

      硕士或者博士 (应届和历届皆可)

      专业要求

      计算机、人工智能、自动化、软件工程、电子工程、机器人等相关专业

      各算法岗岗位要求

      1. 人脸识别:有人脸识别相关的研究经验,在人脸识别相关竞赛中取得过比较好的成绩,工程能力强,对大规模分布式训练有深入的了解,或发表过相关学术论文;

      2. 动作识别:负责基于视频流和Skeleton-Based 动作识别;要求至少了解一种常用的动作识别算法,熟悉CNN,GCN网络;

      3. 目标检测:对主流目标检测算法非常熟悉,如Faster-RCNN, Mask-RCNN, Cascade RCNN,SSD, DETR等,在voc/coco等数据集上取得过较好的成绩,或发表过学术论文;

      4. 人体姿态估计:对主流的top down和bottom up的人体姿态(human pose)估计算法有深入的了解,有具体研发经验,在相关数据集或比赛中取得过领先的成绩;

      5. 3D姿态估计:负责单目、多目人体姿态估计,并应用于实际场景。要求具备扎实三维重建基础,具有一定数学矩阵计算公式推导能力,熟悉一个或多个深度学习框架,有一定模型量化部署经验;

      6. 单目深度估计:负责深度估计领域落地的研究工作,参与深度估计算法方面的前沿探索,参与推动单目监控场景下进行相关优化工作;

      7. 大规模分布式训练:负责对大规模cv/nlp/语音模型及稀疏模型的训练进行性能优化,改善模型训练效率,充分挖掘硬件特性,紧跟业内前沿,持续优化框架;熟悉一个或多个深度学习框架,熟悉分布式系统原理,数据计算机网络。

      招聘流程

      1. 邮箱投递

      2. 线上笔试

      3. 线上面试

      4. 发放Offer

      投递方式

      📪 jinghe@deepglint.com

      邮件标题/简历命名格式:姓名-岗位名称

      posted in 校招社招
      153****2211
      153****2211
    • 上海交通大学叶南阳老师招收计算机视觉/机器学习方向博士生

      上海交通大学约翰·霍普克罗夫特计算机科学中心于 2017 年 1 月正式成立,以图灵奖得主、中科院外籍院士、上海交通大学访问讲席教授 John Hopcroft 的名字命名,由他亲自担任主任。中心的使命在于创建宽松自由的国际化学术环境,招募深具潜力的青年学者,助力他们成长为计算机领域世界一流的青年学者,大幅提升我国的计算机学科水平;建立国际先进的计算机及相关交叉学科人才培养机制。

      导师简介

      I obtained PhD from University of Cambridge. My current research interests include but not limited to Out-of-Distribution Generalization, Bayesian deep learning and causal inference, solving the poor generalization performance in traditional machine learning based on the i.i.d assumption. I serve as programme committee members and reviewers for several key machine learning journals and conferences. Our lab has published several papers on top machine learning and artificial intelligence conferences in recently year, such as NeurIPS, CVPR, ICCV, AAAI, IJCAI, etc. More details for paper please refer to my homepage.

      个人主页:

      https://ynysjtu.github.io/

      图片

      招生信息

      春季学期招生,招收2023年秋季入学的博士生。招生对象为数学,计算机科学与技术,软件工程,自动化等相关专业学生。请有意愿读博的同学尽早联系,通过即可开始进入实验室学习。实验室为研究生提供多个高性能服务器平台,为学术研究提供硬件保障。实验室近年在机器学习和人工智能的顶级学术会议发表多篇顶会论文,详细论文信息参见导师主页。

      研究方向

      计算机视觉和机器学习。我们致力于从理论和算法上研究分布外泛化(Out-of-distribution Generalization)问题。传统的机器学习基于独立同分布假设(i.i.d assumption),泛化到非源域内目标时表现很差。分布外泛化能够解决这个问题,并且在无人机平台、自动驾驶、医学影像处理等应用领域具有广阔的发展前景。

      招生要求

      1. 强烈的科学探索精神;

      2. 具有良好的数学基础;

      3. 快速迭代实现的编程能力;

      4. 了解机器学习的基本知识;

      5. 较好的英文阅读和写作能力;

      6. 有计算机视觉、机器学习、深度学习相关论文发表者可加分。

      申请方式

      邮箱:ynylincoln@sjtu.edu.cn

      春季学期报名的博士生,请在2月份联系,尽快和我们开展交流。我们需要一定的时间考察申请人的技术能力和综合能力。

      posted in 校招社招
      153****2211
      153****2211
    • 美国德州大学达拉斯分校招收ML/NLP/CV等方向暑期科研实习生

      UT Dallas Ranks 1st in U.S. Among Universities Under 50 Years Old. Based on CSrankings.org, UT Dallas ranks 7th in Software Engineering, 10th in AI, 18th in Natural Language Processing, 31st in all AI areas, 40th in Computer Security. Based on US News, UT Dallas ranks 47th in Computer Engineering and 63rd in Computer Science.

      ce5decbc-2672-4e5d-8364-247eabc9e169-图片.png

      招生信息

      We invite students from all over the world to apply for our exciting research projects led by professors Xinya Du, Yapeng Tian, Yunhui Guo, Yu Xiang, and Wei Yang at UTD. The topics include adversarial/multimodal machine learning, natural language processing, security/testing for ML system, software engineering, security, computer vision and robotics. Applications are encouraged until April 15 (23:59:59pm AoE time zone) but will remain open until the positions are filled out.

      The collaborations will be mostly remote and unpaid (onsite internships can be arranged case by case). Your reward is research experience/publication and potential support for application to PhD/Masters programs. Students working with us have been accepted to graduate programs at CMU, UCSD, Purdue, UMich, UIUC, MSU, UCL, NTU and more. For some former students, see:

      http://youngwei.com/#students

      https://www.yapengtian.com/index.html#group

      https://xinyadu.github.io/advising.html

      https://yunhuiguo.github.io/

      Faculty Members

      Wei Yang

      http://youngwei.com/

      wei.yang@utdallas.edu

      Yu Xiang

      https://yuxng.github.io

      yu.xiang@utdallas.edu

      Xinya Du

      https://xinyadu.github.io/

      xinya.du@utdallas.edu

      Yapeng Tian

      http://yapengtian.com

      yapeng.tian@utdallas.edu

      Yunhui Guo

      https://yunhuiguo.github.io

      yunhui.guo@utdallas.edu

      Some awards by the advising faculties:

      Spotlight Rising Star in Data Science; Most Influential ACL Papers; Most Influential CVPR Papers; AAAI New Faculty Highlights; ACM SIGSOFT Distinguished Paper Award; NSF CAREER Award etc.

      申请方式

      Please submit your application to:

      https://docs.google.com/forms/d/e/1FAIpQLSc-gXU9Rv26B3FNDCM3TWBFIYB3T3XePIZTjPwm8qwMd-wT7w/viewform?vc=0&c=0&w=1&flr=0

      posted in 校招社招
      153****2211
      153****2211
    • 中移动金融科技有限公司招聘AI模型算法工程师

      公司简介

      中移动金融科技有限公司(简称中移金科)是中国移动的全资子公司,依托主业独特优势和资源禀赋,拓展科技金融新领域,将通信用户转化为金融用户,打造国内最大的“通信+金融”生态圈。

      AI模型算法工程师
      坐标:北京

      岗位职责

      1. 负责人脸身份认证领域算法模型研发,包括但不限于:人脸活体检测、人脸识别、人脸质量评估、人脸关键点检测、 图像加密、图像处理等方向的深度学习模型实际研发经验,具有炫彩活检研发经验者优先;

      2. 负责深度学习模型压缩、模型剪枝等研发工作,具有便携终端轻量级模型研发经验者优先;

      3. 负责跟踪上述领域的先进技术及研发工作;

      4. 负责相关算法模型的产线开发、验证、优化及维护等产线工作。

      岗位要求

      1. 计算机相关专业,大学本科毕业,硕士及以上学历者优先;

      2. 具有良好的代码能力,精通各类深度学习框架下,模型研发,熟练掌握Python、Java、C++等至少一种语言;

      3. 具备快速阅读深度学习相关论文并理解算法的能力;

      4. 针对上述人脸相关方向的深度学习建模具有3年及以上经验。

      投递方式

      邮箱: chendanxiads@chinamobile.com

      邮件主题/简历命名格式:姓名-应聘岗位

      posted in 校招社招
      153****2211
      153****2211
    • 山东大学闵哲教授招聘智能手术机器人与医学图像处理方向博士后

      学校简介

      山东大学是坐落于“泉城”济南的一所 “985” “211”教育部直属全国重点大学。2017年9月,山东大学入选国家“双一流”世界一流大学建设高校(A类)名单。学校总占地面积8000余亩,形成了一校三地(济南、威海、青岛)的办学格局,是中国目前学科门类最齐全的大学之一,在综合性大学中具有代表性,拥有博士学位授权一级学科44个,博士学位授权二级学科1个,硕士学位授权一级学科51个,本科招生专业93个,博士后科研流动站42个,涵盖除军事学以外的所有学科门类。学校现有在校生近7万人,专任教师4600余人,其中,中国科学院和工程院院士(含双聘)21人,长江学者特聘教授42人、长江青年13人,国家杰出青年科学基金获得者55人、优秀青年科学基金获得者42人,国家特支计划领军人才32人、青年拔尖人才16人,国家百千万人才工程入选者39人;国家级各类平台基地26个,教育部人文社会科学重点研究基地4个,部委级平台51个,另有大批省级重点实验室和工程技术研究中心;拥有多家直属附属医院;与30多个国家和地区的200余所学校签署了校际合作协议。

      导师简介

      闵哲,即将于2023年春季入职山东大学,教授、博士生导师,国家优青(海外),山东大学杰出中青年学者(第一层次)。2014年于山东大学控制科学与工程学院获学士学位,2019年获得香港中文大学电子工程博士学位(导师孟庆虎教授,加拿大工程院院士)。2019年-2020年获香港中文大学工学院研究奖学金计划资助,在香港中文大学进行博士后研究。2020年-2022年在伦敦大学学院 Wellcome / EPSRC 介入和外科科学中心 (WEISS)担任研究员。近五年,发表论文40余篇,其中以第一作者(含共一)发表期刊论文15篇,包括IEEE Trans. Automation Science and Engineering 、 IEEE Trans. Fuzzy Systems 、 IEEE Trans. Medical Robotics and Bionics 、 Robotics and Automation Letters 等, 会议论文17篇,包括机器人领域顶级会议ICRA (5 篇)、 IROS (4 篇), 医学图像处理领域顶级会议MICCAI 、ISBI等。现担任Robotics and Automation Letters 期刊副编辑。主要研究方向包括手术机器人、手术导航,医学图像、点云配准,三维视觉、深度学习,MRI中前列腺癌自动检测及分割等。

      个人主页:

      https://zhemincuhk.wixsite.com/minzhe

      招聘信息

      现因科研工作需要,课题组计划招聘智能手术机器人及医学图像处理方向博士后多名。

      职位简介

      山东大学博士后,特别资助类基本年薪30万以上,重点资助类基本年薪20万以上,符合条件的博士后,济南市给予每人每月5000元补贴,出站后给予最高25万元留济补贴。学校为中国籍博士后按照在职教师同等标准缴纳社会保险和住房公积金,学校在洪家楼校区和千佛山校区提供基础设施完备齐全的博士后公寓供优惠租住, 并为博士后子女提供济南市最优质的基础教育资源。特别资助类博士后期满达到培养要求可转聘相关学科教师岗位,也可参与齐鲁青年学者等青年人才项目的选拔;重点资助类博士后期满考核达到要求者可根据各单位需求参加相关岗位招聘。PI积极鼓励并全方位协助博士后工作期间申请基金,博士后出站后PI全力支持其申请学院相关教师职位(事业编制)。课题组与国内外一流大学如香港中文大学、伦敦大学学院等保持长期良好合作关系,你将有机会与手术机器人及医学图像处理等方面的顶尖专家合作。

      岗位要求

      1. 课题组主要从事智能手术机器人,医学图像/点云配准,深度学习,三维视觉,医学图像分割等方面的研究工作, 课题组欢迎有机器人、计算机、医学图像处理、控制、电子信息、生物医学工程以及机械工程等相关学术背景的博士加入。博士后入职后将和PI讨论确定你感兴趣或擅长的学术课题,聘期内你将以进行相关前沿学术研究和发表高质量期刊及会议论文为主要工作内容和目标。其他要求如下:

      2. 具有良好的政治素质、道德修养,身心健康;

      3. 近3年或即将在国内外高水平大学或科研机构获得博士学位,博士期间研究成果突出,年龄不超过35周岁;

      4. 有较强的科研能力和良好的学术研究潜力;

      5. 在山东大学连续从事博士后研究工作不少于21个月。

      联系方式

      感兴趣的同学,请将以下资料发至 z.min@ucl.ac.uk, 会尽快安排线上面试:

      个人简历,包括学习和工作经历,发表文章列表等;

      2篇代表作论文全文。

      posted in 校招社招
      153****2211
      153****2211
    • 阿里达摩院城市大脑实验室招聘三维计算方向研究型实习生

      阿里巴巴达摩院城市大脑实验室三维计算方向招聘研究型实习生。团队专注于围绕三维视觉、图形学、遥感测绘等技术,研究大规模城市场景中的三维分析、计算和渲染中的热点问题,解决城市交通、平安、市政等领域的实际问题。

      实验室主页:
      https://damo.alibaba.com/labs/city-brain

      三维计算方向研究型实习生
      坐标:阿里云云谷园区(杭州)

      岗位职责

      1. 研究3D场景定位、匹配、重建、视觉分析,以及三维数据联合分析计算等方面的前沿问题,发表原创性工作,包括高水平论文和技术专利;

      2. 结合实际应用场景,协助团队将最新算法和研究成果进行转化,协助前沿技术在业务场景中落地。

      岗位要求

      1. 计算机、数学、电子信息工程、遥感测绘等相关专业博士研究生优先;

      2. 6个月有效实习时间,能长期实习和合作的同学优先;

      3. 对以下至少一个领域有深入研究:三维重建、SLAM、多传感器标定、深度估计、几何分析与处理、三维图形渲染、NeRF等相关领域;

      4. 有代表性项目成果或论文,在国际顶级会议、期刊上发表过论文的同学优先;

      5. 有良好的学习能力和研究习惯,优秀的沟通能力,对新事物保好奇心。

      投递方式

      邮箱: lory.gjh@alibaba-inc.com

      邮件标题/简历命名格式:姓名-岗位名称

      posted in 校招社招
      153****2211
      153****2211