Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags
    1. Home
    2. 153****2211
    • Profile
    • Following 0
    • Followers 1
    • Topics 313
    • Posts 344
    • Best 187
    • Groups 0

    153****2211

    @153****2211

    248
    Reputation
    42
    Profile views
    344
    Posts
    1
    Followers
    0
    Following
    Joined Last Online

    153****2211 Unfollow Follow

    Best posts made by 153****2211

    • “Salute!” Object Detection 20年 前三章小结

      Object Detection 20年

      30140e2e-726b-43bb-a501-53e26a1b5de2-image.png
      这是19年末发表的一篇文章,里面提到的有些技术以现在眼光来看可能有些过时,但是我个人认为依然是一篇很好的启蒙时读物。倘若将里面每个知识点掰开嚼碎,一点点吸收。这有助于你对目标检测有一个系统性了解。

      第一章 目标检测的里程碑

      可以用一张很经典的图来表示目标检测的发展史
      210d164e-502b-41d8-9d5c-a7884affaee9-image.png

      1.概要

      2012年是深度学习的元年,那一年AlexNet使用卷积神经网络,打破机器学习的极限。从此开启深度学习年代。

      2.技术总结

      2014年RCNN的发布开启了目标检测的时代,然后目标检测开启三分天下的局面,一是以RCNN为代表的 two-stage detector,一是以yolo为代表的one-stage detector,最后是以ssd为代表的中间派,准确度介于两者之间。

      名称 准确度 识别速度
      RCNN 高 慢
      SSD 中 中
      YOLO 低 快

      而后几年特别是最近几年技术都是在这几个基础上发展的,但是2020年-至今,研究人员突破方向放在无先验框上,趋势朝着无监督学习上去。(仅个人观点,如有异议欢迎讨论)

      第二章

      2.1.1 传统检测器

      N. Dalal和B. Triggs [12]最初于2005年提出了定向梯度直方图(HOG)特征描述器。 HOG可被认为是其时间尺度不变特征变换[33,34]和形状上下文[35]的重要改进。为了平衡特征不变性(包括平移,缩放,照度等)和非线性(区分不同的对象类别),将HOG描述符设计为在均匀间隔的像元的密集网格上进行计算,并使用重叠的局部对比度归一化(在“块”上)以提高准确性。尽管HOG可用于检测各种对象类别,但它主要是由行人检测问题引起的。为了检测不同大小的物体,HOG检测器会多次缩放输入图像,同时保持检测窗口的大小不变。多年来,HOG检测器一直是许多对象检测器[13、14、36]和各种计算机视觉应用的重要基础。
      HOG (转至https://zhuanlan.zhihu.com/p/40960756)

      2.1.2 Milestones: CNN based Two-stage Detectors

      在2012年,世界见证了卷积神经网络的重生[40]。由于深度卷积网络能够学习图像的鲁棒(鲁棒性代表这该模型的稳定性以及扛干扰性,如果在迁移学习中还可以代表该模型的可迁移性)。有一个例子可以加深理解且高级的特征表示,因此自然而然的问题是,我们是否可以将其用于对象检测? R. Girshick等通过提出Regions with CNN features(RCNN)来检测物体,率先打破了僵局。从那时起,物体检测开始以前所未有的速度发展。
      在深度学习时代,对象检测可以分为两类:“Two-stage检测”和“One-stage检测”,其中前者将检测过程称为“从粗到精”过程,而后者则将其视为“一步完成”。
      RCNN背后的思想很简单:它始于通过selective search提取一组object proposals(object candidate boxes)[42]。 然后将每个proposal重新缩放为固定大小的图像,并输入到ImageNet上训练的CNN模型中(例如AlexNet [40])以提取特征。 最后,线性SVM分类器用于预测每个区域内对象的存在并识别对象类别.
      尽管RCNN取得了长足的进步,但它的缺点也很明显:对大量重叠的proposals(从一张图像中提取2000多个框)进行冗余特征计算会导致极慢的检测速度(使用GPU,每张图像14s)。 同年晚些时候,SPPNet 提出并克服了这个问题。
      总结:
      selective search ——> rescale proposal ——> CNN提取特征 ——> SVM分类
      参考:
      目标检测(1)Selective Search

      ————————————————
      版权声明:本文并不都是原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明,如有侵权,可联系删除。

      posted in CV领域
      153****2211
      153****2211
    • “Salute!”从零开始softmax的实现-tensorflow

      1.softmax的数学公式

      1.1softmax的公式

      在这里插入图片描述

      1.2softmax的损失函数

      softmax使用是损失函数是交叉熵(cross entropy),数学公式表现如下
      在这里插入图片描述
      也就是说,交叉熵只关心对正确类别的预测概率,因为只要其值足够大,就可以确保分类结果正确。当然,遇到一个样本有多个标签时,例如图像里含有不止一个物体时,我们并不能做这一步简化。但即便对于这种情况,交叉熵同样只关心对图像中出现的物体类别的预测概率。

      假设训练数据集的样本数为nn,交叉熵损失函数定义为
      在这里插入图片描述

      1.3小结

      总而言之,softmax是将最后一层所得到的结果,进行转换成总和为1的概率问题。

      2.softmax的python代码

      2.1 导入库

      import tensorflow as tf
      import numpy as np
      print(tf.__version__)
      

      ↑基本模块tensorflow跟numpy的导入

      from tensorflow.keras.datasets import fashion_mnist
      
      batch_size=256
      (x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
      x_train = tf.cast(x_train, tf.float32) / 255 #在进行矩阵相乘时需要float型,故强制类型转换为float型
      x_test = tf.cast(x_test,tf.float32) / 255 #在进行矩阵相乘时需要float型,故强制类型转换为float型
      train_iter = tf.data.Dataset.from_tensor_slices((x_train, y_train)).batch(batch_size)
      test_iter = tf.data.Dataset.from_tensor_slices((x_test, y_test)).batch(batch_size)
      
      

      ↑这里很好理解就是定义train 跟 test 的数据来源与类型

      num_inputs = 784
      num_outputs = 10
      W = tf.Variable(tf.random.normal(shape=(num_inputs, num_outputs), mean=0, stddev=0.01, dtype=tf.float32))
      b = tf.Variable(tf.zeros(num_outputs, dtype=tf.float32))
      

      ↑初始化模块参数,因为minst-fashion的图像都是28x28的所以作为为全连接层,就是784个节点,output就是指最后输出的10个类别的参数。

      def softmax(logits, axis=-1):
          return tf.exp(logits)/tf.reduce_sum(tf.exp(logits), axis, keepdims=True)
      
      

      ↑定义softmax的运算:为了更好理解代码就将上面公式拿过来
      在这里插入图片描述
      tf.exp(logits):是给logic进行exp运算就是log
      tf.reduce_sum()在这里插入图片描述
      在这里插入图片描述
      我们可以得知就是进行上面式子的操作

      def net(X):
          logits = tf.matmul(tf.reshape(X, shape=(-1, W.shape[0])), W) + b
          return softmax(logits)
      
      

      ↑定义模型:tf.reshape 是将X,转换成W的行数,前面的-1表示函数自动计算列数。这一步是为了消除x与w矩阵不匹配的问题。
      shape[0] = = >行数

      shape[1] = =>列数
      而tf.matmul函数就是进行X*W的矩阵运算。

      def cross_entropy(y_hat, y):
          y = tf.cast(tf.reshape(y, shape=[-1, 1]),dtype=tf.int32)
          y = tf.one_hot(y, depth=y_hat.shape[-1])
          y = tf.cast(tf.reshape(y, shape=[-1, y_hat.shape[-1]]),dtype=tf.int32)
          return -tf.math.log(tf.boolean_mask(y_hat, y)+1e-8)
      
      

      ↑定义损失函数:
      假设y=[0,2] 一行两列 y_hat=[[0.1,0.3,0.6] [0.3,0.2,0.5]] 两行三列
      第一步
      先进行数据类型的转换,转换成int类型,并且用reshape(-1,1)函数将y变成N行一列的矩阵。 y=[[0],[2]]两行一列
      第二步
      进行one_hot,首先进行depth的计算,y_hat.shape[-1]指定是列数就是3所以depth=3。式子就变成了y=th.one_hot(y,3)
      而 one_hot是返回一个张量,这里如果不好理解可以查阅该函数的解释。这里就不多介绍了
      所以y就变成一个2x1x3的矩阵,并进行了热编码为[[1,0,0][0,0,1]],==这是二维的向量==
      第三步
      shape=[-1, y_hat.shape[-1]])中y_hat.shape[-1]为3,所以最后将y变成n行3列,用我假设的矩阵的话y就是([1,0,0][0,0,1])==这是一维的向量==
      第四步
      进行计算tf.boolean_mask(y_hat, y),这里可以理解为矩阵运算,得到的结果就是([0.1][0.5]),然后再+1e-8,在进行log计算

      def accuracy(y_hat, y):
          return np.mean((tf.argmax(y_hat, axis=1) == y))
      
      

      ↑这里是进行数据预测,最后的结果与实际结果是否相吻合。简而言之那上述举得例子。y=[0,2] 一行两列 y_hat=[[0.1,0.3,0.6] [0.3,0.2,0.5]] 两行三列
      那么得到的结果就是0.5的准确率应为y_hat 的最大之因该为[2,2]。

      # 描述,对于tensorflow2中,比较的双方必须类型都是int型,所以要将输出和标签都转为int型
      def evaluate_accuracy(data_iter, net):
          acc_sum, n = 0.0, 0
          for _, (X, y) in enumerate(data_iter):
              y = tf.cast(y,dtype=tf.int64)
              acc_sum += np.sum(tf.cast(tf.argmax(net(X), axis=1), dtype=tf.int64) == y)
              n += y.shape[0]
          return acc_sum / n
      
      

      ↑这里是我们可以评价模型net在数据集data_iter上的准确率。

      #完整的训练数据集
      num_epochs, lr = 5, 0.1
      def train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, params=None, lr=None, trainer=None):
          for epoch in range(num_epochs):
              train_l_sum, train_acc_sum, n = 0.0, 0.0, 0
              for X, y in train_iter:
                  with tf.GradientTape() as tape:
                      y_hat = net(X)
                      l = tf.reduce_sum(loss(y_hat, y))
                  grads = tape.gradient(l, params)
                  if trainer is None:
                      # 如果没有传入优化器,则使用原先编写的小批量随机梯度下降
                      for i, param in enumerate(params):
                          param.assign_sub(lr * grads[i] / batch_size)
                  else:
                      # tf.keras.optimizers.SGD 直接使用是随机梯度下降 theta(t+1) = theta(t) - learning_rate * gradient
                      # 这里使用批量梯度下降,需要对梯度除以 batch_size, 对应原书代码的 trainer.step(batch_size)
                      trainer.apply_gradients(zip([grad / batch_size for grad in grads], params))  
      
                  y = tf.cast(y, dtype=tf.float32)
                  train_l_sum += l.numpy()
                  train_acc_sum += tf.reduce_sum(tf.cast(tf.argmax(y_hat, axis=1) == tf.cast(y, dtype=tf.int64), dtype=tf.int64)).numpy()
                  n += y.shape[0]
              test_acc = evaluate_accuracy(test_iter, net)
              print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f'% (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc))
      
      trainer = tf.keras.optimizers.SGD(lr)
      train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, batch_size, [W, b], lr)
      
      

      ↑

      #预测结果
      import matplotlib.pyplot as plt
      X, y = iter(test_iter).next()
      
      def get_fashion_mnist_labels(labels):
          text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat', 'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
          return [text_labels[int(i)] for i in labels]
      
      def show_fashion_mnist(images, labels):
          # 这⾥的_表示我们忽略(不使⽤)的变量
          _, figs = plt.subplots(1, len(images), figsize=(12, 12)) # 这里注意subplot 和subplots 的区别
          for f, img, lbl in zip(figs, images, labels):
              f.imshow(tf.reshape(img, shape=(28, 28)).numpy())
              f.set_title(lbl)
              f.axes.get_xaxis().set_visible(False)
              f.axes.get_yaxis().set_visible(False)
          plt.show()
      
      true_labels = get_fashion_mnist_labels(y.numpy())
      pred_labels = get_fashion_mnist_labels(tf.argmax(net(X), axis=1).numpy())
      titles = [true + '\n' + pred for true, pred in zip(true_labels, pred_labels)]
      
      show_fashion_mnist(X[0:9], titles[0:9])
      
      

      ↑

      3.softmax的keras代码

      import tensorflow as tf
      from tensorflow import keras
      fashion_mnist = keras.datasets.fashion_mnist
      (x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
      x_train = x_train / 255.0
      x_test = x_test / 255.0
      model = keras.Sequential([
          keras.layers.Flatten(input_shape=(28, 28)),
          keras.layers.Dense(10, activation=tf.nn.softmax)
      ])
      model.compile(optimizer=tf.keras.optimizers.SGD(0.1),
                    loss = 'sparse_categorical_crossentropy',
                    metrics=['accuracy'])
      
      model.fit(x_train,y_train,epochs=5,batch_size=256)
      
      test_loss, test_acc = model.evaluate(x_test, y_test)
      print('Test Acc:',test_acc)
      

      这里代码就不进行过多的叙述,用kreas这种高度集合的框架确实方便。但是这种对日后代码具体调试是极为不利的。
      这是自己很早之前写的,copy过来偷个懒

      posted in CV领域
      153****2211
      153****2211
    • Salute!CE-FPN: Enhancing Channel Information forObject Detection

      声明:该论文本人也只是结合自身理解与翻译软件进行结合,难免会囫囵吞枣或者对原词义表达的南辕北辙,这里我提议一下,对任何paper都要自身亲自结合原文去阅读一篇,以免被翻译者带偏。

      CE-FPN: Enhancing Channel Information forObject Detection
      000881e0-14d2-4cc2-8a04-edf785eb7e8b-image.png

      摘要

      作者提出一种新的特征金字塔,用于改进特征提取。开头依旧是常规的对现有的FPN结构进行缺点说教,从而引出作者的CE-FPN结构。而这里面着重提到一个概念Sub-piexl亚像素卷积,这个概念我也是第一次接触,所以直接转载别人的链接,如果不理解的可以点击链接查看一下。总得来说,受亚像素卷积的启发,作者提出了一种"亚像素跳跃"( a sub-pixel skip fusion)融合方法来实现信道增强和上采样。它取代了原来的1×1卷积和上采样,减少了信道缩减带来的信息损失。在此基础上,提出了一种子像素上下文增强模块( a sub-pixelcontext enhancement module)来提取更多的特征表示,由于子像素卷积利用了丰富的通道信息,因此优于其他上下文方法。此外,引入通道注意力引导模块来优化每个层次上的最终综合特征,只需很少的计算量就可以消除混叠效果。我们的实验表明,CE-FPN在MS Coco基准上与最先进的FPN相比获得了很好的性能。

      第一章,简介

      前面就不做过多描述,无非就是千遍一律的介绍FPN的历史。不过值得注意的就是这里作者提到几种有代表性的FPN结构,感兴趣的可以自行阅读。
      [PAFPN](S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, “Path aggregation network forinstance segmentation,” inProceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition, 2018, pp. 8759–8768.)
      [Libra R-CNN](. Pang, K. Chen, J. Shi, H. Feng, W. Ouyang, and D. Lin, “Libra r-cnn: Towards balanced learning for object detection,” inProceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019, pp. 821–830.)
      [AugFPN](C. Guo, B. Fan, Q. Zhang, S. Xiang, and C. Pan, “Augfpn: Improvingmulti-scale feature learning for object detection,” inProceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition,2020, pp. 12 595–12 604)

      另外提到了三个tips:

      • Information loss of channel reduction
        f0d486f6-5ad2-489b-bdc6-1342333dc782-image.png
        如图(a)所示,FPN的方法是采用1×1卷积层来降低输出特征图Ci的通道维数,但是同时这也丢失了通道信息,通常Ci中提取数千个通道,但是到Fi这就是有十几或者几百。(如2048到256)
        11160114-60da-42e9-9145-a9243d54eccc-image.png 73d5e751-0d94-41f4-858c-a289d186c9d9-image.png
        现有的方法是(b)(c)两种,再格外的添加模块用来增强Fi信息,但是增加额外的模块又进行复杂连接,会大大增加计算量,这也会导致信息的丢失。所以作者们就提出了(d)。
        ad0532a6-cec0-4e4c-85a3-1cde1042535b-image.png

      • Information decay during fusion
        低维度信息和高维度信息对于目标检测来说是互补的,而语义信息在自上而下的特征融合过程中则会被稀释,PAFPN和Libra R-CNN提出了创新的融合方法,以充分利用每个层次上的特征。然而,高层语义任未得到最大程度的利用。利用上下文信息是改进特征表示的一种合适方法,它避免了直接增加更深的卷积层而增加机器的计算量。

      • Aliasing effects in cross-scale fusion
        跨尺度融合和跳跃连接被广泛用于提高性能。然而,跨尺度特征映射在语义上存在差异,因此插值后的直接融合可能会造成混合效应。而繁杂的集成特征可能会对定位和识别不准。

      作者提出三大改进。

      1.受到亚像素卷积的启发,提出来一种亚像素跳跃融合方法,利用原始通道信息进行跨尺度输出。
      973eb889-f2f7-4adf-9e94-84d821af3c9c-image.png
      2.我们提出了一种亚像素上下文增强模块,用于从最高层特征图中提取和整合不同的文本信息。亚像素卷积是一种先增加低分辨率图像信道维数的上采样方法,会带来额外的计算量和不可靠性。值得注意的是,FPN 中的高级特征已经获得了足够的信道量,从而可以直接使用亚像素卷积。该方法取代了原来的1×1卷积和上采样,可以减轻信道信息损失。因此,我们扩展了原有的亚像素卷积上采样函数来融合通道信息,这不同于Carafe。
      3.我们提出了一个简单又高效的通道注意力模块,以优化各个层次上的最终特征。注意力模块只用了少量的计算量就减轻了混淆效应。我们将整个模型命名为(CE-FPN),该模型对各种基于FPN的检测器具有灵活性和通用性。
      这一段我直接贴原文吧,感觉理解不到位。94ba09df-29f5-4e6c-8211-82a8449e7531-image.png

      第二章 相关工作

      紧接着引出了,FPN的历史,FPN是一种自上而下的特征提取,经过PANet改进,添加了一种额外的自下而上的途径,以进一步增加深层中的低级信息。Libra R-cnn引入了平衡特征金字塔,融合和提炼多尺度特征要素。NAS-FPN采用神经结构搜索来学习所有跨尺度连接以达到更好的融合。EfficientDet提出了一种加权的双向FPN来进行简单快速的特征融合,AugFPN提出了一系列的FPN增强方法。(反正就是各比各的好呗)
      另外在特征增强方面,上下文信息可以促进定位和分类的执行。PSPnet利用金字塔池来提取全局各层之间的上下文。并提出一种上下文提炼的方法。同时,在各种视觉任务中,通常采用注意机制来增强特征表征。
      在上述方法的基础上,重点研究了如何减少FPN构建过程中信道衰落带来的信息损失,并对复杂集成化的层的最终特征进行了优化。

      第三章 方法与建议

      在这一部分中,我们介绍了一种信道增强特征金字塔网络(CE-FPN),以减轻信道信息损失,优化综合特性。在CE-FPN中,提出了三个组成部分:亚像素跳跃融合(SSF)、亚像素上下文增强(SCE)和信道注意引导模块(CAG)。我们将在下面对它们进行详细描述。
      ded5851c-6eaf-4798-add1-b8c642caa801-image.png

      overall

      我们将主干的输出表示为{ C2,C3,C4,C5} ,它们相对于输入图像具有{4,8,16,32}的像素。
      {F2,F3,F4}是经过1×1卷积后具有相同通道数的特征层(256)。
      特征金字塔FPN由{P2,P3,P4}自上而下生成。
      我们去掉了F5和P5的节点,它们是原始的具有语义信息的FPN的最高层特征。因为我们提出的方法有效地利用了C5的信道信息。重复特征融合不仅会造成更严重的混叠效应,而且会带来不必要的计算负担。这一过程的效果会在第四节中进行了分析。集成映射 I是通过 interpolation和 max-pooling 生成的。并且在所有最终结果{ R2,R3,R4,R5} 上独立地执行预测,这与原始 FPN 的特征金字塔相对应。

      sub-pixel skip fusion

      在FPN中,残差网络被广泛用作骨架,输出通道为{256,512,1024,2048},其中高层特征{C4,C5}包含丰富的语义信息。如图所示(a),为了提高计算效率,采用1×1卷积层来降低信道维数,造成信道信息的严重丢失。进一步研究的基于FPN的方法一般集中在{256}就是C2通道的特征金字塔上开发有效的模块,而Ci 丰富的通道信息没有得到充分利用。
      82dbe50a-0d73-44dd-bd14-5360d9e5f58a-image.png
      基于这一结果,我们希望可以开发丰富的通道特征{C4,C5}来改善所得到的特征金字塔的性能。为此,我们引入了一种直接融合方法,将低分辨率(LR)特征融合到高分辨率(HR)中,这是一种受亚像素卷积启发的上采样方法,它通过在通道维度上像素混淆来处理宽度和高度维度。像素混洗(The pixel shuffle),是指将H,W进行重新定义。
      7855f91f-79d1-4acc-911c-14cae1a5c248-image.png
      其中r表示放大比例,F使输入特征,PS(F)xyc表示坐标(x,y,c)上的输出特征像素。
      7cdc89cb-3ef3-4ccb-a3db-ff84c4e88cf2-image.png
      如(b)所示,当使用亚像素卷积作为上采样时,需要首先增加LR图像信道的维数,这带来了额外的计算。并且HR图像不准确,还需要进行额外的训练,因此FPN采用最近邻上采样以简化操作。然而,我们观察到{ C4,C5}(1024,2048)中的通道数量足以进行亚像素卷积,因此,如图©所示,
      f6196536-7ad8-49c3-a285-bdcc966c213c-image.png 我们引入了亚像素跳过融合(SSF)对LR图像直接进行上采样,而无需减少通道。SSF利用{C4,C5}丰富的信道信息,将它们合并到Fi中,描述为
      d47bf5e1-8222-4ef0-a768-49d3e34f2361-image.png
      48699766-acd3-4485-b0a2-8e9ddb043e21-image.png ca626c55-5c39-4002-9af8-f383b569e72d-image.png

      sub-pixel Context Enhancement

      在传统的FPN中,通过融合高层的信息,低层的特征地图自然地被赋予了不同的上下文信息。但是最高级别的特征只包含单个尺度的上下文信息,不能从其他特征中受益。另一方面,更高分辨率的输入图像(例如,800像素的较短尺寸)需要具有更大接收野的神经元来获取更多的语义信息来捕获大对象。为了缓解这两个问题,我们采用了集成MAP的框架,并引入了亚像素上下文增强(SCE),以利用C5上更大的接受域来挖掘更多的上下文信息。SCE的核心思想是融合大域局部信息和全局上下文信息,以生成更具区分性的特征。假设输入特征图C5的形状为2w×2h×8C,输出积分图为4w×4h×C.C为256。我们通过如图所示的并行路径执行三级上下文特征。98a7ece0-0a25-4744-83b8-ac45cee243b3-image.png
      首先,我们在C5上应用3×3卷积来提取局部信息。同时,将通道维数变换为亚像素上采样。然后采用亚像素卷积形成双尺度上采样,类似于SSF。其次,通过3 × 3最大池化将输入特征下采样到 w × h,经过1 × 1卷积层扩展信道尺寸。然后采用4 × 上采样的亚像素卷积算法。该通道为较大的感受野获得丰富的语境信息。
      第三,我们在C5上执行全局平均池化,以获取全局上下文信息。然后,将1×1×8C的全局特征压缩到1×1×C,并放大到4w×4h的大小。第一条通道和第三条通道分别提取局部和全局上下文信息。
      最后,将生成的三个特征图按映射的方式累加成图 I。SCE通过扩展三个尺度的特征表征,有效地扩大了C5的接受域,细化了 I 的表征能力。因此,FPN充分利用了最高层特征中的语义信息。为简单起见,删除了F5和P5的节点。

      posted in CV领域
      153****2211
      153****2211
    • 【2021中国华录杯·数据湖算法大赛】火热报名中,丰厚大赛奖金等你来拿!

      -----------------------------------------------

      !
      【比赛赛题】本届比赛均为定向算法赛:
      共设置
      1.语音识别
      2.特殊车辆识别
      3.自然语言处理
      4.图像摘要生成及应急五大赛道

      【大赛奖金】每个赛道15支获奖团队,奖金共计69.5万,冠军可获得“3w现金+1.8w华录未来科技园入驻券”。除赛事奖金外,优秀参赛团队还将获得入驻“易华录科技企业孵化器”机会;晋级决赛选手将获得华录集团旗下企业“人才录用直通车”资格!

      【比赛时间】2021.5.21—2021.10.17

      【报名地址】https://sourl.cn/BRBgZT

      posted in 竞赛赞助
      153****2211
      153****2211
    • 极市项目|加油站巡检算法需求(第二弹)

      ⏩ 项目一:加油站巡检算法需求⛽

      ▶ 一、背景描述
      🛢 1、项目背景:加油站客户有巡检需求,需要识别在‘加油现场’巡检业务中的四个部分内容用于管理端二次确认,分别涵盖:灭火器箱、防火毯、灭火器、灭火器压力值情况检查。

      2、项目算法要达到的目的:

      • 识别特定位置是否有正确放置灭火器箱/防火毯;

      • 灭火器箱内是否有正确放置两台灭火器;

      • 灭火器压力表指针是否指向表盘绿色正常区域;
        共计四种情况检查。(注意本项目当前能够提供的数据量较少,初步只要求demo制作)

      ▶ 二、目标描述
      1、需求边界定义:
      🔽 灭火器箱与防火毯检查——识别规定位置是否有放置灭火器箱和防火毯、防火毯是否有正确放置在灭火器箱上。
      ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬

      ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫

      🔽防火毯检查——规定位置是否摆放防火毯

      ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬

      ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫

      🔽灭火器检查——识别灭火器箱内是否有正确放置灭火器

      ⏬ ⏬ ⏬ ⏬ ⏬ ⏬ ⏬

      ⏫ ⏫ ⏫ ⏫ ⏫ ⏫ ⏫

      🔽灭火器压力值检查——识别灭火器压力表上的指针所在颜色区域(红、黄、绿)

      ⏬ ⏬ ⏬ ⏬ ⏬ ⏬

      ⏫ ⏫ ⏫ ⏫ ⏫ ⏫

      1、算法报警的业务逻辑:
      巡检流程为:巡检人员在‘加油现场’巡检记录的同时,通过专用防爆手持设备对对应巡检点位进行拍摄,将拍摄结果上传后:

      1)当识别到对应物品正确放置,则不报警,或反馈正常

      2)当识别到对应物品未正确放置(可能是灭火器箱内只有一个灭火器、防火毯不在灭火器箱上等)或未识别到对应物品,则产生报警。

      2、识别场景:加油站场景、禁烟禁火的仓储场景等

      3、识别对象:灭火器箱、防火毯、灭火器、灭火器压力表盘指针

      环境: 室外白天/夜间光照良好的情况。

      ▶ 三、算法内容

      1、算法输入:图片
      2、算法输入设备:专用防爆手机
      3、算法输出:图片/callback
      4、算法最大/最小识别像素:无限制
      5、算法实时性:可巡检实时识别或巡检后批量识别
      6、算法部署:云部署

      ▶ 四、数据来源:

      提供真实场景数据集

      ▶ 五、软硬件要求

      1、软件要求

      a.运行在X86架构(酷睿i系列芯片和至强系列芯片,显卡支持RTX、GTX、Tesla)

      b.需求为Linux SDK(C++实现)

      c.算法部署:支持私有化部署

      2、硬件要求

      a.英伟达显卡(默认)

      b.其他类型显卡(若非英伟达显卡,在此处填写客户提出的显卡要求)

      3、开发规范:https://github.com/ExtremeMart/dev-docs

      4、开发周期:25天

      🌐

      报名网址:极市平台

      📝 🌞

      posted in 校招社招
      153****2211
      153****2211
    • RE: 【6.18-6.24签到抽奖-已结束】2张200元代金券,请po签到截图!


      许愿!!

      posted in 福利活动
      153****2211
      153****2211
    • RE: “Salute!” Object Detection 20年 前三章小结

      @153-2211

      posted in CV领域
      153****2211
      153****2211
    • 博士申请 | 香港科技大学(广州)王林助理教授招收计算机视觉博士生


      香港科技大学是世界发展最快的大学之一,在 2021 年,科大位列 QS 世界大学排名第 34 位和泰晤士高等教育世界年轻大学排名第 3 位。在 2022 年 9 月,作为港科大新启用的校园,广州校园将不会重叠清水湾校园已提供的学科,而将重点发展交叉学科,以相互补足。广州校园的老师一部分由清水湾转聘过来,另一部分为新入职教授。这两个校区地位平等,学位证、学生待遇均保持一致。同时,与香港校区相比,广州校园政策灵活(提供双导师制、双博士学位制度),交通便利,生活舒适。目前广州校园已招收三届学生并在香港校园培养,2022 fall 是第四批招生。广州校园将开启港科大的新篇章,探索新的教育模式。

      实验室主页:
      https://addisonwang2013.github.io/vlislab/

      Addison Lin Wang (王林) 博士将于今年 12 月份加入香港科技大学广州校园,担任人工智能学域助理教授。王老师毕业于韩国科学技术院 (KAIST)(获得院级最佳博士毕业生奖)。他现在在 KAIST 视觉智能实验室从事博后研究。他的主攻方向是基于新型相机的视觉(event camera, infrared camera, 360 camera, etc.)。这些研究目前在内地及香港处于研究的最前沿,旨在打破传统视觉的局限性。他也同时研究针对视觉智能系统(自动驾驶,机器人)的深度学习方法,例如知识蒸馏,半监督,自监督学习。王老师同时也在研究基于视觉的增强现实/Metaverse 方法并致力于用于视觉智能系统。

      王老师在近三年半内以第一作者在 TPAMI (3 篇), CVPR, ICCV, TIP, AAAI, PR, RAL, ICRA 等顶尖视觉和机器人会议期刊发表共超过 10 篇文章。他与很多研究机构、人员都有广泛的合作。他曾获得 CVPR 最佳审稿人并且受邀参加 CVPR 博士论坛,同时受邀在三星,Naver Labs 等公司做技术报告。王老师的研究现在正在于华为,中兴等企业建立合作,旨在于把新型视觉,计算成像,以及 metaverse 等的研究用于实际问题中。

      导师主页:
      https://addisonwang2013.github.io/vlislab/linwang.html

      王老师是一个非常开放的人,王老师有在三个系 (机械,工业工程,计算机)学习研究的经验,非常熟悉多学科融合以及研究。他对如何突破科研瓶颈,创新,以及论文写作都有一定的见解。王老师的实验室一切以 co-work 的形式相互学习。王老师非常尊重学生的想法。王老师旨在于帮助学生成长收获,期待学生积极思考,与老师积极沟通。王老师的实验室同时也会有家的温暖。王老师会与学生成为探索新知识的朋友,用爱与包容去打造一个好的研究团队。知识的探索虽然难,但是爱与共同进步的力量可以克服研究中的一起困难。实验室以英语为主并以 seminar 的形式锻炼学生在国际舞台的发表演讲能力,帮助学生创建更好的 international mind.

      王老师现在与华为,中兴等公司打造合作的机会,学生在读期间会有很多实习机会。实验室也会提供去 Facebook AI/Reality Labs, Google, Adobe Research 等实习的机会。王老师的研究与 Facebook Reality Labs 有很多相关,有兴趣的学生可以帮忙介绍。港科大广州校园也会为学生提供去其他大学去交流访学的机会。

      除此之外,港科大广州校园采用双导师制、双博士学位制,如果你对也此感兴趣,欢迎提前联系,王老师会帮忙指导撰写研究计划以及联系第二位导师。王老师与 AI 学域熊辉教授等保持深度合作,同时与山东大学,KAIST,清华深圳院都有密切的合作。录取学生也可以选择感兴趣的教授作为第二导师进行联合指导。

      研究方向

      1. 基于新型相机的视觉(event camera, infrared camera, 360 camera, etc.);
      2. 低端视觉于计算成像用于相机性能改善(尤其是 HDR imaging, motion beblurring, SR 等);
      3. night-scene vision(用于智能系统);
      4. 3D 视觉 (depth estimation, optical flow estimation)以及 pixel-level 语义分割问题(智能系统方向);
      5. 用于视觉智能的深度学习方法(Transfer learning, semi-/self-supervised learning, GANs, few-shot learning);
      6. 对抗攻击与视觉算法的 robustness(智能系统方向);
      7. 基于是视觉的增强现实、Metaverse 研究(智能系统方向)。

      招生要求

      1. 对于新型视觉问题(以及相关深度学习问题)、基于视觉的交互,以及智能系统有想探索的好奇心。这些研究现在还处于发展期,未来前景可期;
      2. 有一定的编程基础,有主动去探索新知识的积极性;
      3. 敢于挑战自己,有爱心,有忍耐力,愿意包容并积极合作;
      4. 研究经验或者论文的要求 (至少满足一项):
        有一定的研究经验和项目经验

      作为主要作者在顶级会议或者期刊发表过论文

      在公司实习经验的学生

      1. 对于 undergraduate student、或者缺少的研究经验的同学,只要积极向学,敢于探索,也欢迎以 Research Intern 的形式加入我们研究团队;

      2. 有好的英语发表于写作基础(至少满足港科大英语招生要求)。
        薪资待遇

      3. 博士生会提供丰厚的待遇, 具体细节可以咨询王老师;

      4. 会为 Research Intern 提供充足的 funding,对于想为读博士预备的同学,也可以先考虑加入 Research Intern,研究成果可以与博士毕业联系;

      5. Research Assistant 也会提供丰厚的薪资。
        申请方式

      请发送简历,研究计划以及代表论文(若有)给王老师:addisonwang2013@gmail.com

      posted in 校招社招
      153****2211
      153****2211
    • RE: 【有奖话题NO.9】这一句话,就让炼丹师破防了?

      不会跑代码…
      你不是学计算机?

      posted in 有奖话题
      153****2211
      153****2211
    • RE: 【2张100元代金券】晒出你的昵称吧~~

      梭哈梭哈,重仓蔡神。(不构成任何有效建议😀 )

      posted in 聊一会吧
      153****2211
      153****2211

    Latest posts made by 153****2211

    • 新加坡科技设计大学段凌杰教授招收人工智能全奖博士生

      新加坡科技设计大学(Singapore University of Technology and Design,简称SUTD),是新加坡的第四所公立大学,于2012年正式开学。SUTD的创校校长为美国麻省理工工学院院长Thomas L. Magnanti教授,创校之初与美国麻省理工学院深度合作。SUTD作为最年轻的工程学院,也是一所集设计和创意为主要理念的大学,有着A Better World by Design的核心思想,鼓励学生学以致用,注重于培养学生的实践能力和创新性思维。SUTD在2023年软科世界一流学科排名上位列通信工程世界21名,计算机科学与工程位列76-100名。

      导师简介

      段凌杰教授是新加坡科技设计大学(SUTD)工程系统和设计学院的副院长,主管学院科研和企业合作。他是新型交叉学科网络经济学(Network Economics)方面的权威,领导着网络经济学与优化实验室,在计算机网络、分布式机器学习、移动通信方面的期刊和会议上发表了百余篇文章和著作,近些年来获得了超过千万美金的国家科研项目以及MIT-SUTD联合博后项目的支持。2015年,他被IEEE ComSoc协会评选为亚太杰出青年研究者,并在2016年获得SUTD杰出研究奖。他目前担任国际一流杂志IEEE Transactions on Mobile Computing和IEEE Transactions on Wireless Communications的编辑,也曾担任IEEE Journal on Selected Areas in Communications的客座编辑。目前还担任国际一流网络会议IEEE/IFIP WiOpt 2023的主席。他实验室的博士生、博后和访问学者都有机会与全球多所著名高校的教授进行深入的合作,多人毕业后获得中国青年千人等的国家级的头衔。

      个人主页:

      https://esd.sutd.edu.sg/faculty/lingjie-duan/

      招生简介

      段教授团队计划招收多名2023年秋季入学博士生,读博期间提供全额奖学金。要求本科或硕士为计算机、电气工程、应用数学、系统控制等专业,有较强的学习能力和主动性。申请的语言方面只需要提供托福或雅思的成绩,申请截止日期是2023年2月28日,详情请见:

      https://www.sutd.edu.sg/Admissions/Graduate/PhD-Programmes/SUTD-PhD-Programme/Application

      申请方式

      lingjie_duan@sutd.edu.sg (请附上个人简历和成绩单),欢迎大家提早联系。

      posted in 校招社招
      153****2211
      153****2211
    • 国家电网智能电网研究院招聘电力设备认知智能技术研发实习生

      国网智能电网研究院·计算及应用研究所·AI电力认知计算团队欢迎你的加入!我们正在寻找电力设备认知智能技术研发实习生。作为 AI 电力认知计算团队的实习生,你将加入一支充满活力和创造力的团队,有机会与团队成员一起开发新型的深度学习、强化学习、机器学习等算法,开展智能电力设备及系统的建模、优化、控制等方面的研究。你将参与到项目的设计、开发和实施中,应用于电力系统的各个领域。同时,你还将有机会参与电力系统的实际应用场景,了解电力行业的相关知识。

      **电力设备认知智能技术研发实习生

      坐标:北京**

      你将有机会

      1. 参与电力自然语言处理和认知智能具体算法研发,学习到前沿的技术和方法;

      2. 与一流的专家、学者共事,参与协调调研、资料收集和报告撰写,接触到最新的研究成果和前沿思想;

      3. 通过团队合作,锻炼自己的沟通和协作能力;

      4. 探索电力行业的前景和未来发展方向,拓展个人职业发展视野。

      岗位要求

      1. 具备人工智能模式识别与智能系统、计算机科学与技术、电子信息等专业的硕士及以上学历;

      2. 有过智能交互平台开发经验、自然语言处理、神经网络模型相关经验者优先;

      3. 掌握 Python / Java / C++ 等任一门开发语言,对人工智能、机器学习、深度学习、NLP等技术领域有浓厚的兴趣和一定的研究,熟悉Linux/Unix操作系统,有Linux/Unix环境开发经验;

      4. 具有良好的团队合作精神、文字表达能力、沟通能力和创新思维,具有较强的工作责任心和执行力。

      你将获得

      加入我们的实习计划,你参与到领先的科研项目中,开拓你的研究视野,锻炼你的科研能力,在团队中得到良好的培养和锻炼,同时获得实习证明和丰富的实践经验。

      投递方式
      liutongyang@geiri.sgcc.com.cn

      邮件标题/简历命名格式:姓名-岗位名称

      posted in 校招社招
      153****2211
      153****2211
    • 哈佛大学医学院招募医学信息学和NLP方向博士后

      哈佛医学院和BWH医院的Division of Pharmacoepidemiology and Pharmacoeconomics是一个由100名跨学科研究人员组成的研究中心,汇聚了医学、信息学、流行病学、生物统计学、健康服务研究和监管科学等各个专业,旨在利用先进的信息技术评估处方药在临床实践中的安全性和有效性,研究药物的处方和使用情况,了解药品在营销后的批准和监管情况。

      该部门设有FDA Sentinel创新中心,拥有海量且快速增长的医疗数据,包括数百万患者的电子病历数据(EHR)和对应的医保数据,具有丰富的医疗数据挖掘潜力。更多中心信息,请参见主页:
      https://www.drugepi.org/

      招聘简介

      哈佛大学医学院及其附属Brigham and Women’s Hospital 医院药物流行病学和药物经济学系(Division of Pharmacoepidemiology and Pharmacoeconomics)现公开招聘1名博士后科研人员,开展包括医学信息学、健康大数据分析、自然语言处理等方面的研究工作。工作地点:美国波士顿。

      该研究中心正在招聘一名医学信息学博士后,博士后将获得哈佛大学医学院的任命,接受该中心和哈佛大学的教职工的密切指导,并参与一个或多个旨在利用先进的人工智能和信息技术分析大规模EHR和医保数据的项目,中心鼓励博士后发表相关研究成果。具体职位信息参见:

      https://assets.website-files.com/5ddc21a55d412bcfa838a006/63f508f3c89f67cf8967a090_JD_Medical Informatics_BWH_Letterhead.pdf

      招聘要求
      申请人需要具有计算机、医学信息学、医学等相关领域博士学位(PhD/ScD/DrPH, MD, PharmD等)。在自然语言处理、机器学习、特征工程、医学信息学等领域有相关论文发表经验。申请人需要有开发人工智能 (包括统计机器学习、深度学习、大语言模型)开发或者应用经验。对于健康相关数据有研究和分析经验者优先(非必要)。

      申请方式
      邮件发送一份个人CV和Cover letter (均为英文)至中心管理员Lewis Seton (lseton@bwh.harvard.edu),邮件标题最好为“Research Fellow Application- Medical informatics”。有意者请尽快申请。

      posted in 校招社招
      153****2211
      153****2211
    • 平安科技人工智能中心招聘算法实习生

      平安科技是平安集团旗下科技解决方案专家,致力于运用人工智能、云等技术,赋能金融、医疗、房产、汽车、智慧城市五大生态圈。

      平安科技以“云无限”为价值主张,积极践行“科技改变生活”的企业理念,立志成为国际领先的“AI+云”公司。平安科技以客户为先、开拓进取、创新突破为文化,注重企业社会责任和环境保护,实现“科技引领金融”的发展模式。作为平安集团高科技内核,科技解决方案已经应用在超 550 个场景中,积极孵化智慧业务,助力建成生态闭环;作为 IT 后台综合管理平台,开发和运营平安关键平台和服务,支持平安保险、银行、投资、互联网等业务高效协同发展;平安科技也是云平台的积极构建者,平安云作为平安服务的综合输出平台,为全行业提供 IaaS、PaaS、SaaS 全栈式云服务,打造的生态圈已经服务过 5 亿用户,并拓展至海外市场。

      算法实习生

      坐标:深圳
      薪资:本科生200元/天,研究生300元/天

      岗位职责

      1. 追踪调研前沿技术;

      2. 问答、排序、多模态相关项目的实验和优化,亦可选择以发表论文和专利为主;

      3. 数据的标注和分析。

      岗位要求

      1. 计算机或相关专业硕士以上在读,优秀本科生亦可;

      2. 至少熟悉一种编程语言,python/C++/go等,良好的编程能力,至少熟悉一种深度学习框架,如tensorflow/pytorch;

      3. 熟悉自然语言、多模态的常见方法,包括且不限于query理解/排序/文本匹配/序列标注/阅读理解/文本摘要/知识图谱/多模态检索等,有相关项目经验、论文发表或者比赛取得成绩的优先;

      4. 学习能力强,态度良好,适应力强,每周至少4天能连续实习4个月以上。

      你将获得

      加入我们的实习计划,你参与到领先的科研项目中,开拓你的研究视野,锻炼你的科研能力,在团队中得到良好的培养和锻炼,同时获得实习证明和丰富的实践经验。

      投递方式:
      fx20@mails.tsinghua.edu.cn

      邮件标题/简历命名格式:算法实习生-姓名-学校-每周可实习天数-最多实习时长

      posted in 校招社招
      153****2211
      153****2211
    • 美国伊利诺伊大学香槟分校AI医疗实验室招收暑期远程实习生

      UIUC,坐落于伊利诺伊州双子城厄巴纳–香槟市,是一所美国公立研究型大学。校友和教授中有30位获得诺贝尔奖,25位获得普利策奖。其工科专业在全球享有盛誉,几乎所有专业均位列全美前十,其中电气、土木、材料、环境、计算机均位列全美前五;会计学专业位列全美前三;信息科学(iSchool)专业常年位居全美第一。UIUC校友创建或参与创建了特斯拉、甲骨文(Oracle)、Youtube、Paypal、AMD、Yelp等世界知名的公司和IT产品,以及JavaScript、Swift等编程语言。

      提到UIUC的机器学习和人工智能类专业,大家首先想到的估计都是实力雄厚的计算机系常年盘踞在榜单的前几名,在最新的US News排名上更是仅次于“四大”的第五名位置。但是值得一提的是,汪老师所在的信息学院(School of Information Sciences),虽然院系小巧,却常年在US News等榜单上的信息科学类的排名高居榜首,据说第一名的位置已经二十余年未曾被撼动。

      课题组简介

      UIUC AI医疗实验室致力于AI理论创新以及在医疗保健和制药相关的创新应用,主要研究方向有:1)机器学习,深度学习,数据挖掘理论和方法;2) AI+学科交叉应用 (医疗保健、生物医学、法律等)。

      导师简介

      Jimeng Sun是伊利诺伊大学厄巴纳-香槟分校计算机科学系和卡尔伊利诺伊医学院的健康创新教授。他曾是健康数据科学和临床试验公司IQVIA的全球人工智能研究负责人。他还创建了多家生物技术领域的人工智能公司,包括用于合成数据生成的Medisyn和用于药物发现和开发的Sunstella Technology。在加入UIUC之前,他是佐治亚理工学院(GT)计算机学院的副教授,是健康分析与信息学中心(CHAI)的联合主任,并组建了一个健康研究社区,领导着跨越多个学院的25名教师。他的研究重点是医疗保健领域的人工智能,包括用于药物发现的深度学习、临床试验优化、计算表型、临床预测建模、治疗建议和健康监测。他被Deep Knowledge Analytics评为药物发现和先进医疗保健领域的前100名人工智能领袖之一。他已发表超过300篇论文,引用次数超过25000次,h指数为80,i10指数为231。他与主要医院(如MGH、Sutter Health、范德堡大学、西北大学、Geisinger和Emory)以及IQVIA和多家制药公司合作进行健康数据科学研究,并获得了NSF和NIH的资助。

      个人主页:

      https://www.sunlab.org/

      研究内容

      实验室近期着眼于以下研究方向,并已有多篇顶会、期刊论文发表:

      1. AI for drug discovery,如small molecule design,molecule property prediction,protein design等;

      2. AI for drug development,如clinical trial optimization,patient outcome prediction,synthetic data generation等;

      3. AI for healthcare,如health risk prediction,treatment recommendation,medical vision-language modeling等。

      项目信息

      孙老师在UIUC的研究小组正在寻找多位研究助理/实习生/合作者。在整个研究项目中,您将与一位导师(一位经验丰富的博士生)配对,并与您的导师每周举行一次研究会议。您将在夏季开发一个研究项目,您可以完成该项目并且产出顶会顶刊论文。您将每周与该计划的其他参与者举行会议。在计划结束时,您将完成一篇完整的论文,该论文可能会提交出版并向计划中的其他人展示您的项目。相信这次项目合作,您可以获得不少的机器学习研究经历以及工具开发经验。如果您有意申请海外的研究型项目,这次项目经历也可以为你的简历提供强力的支持。

      期望要求

      1. 高质量的研究和开发需要你不少的时间和精力,所以我们希望您能全职实习三个月及以上,可以是2023年任何时间(越早越好);

      2. 具备自然语言处理,生成模型,强化学习以及AI for Healthcare/Drug/Legal经历者优先;

      3. 熟悉python语言和pytorch框架;

      4. 具备诚实的科研态度,和良好的沟通能力、团队协作精神。

      申请方式

      请感兴趣的同学用英文填写以下表格。经过初步评审后,我们将通过邮件向符合条件的同学发出面试邀请:

      https://wj.qq.com/s2/11764648/b05d/

      posted in 校招社招
      153****2211
      153****2211
    • 西湖大学机器感知与学习实验室招聘研究员/副研究员/助理研究员

      西湖大学工学院机器感知与学习实验室 (MAPLE, http://maple-lab.net/gqi/) 主要聚焦于基于深度学习的人工智能算法、计算机视觉和图形学研究,并将其应用到数字媒体、虚拟人以及虚拟现实等场景的研究与开发。

      研究员、副研究员、助理研究员(每个方向1-3人)
      坐标:杭州
      方向:人工智能、计算机视觉与图形学方向 - 数字人与虚拟现实场景建模

      岗位职责

      1. 独立或者指导研究生、访问学生进行以上一个或多个课题的研究,发表高水平学术论文;

      2. 独立或者合作申请和承担国家、省市研究课题或企业合作项目;

      3. 参与实验室学术建设和日常管理,对外代表实验室与国内外同行进行学术交流,吸引更多海内外人才加入实验室。

      岗位要求

      1. CV, AI背景,三维重建方向,需要熟悉至少一种三维重建的方法 – multiview reconstruction, sfm, NerF, 光度测量(photometrics),reflectance model,BRDF光照模型,light stage;在人脸方向了解人脸关键点提取和3dmm;人体三维重建算法SMLP、SMLP-X、骨骼关节点检测等。加分项:了解ToF 和 结构光原理;mesh tracking、registration和拓扑一致化;熟练掌握wrap4D等;

      2. CV, CG背景,骨骼动画,视频中提取骨骼动画,虚拟人的人脸和身体、唇形驱动等算法,熟悉skeleton, blendshape 为基础的的动画系统。熟悉和了解相关技术,苹果live link,IK, motion matching, retargeting, 和一些开源3D骨骼动画库,mediapipe;

      3. AI方向,熟悉生成模型中常见的方法,GAN, Diffusion Model, VAE, Transformer, CLIP。有骨骼动画生成(human motion generation)经验优先。

      其他应聘条件

      相关专业博士。

      岗位待遇

      1. 根据西湖大学相关规定以及申请人工作能力,实验室将提供在国内外具有竞争力的薪酬待遇以及科研条件,享受五险一金及西湖大学的相关福利。具体待遇面议;

      2. 入选者将从事相关方向的算法研究并鼓励论文发表,同时有兴趣者有机会兼职参与和相关企业的产学合作,进行成果转化。

      申请方式

      应聘者请将个人简历等应聘材料发送至 qiguojun@westlake.edu.cn,邮件标题请标明“应聘职位+本人姓名”。

      招聘流程:经初步评审,我们将通过电话或邮件向符合应聘条件的应聘者发出面试通知。三个月内没有收到面试通知者可自行放弃等待。因接待能力所限,谢绝自行来访。

      posted in 校招社招
      153****2211
      153****2211
    • 香港科技大学(广州)刘李老师招收人工智能全奖博士/硕士/RA

      香港科技大学是世界上发展最快的大学之一,2021年位列QS世界大学排名第34位和泰晤士高等教育世界年轻大学排名第3位。香港科技大学(广州)与香港科技大学在“港科大一体,双校互补”的框架下开展合作,地位平等,在学术规范、师资水平、课程质量等方面保持一致,实现资源共享、优势互补,共同助力国家与粤港澳大湾区发展。

      作为HKUST 2.0的重要组成部分,香港科技大学(广州)采用全新的、融合学科的学术架构,以“枢纽”(Hub)和“学域”(Thrust)取代传统学科学术架构的“学院”和“学系”,推动学科交叉融合,同时大力发展新兴学科和前沿学科,以应对世界和人类社会面临的日趋复杂的重大挑战。在香港科技大学(广州)就读的硕士、博士研究生将获得由香港科技大学颁发的硕士、博士学位证书。

      导师简介

      刘李博士,香港科技大学(广州)信息枢纽人工智能学域助理教授。2018年从法国格勒诺布尔阿尔卑斯大学和GIPSA-lab获得博士学位。主要的研究方向包括小样本学习、AI的安全性与可迁移性,以及它们在视听语音识别/生成和AI医疗等场景中的应用。已经以第一作者或通讯作者的身份在视听多模态、AI医疗以及AI安全领域发表顶级期刊和会议论文约30篇,包括 IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE Transactions on Multimedia、NeurIPS、ECCV、MICCAI 和 ICASSP等。她的研究获得多个科研项目资助,包括国家自然科学基金-青年基金、广东省自然科学基金青年科学基金、深圳市优秀科技创新人才博士创业项目、阿里巴巴创新研究基金和腾讯技术公益创投计划等。2022年,其两篇文章获选深圳市第二届优秀科技学术论文。

      个人主页:

      https://liliu-avril.github.io/

      招生要求

      课题组拟招收博士后/博士/硕士/研究助理。招生要求如下:

      1. 计算机、数据科学、人工智能、以及应用数学等相关专业的同学均可申请;

      2. 对计算机视觉、人工智能安全,或者AI其他交叉应用学科等相关方向的基础研究或系统/算法开发有热情;

      3. 良好的品质、沟通、表达与协作能力;

      4. 申请者需具备良好的英语沟通、阅读和写作能力;

      5. 学校招生规定的最低要求为:

      托福TOEFL iBT:80;
      雅思IELTS:总分6.5,各项小分5.5;
      多邻国Duolingo:105;
      托福100分以上及同等水平者优先。
      6. 加分项:计算机算法与编程能力优异、数学基础扎实、有相关经验者(如发表过论文或竞赛获奖等)。

      你将获得

      1. 发表顶级学术论文的机会:你将有机会在计算机视觉、机器学习与人工智能、数据挖掘以及多模态信号处理等领域的顶级期刊和会议上以第一作者身份发表学术论文并参与国际会议;

      2. 纯粹的科研环境和系统的科研训练:组内拥有融洽的合作氛围;低年级学生会获得刘李老师至少每周一次的组会指导,以及高年级或毕业学长学姐的一对一辅导;而高年级学生可以自由选取研究方向并可在知名机构交流;博士生还会接受学校其他资深教授的指导(博士双导师制)。博士后研究员则拥有指导学生的机会以及基金和教职申请方面的帮助;

      3. 国际化的视野和广泛的交流机会:包括但不限于在香港科技大学清水湾校园长期访问,以及丰富的世界级大学交换学习和业界研究院实习访问机会;

      4. 优美的校园环境:由国际知名的建筑设计事务所Kohn Pedersen Fox Associates (KPF) 牵头的港科大(广州)国际首席设计顾问团队以“智慧绿色校园”为灵感,延续清水湾校园的整体风格,并与四周的自然环境和谐相融。学校配套设施丰富,体育场所多样,学生宿舍均为独立卧室。

      申请方式

      博士研究生

      1. 授课语言:英语

      2. 学习周期:

      3年(具有相关研究型硕士学位)
      4年(无相关研究型硕士学位)
      3. 奖学金:每月人民币15,000元

      1. 申请方式:请发送简历以及申请材料(如成绩单、获奖证明和代表论文等)至 avrillliu@hkust-gz.edu.cn,邮件标题应为【申请PhD-姓名-毕业院校】,并且通过学校官网完成申请。

      硕士研究生

      1. 授课语言:英语

      2. 学习周期:2年

      3. 奖学金:每月人民币10,000元

      4. 申请方式:因红鸟硕士项目在申请时不区分专业归属,可直接通过学校官网申请即可。申请人不需要提前联系导师。详情请关注“香港科技大学广州 红鸟鸣智”微信公众号。MPhil在读学生或已被MPhil项目录取的申请者,如想加入课题组,请发送简历和研究陈述至 avrillliu@hkust-gz.edu.cn,邮件标题应为【在读/已录取MPhil-姓名-研究课题】。

      博士后研究员

      1. 聘期:1-2年

      2. 薪资待遇:最高可达每月税前人民币45,000元(包含省市区三级的财政补贴)

      3. 申请方式:请发送简历、研究陈述和代表论文至 avrillliu@hkust-gz.edu.cn,邮件标题应为【申请Postdoc-姓名-毕业院校】。

      研究助理和实习生

      1. 聘期:6个月-3年

      2. 薪资待遇:提供具有竞争力的薪资待遇和住房补贴

      3. 申请方式:请发送简历、研究陈述和代表论文(如有)至 avrillliu@hkust-gz.edu.cn,邮件标题应为【申请RA-姓名-毕业/在读院校】。

      博士/硕士研究生申请入口
      香港科技大学(广州)官方招生系统:

      https://w5.hkust-gz.edu.cn/cgi-bin/std_nem_cgi.sh/WService=broker_3z_p/prg/pg_ap_main.r

      posted in 校招社招
      153****2211
      153****2211
    • 百度搜索策略部招聘NLP实习生(ChatGPT子类算法)

      【百度核心部门——搜索策略部】搜索,二十余年百度的发展根基;搜索策略,百度搜索不断前行的动力源泉。我们坚持用技术,打造最好的搜索。我们愿用技术,定义搜索的未来。我们正在寻找一名对自然语言处理(NLP)和深度学习有浓厚兴趣的实习生。该实习生将加入我们的多模团队,负责支持我们的ChatGPT子类算法的研究和开发工作。

      NLP实习生

      坐标:北京

      岗位职责

      1. 参与ChatGPT子类算法的研究和开发;

      2. 调研ChatGPT的相关子类模型,及推进业务落地;

      3. 参与技术文档的编写;分析和解决NLP算法的问题。

      岗位要求

      1. 博士或硕士在计算机科学、数学、统计学或相关领域(在读);

      2. 熟练掌握Python编程语言;

      3. 熟悉TensorFlow、PyTorch等深度学习框架;

      4. 熟悉深度学习和自然语言处理的基本原理;

      5. 熟悉GPT、transformer等相关算法;

      6. 良好的团队合作和沟通能力;热爱技术和学术研究,有较强的自我学习和解决问题的能力;

      7. 实习期限4-6个月,需尽快到岗。

      投递方式

      yuyongjia@baidu.com

      邮件标题/简历命名格式:姓名-岗位名称

      posted in 校招社招
      153****2211
      153****2211
    • 智源人工智能研究院招聘视觉模型算法工程师/实习生

      北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)是人工智能领域的新型研发机构。2018年11月14日,在科技部和北京市支持下,联合北京多家人工智能领域优势单位共建。作为新型研发机构,智源研究院初步探索了“集中力量办大事,青年人才挑大梁,开放生态育创新”的科研组织模式。通过智源学者、智源大会、智源社区、青源会,构筑涵盖产学研用的欣欣向荣的内行生态圈,汇集顶尖学者+全职研究与工程团队,打造有技术挑战、需要紧密工程协作、长期攻关的重大系统级成果。智源发布的“悟道”人工智能大模型连创“中国首个+世界最大”纪录;“天演”生命模型工程发布精度最高线虫模型,迈出智能生命关键一步;“九鼎”平台打造AI科研创新基石与试验场。同时,智源研究院也正在建设FlagOpen大模型基础软件开源系统。

      视觉模型算法工程师/实习生

      坐标:北京市海淀区成府路150号

      岗位职责

      1. 研究并实现视觉和多模态大模型,优化模型结构,提高训练推理速度;

      2. 训练并优化图像分割、物体检测模型。

      岗位要求

      1. 计算机或人工智能相关专业硕士及以上学历;

      2. 熟悉图像分割、物体检测等相关算法;

      3. 熟悉 ViT/SwinT/CLIP 相关模型训练者优先;

      4. 有高质量科研论文发表或者高质量开源项目主要贡献者优先;

      5. 做事严谨,积极主动,有良好的沟通能力和团队协作能力。

      投递方式

      bo.zhao@baai.ac.cn

      邮件标题/简历命名格式:智源-视觉模型算法工程师/实习生-简历投递-姓名

      posted in 校招社招
      153****2211
      153****2211
    • 阿里巴巴CRO线招聘语音方向高级算法工程师

      阿里安全是负责阿里巴巴集团整体安全的团队,通过先进的安全、AI等技术,在产业实战中形成安全最佳实践,保障阿里巴巴全球业务,为上亿用户和上千万商家提供安全可靠的服务。阿里安全在数据安全与隐私保护、媒体智能、AI安全与治理、系统安全、移动安全、应用安全、IoT安全等多个方向持续投入深入研究,在丰富的业务实战中打磨安全能力、沉淀安全模型、落地安全产品。淘宝、天猫、盒马、钉钉、闲鱼、支付宝、菜鸟、飞猪等阿里集团APP,都由阿里安全提供系统的安全技术防护能力,如保护数据安全、打击假货、保护原创、智斗黑灰产等。

      **语音方向高级算法工程师

      坐标:杭州**

      岗位职责

      1. 负责风控场景语音ASR引擎的研发和优化,并落地到实际业务场景中取得业务效果,职责包括以下之一:

      利用大规模互联网、业务数据进行数据挖掘,低成本构建高质量训练数据;

      探索利用大规模预训练模型改善识别效果、鲁棒性的高效可落地方法;

      低成本快速扩展ASR支持的语言、方言的技术。

      1. 根据业务需求转化为算法问题,与工程团队、业务团队一起推动算法能力的工程化、产品化、业务化及其持续优化;

      2. 针对业务特点,跟踪相关领域的技术发展趋势,进行各类技术方案的探索和学术研究。

      岗位要求

      1. 计算机、自动化、信号处理等相关专业硕士及以上学历;

      2. 熟练掌握Java/C++/Python中至少一门语言,有扎实的数据结构和算法基础;

      3. 熟悉Kaldi、ESPNet、WeNet等主流语音识别框架,熟悉TensorFIow,Pytorch等深度学习框架;

      4. 具备优秀的分析和解决问题的能力,良好的沟通协作能力;

      5. 有语音识别系统开发经验,经历过从0到1的优先;

      6. 在语音领域的知名会议 (ICASSP、INTERSPEECH、ASRU) 和期刊 (IEEE/ACM Trans. Audio, Speech, Language Processing) 发表过论文者更佳;

      7. 参与过机器学习开源项目并有突出贡献者更佳。

      投递方式
      inxinzhu.lxz@alibaba-inc.com

      邮件标题/简历命名格式:姓名-岗位名称

      posted in 校招社招
      153****2211
      153****2211