Всегда помните, что ваши навыки, связанные с наукой о данных, ваши проекты и ваш вклад навсегда останутся с вами, поэтому сосредоточьтесь на них, а не на каких-либо других вещах. - Джаладж

Джаладж Танаки - опытный специалист в области данных, имеющий опыт работы в сфере информационных технологий, издательского дела и финансов. Она является автором книг Python Natural Language Processing and Machine Learning Solutions. Ее исследовательский интерес заключается в обработке естественного языка и машинном обучении для решения сложных задач. Джаладж не только специалист по анализу данных, но и общественный деятель, путешественник и любитель природы. Мне посчастливилось найти Джаладж в подходящее время, когда она только что выпустила свою вторую книгу. Джаладж была достаточно любезна, чтобы разыграть E- Книгу нескольких экземпляров своих книг. Подробности читайте в конце интервью.

Вимарш Карбхари (ВК): Какие три лучшие книги об AI / ML / DS вам понравились больше всего? Какие книги оказали наибольшее влияние на вашу карьеру?

Джаладж Танаки (Джей Ти): Есть много книг, которые действительно помогли мне изучить НЛП / ML и ИИ в моей карьере, но мои личные фавориты:

В пространстве DS / AI происходит много всего. Так что, помимо чтения книг, я большой поклонник чтения исследовательских работ, которые помогают мне быть в курсе последних событий.

ВКонтакте: Какие инструменты (программное обеспечение / оборудование / привычки), которыми вы пользуетесь как специалист по анализу данных, оказывают наибольшее влияние на вашу работу?

JT: в категории программного обеспечения

  • Мне просто нравится операционная система Ubuntu.
  • Я использую Python в качестве основного языка программирования для проектов в области науки о данных.
  • Я предпочитаю Pychram IDE для кодирования из-за его функции отладки.
  • Библиотека Pandas - потому что она помогает мне работать с различными форматами файлов, и я могу легко выполнять исследовательский анализ данных (EDA), используя ее API.
  • PyTorch: в настоящее время я пытаюсь перейти с TensorFlow на PyTorch. Для меня обучение всегда доставляет удовольствие. Мы можем определять, изменять и запускать узлы нейронных сетей по ходу работы в PyTorch. В PyTorch нет необходимости в специальном интерфейсе сеанса. Мне нравятся эти функции в PyTorch. Этот фреймворк более тесно интегрирован с языком Python и кажется мне более родным.
  • GitHub помогает мне управлять моими проектами и поддерживать их.

В категории оборудования я предпочитаю использовать систему с поддержкой графического процессора для обучения моделей глубокого обучения. Вы можете прочитать больше о моей компьютерной системе для сборки здесь.

ВКонтакте: Не могли бы вы рассказать о неудачах / проектах / экспериментах, связанных с наукой о данных, из которых вы узнали больше всего?

JT: Вернувшись к выпускным дням, когда я работал над диссертацией, я не понимал должным образом, когда использовать, какой алгоритм машинного обучения заставил меня выполнить много итераций. Во время этих итераций я многому научился на своих ошибках.

Во время реализации модели классификации нескольких классов для приложения NLP образцы данных для некоторых меток классов не генерировались должным образом, поэтому моя модель страдала от проблемы переобучения. Я узнал об этой проблеме, когда тестировал модель на корпусе тестирования удержания. Я решил эту проблему, применив различные методы подвыборки.

ВК: Если бы вы писали книгу, как бы она называлась? Какие основные темы вы бы затронули в книге? (Джаладж является автором двух книг) - я буду делать рецензию на книгу об Acing AI, так что следите за обновлениями и подпишитесь на нашу рассылку, чтобы не пропустить.

JT: К счастью, у меня появилась возможность написать две книги по темам, которые я хотел написать после окончания учебы. Первый - Python Natural Language Processing, который помогает новичкам изучать NLP с нуля, а второй - Machine Learning Solutions - практическое руководство, которое помогает читателям создавать и оптимизировать различные приложения для машинного обучения. Он включает приложения из областей обработки естественного языка (NLP), компьютерного зрения и обучения с подкреплением.

Если представится шанс, я хочу написать книгу под названием «Многоразовая архитектура для приложений машинного обучения». В настоящее время компании реализуют различные типы проектов, и некоторые функции проекта пересекаются с другими функциями проекта. Как мы можем построить многоразовую архитектуру, которая помогает разработчикам легко создавать общие функции проекта для нескольких продуктов. Если удастся создать многоразовую архитектуру, это сэкономит много времени и энергии специалистов по данным, и это станет эффективным решением для многих компаний.

ВКонтакте: С точки зрения времени, денег или энергии, какие самые лучшие инвестиции вы сделали, которые принесли вам совокупное вознаграждение в вашей карьере?

JT: После завершения учебы в бакалавриате мне пришлось выбирать между работой и обучением в аспирантуре. Я рад, что выбрал аспирантуру, потому что в рамках своей дипломной работы я узнал о сфере НЛП. Эта дипломная работа стала моей отправной точкой в ​​области науки о данных.

Я верю, что «Простота - это слава самовыражения». Я всегда старался максимально упростить контент для моих читателей, чтобы они могли действительно хорошо понимать сложные концепции, связанные с наукой о данных. Я предпочитаю писать простым языком. В результате моя первая книга «Обработка естественного языка Python» была сочтена учебным пособием для медицинского факультета Вейл Корнелл, Департамент политики и исследований в области здравоохранения, по курсу «Обработка естественного языка в здравоохранении». После публикации своей первой книги я узнал много нового о маркетинге, предпродажной подготовке, послепродажном обслуживании и так далее.

Общение со студентами, исследователями, отраслевыми экспертами и предпринимателями - всегда приятный опыт. Люди готовы делиться своими идеями и знаниями с другими. Мне очень нравится этот позитивный настрой.

ВК: Какие абсурдные идеи относительно экспериментов / проектов в области науки о данных не интуитивно понятны людям, которые смотрят извне внутрь?

JT: Люди, незнакомые с областью науки о данных, думают, что машины могут учиться или думать сами по себе, а работа специалистов по анализу данных / инженеров по машинному обучению - просто контролировать процесс.

ВК: Что улучшило вашу трудовую жизнь за последний год, что может принести пользу другим?

JT: с прошлого года, помимо начинающего специалиста по данным, я писал свои книги. Чтобы управлять этими двумя проектами, мне нужно было хорошо управлять временем. Изначально для меня это было действительно сложно, но со временем я научился эффективно распоряжаться своим временем. Для этого я составлял свой еженедельный, а также ежедневный список дел, чтобы знать, сколько времени мне нужно потратить на каждую из задач. Обычно я стараюсь составить реалистичный план, которому я могу следовать, и у меня всегда есть место для просмотра видео на YouTube.

В настоящее время я сокращаю свое время на ненужные встречи и общение. Я не провожу слишком много времени в социальных сетях (но я всегда отвечаю на вопросы, поступающие от моих подписчиков). Все эти шаги помогают мне стать более продуктивным.

ВКонтакте: Что вы посоветуете тем, кто начинает работать в этой сфере? Какой совет им следует игнорировать?

JT: У меня есть ряд вещей, которыми я хотел бы поделиться с новичками и соискателями работы.

  • В науке о данных много поддоменов. Такие как аналитика, НЛП, компьютерное зрение, речь и так далее. Пожалуйста, не преследуйте какие-либо поддомены науки о данных только потому, что другие занимаются этим. Не торопитесь. Постарайтесь понять, что вас интересует. Запутаться во время этого процесса - это нормально. Разблокируй себя. Не бойтесь неудач в своих экспериментах. Постарайтесь прояснить свое видение и сделать это, прежде всего, вам нужно много читать, а также начать реализацию ряда небольших приложений для каждого из отдельных доменов. Выполните это упражнение в течение недели или двух для каждого домена. Проверьте, какой вид работы вам нравится больше всего, и таким образом вы сможете определить области, которые вас интересуют. Начните приобретать специфические навыки в предметной области после того, как определитесь со сферой интересов. Изучите концепции, практически реализуя их. Не пытайтесь делать все одновременно или приобретать все навыки одновременно. Дайте себе время, чтобы научиться.

Всегда помните, что ваши навыки, связанные с наукой о данных, ваши проекты и ваш вклад навсегда останутся с вами, поэтому сосредоточьтесь на них, а не на каких-либо других вещах. Помните: «Приобретайте навыки таким образом, чтобы вы могли быть создателем технологии, а не ее пользователем».

  • Тем, кто пытается устроиться на работу в области науки о данных, я хотел бы сказать им, пожалуйста, сосредоточьтесь на проектах и ​​сфере деятельности компании, для которой вы будете наняты. Не зацикливайтесь на размере компании. В конечном итоге ваши проекты / портфолио будут говорить от вашего имени. Я хотел бы сказать вам, что, если у вас будет возможность, вы должны работать над большими проектами в небольшой или средней компании, соответствующей вашей области интересов, чтобы вы могли больше узнать о различных аспектах науки о данных, а не работать в большой компании над небольшим фрагментом. проекта.
  • Когда вы попытаетесь сменить работу, вас спросят, какую работу вы уже выполняли в своей нынешней или предыдущей компании? Ваши потенциальные работодатели не будут сильно интересоваться профилем вашей предыдущей компании или текущим профилем компании, но они заинтересованы в вашем профиле, в ваших навыках и хотят узнать больше о вас и ваших проектах. Убедитесь, что у вас есть отличное портфолио работ, чтобы вы могли произвести на них впечатление.

Совет, который вам следует игнорировать:

  • Я бы проигнорировал тех, кто говорит, что какая-то сертификация в области науки о данных действительно обязательна для подтверждения ваших навыков. У меня другое мнение. Если вы приобретете навыки без сертификации и докажете свои навыки, выполнив несколько крутых проектов в области науки о данных, то в сертификации нет необходимости. Вы также можете обогатить свои навыки, участвуя в различных хакатонах.

ВКонтакте: Какие, по вашему мнению, плохие рекомендации в области науки о данных?

JT: По мне, плохих рекомендаций нет. Это очень субъективный вопрос, и он варьируется от человека к человеку. Вам необходимо решить, какая рекомендация подойдет вам лучше всего.

Хотя в первые дни моей карьеры я получил совет из какого-то источника, что вам нужно знать все передовые концепции лингвистики, если вы хотите узнать о НЛП, но на самом деле мне просто нужно знать основные концепции лингвистики, которые могут помочь меня в моем проекте. Мне не нравится, когда люди одинаково относятся к роли лингвистов и инженеров НЛП. На самом деле они оба служат разной цели и обладают разным набором навыков. Мне также не нравится, когда люди одинаково относятся к науке о данных и аналитике данных. Основываясь на этой интерпретации, они советуют людям, тогда как на самом деле это разные термины. Они включают различный набор поддоменов / полей.

ВКонтакте: Как вы определяете, что отказываетесь от экспериментов / проектов?

JT: Я всегда выбираю проект, который может быть полезен для компании, а также требует меньше времени на разработку. Я сохраняю в своем списке желаний проекты, для которых требуется больше данных и много времени.

ВКонтакте: Вы когда-нибудь были ошеломлены объемом данных, размером эксперимента или проблемой с данными? Если да, что вы делаете, чтобы очистить свой разум?

JT: Обычно я бываю ошеломлен, когда имею дело с любым новым набором данных. Чтобы очистить свой разум, я обычно начинаю делать следующие вещи.

  • В качестве первого шага я стараюсь хорошо понять постановку задачи.
  • Проверьте, какой тип набора данных у меня есть. Будь то набор структурированных данных или неструктурированный набор данных.
  • Если набор данных является структурированным, я беру по одной таблице за раз и пытаюсь понять значение каждого столбца. Я также проверяю, насколько важен столбец данных для создания приложения для анализа данных.
  • Если набор данных неструктурированный, я беру небольшой фрагмент из набора данных. Проанализируйте это. Перечислите мои выводы. Теперь мне нужно повторить процесс пару раз. Каждый раз кусок данных должен быть получен случайным образом из основного источника набора данных, чтобы я мог обобщить свои выводы.
  • Если это возможно, попробуйте понять, как собирались данные.

ВКонтакте: Как вы относитесь к представлению своей гипотезы / результатов после того, как вы пришли к решению / открытию?

JT: Это сложная часть для меня. Особенно, когда человек, которому вам нужно объяснить свои результаты, не из технической области или области науки о данных. В этом случае я выполняю указанные шаги.

  • Перечислите важные моменты вашего результата (выводы, преимущества и недостатки). Я также стараюсь охватить все мелкие, но важные детали результата / результата для различных типов заинтересованных сторон.
  • Я всегда делаю вещи простыми (минимум технических слов, больше терминов непрофессионала), чтобы люди могли легко понять результат.
  • Я обычно составляю список потенциальных вопросов, которые можно задать мне, чтобы я мог ответить на них с правильным логическим объяснением.

ВКонтакте: Какова роль интуиции в вашей повседневной работе и в принятии важных решений на работе?

JT:. Интуиция помогает определить основные функции или выбрать гиперпараметры для проекта по науке о данных. Это также поможет вам создать базовую модель для проекта. Если у вас есть глубокие познания в предметной области, ваше интуитивное решение действительно помогает принимать важные решения.

ВКонтакте: По вашему мнению, какое организационное размещение является идеальным для группы данных?

JT: На мой взгляд, каждая компания и каждая команда имеют свой собственный выбор и иерархию, когда дело доходит до размещения команды по анализу данных.

  • Тип 1: Если специалисты по обработке данных, которые уделяют больше внимания разработке программного обеспечения в рамках проектов по науке о данных, они должны отчитаться перед инженерным отделом.
  • Тип 2: если специалисты по обработке данных, которые создают новые продукты, они должны отчитываться перед продуктовой командой или генеральным директором, потому что характеристики новых продуктов должны соответствовать общему видению компании.

ВК: Если бы вы могли переделать свою карьеру сегодня, что бы вы сделали?

Нет ничего особенного, что я хотел бы изменить в своем профессиональном путешествии, но мне очень хотелось бы, чтобы я начал размещать проекты ML на GitHub раньше, но лучше поздно, чем никогда.

ВКонтакте: Какие у вас фильтры для уменьшения систематической ошибки в эксперименте?

JT: я обычно использую методы перекрестной проверки для решения проблем, связанных с предвзятостью.

  • Если у вас есть достаточное количество выборок данных и вы хотите использовать все образцы данных, присутствующие в наборе данных, используйте перекрестную проверку в K-кратном размере.
  • Случайная подвыборка более предпочтительна, когда набор данных, который вы рассматриваете, либо недостаточно, либо избыточен. Кроме того, если вы не хотите использовать все выборки данных в K-1 раза, случайная подвыборка - лучший вариант.

ВКонтакте: Когда вы нанимаете специалистов по данным, инженеров по данным или инженеров машинного обучения, какие три основных технических / нетехнических навыка вы ищете?

JT:. Если я найму специалиста по анализу данных, который будет создавать продукты для анализа данных, следующие ключевые навыки будут следующими.

  • Хорошее знание ML / DL
  • Хорошие навыки программирования
  • Отличный ученик
  • Хорошие коммуникативные навыки

ВКонтакте: За какими интернет-блогами / людьми вы следите, чтобы получить советы / узнать больше о DS?

JT: Субреддит машинного обучения - это один из ресурсов, из которого я получаю представление о том, что в настоящее время происходит в индустрии AI / ML.



Вот некоторые из блогов и каналов YouTube, за которыми я слежу:

Twitter и LinkedIn работают на вас, если вы знаете, на кого вам нужно подписаться. Мне нравится следить за ведущими исследователями из академических кругов и отраслевыми экспертами в Twitter и LinkedIn, чтобы узнать лучшее из обоих миров. Мой дескриптор в твиттере - @ jalajthanaki.

Если вам нравятся эти замечательные интервью, пожалуйста, проверьте: Раздел« Карьера , чтобы увидеть больше таких интервью.

Подробная информация о раздаче электронных книг:

Джаладж любезно согласилась провести эксклюзивную раздачу для читателей Acing AI электронных книг. (Каждая книга на Amazon стоит более 25 долларов). Чтобы принять участие в розыгрыше:

  1. Подпишитесь на Джаладж Танаки, Вимарш Карбхари и подпишитесь на новости Acing AI на Medium и на нашу рассылку Acing AI ниже.
  2. Добавьте комментарий к этой статье, указав, какая пара вопросов и ответов из интервью находит у вас наибольший отклик.


Победители будут выбраны из группы подходящих людей путем случайной жеребьевки, проведенной мной и Джаладжем. Я объявлю победителей по электронной почте в ближайшие две недели.

Сведения о книге:

Обработка естественного языка Python от Джаладж Танаки



Эта книга начинается с того, что закладывает основы обработки естественного языка. Вы изучите самые основы подготовки среды к обработке естественного языка, перейдете к начальной настройке, а затем быстро поймете предложения и языковые части. Вы узнаете о возможностях машинного обучения и глубокого обучения для извлечения информации из текстовых данных. К концу книги вы получите четкое представление об обработке естественного языка и поработаете над множеством примеров, реализующих НЛП в реальном мире.

Решения для машинного обучения от Джаладж Танаки



Машинное обучение (ML) помогает находить скрытые идеи из ваших данных без необходимости явного программирования. Эта книга - ваш ключ к решению любой проблемы машинного обучения, с которой вы можете столкнуться на работе. Вы столкнетесь с набором простых и сложных проблем при построении моделей машинного обучения, и вы не только решите эти проблемы, но также узнаете, как создавать проекты на основе каждой проблемы с практическим подходом и простотой в использовании. следовать примерам.

Спасибо, Джаладж, за то, что поделился с нами своими знаниями!

Подпишитесь на нашу рассылку Acing AI, я обещаю не спамить и БЕСПЛАТНО!



Спасибо за внимание! 😊 Если вам понравилось, проверьте, сколько раз вы можете нажать 👏 за 5 секунд. Это отличное кардио для ваших пальцев, И оно поможет другим людям увидеть историю.